各大AI开放平台

百度:最全

文字,语音,视频都做。

  • 百度的视频理解主要是内容的理解,将内容来源归纳为4个维度,语音,文字,人脸(公众人物的人脸识别)和场景(类别泛标签提取)
  • 视频融合了多模态元素,包括(语音,文字(弹幕),图像)
  • 对于动作等不太涉及

ocr:通用文字识别,增值税发票,身份证
人脸:检测,识别,查找
视频理解:视频内容分析,封面选取

腾讯:OCR

face++:人脸,ocr

阿里云:NLP,asr

还有IOT的解决方案

商汤:主要人脸,也在做slam等,没有开放,有示意。

在图像增强里最重要的前三是

  • 图像去雾
  • 超分辨率
  • 修复(快速去噪)
上一篇:使用python调用百度ocr的API


下一篇:OCR经典pipeline的发展