各大AI开放平台

2024-04-08 21:34:28

百度：最全

文字，语音，视频都做。

百度的视频理解主要是内容的理解，将内容来源归纳为4个维度，语音，文字，人脸（公众人物的人脸识别）和场景（类别泛标签提取）
视频融合了多模态元素，包括（语音，文字（弹幕），图像）
对于动作等不太涉及

ocr:通用文字识别，增值税发票，身份证
人脸：检测，识别，查找
视频理解：视频内容分析，封面选取

腾讯：OCR

face++:人脸，ocr

阿里云：NLP，asr

还有IOT的解决方案

商汤：主要人脸，也在做slam等，没有开放，有示意。

在图像增强里最重要的前三是

图像去雾
超分辨率
修复（快速去噪）