免费!GPT-4o发布,实时语音视频丝滑交互-三、GPT-4o模型评估

相比于以往ChatGPT新版本发布后给出的研究论文和技术报告,本次OpenAI并未放出任何研究报告,而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

  • 文本评估

GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时,在传统的5次训练(5-shot)无COT的MMLU测试中,GPT-4o也以87.2%的准确率创下了新记录。

  • 音频翻译性能

在音频翻译性能上,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。

  • 视觉理解评估

在视觉理解上,也实现对Gemini 1.0 Ultra与对家Claude Opus的超越