免费！GPT-4o发布，实时语音视频丝滑交互-三、GPT-4o模型评估

2024-06-08 07:50:44

相比于以往ChatGPT新版本发布后给出的研究论文和技术报告，本次OpenAI并未放出任何研究报告，而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。

文本评估

GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时，在传统的5次训练（5-shot）无COT的MMLU测试中，GPT-4o也以87.2%的准确率创下了新记录。

音频翻译性能

在音频翻译性能上，GPT-4o 在语音翻译方面创下了新的领先地位，并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。

视觉理解评估

在视觉理解上，也实现对Gemini 1.0 Ultra与对家Claude Opus的超越

码农公寓

相关文章