现在让我们来看看多语言基准的性能(每种语言包含 250 个文档,由英语基准的一部分翻译而来):
我们看到,NuExtract 1.5 比原始 NuExtract 要好得多,但在这种情况下,GPT-4o 仍然更好。 我们认为,模型的大小对多语言性相当重要(我们无法将微小的 NuExtract 训练成多语言模型的事实证实了这一点)。 我们可能会用更大的 NuExtract 来填补这一空白。
2024-11-08 09:24:56
现在让我们来看看多语言基准的性能(每种语言包含 250 个文档,由英语基准的一部分翻译而来):
我们看到,NuExtract 1.5 比原始 NuExtract 要好得多,但在这种情况下,GPT-4o 仍然更好。 我们认为,模型的大小对多语言性相当重要(我们无法将微小的 NuExtract 训练成多语言模型的事实证实了这一点)。 我们可能会用更大的 NuExtract 来填补这一空白。