支持高性能结构化数据提取的 Embedding 模型——NuExtract-v1.5-多语言性能

2024-11-08 09:24:56

现在让我们来看看多语言基准的性能（每种语言包含 250 个文档，由英语基准的一部分翻译而来）：

我们看到，NuExtract 1.5 比原始 NuExtract 要好得多，但在这种情况下，GPT-4o 仍然更好。我们认为，模型的大小对多语言性相当重要（我们无法将微小的 NuExtract 训练成多语言模型的事实证实了这一点）。我们可能会用更大的 NuExtract 来填补这一空白。