- 随着大模型的发展,提示词工程的通用技巧之后的模型绝大多数情况下都好于改善了之前,但也有更差的情况,个人认为随着大模型的发展,提示词工程的作用在不断的降低。如果把上述四种提示词基础功能分别对应四种任务的话我粗略的给每个模型排个名仅供参考。
模型名称 | 明确指令任务 | 中实体识别任务 | 精确内容任务 | 附加条件任务 | 综合排名(求和) |
---|---|---|---|---|---|
文心一言4.0 | 4 | 3 | 3 | 2 | 4 |
通义千问 | 1 | 1 | 3 | 2 | 3 |
GPT4 | 1 | 3 | 1 | 1 | 1 |
Claude3 | 1 | 2 | 1 | 2 | 1 |
- GPT在中文实体识别任务中不如通义千问和Claude3其他任务中全处在最优水平,而且在理解复杂逻辑方面遥遥领先
- Claude各方面能力相当均衡没有明显的短板
- 国产模型在整体能力上距离世界领先水平还有一段空间,加油我们自己大模型一定会越来越好。