研究表明，大规模人工智能模型在多轮交互中表现不佳，导致性能下降高达 39%。

IT之家 3 月 1 日报道，据 THE DECODER 报道，当一项任务需要交互的多次迭代才能完成时，下一代大规模语言模型（GPT-5 及更高版本）仍然表现不佳。研究人员 Philippe Laban 和他的团队在六个主要任务上测试了现有模型：代码、数据库、操作指令、数据到文本的转换、数学计算和文本摘要。当信息被分成多个消息（分块）而不是集中在单个消息（拼接）时，模型性能会显着下降。 IT House 发现更新后的模型表现稍好一些，性能下降从 39% 减少到 33%，但问题还远没有解决。这种改进在 Python 任务上最为明显，某些模型的性能仅下降了 10% 到 20%。 Laban 认为，由于测试仅使用了简单的用户模拟，因此在现实场景中性能下降可能会更加严重。性能如果用户在对话过程中改变主意，性能下降可能会更大。初步调查发现，降低温度等技术调整并不能解决问题。研究人员建议：一旦发生异常，要重新开始新的对话，模型最好首先总结所有请求，然后使用这个总结作为新对话的起点。
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在吃瓜热门分类目录，贴了[db:tag]标签。将固定链接加入收藏夹。

研究表明，大规模人工智能模型在多轮交互中表现不佳，导致性能下降高达 39%。

发表回复取消回复

近期文章

近期评论

归档

分类

研究表明，大规模人工智能模型在多轮交互中表现不佳，导致性能下降高达 39%。

发表回复 取消回复

近期文章

近期评论

发表回复取消回复