研究表明,大规模人工智能模型在多轮交互中表现不佳,导致性能下降高达 39%。

IT之家 3 月 1 日报道,据 THE DECODER 报道,当一项任务需要交互的多次迭代才能完成时,下一代大规模语言模型(GPT-5 及更高版本)仍然表现不佳。研究人员 Philippe Laban 和他的团队在六个主要任务上测试了现有模型:代码、数据库、操作指令、数据到文本的转换、数学计算和文本摘要。当信息被分成多个消息(分块)而不是集中在单个消息(拼接)时,模型性能会显着下降。 IT House 发现更新后的模型表现稍好一些,性能下降从 39% 减少到 33%,但问题还远没有解决。这种改进在 Python 任务上最为明显,某些模型的性能仅下降了 10% 到 20%。 Laban 认为,由于测试仅使用了简单的用户模拟,因此在现实场景中性能下降可能会更加严重。性能如果用户在对话过程中改变主意,性能下降可能会更大。初步调查发现,降低温度等技术调整并不能解决问题。研究人员建议:一旦发生异常,要重新开始新的对话,模型最好首先总结所有请求,然后使用这个总结作为新对话的起点。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在吃瓜热门分类目录,贴了标签。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注