深度思维团队的突破:使用相关性挖掘从AI中得出想法

这项研究由整体AI和伦敦大学学院联合完成,于2025年8月出版,标题为“ Corrsteer:地址:通过选择基于相关性的稀缺自我chire功能来提高任务LLMS任务的绩效和安全性”。研究团队由Seonglae​​ Cho,Zekun Wu和Adriano Koshiyama领导,有兴趣学习完整文档的读者可以通过ARXIV访问全部角色:2508.12535。人工智能就像人才一样,但有时可能会“避开”。您可以为复杂的问题写漂亮的回答文章,但有时他们甚至可以给出有偏见的答案或产生有害内容。研究人员一直在寻找允许AI发展的方法,同时保持其原始能力,并指导学生的老师也是如此。传统方法就像更改学生的LTEXT IBRO一样。它需要很多昂贵且不稳定的不满。概念本研究中提出的方法就像发现一组“内力的心理方法”。请注意,“神经元电路”在思考过程中更为活跃,从而加强了这些有用的目标,这会导致AI提高性能。这种方法的智能是,它不需要大量的比较数据或需要存储大量的激活信息。研究人员发现,他们仅在生成答案时观察AI的“大脑活动”模式,找到正确答案的最相关的神经元特性,并且调整的神经元特性可以精确优化AI的性能以调整仪器。 1。发现AI正在思考的“数字足迹密码”。为了了解这项研究的中央创新,我们可以想象一个伟大的语言模型是具有数十亿个神经元的复杂大脑。当这个“大脑”思考问题时,不同的神经元会在不同的强度激活,一个夜间在城市不同地区的光线也有所不同。稀缺的自doder(SAE)的作用就像是一种高度精确的“ eeg” eeg’设备,可以在这个巨大的神经网络中识别任何神经电路。先前的研究。我们发现这些神经元特征的存在,但是如何选择性地使用这些特征来改善AI的AI绩效一直是一个挑战性的方法。传统的方法是一个挑战性的效果。千万的效果是为千分之一的审查准备了一个不错的答案,并且是“好的答案”。向系统传授正确的东西,这不仅需要出色的工作量,而且需要大量的神经元激活数据,这些数据需要非常高的计算机资源。回答问题“ AI。模式。他们开发了一种相关计算方法,可以确定哪些神经特征与任务的成功更加紧密相关。具体来说,这个过程就像在数学问题上正确回答学生的思维过程一样。当学生正确地回答问题时。当大脑的某些区域中,某些区域会及加范围。解决问题的“思维模式”使用了Pearson相关系数来量化此相关强度,就像精确的平衡一样,您可以测量神经特征激活的强度和任务越高的相关系数,这是一个较高的相关系数。任务是。为了解决大型语言模型,数十个研究团队或相关传输蓄能器设计的数十万个神经特征。该工具的智能是,它允许您在处理数据时实时计算相关性,并且内存的使用保持恒定并且由于数据量的增加而不会爆炸。这就像一位聪明的会计师,可以在他的帐户不断增长的同时维持他的旧书。甚至更重要的是,Corrsteer在产生答案时,而不是通过理解问题时仅关注AI的神经元活动。这种设计理念是基于深刻的思想。当您“聆听”问题确实影响您的生产质量的不是时,而是“说话”这是AI的思想模式。这就像判断演讲者的表现,必须专注于表达他的意见。它不是您倾听问题的反应,但您对时代的想法。发现如何识别关键神经元特征后的两种不同的“调整”策略,研究人员的下一个挑战是如何更有效地使用这些特征来改善AI性能。他们设计了三种不同的策略,例如音乐制作中的三种不同调整方法。第一个策略称为Corrsteer-1,使用“排除”方法。在分析了AI神经层的所有特性之后,此方法选择了全球范围内最相关的特征以进行增强。像乐团一样,找到对一般声音效果贡献最大并专门调整其音量的仪器。该方法简单简单,但是重要的特征在其他层面可能会丢失。我们选择了每个神经元层中最相关的特征,而不是全球竞争,以确保每个层都有机会合并ntribute是自己的“声音”。此方法识别大型语言模型的层次属性。从对词汇的基本理解到复杂的逻辑推理,几层层次是在不同级别的抽象级别处理信息。通过为每一层选择最佳功能,此方法使您可以在多个抽象级别上同时优化AI性能。第三个远程策略Corrsteer-P是最谨慎的“质量控制”方法。首先,在Corrsteer-A方法中选择每一层的功能,然后使用“质量检查”的验证数据集来消除任何相关的内容,但实际上被排除在外。关于可能产生负面影响的特征。此额外的检测步骤就像与Cadher的最终检查一样,确保他们选择的所有特征都可以改善一般性能。这种进步的考试尤其重要,因为高相关性并不总是意味着受益它是。某些神经元特征可能与任务的成功高度相关,但是加强它们可能会产生意外的副作用。 Corrsteer-P确实证明了每个特征的有效性使您可以识别并排除这些“有吸引力的”特征。在确定了改进的情况之后,系统必须确定改善的程度。 Corrsteer采用了一种直观的方法。计算出适当任务的样品相应神经元特征的平均激活强度,并将此强度用作调制因素。好像调谐器不会自由地调整音量,而是用最佳的声音效果咨询录音,以确定理想的音量水平。计算该系数的方法的优点是它考虑了稀缺的自我督察的特殊特性。 SAE使用ACTU激活函数,因此所有输出均不负。这意味着传统比较ETHOD(减去样品的不良样品)不是很合适,因为负激活往往只是噪声。通过仅关注正采样激活模式,Corrsteer可以获得更可靠的调节信号。 3.实践验证:安全测试的综合数学设计了一个具有广泛覆盖范围的测试系统,以验证电路方法的有效性。他们选择了两种代表性的语言模型,Gemma 2 2B并致电3.1 8b,因为选择了两个具有不同个性的学生来测试教学方法的普遍性。测试内容涵盖了AI应用程序的所有重要方面。从知识和回应的角度来看,研究小组使用了两个“ MMLU和MMLU-PRO。这包括从高中到大学的各个领域的知识。MMLU就像一项涵盖57个主题领域的全面标准化检查,而MMLU-PRO则是一个改进的困难版本,这使问题更具争议,这使问题更具争议性,这使问题更具争议。裁定和挑战。从数学推理的角度来看,SETGSM8K数据为小学数学应用程序问题提供了试验环境。这些问题不仅在测试AI的计算机功能,而且更重要的是测试逐渐分解的推理和功能。结果表明,Corrsteer在此任务中的表现相对有限。这反映出,这种方法比动态推理过程更适合优化静态任务。最引人注目的是安全测试。研究人员使用Harmbench证明了AI拒绝响应有害应用的能力,但使用XSTest来防止AI过多拒绝正常应用。这就像尝试保安人员来识别坏人,但这不会意外地阻止门外的好人。实验结果表明,Corrsteer在Harmbench中实现了22.9%的显着改善,这证明了这种甲基苯丙胺的强大作用OD可以提高AI的安全性。从缓解的角度来看,烧烤数据集在可能导致偏见时保持正义,就可以证明AI的面部。该测试专门设计了两种情况:分散且清晰,以证明IA是否基于刻板印象做出决定。 Corrsteer在此测试中也很好地工作,可显着提高AI响应的平等。实际上,我们使用问题和答案来证明AI使用简单数据集回答事实的精度。但是,正如研究人员所预测的那样,Corrsteer在这方面的改善相对有限。该结果确实是积极的,因为它表明它主要是优化AI的行为模式,而不是注入新的知识信息。为了彻底评估该方法的有效性,研究人员还引入了关键的评估指标,次级效应比(SER)。该度量指标是,当AI响应发生变化时,变化百分比的数量为负e。就像评估一种药物一样,不仅取决于治疗的有效性,还可以监视副作用。实验结果表明,Corrsteer中副作用的关系显着低于传统的精细调整方法。在MMLU任务中,用于Corrsteer-A仅为0.202,但用于罚款方法与0.407相同。这意味着尽管Corrsteer提高了性能,但对AI的原始特征的负面影响较小。这是实际应用的重要优势。 4。详细的分析:AI大脑中的“ Star神经元”分析了Corrsteer选择的神经元特性,而Team Dand Research揭示了大规模语言模型的内部工作机制的一个有趣秘诀。这些发现就像神经科学家通过大脑图像在大脑的不同区域中发现的特殊功能一样令人兴奋。在数学和结构化输出任务中,选定的功能离子主要集中在涉及格式化的生产和选择的多个问题结构的神经元电路上。这些特征就像“专用格式检查员”,负责确保IA的答案符合预期结构。例如,当涉及到多个ABCD选择问题时,这些特征可确保AI发出标准选项字符,而不是另一个随机文本。研究人员特别有趣地发现,即使在缓解和偏见的安全任务中,几乎所有任务中,数学上相关的神经元特征几乎在几乎所有任务中都是相关的。这一发现反映了诸如DeepSeekmath之类的研究的结论。数学思维的能力似乎是一种通用的认知能力,可以在各种任务中提高AI的表现。这就像发现一个人具有良好的数学技能,并且在人们经常需要逻辑的其他领域效果很好想法。在安全任务中,选定的功能主要集中在两个方面:识别和拒绝有害请求的能力,以及表达个人身份和道德地位的能力。这些特征就像AI的“道德指南针”和“认知身份系统”。 Harmbench任务选择特征包括许多与拒绝,拒绝和道德判断相关的神经回路,这些神经回路有助于AI更好地识别SunsInsinsinsporpriprapripripry sunsinsinsinsporriprips。在缓解偏见的任务中的一个令人惊讶的发现是,这些特征与选择和决策明显相关,而是显示了负相关。这意味着,如果AI过于专注于“做出决策”,则可能会产生偏见的判断。相反,这些与中性表示和平衡意见相关的特征表现出强烈的积极相关性。 この発见は、バイアスを减らすための键は它提醒我们,这并不是要做出更好的判断,而是但要保持平衡和中立。研究人员还发现,功能激活的频率与改进任务的影响之间存在有趣的关系。在诸如Harmbench之类的安全任务中,所选特征在样本的几乎100%中都处于活动状态,与散射的自我条件的特征相反,通常,这通常具有较小的函数激活功能。这种高频激活表明,这些功能对于任务的成功非常重要,这解释了为什么Corrsteer可以显着改善这些任务。另一个重要发现是特征的可转移性。研究表明,MMLU任务的特性还为其他类似的多个选择任务(例如烧烤和MMLU-PRO)显示出良好的结果。这种过渡能力表明,特定的神经元特征不仅捕获特定内容的加工能力,还可以捕获常见的结构正确任务的关系。 5。创新:打破传统方法的瓶颈。 Corrsteer Law的创新反映在三个主要方面,每个方面都解决了现有方法的重要局限性。首先,数据的效率有所进步。 Bootstrap SAE的传统方法需要大量的比较数据集,以及成千上万的“好与坏”示例才能正确地教系统。这不仅具有出色的工作量,而且还限制了该方法的范围。 Corrsteer只需要4,000个样本即可获得重要的结果。对于自动学习标准,此样本量非常小。更重要的是,这些样本不需要成熟或特殊注释,他们只知道任务有多好。第二个创新是记忆效率。传统方法需要存储大量神经激活数据。这需要高度的计算机资源。 Corrsteer使用流相关计算识别O(1)的内存的复杂性s。这意味着无论数据量如何,内存的使用保持恒定。就像DiseDñar的垃圾一样,从未填充,无论处理多少数据,都没有内存溢出。 3第二创新是推理的简单性。一旦调整了属性并确定了相应的系数,整个调整过程就会变得非常简单,并且不需要复杂的SAE计算。这意味着,在实践中实施时,系统的计算机超载非常小,并且不会显着影响推理速度。这就像在几个简单的旋钮设置中简化了一个复杂的调整过程。从分组策略的角度来看,研究人员通过详细的消融实验发现了有趣的模式。对于单词生成任务,最大的分组策略效果最好,因为它捕获了生成过程中的关键时刻。但是,对于需要多个的任务推论阶段(例如数学问题的解决),平均分组更好,因为它考虑了整个推理过程的平均状态。研究人员还发现,仅使用正常阶段,相关函数优于同时使用正相关和负相关函数。这一发现挑战了一些直觉,因为我们可以认为抑制“不良”功能并改善“良好”功能更有效。但是,实验结果表明,专注于改善积极特征是一个更可靠的策略。这是因为负相关特性往往包含更多的噪声。另一个重要的技术细节是应用该功能的时间。 Corrsteer没有调整每个单词,而是选择在生成过程中在特定位置应用调整。这种精确的同步控制避免了信封调节的负面影响,因此D对药物的剂量具有精确的控制。 6.未来改进的局限性和地址取得了令人惊讶的结果,但是研究小组诚实地表明了这种方法的局限性,并提出了未来改进的地址。最明显的限制是该方法的静态性质。 Corrsteer更适合优化固定的模式任务,但对需要动态推断的复杂任务的影响有限(例如,解决多个步骤的数学问题)。调整钢琴将使每个音符更加精确,但不会改变玩家的即兴技巧。 GSM8K数学推理任务的相对较弱的性能证实了这一点。解决这个问题的问题,研究小组建议将来可以制定动态监管策略,并根据推理的不同阶段应用不同的监管模式。过程。这将需要选择更复杂的特征和应用机制,但有望在保持简单性的同时扩大该方法的范围。另一个限制是,该方法主要适用于区分任务,开放生成任务的有效性仍然需要额外验证。这是因为开放任务缺乏明确的标准标准,因此很难计算相关性。未来的改进可能需要组合人类偏好数据或其他质量指标。研究人员还指出,尽管当前的方法可以有效地减少副作用,但仍有更大的优化空间。他们提出了“正交特征的预测”的概念。也就是说,在进行调整之前,官僚机构具有正交性具有参考特征,从而进一步降低了相互干扰。在评估方法时,次级效应比(为)提供有用的信息,但可能无法捕获任何类型的副作用。未来的研究可能需要开发更完整的评估框架,例如评估创造力,一致性和其他重要竞争。从计算机效率的角度来看,Corrsteer已经比传统方法更有效,但是在高度规模模型方面仍然面临挑战。研究人员正在研究更有效的特征选择算法和近似计算方法,以适应较大的语言模型。 7.应用程序和影响Corrsteer方法的提议的实际观点为实际实施语言模型开辟了新的可能性,以进行Gran量表。最大的优势是,它可以以相对较小的成本进行精确调整模型的行为。这对于商业应用非常重要。从内容安全的角度来看,这种方法有助于平台在不训练整个模型的情况下,快速调整AI系统的安全性能。就像将其更准确地安装在您的汽车中一样,方向盘不必重建整个车辆,您可以根据道路条件随时调整驾驶地址。这种灵活性对于需要解决各种文化背景和法律要求的全球应用程序尤其重要。在教育应用中,Corrsteer可以自定义AI辅导系统,以帮助您调整不同年龄段的AI的响应方式和内容深度,并且学习需求需求ASAJE研究表明,与数学相关的特征的多功能性允许这种调节能够同时提高多个学科的性能,并提供新的想法,以开发出更有效的教育AI。在客户服务和咨询服务方面,此方法可帮助AI系统了解和对用户的需求更好地响应,同时保持足够的p专业主义和同理心。通过选择和改善相关的神经元特征,可以在保持精度时更具人性化。但是,这项强大的法规也带来了新的责任。研究人员在本文档中特别强调,Corrsteer可用于减少或扩大偏见。这提醒我们技术本身是中性的,关键是如何以负责任的方式使用它。从更广泛的角度来看,Corrsteer代表了AI对准研究中的目标发展。它提供了一种相对简单有效的方式来调节AI的行为并非常适合人类的价值观和社会期望。这种方法的成功刺激了更相似的研究,并将整个领域带入更安全,可控制的系统。研究团队启动了相关的代码和演示系统,该系统使有兴趣的开发人员可以通过https://huggingface.co/体验偏见缓解特征的实际影响。空间/seonglae​​/corrsteer。这种开放的态度有助于促进技术的更大发展和责任的应用。毕竟,Corrsteer Law的最重要贡献不仅是技术进步,而且还可以提供一种新的观点来了解和控制AI的行为。观察和分析来自AI的INT工作机制将使我们能够找到更精确,有效的调整方法。它已经进行了测试。这将是符合人类需求的最聪明,更安全,最未来的发展的重要基础。在几个领域中大规模语言模型的广义使用使如何确保这些系统的安全性和可靠性变得越来越重要。 Corrsteer提供的这种“确切调整”功能可能会成为未来AI系统实施的标准组成部分,因为当今的汽车配备了安全气囊和反锁制动系统。这不仅反映了技术进步,而且是LSO是AI技术成熟的重要迹象。 P AQ1:什么是Corrsteer方法?与AI法规的传统方法有何不同?答:Corrsteer是由整体AI和伦敦大学开发的新的监管技术。通过产生答案来分析IA的神经活化模式,可以改善其共同汇总,并在发现和任务中找到成功的最相关特征。与许多比较数据和培训所需的传统方法不同,Corrsteer只需要4,000个样本即可显着提高AI性能,而不会显着影响原始功能。 P2:此方法有哪些方面更好?有限制吗?答:Corrsteer是安全和偏见缓解的理想选择,在MMLU的问题和答案的Harmbench安全测试中提高了22.9%,并提高了4.1%。但是,此方法主要适用于静态任务,对复杂的影响有限需要动态推断的数学问题。此外,它更适合具有对与错的明确标准的任务,并且需要详细介绍开放和创造性任务的有效性。 P3:他们如何使用普通百姓和公司的逃避技术?应用程序的实际值是什么?答:研究团队已经启动了演示系统,使开发人员可以通过https://huggingface.co/spaces/seonglae​​/corrster体验相关特征。对于公司而言,该技术可用于启用IA客户。快速协调服务系统的安全性和专业精神,开发更好的教育性人工智能,符合不同的文化背景,成本相对较低,并且不需要整个模型的不满。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。这个平台只专业VIDE信息存储服务
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注