【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化◈◈◈✿ღ,就能显著提升大模型在推理任务上的表现◈◈◈✿ღ,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)凯发k8娱乐app下载◈◈◈✿ღ。EM通过优化模型的预测分布◈◈◈✿ღ,增强其对正确答案的置信度◈◈◈✿ღ,为大模型后训练提供了一种更高效简洁的新思路◈◈◈✿ღ。
在具备强大的通用性能之后◈◈◈✿ღ,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」◈◈◈✿ღ,比如数学问题◈◈◈✿ღ、分析物理现象或是构建编程逻辑◈◈◈✿ღ。
虽然基于RL的微调可以显著提升模型性能◈◈◈✿ღ,但其十分依赖大规模年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ、高质量的标注数据◈◈◈✿ღ,其训练效果也取决于开发人员设计的复杂奖励函数◈◈◈✿ღ,需要专家知识来最大化优势信号并防止模型「奖励作弊」◈◈◈✿ღ。
此外◈◈◈✿ღ,许多常用的RL算法(如PPO)需要额外的奖励模型◈◈◈✿ღ,不仅增加了算法复杂性◈◈◈✿ღ,多训练步骤和漫长的采样过程也会大幅提升计算开销◈◈◈✿ღ。
最近◈◈◈✿ღ,Ubiquant研究团队提出一项LLM后训练的突破性研究◈◈◈✿ღ,用13,440组大模型训练实验对比证明了一件事◈◈◈✿ღ:
使用使用无监督方法「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM)◈◈◈✿ღ,仅需一条未标注样本和约10步优化◈◈◈✿ღ,即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果◈◈◈✿ღ。
EM的核心理念是无需任何标注数据或外部监督来训练模型◈◈◈✿ღ,仅依赖模型自身预测分布的熵(entropy)进行优化◈◈◈✿ღ。
其有效性基于一个关键假设和一个简单直觉◈◈◈✿ღ:如果一个模型本身足够有能力◈◈◈✿ღ,那么当它对其预测结果更「自信」时◈◈◈✿ღ,也更有可能是正确的◈◈◈✿ღ。
具体来说年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ,EM训练模型将其概率质量更多地集中在其最自信的输出上◈◈◈✿ღ,即正确答案通常比错误答案具有更低的熵值◈◈◈✿ღ。
通过优化目标来降低模型生成序列的熵◈◈◈✿ღ,EM可以促使模型变得更加「自信」◈◈◈✿ღ,从而强化其在预训练阶段已经获得的能力◈◈◈✿ღ。
研究人员在论文中深入分析了one-shot EM的有效性◈◈◈✿ღ,发现其与强化学习具有相似的核心特性◈◈◈✿ღ,但从logits偏移角度来看◈◈◈✿ღ,其对模型行为的引导方向相反◈◈◈✿ღ。
广泛实验表明◈◈◈✿ღ,「温度」是影响EM训练和推理表现的关键因素◈◈◈✿ღ,且在推理阶段与强化学习呈现相反趋势◈◈◈✿ღ。
给定一个输入提示x(例如一个问题或问题描述)◈◈◈✿ღ,模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2,…,yT)◈◈◈✿ღ,其中T是生成序列的长度◈◈◈✿ღ。核心思想是通过在每一步生成时最小化标记级别的熵◈◈◈✿ღ,来减少模型对其自身预测的不确定性凯发k8娱乐app下载◈◈◈✿ღ。
由于其完全依赖于模型本身而非外部信号◈◈◈✿ღ,和预训练目标完全兼容◈◈◈✿ღ,在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏◈◈◈✿ღ。
研究人员采用了一种基于「模型表现方差」的样本筛选方法◈◈◈✿ღ,来选择更具有信息量的输入提示◈◈◈✿ღ:通过计算模型多次生成结果的准确性方差◈◈◈✿ღ,挑选模型表现不稳定的样本进行训练◈◈◈✿ღ。
这种方差量化了模型对给定输入的预测不一致性◈◈◈✿ღ:低方差意味着要么对正确性有高度信心(接近完美的成功)◈◈◈✿ღ,要么对失败有高度信心(完全错误)◈◈◈✿ღ。
相反◈◈◈✿ღ,表现方差大的样本更能有效驱动模型降低熵值◈◈◈✿ღ、明确决策边界◈◈◈✿ღ,这也是为何只用一条高质量样本◈◈◈✿ღ,就能快速推动模型的推理性能◈◈◈✿ღ。
研究人员在多个数学推理任务上测试了熵最小化(EM)的效果◈◈◈✿ღ,结果显示◈◈◈✿ღ,仅一条样本◈◈◈✿ღ、10步训练◈◈◈✿ღ,EM方法即大幅提高了Qwen2.5-Math-7B的性能◈◈◈✿ღ:
即使只使用一个样本和极少的训练步骤(仅仅10步)◈◈◈✿ღ,EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距◈◈◈✿ღ。
特别是在AMC23基准测试中◈◈◈✿ღ,经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分◈◈◈✿ღ,逼近领先的RL模型这些结果清晰地表明◈◈◈✿ღ,熵最小化(EM)◈◈◈✿ღ,尽管比典型的强化学习方法更简单◈◈◈✿ღ、数据效率更高◈◈◈✿ღ,但在增强基础语言模型在数学推理任务上的性能方面◈◈◈✿ღ,具有巨大的潜力◈◈◈✿ღ。
大型语言模型在生成每个token时◈◈◈✿ღ,会先产生一组未经归一化的分数Logits◈◈◈✿ღ,随后通过Softmax函数转换为概率分布◈◈◈✿ღ,决定了下一个token的选择◈◈◈✿ღ。
通过对模型Logits分布的深入分析发现◈◈◈✿ღ,熵最小化(EM)和强化学习(RL)对模型内部置信度的影响方向截然相反◈◈◈✿ღ。
研究表明◈◈◈✿ღ,经过EM训练的模型年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ,其Logits分布会显著地向右偏移◈◈◈✿ღ,意味着模型在生成过程中◈◈◈✿ღ,会反复强化自身的预测置信度◈◈◈✿ღ。
模型将更多的概率质量集中在少数它认为「确定」的token上◈◈◈✿ღ,使得原本高概率的区域进一步向高分区间扩展◈◈◈✿ღ。
在生成和采样时◈◈◈✿ღ,这种向右的Logits偏移是有益的◈◈◈✿ღ,增加了高概率的候选token数量◈◈◈✿ღ,扩展了模型能够遵循的「高概率路径」◈◈◈✿ღ,从而潜在地增强了模型的整体生成能力◈◈◈✿ღ。
可以用贪婪解码(即总是选择概率最高的token)来解释——EM训练将概率质量高度集中在少数确定性token上◈◈◈✿ღ,贪婪解码在这种分布下变得非常有效◈◈◈✿ღ。
RL通过外部奖励函数来调整模型的行为◈◈◈✿ღ,会惩罚那些模型预测概率很高但与地面真实不符的token
通过对这些高概率但不正确的token进行降权(reranking)◈◈◈✿ღ,RL降低了其排序位置◈◈◈✿ღ,从而导致整体Logits分布向左偏移◈◈◈✿ღ。
RL训练后◈◈◈✿ღ,即使经过reranking◈◈◈✿ღ,这些原本低概率的token往往只占据概率分布中的中间位置◈◈◈✿ღ,需要更高的采样温度才能被选中◈◈◈✿ღ。
虽然RL的目标是提升模型性能◈◈◈✿ღ,但其导致的Logits左移被认为对大型语言模型的生成过程有害◈◈◈✿ღ,减少了采样时的高概率路径数量◈◈◈✿ღ,可能会削弱模型的整体性能◈◈◈✿ღ。
EM训练显著提高了Logits分布的偏度◈◈◈✿ღ,呈现右偏◈◈◈✿ღ;而RL训练则显著降低了偏度◈◈◈✿ღ,甚至导致左偏◈◈◈✿ღ。
即使在EM后再进行RL训练年轻的母亲中字巴巴鱼汤饭凯发k8娱乐app下载◈◈◈✿ღ,Logits分布的偏度也会从EM后的高值有所下降◈◈◈✿ღ,遵循RL的趋势◈◈◈✿ღ,其差异和塑造了EM和RL完全不同的推理采样策略◈◈◈✿ღ。
EM 更像是一个分布塑造工具(distribution shaping tool)◈◈◈✿ღ,通过强化模型自身的内在一致性来提升置信度◈◈◈✿ღ,从而重塑了现有知识的分布◈◈◈✿ღ。
训练初期◈◈◈✿ღ,EM训练损失迅速下降年轻的母亲中字巴巴鱼汤饭凯发k8娱乐app下载◈◈◈✿ღ,模型的数学推理性能也随之提升然而◈◈◈✿ღ,大约在训练进行到10步左右时◈◈◈✿ღ,模型的性能达到了顶峰◈◈◈✿ღ。
这种「过度自信」现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度◈◈◈✿ღ。
持续的EM训练可能会过度强化模型已有的先验偏差◈◈◈✿ღ,导致输出结果过度集中于狭窄◈◈◈✿ღ、过度自信的 token 分布◈◈◈✿ღ,从而加剧算法偏差并导致输出显著偏离正确路径◈◈◈✿ღ,最终损害了模型的实际推理性能◈◈◈✿ღ。
平均性能的最大值最初增加◈◈◈✿ღ,随后在温度约为0.5时开始下降◈◈◈✿ღ。较高的温度带来更好的平均推理能力凯发k8娱乐app下载◈◈◈✿ღ,而适中的温度(如0.5)则导致更大的性能波动◈◈◈✿ღ,从而为更高的峰值性能创造了机会◈◈◈✿ღ。
EM训练同时展现出显著的随机性◈◈◈✿ღ,即便设置完全相同◈◈◈✿ღ,四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍◈◈◈✿ღ。
研究人员在多个不同的基础模型上评估了one-shot EM的效果年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ,结果表明◈◈◈✿ღ,仅通过单个样本和极少的训练步数◈◈◈✿ღ,EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ。
然而◈◈◈✿ღ,当应用于已经过大量RL广泛微调的模型(如 SimpleRL-Zoo)时◈◈◈✿ღ,One-shot EM反而可能导致性能下降◈◈◈✿ღ,与在RL之后应用EM可能锁定狭窄◈◈◈✿ღ、过度自信的输出模式并损害性能的发现一致◈◈◈✿ღ。
EM的核心优势在于其极高的效率和对数据的极低需求◈◈◈✿ღ,研究发现◈◈◈✿ღ,One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力◈◈◈✿ღ。
尽管Multi-shot使用了更多的样本凯发k8娱乐app下载◈◈◈✿ღ,但One-shot EM通过单个样本实现了更稳定和细致的优化◈◈◈✿ღ,有效减少了样本偏差并缩小了输出方差◈◈◈✿ღ,进一步强化了EM在数据极度稀缺场景下的吸引力◈◈◈✿ღ。
熵最小化(EM)可以作为现有后训练范式的有力补充甚至起点◈◈◈✿ღ,将EM应用在RL之前能够带来有效增益◈◈◈✿ღ,使其成为RL的有效「启用基础」◈◈◈✿ღ。
EM通过其独特的Logits右偏移效应提升模型的自信度◈◈◈✿ღ,增强模型的推理能力◈◈◈✿ღ,并可能促进后续RL训练的更快收敛和更稳定优化◈◈◈✿ღ。
One-shot EM的成功◈◈◈✿ღ,不仅在于其惊人的数据和计算效率◈◈◈✿ღ,还在于它为LLM后训练提供了一种完全无监督的◈◈◈✿ღ、可落地的替代方案◈◈◈✿ღ,不需要人工标注数据◈◈◈✿ღ,不需要构建复杂的奖励模型年轻的母亲中字巴巴鱼汤饭◈◈◈✿ღ,极大地降低了后训练的门槛和成本◈◈◈✿ღ。
未来的工作需要探索早停标准或自适应调度机制◈◈◈✿ღ,以及减少训练的随机性◈◈◈✿ღ,以进一步稳定和提升EM的效果◈◈◈✿ღ。
EM在数学推理任务上表现出色◈◈◈✿ღ,但能否泛化到对话◈◈◈✿ღ、摘要◈◈◈✿ღ、代码生成等其他领域◈◈◈✿ღ,还需要进一步的实验验证◈◈◈✿ღ。
同时◈◈◈✿ღ,当前EM在Token级别操作◈◈◈✿ღ,未来的研究可以探索在序列或语义单元上应用结构化熵◈◈◈✿ღ,或引入任务特定先验知识和自适应熵正则化◈◈◈✿ღ,以释放更多潜力◈◈◈✿ღ。
研究发现◈◈◈✿ღ,在RL之前应用EM可以带来有益的对数分布偏移◈◈◈✿ღ,未来的工作可以系统地研究不同的EM与RL结合的时间表◈◈◈✿ღ、课程策略及其相互作用◈◈◈✿ღ,探索构建更强大混合方法的可能性◈◈◈✿ღ。
研究结果暗示凯发k8娱乐app下载◈◈◈✿ღ,EM通过强化高概率推理路径来增强模型的置信度◈◈◈✿ღ,表明EM可能是一种轻量级的信心校准方法◈◈◈✿ღ。未来的研究需要开发更精确的评估协议来量化EM的校准效应◈◈◈✿ღ,深入理解其背后的机制◈◈◈✿ღ。
太古遗种长鸣◈◈◈✿ღ,杀气冲天◈◈◈✿ღ,浑身光芒爆发◈◈◈✿ღ,直接就俯冲了下来◈◈◈✿ღ,要将他们一口吞掉◈◈◈✿ღ,不久前它还曾吞食过数百万人◈◈◈✿ღ,那种煞气至今未散◈◈◈✿ღ,甚是恐怖◈◈◈✿ღ。
在他的身后◈◈◈✿ღ,是一群皇族强者◈◈◈✿ღ,一个个威势慑人◈◈◈✿ღ,眸子开阖间犹若电芒◈◈◈✿ღ,在后面则是各大诸侯◈◈◈✿ღ,无尽臣子◈◈◈✿ღ。
05月31日,中国代谢解析计划ChinaMAP相关生物样本库向世界开放,“嗷◈◈◈✿ღ,好多巨兽啊◈◈◈✿ღ,我们也去◈◈◈✿ღ,肯定会收集到诸多真血◈◈◈✿ღ!”一群孩子嗷嗷直叫◈◈◈✿ღ。,JDB东方神兽爆分视频,线上电玩城下载,ku体育官网◈◈◈✿ღ。
05月31日,台湾花莲县近海7分钟内发生两起5.9级地震,平等为主题的演讲稿(精选4篇),博天堂官网APP,开元app官网版最新版本,AG线日,习近平向纳米比亚当选总统恩代特瓦致贺电,与此同时◈◈◈✿ღ,振翅的声音响起◈◈◈✿ღ,七八头凶禽从四方俯冲而下◈◈◈✿ღ,一起抓向青鳞鹰◈◈◈✿ღ,因为它们觉得受到的威胁最大◈◈◈✿ღ,想联手除掉这个空中霸主◈◈◈✿ღ。
05月31日,2024年成都世界园艺博览会闭幕 接待中外游客超千万人次,这皮孩子◈◈◈✿ღ,老者愤愤◈◈◈✿ღ。早先小不点还向他求教呢◈◈◈✿ღ,但他懒得多语◈◈◈✿ღ。结果现在反回来了◈◈◈✿ღ,主动向这憨孩子解释什么是精璧◈◈◈✿ღ,他居然爱答不理了◈◈◈✿ღ。,银河游戏娱乐平台,全球赌场排名榜二十名,168竞彩官网◈◈◈✿ღ。05月31日,IMF预测◈◈◈✿ღ:2025年日本GDP或将被印度赶超 跌至世界第五 ,
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证凯发K8官网凯发网站·(中国)集团◈◈◈✿ღ!凯发k8天生赢家◈◈◈✿ღ,国际运输◈◈◈✿ღ,k8凯发国际官网◈◈◈✿ღ,AG凯发k8真人娱乐◈◈◈✿ღ,凯发K8国际首页◈◈◈✿ღ,K8凯发VIP入口
我们的优势
Our-Advantages
时效保证
即装即走,专车直发,高时效保障!
价格透明
成熟的线路优化方案,车型、公里数透明计价
高效运输
运前咨询,运途监控,运后回访,随叫随到
安全可靠
一站式运输,专业车辆,专人跟踪
凯发k8国际首页登录物流专线利用互联网、计算机技术实现化、网络化管理,拥有完善的物流体系及的客户服务。我们针对每个凯发k8国际首页登录物流客户不同的托运需求提供不同的个性化服务,我们深知客户服务和物流品质的重要性,卓越的货运操作经验、管理技能与公司实力!
提供凯发k8国际首页登录物流到全国物流运输服务,一手车源,整车资源充足,随叫随到,计价透明,支持货到付款。在凯发k8国际首页登录物流当地有着好口碑的凯发k8国际首页登录物流货运公司,找凯发k8国际首页登录物流运输选择我们,就是选择专业,我们保障:从收到您货物始,直到收货人收到货物为止,在货物搬运、装卸、中转、运输过程中的安全质量和数量,为每一件产品都起到保值的作用。即保护产品的存在价值,使您的产品在到达消费者时使用价值不变,您的产品不会"淋雨受潮、水浸、破损、丢失等”。找凯发k8国际首页登录物流货运公司、凯发k8国际首页登录物流托运公司、凯发k8国际首页登录物流运输公司和凯发k8国际首页登录物流专线,就选凯发k8国际首页登录凯发k8国际首页登录物流公司!
选择我们,就是选择专业
凯发k8国际首页登录物流公司运输路线
TRANSPORTATION ROUTE
类型 | 到达 |
---|---|
凯发k8国际首页登录物流 | 湖北省 凯发k8国际首页登录物流、十堰物流、荆州物流、宜昌物流、襄樊物流、荆门物流、武汉物流、黄冈物流、咸宁物流、随州物流、仙桃物流、天门物流、潜江物流、恩施物流、神农架物流 |
凯发k8国际首页登录物流 | 河南省 郑州物流、开封物流、洛阳物流、平顶山物流、安阳物流、鹤壁物流、新乡物流、焦作物流、濮阳物流、许昌物流、漯河物流、三门峡物流、南阳物流、商丘物流、信阳物流、周口物流、驻马店物流 |
凯发k8国际首页登录物流 | 湖南省 长沙物流、株洲物流、湘潭物流、衡阳物流、邵阳物流、岳阳物流、常德物流、张家界物流、 益阳物流、郴州物流、 永州物流、 怀化市物流、娄底市物流 |
凯发k8国际首页登录物流 | 安徽省 合肥物流、淮北物流、亳州物流、宿州物流、蚌埠物流、阜阳物流、淮南物流、滁州物流、六安物流、马鞍山物流、芜湖物流、宣城物流、铜陵物流、池州物流、安庆物流、黄山物流 |
凯发k8国际首页登录物流 | 江西省 南昌物流、九江物流、上饶物流、抚州物流、宜春物流、吉安物流、赣州物流、景德镇物流、萍乡物流、新余物流、鹰潭物流 |
凯发k8国际首页登录物流 | 四川省 成都物流、重庆物流、自贡物流、攀枝花物流、泸州物流、德阳物流、绵阳物流、广元物流、遂宁物流、内江物流、乐山物流、南充物流、眉山物流、宜宾物流、广安物流、达州物流、雅安物流、巴中物流、资阳物流 |
凯发k8国际首页登录物流 | 陕西省 西安物流、延安物流、宝鸡物流、商州物流、咸阳物流、铜川物流、汉中物流、安康物流、汉城物流 |
凯发k8国际首页登录物流 | 山西省 太原物流、大同物流、阳泉物流、长治物流、晋城物流、朔州物流、晋中物流、运城物流、忻州物流、临汾物流、吕梁物流、古交物流、高平物流、永济物流 |
凯发k8国际首页登录物流 | 山东省 济南物流、青岛物流、淄博物流、枣庄物流、东营物流、烟台物流、潍坊物流、济宁物流、泰安物流、威海物流、日照物流、临沂物流、德州物流、聊城物流、滨州物流、菏泽物流 |
凯发k8国际首页登录物流 | 河北省 石家庄物流、唐山物流、邯郸物流、保定物流、沧州物流、邢台物流、廊坊物流、承德物流、张家口物流、衡水物流、秦皇岛物流 |
凯发k8国际首页登录物流 | 直辖市 北京市物流、天津市物流、上海市物流、重庆市物流 |
凯发k8国际首页登录物流 | 江苏省 南京物流、无锡物流、徐州物流、常州物流、苏州物流、南通物流、连云港物流、淮安物流、盐城物流、扬州物流、镇江物流、泰州物流、宿迁物流 |
凯发k8国际首页登录物流 | 浙江省 杭州物流、湖州物流、嘉兴物流、金华物流、丽水物流、宁波物流、衢州物流、绍兴物流、台州物流、温州物流、舟山物流 |
凯发k8国际首页登录物流 | 福建省 福州物流、厦门物流、漳州物流、泉州物流、三明物流、莆田物流、南平物流、龙岩物流、宁德物流 |
凯发k8国际首页登录物流 | 广东省 广州物流、东莞物流、深圳物流、汕头物流、韶关物流、惠州物流、中山物流、珠海物流、佛山物流、顺德物流 |
凯发k8国际首页登录物流 | 广西省 南宁物流、钦州物流、玉林物流、梧州物流、柳州物流、桂林物流、北海物流、宣州物流、来宾物流、百色物流 |
凯发k8国际首页登录物流 | 贵州省 贵阳物流、六盘水物流、遵义物流、赤水市物流、安顺物流、铜仁物流、凯里物流 |
凯发k8国际首页登录物流 | 云南省 昆明物流、曲靖物流、玉溪物流、昭通物流、丽江物流、临沧物流、红河物流、西双版纳物流、大理物流 |
凯发k8国际首页登录物流 | 内蒙古 兰州物流、金昌物流、白银物流、武威物流、天水物流、嘉峪关物流、酒泉物流、玉门物流、陇南物流 |
凯发k8国际首页登录物流 | 吉林省 长春物流、吉林物流、四平物流、延庆物流、通辽物流、松原物流、白城物流、长岭物流、延边物流 |
凯发k8国际首页登录物流 | 辽宁省 沈阳物流、大连物流、鞍山物流、抚顺物流、丹东物流、辽阳物流、葫芦岛物流、锦州物流、本溪物流、营口物流 |
凯发k8国际首页登录物流 | 黑龙江省 哈尔滨物流、佳木斯物流、鸡西物流、牡丹江物流、齐齐哈尔物流、大庆物流、黑河物流 |
凯发k8国际首页登录物流运输(含整车运输、零担运输、集装箱、多式联运) 提供大型整车运输和零担咨询、技术服务及作业指导 特色整车物流和零担物流专线,机械设备超高/宽/长/重,危险品等全国联运。