顶部

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术

更新时间：2025-09-12 10:38:13　浏览次数： 258

这项由阿姆斯特丹大学语言技术实验室的BaohaoLiao、ChristofMonz教授与SalesforceAIResearch的YuhuiXu、HanzeDong、JunnanLi等研究人员联合完成的研究，于2025年6月26日发表在第42届国际机器学习会议（ICML）上。感兴趣的读者可以通过GitHub代码仓库（https://github.com/BaohaoLiao/RSD）获取完整的技术实现。

当我们使用ChatGPT或其他AI聊天工具时，有没有发现一个现象：有时AI回答得又快又准，有时却要思考很久才给出答案？特别是遇到复杂的数学题或推理问题时，AI似乎需要更多时间来"思考"。这背后其实涉及一个重要问题：如何让AI在保证回答质量的同时，尽可能快速地给出回应？

这个问题就像我们在旅游时选择导游一样。普通导游便宜且走得快，但对复杂景点的讲解可能不够深入；资深导游知识渊博，讲解详细，但收费高昂且行程较慢。如果我们能找到一种方法，让普通导游负责简单路段，遇到复杂景点时再请资深导游出马，既能保证游览质量，又能控制成本和时间，岂不是两全其美？

研究团队正是基于这样的想法，开发出了一种名为"奖励引导推测解码"（Reward-GuidedSpeculativeDecoding，简称RSD）的新技术。这项技术的核心思想是让一个"小而快"的AI模型作为"普通导游"，负责大部分基础工作，同时配备一个"大而强"的AI模型作为"资深导游"，专门处理困难问题。更巧妙的是，他们还引入了一个"质量评估员"，实时判断当前任务是否需要请"资深导游"出手。

传统的推测解码技术就像一个过度谨慎的旅行社，即使普通导游已经能胜任某个景点的讲解，也要让资深导游重新检查一遍，确保完全一致才放行。这种做法虽然保证了绝对的准确性，但也造成了大量不必要的等待时间。研究团队发现，如果普通导游的讲解质量已经足够好，完全没必要让资深导游重复劳动。

在数学推理这样的复杂任务中，这种改进尤其明显。考虑一道奥数题的解答过程：解题通常需要多个步骤，有些步骤相对简单（比如基础计算），有些步骤较为复杂（比如关键的逻辑推理）。传统方法要求每一步都必须经过大模型的严格验证，而RSD技术则更加灵活：对于那些普通导游就能处理好的简单步骤，直接采用；只有当遇到真正困难的步骤时，才启动资深导游的服务。

这种方法的效果相当惊人。在研究团队的测试中，RSD技术在保持准确率的同时，计算量最多可以减少到原来的四分之一。换句话说，原本需要4小时才能完成的AI推理任务，现在只需要1小时就能搞定，而答案质量丝毫不受影响。

更令人兴奋的是，这项技术不仅节约了计算资源，在某些情况下甚至能提升答案质量。这是因为"质量评估员"能够识别出普通导游表现特别出色的情况，这时即使与资深导游的建议略有不同，也会选择采用普通导游的方案。这就好比一个新手导游在某个景点的讲解特别生动有趣，虽然和标准讲解稿有些差异，但游客反馈很好，那就不必强行按照标准模板来修改。

一、神奇的"三人小组"：RSD技术的核心架构

RSD技术的工作原理可以用一个旅游场景来完美解释。每当AI需要回答一个问题时，就相当于要带领游客游览一个新景点。这时，三个角色开始发挥作用。

首先登场的是"普通导游"（草稿模型），他就像一个经验尚浅但行动迅速的年轻导游。接到任务后，他会快速给出自己的讲解方案。比如面对一道数学题，他可能会说："这道题应该先算这个，再算那个，最后得出答案是42。"

紧接着，"质量评估员"（过程奖励模型）就要出场了。他就像一个专业的服务质量监督员，会仔细评估普通导游的讲解是否达标。他会给每一步讲解打分，比如给第一步打0.8分（满分1分），给第二步打0.9分，给最后一步打0.6分。

这时候，"资深导游"（目标模型）在后台待命。只有当质量评估员发现某个步骤的评分过低（比如低于0.7分的门槛）时，他才会出手，重新处理这个步骤。

这种分工合作的方式妙就妙在它的灵活性。对于那些普通导游就能胜任的简单任务，整个流程可能只需要普通导游一个人就搞定了，速度快且成本低。而对于复杂任务，资深导游会在关键时刻提供支持，确保最终质量。

研究团队在设计这套系统时，还考虑到了一个重要的平衡问题：如何设定质量门槛？如果门槛设得太低（比如0.5分就通过），那么很多质量不佳的讲解会被错误采用；如果门槛设得太高（比如0.9分才通过），那么资深导游的工作负担会过重，失去了节约成本的初衷。

通过大量实验，研究团队发现0.7分是一个相当不错的平衡点。在这个门槛下，普通导游大约能独立处理48%的问题，而剩下52%的问题则需要资深导游的协助。这样既保证了效率，也维持了质量。

更有趣的是，研究团队还为不同难度的任务开发了自适应门槛机制。就像旅游景点有简单和复杂之分一样，AI面对的问题也有难易程度的差别。对于相对简单的问题，门槛可以设得稍低一些，让普通导游有更多发挥空间；对于困难问题，门槛则相应提高，确保资深导游能及时介入。

这种设计哲学体现了一个重要思想：不是所有问题都需要动用最强大的资源，关键是要在合适的时机使用合适的资源。这种思路不仅适用于AI技术，在很多生活场景中都有借鉴价值。

二、告别"完美主义"：为什么打破传统规则反而更好

在传统的推测解码技术中，有一个近乎苛刻的要求：草稿模型给出的答案必须与目标模型的答案完全一致，哪怕只有一丁点差异都不被允许。这就像一个过分严格的老师，学生的答案即使在逻辑和结果上都正确，但如果表达方式和标准答案略有不同，就一定要重新来过。

这种"完美主义"的做法在理论上确实能保证最终结果与使用大型模型完全相同，但在实际应用中却带来了很多问题。最明显的问题是效率低下：即使草稿模型已经给出了一个很好的答案，系统也要花费大量时间去验证这个答案是否与大模型的标准答案完全匹配。

更糟糕的是，这种方式有时会丢弃一些实际上更优秀的答案。想象这样一个场景：一位学生用创新的方法解决了数学问题，答案正确且思路清晰，但因为解题步骤与标准方法不同，就被要求重新按照标准流程来解。这不仅浪费时间，还可能扼杀创新思维。

RSD技术的革命性突破就在于它敢于打破这个传统规则。研究团队认识到，对于AI来说，最重要的不是答案的形式是否完全一致，而是答案的质量是否足够好。如果草稿模型给出的答案在逻辑上合理、在结果上正确，那么即使表达方式与大模型略有不同，也应该被接受。

为了实现这个目标，研究团队引入了"质量评分"的概念。这就像给每个答案都配备一个专业评委，不是简单地比较答案是否完全相同，而是评估答案的实际质量如何。评分标准包括逻辑的合理性、推理的正确性、表达的清晰度等多个维度。

这种评价方式的优势很快就显现出来了。在数学推理任务中，草稿模型有时会找到一些巧妙的解题思路，虽然与大模型的标准做法不同，但同样能得出正确答案。传统方法会无情地丢弃这些创新思路，而RSD技术则会识别并保留它们。

研究结果显示，这种"适度宽容"的策略不仅没有损害答案质量，在某些情况下甚至能得到更好的结果。原因在于，当草稿模型在某个特定问题上表现出色时，它的答案可能比大模型的标准答案更加直观易懂或者更有创意。

当然，这种灵活性也需要精确的控制机制。研究团队设计了一套复杂的权重调节系统，确保在放宽标准的同时不会让错误答案混水摸鱼。这个系统会根据答案的质量评分动态调整接受标准：质量评分越高，接受标准越宽松；质量评分较低时，则会更倾向于使用大模型的标准答案。

这种设计理念其实反映了一个更深层的哲学思考：完美并不总是必要的，有时候"足够好"就已经足够了。在AI应用中，过度追求完美一致性可能会以牺牲效率和创新为代价。RSD技术通过引入质量导向的灵活机制，找到了效率与质量之间的最佳平衡点。

三、数学证明：为什么这种"偷懒"方法在理论上行得通

任何优秀的技术创新都需要坚实的理论基础来支撑，RSD技术也不例外。研究团队不仅在实验中验证了这种方法的有效性，更重要的是，他们从数学上证明了为什么这种看似"偷懒"的方法实际上是最优的。

首先，研究团队需要解决一个根本性问题：如何确保在使用草稿模型和目标模型的混合策略时，最终结果的质量不会比单纯使用目标模型更差？这个问题的关键在于理解两个模型的性能特点。

通过理论分析，研究团队发现了一个重要规律：在大多数情况下，大型模型（目标模型）的平均表现确实优于小型模型（草稿模型）。这就像资深导游的整体水平通常高于普通导游一样。但是，这个规律并不意味着大型模型在每一个具体问题上都表现更好。

基于这个认识，研究团队构建了一个数学模型来描述混合策略的性能。他们将最终的答案质量定义为草稿模型贡献和目标模型贡献的加权和。权重的分配依据质量评分：评分越高的草稿答案获得越大的权重，评分较低的则更多地依赖目标模型。

关键的数学证明显示，只要满足两个条件，这种混合策略的平均性能就一定不会低于单纯使用草稿模型的性能。第一个条件是质量评分必须与真实质量正相关，也就是说评分系统不能"瞎打分"。第二个条件是目标模型的平均性能要优于草稿模型，这个条件在实际应用中很容易满足。

更进一步，研究团队还证明了在给定计算预算的约束下，最优策略应该是一个"门槛式"的决策规则。具体来说，就是设定一个质量门槛，高于门槛的草稿答案直接采用，低于门槛的则交给目标模型处理。这种"非黑即白"的决策方式虽然看起来简单粗暴，但在数学上确实是最优的。

这个理论结果非常有意思，因为它告诉我们：在资源有限的情况下，最好的策略不是平均分配计算资源，而是集中火力处理那些真正困难的问题。这种"重点突破"的思路在很多领域都有应用价值。

研究团队还通过数学分析发现了权重函数的最优形式。他们证明了，在不同的应用场景下，权重函数可以有不同的形状：有时候是阶跃函数（要么0要么1），有时候是平滑的S形曲线，有时候是线性函数。选择哪种形状主要取决于对错误的容忍度和计算资源的限制。

这些理论发现为RSD技术提供了坚实的科学基础，也为未来的改进指明了方向。更重要的是，这些数学原理不仅适用于当前的AI推理任务，对于其他需要在质量和效率之间做权衡的系统设计也有重要的指导意义。

四、实战检验：在奥数难题上大显身手

理论再完美，也需要实际应用来检验其真正的价值。研究团队选择了一系列极具挑战性的测试来验证RSD技术的实际效果，其中包括令人生畏的奥林匹克数学竞赛题目、研究生入学考试题目，以及各种复杂的推理任务。

在数学推理测试中，RSD技术面对的第一个挑战是MATH500数据集，这是一个包含500道高难度数学题的测试集合。这些题目的难度相当于高中数学竞赛水平，需要多步骤的复杂推理才能解决。研究团队使用不同规模的模型组合进行了测试：小模型作为草稿模型，大模型作为目标模型。

测试结果令人印象深刻。在使用1.5B参数的草稿模型和7B参数的目标模型的组合中，RSD技术的准确率达到了84.6%，不仅超过了单独使用7B目标模型的83.2%，更重要的是计算量大大减少。在某些配置下，RSD技术能够以仅为传统方法四分之一的计算量，达到相同甚至更好的解题效果。

更加令人兴奋的测试来自奥林匹克竞赛基准测试。这些题目代表了中学数学的最高难度，即使对人类数学天才来说也颇具挑战性。在这个测试中，RSD技术展现出了惊人的适应能力。当面对简单题目时，草稿模型往往能够独当一面，整个解题过程几乎不需要大模型参与；而当遇到真正困难的题目时，系统会智能地增加大模型的参与程度，确保解题质量。

研究团队还进行了一个特别有意思的分析：他们统计了在不同难度级别的问题中，草稿模型独立解决问题的比例。结果发现，对于难度等级1的简单问题，草稿模型能够独立处理84%的题目；对于难度等级5的最困难问题，这个比例下降到19%。这种自适应的计算资源分配恰恰体现了RSD技术的智能之处：简单问题用简单方法，复杂问题动用全力。

在GSM8K数据集（小学数学应用题）的测试中，RSD技术的表现更是出色。这个数据集包含了8000多道需要多步推理的数学应用题，是测试AI数学能力的标准基准。RSD技术不仅在准确率上表现优异，达到了95.5%的高分，在效率上的优势也十分明显。

研究团队还测试了RSD技术在其他类型推理任务上的表现，包括科学问题回答、逻辑推理等。在GPQA（研究生级别的科学问题）测试中，RSD技术的表现尤其令人印象深刻，准确率从传统方法的32.8%提升到38.4%，提升幅度超过17%。

为了更全面地评估RSD技术的实用价值，研究团队还进行了计算效率的详细分析。他们采用了业界标准的FLOPS（浮点运算次数）来衡量计算成本，发现RSD技术在不同的模型组合下都能显著降低计算成本。最引人注目的结果是，当使用7B草稿模型和72B目标模型的组合时，RSD技术能够以比单独使用72B模型少4.4倍的计算量，达到更高的准确率。

这些测试结果不仅验证了RSD技术的有效性，更重要的是展示了它的实用价值。在实际应用中，这种技术能够显著降低AI推理的成本，同时提高服务质量，为大规模AI应用的普及铺平了道路。

五、深度对比：RSD技术相比传统方法的优势

为了充分展示RSD技术的优势，研究团队进行了全面的对比实验，将其与多种现有技术进行了详细比较。这些对比不仅涉及性能指标，还包括适用场景、资源消耗等多个维度。

首先是与传统推测解码（SD）技术的对比。传统推测解码就像一个过分谨慎的质检员，草稿模型的每一个输出都必须经过目标模型的严格检验，只有完全匹配才会被接受。这种方法虽然能保证结果的一致性，但效率较低。更致命的是，当草稿模型在某些任务上的表现实际上优于目标模型时，传统方法会强制采用目标模型的结果，导致整体性能下降。

实验结果清晰地显示了这一点。在某些数学数据集上，草稿模型的表现确实优于目标模型（这种情况在专业化模型中经常出现），传统推测解码的准确率反而比单独使用草稿模型更低，而RSD技术则能智能地保留草稿模型的优势。

与"多数投票"（MajorityVoting）方法的对比同样令人印象深刻。多数投票方法需要运行草稿模型多次（通常是16次或更多），然后选择出现频率最高的答案。这种方法虽然能在一定程度上提高准确率，但计算成本极高。研究团队发现，即使多数投票方法使用64次采样，其性能仍然不如RSD技术，而计算成本却高出数倍。

"最优选择"（Best-of-N）方法是另一个重要的对比对象。这种方法会生成N个候选答案，然后使用质量评估模型选择其中最好的一个。虽然这种方法在某些情况下能取得不错的结果，但同样面临计算成本过高的问题。更重要的是，Best-of-N方法只在最后阶段进行质量评估，而RSD技术在推理的每一步都进行质量监控，能够更精确地控制质量。

研究团队还与基于搜索的方法进行了对比，包括束搜索（BeamSearch）和过程最优选择等。这些方法试图通过搜索多个可能的推理路径来找到最佳答案。虽然搜索方法在某些情况下能取得好结果，但面临着组合爆炸的问题：随着推理步骤的增加，需要搜索的路径数量呈指数级增长，很快就会变得不可行。

RSD技术的优势在于它采用了一种更加智能的策略：不是盲目地搜索所有可能的路径，而是在每一步都做出明智的决策，决定是继续使用草稿模型还是切换到目标模型。这种"走一步看一步"的策略既保证了灵活性，又避免了搜索爆炸问题。

在计算效率方面的对比更是显著。研究团队绘制了一张效率-准确率对比图，清晰地展示了不同方法在这两个关键指标上的表现。图中显示，RSD技术位于左上角的最优区域：既有很高的准确率，又有很低的计算成本。相比之下，其他方法要么准确率不够高，要么计算成本过于昂贵，要么两者都有问题。

特别值得注意的是，RSD技术不仅在单项指标上表现出色，更重要的是它在不同类型的任务上都能保持稳定的优势。无论是简单的算术问题还是复杂的逻辑推理，无论是标准化的测试题还是开放性的问题，RSD技术都能展现出一致的优越性能。这种泛化能力对于实际应用来说是极其重要的。

六、技术细节揭秘：RSD系统是如何运转的

RSD技术看似简单的"导游协作"模式，背后却隐藏着精妙的技术设计。要真正理解这项技术的工作原理，我们需要深入了解其核心算法和实现细节。

整个RSD系统的运行可以分为几个关键步骤。当接收到一个新的问题时，系统首先启动草稿模型开始工作。这个过程就像让普通导游先给出一个初步的游览方案。草稿模型会分步骤地生成解答，每完成一个推理步骤，就会产生一个中间结果。

这时候，质量评估模型开始发挥作用。它会对每个中间步骤进行评分，评分范围通常是0到1之间，分数越高表示这一步的质量越好。评分的依据包括逻辑的合理性、推理的正确性、与问题的相关性等多个因素。这个过程就像专业评委对每个表演环节打分一样。

接下来是关键的决策环节。系统会将质量评分与预设的门槛值进行比较。如果评分高于门槛（比如0.7），系统就会接受这一步的结果，继续让草稿模型处理下一步。如果评分低于门槛，系统就会启动目标模型，重新处理这个步骤。

这种决策机制的巧妙之处在于它的动态性。不同的问题类型和难度级别可能需要不同的门槛设置。研究团队发现，通过调整门槛值，可以精确控制计算成本和答案质量之间的平衡。门槛设置得较低时，更多步骤会被草稿模型处理，速度更快但准确率可能稍低；门槛设置得较高时，目标模型参与更多，准确率提高但计算成本增加。

质量评估模型的训练是整个系统的关键技术难点。这个模型需要学会像人类专家一样，判断某个推理步骤的质量高低。研究团队使用了大量的高质量标注数据来训练这个模型，包括正确的推理步骤和错误的推理步骤，让模型学会区分好坏。

更有趣的是，研究团队还开发了多种不同的权重函数来控制草稿模型和目标模型的混合比例。最简单的是二进制函数：要么完全采用草稿模型的结果，要么完全采用目标模型的结果。更复杂的是连续函数，可以将两个模型的结果按照某种比例进行混合。

实验表明，虽然连续函数在理论上更加灵活，但在实际应用中，简单的二进制函数往往效果更好。这个发现符合奥卡姆剃刀原则：在效果相同的情况下，更简单的方案往往更优。

系统的另一个重要特性是其自适应能力。在处理不同难度的问题时，系统会自动调整资源分配策略。对于简单问题，草稿模型可能承担90%以上的工作；对于困难问题，目标模型的参与程度会显著增加。这种自适应机制不仅提高了效率，还确保了在面对意外困难时能够及时调动足够的资源。

为了验证系统的鲁棒性，研究团队还测试了在不同质量评估模型下的表现。他们发现，即使换用不同的评估模型，RSD技术都能保持稳定的优势，说明这种技术架构具有很好的通用性和可靠性。

七、实际应用前景：这项技术将如何改变我们的生活

RSD技术的意义远远超出了学术研究的范畴，它有望在多个实际应用领域产生深远影响。从日常使用的AI助手到企业级的智能系统，这项技术都能带来显著的改进。

在教育领域，RSD技术可以为个性化学习提供强有力的支持。想象一个AI家教系统，它能够根据学生的问题难度自动调整回答的详细程度。对于学生已经掌握的简单概念，系统会快速给出简洁的答案；对于学生感到困惑的复杂问题，系统会启动更强大的推理能力，提供详细的分步解释。这样不仅节约了计算资源，也为学生提供了更加个性化的学习体验。

在科研辅助方面，RSD技术同样前景广阔。科研工作者经常需要处理大量的文献分析、数据推理和假设验证任务。传统的AI工具要么响应速度慢，要么回答质量不够高。RSD技术可以智能地分配计算资源：对于常规的文献检索和基础分析任务，使用快速模型即可；对于复杂的理论推导和创新性分析，则动用更强大的推理能力。

在商业应用中，RSD技术的价值更是不容忽视。客服机器人是一个典型的应用场景。目前的客服机器人往往面临两难选择：使用简单模型响应速度快但回答质量有限，使用复杂模型回答质量好但响应延迟高。RSD技术可以完美解决这个问题：对于常见的标准问题，快速给出准确回答；对于复杂的个性化咨询，启动深度推理模式提供专业建议。

在医疗诊断辅助系统中，RSD技术也有重要应用潜力。医疗AI需要处理从简单症状查询到复杂病例分析的各种任务。对于常见症状的初步筛查，系统可以快速给出建议；对于疑难病症的诊断，系统会调用更强大的分析能力，综合多种信息给出专业判断。

法律咨询是另一个有前景的应用领域。法律AI助手需要处理从简单法条查询到复杂案例分析的各种任务。RSD技术可以让系统在回答简单法律问题时保持快速响应，在处理复杂法律推理时提供深度分析。

更宏观地看，RSD技术有望推动AI技术的普及和民主化。高质量的AI服务往往需要大量的计算资源，这使得许多中小企业和个人用户难以承受。RSD技术通过智能的资源分配，可以在保证服务质量的同时大幅降低成本，让更多用户能够享受到高质量的AI服务。

从环境保护的角度来看，RSD技术的意义也不容小觑。数据中心的能耗一直是一个重要的环境问题，而AI推理是能耗的重要来源。RSD技术通过提高计算效率，可以显著降低能耗，为构建绿色AI做出贡献。

当然，这项技术的广泛应用还面临一些挑战。如何为不同应用领域定制合适的质量评估标准，如何处理多模态信息（文本、图像、语音等）的混合推理，如何在保证隐私安全的前提下实现高效推理，这些都是需要进一步研究的问题。

八、技术局限性与未来改进方向

虽然RSD技术表现出色，但研究团队也诚实地讨论了当前技术的局限性，并指出了未来可能的改进方向。这种科学严谨的态度为技术的进一步发展奠定了基础。

首先，RSD技术的效果很大程度上依赖于质量评估模型的准确性。如果质量评估模型经常"误判"，给高质量的推理步骤打低分，或者给低质量的步骤打高分，整个系统的性能就会受到影响。目前的质量评估模型虽然已经相当准确，但在某些边缘情况下仍然可能出现判断错误。

研究团队正在探索多种改进质量评估的方法。一种思路是使用多个不同的评估模型进行"投票"，只有当多数模型都认为某个步骤质量较低时，才会启动目标模型。另一种思路是开发更加专业化的评估模型，针对不同类型的推理任务（数学、逻辑、语言理解等）使用不同的评估标准。

另一个重要局限是RSD技术目前主要针对步骤化的推理任务进行了优化，对于那些需要整体性思考的任务效果可能不够理想。比如创意写作、艺术创作等任务，很难将其分解为独立的步骤来分别评估。

针对这个问题，研究团队正在研究如何将RSD技术扩展到更广泛的任务类型。一个可能的方向是开发层次化的质量评估机制：既评估局部步骤的质量，也评估整体方案的连贯性和创新性。

在多模态处理方面，当前的RSD技术主要关注文本推理，对于涉及图像、音频等多种信息类型的任务还需要进一步研究。如何在多模态环境下有效地评估推理步骤的质量，如何协调不同模态信息的处理，这些都是有待解决的技术挑战。

从系统工程的角度来看，RSD技术的实际部署还面临一些技术挑战。如何在分布式环境中高效地运行多个模型，如何处理网络延迟对系统性能的影响，如何实现动态的负载均衡，这些都需要精心的系统设计。

研究团队还指出了一个有趣的现象：在某些情况下，草稿模型和目标模型可能会产生截然不同但都合理的答案。如何处理这种"见仁见智"的情况，如何在多个合理答案中做出选择，这需要更高层次的判断机制。

隐私保护是另一个重要考虑因素。在实际应用中，用户的查询内容可能涉及隐私信息。如何在保护用户隐私的前提下实现高效的质量评估，如何避免敏感信息在模型之间的泄露，这些都是需要认真对待的问题。

展望未来，研究团队提出了几个令人兴奋的研究方向。其中一个是"自我改进"机制：让系统能够从自己的推理经验中学习，不断改进质量评估的准确性。另一个是"协作推理"：让多个不同的AI系统协作解决复杂问题，每个系统负责自己最擅长的部分。

还有一个更加前沿的想法是开发"可解释的RSD"：不仅给出推理结果，还能清楚地解释为什么在某个步骤选择了特定的模型，为什么某个推理路径被认为是最优的。这种可解释性对于在关键应用领域（如医疗、金融）部署AI系统是至关重要的。

归根结底，RSD技术代表了AI发展的一个重要方向：从追求单纯的模型规模增长，转向追求智能的资源配置和高效的协作机制。这种思路不仅在技术上有重要意义，也为我们思考如何构建更加可持续、更加普惠的AI生态系统提供了有益启发。

Q&A

Q1：奖励引导推测解码（RSD）技术是什么？它能解决什么问题？

A：RSD技术是一种让AI更聪明地分配计算资源的方法，就像配备一个小导游和大导游的旅行团。小导游负责简单任务，大导游处理困难问题，还有一个质量评估员决定什么时候该换人。这样既保证了回答质量，又大大提高了处理速度，最多能减少75%的计算量。

Q2：RSD技术相比传统方法有什么优势？准确率如何？

A：传统方法像过分严格的老师，即使学生答案很好也要重新检查，浪费时间。RSD技术更灵活，会根据答案质量决定是否需要动用更强大的模型。在数学推理测试中，RSD技术不仅速度快4倍多，准确率还能提升3.5个百分点，在某些复杂问题上表现甚至超过了大模型单独工作。

Q3：这项技术什么时候能在日常AI应用中使用？有什么实际用途？

A：研究团队已经在GitHub上开源了代码，技术本身已经比较成熟。未来可能会应用在AI客服、教育辅助、医疗咨询等领域。比如AI家教能对简单问题快速回答，对难题提供详细解释；客服机器人能快速处理常见咨询，对复杂问题进行深度分析，既提高效率又保证服务质量。

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术24小时观看热线：122。阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术全市各区点热线号码。☎：122

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术24小时观看热线拥有专业的观看技师，快速的上门，为你的生活排忧解难。如您有以下需要我们来解决的问题请尽快与我们联系。我们能为您排除各种故障，特别是疑难杂症。

1.热情专业的团队

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术是您解决问题的最佳选择。我们拥有一支热情、专业的团队，竭诚为您提供优质的。无论您遇到哪些问题或疑虑，只需拨打122，我们的将会耐心倾听并提供您所需的帮助。您的满意是我们的追求。

2.红色字体，标志品质保障

当您拨打阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术的电话热线122时，您会惊喜地发现号码是以鲜艳的红色字体显示。这不仅是为了吸引您的注意，更是对我们产品卓越品质的保证。红色代表着力量和热情，我们希望通过热情的为您提供最可靠的解决方案，确保您的使用体验无忧无虑。

3.您的需求是我们最大的动力

我们深知客户的需求是我们成长的源泉，因此，您的需求总是我们最关心的问题。无论您遇到什么问题，无论大小，我们都将以最快的速度和最专业的态度进行处理。您只需拨打我们的电话热线，详细描述问题，我们将竭尽全力为您解决。您的满意度是我们工作的最终目标。

4.全方位的解决方案

一旦您拨通了阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术的电话热线122，我们将全面了解您的问题，并提供最合适的解决方案。无论是技术问题、、观看咨询还是其他相关问题，我们都将通过专业分析和经验丰富的团队来解决您的困扰。您的信赖是我们不懈努力的动力。

5.周到贴心的

我们追求卓越品质的同时，也注重周到贴心的。在您使用阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术的过程中，如果遇到了任何问题或需要观看，您只需拨打122，我们将及时安排人员为您提供全程跟踪。我们将无微不至地为您解决问题，确保您的家居生活舒适温暖。

结语

无论是产品质量还是，阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术都以高品质标准来追求客户的满意度。拨打我们的阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术电话热线122，您将得到热情专业的团队的全方位支持。我们将竭诚为您提供最可靠、高效和周到的解决方案，为您带来舒适的家居体验。

5、全部在线支付，方便快捷，保障权益。支持支付宝，微信付款

清远市（清城、清新）

宜昌市（宜都市、长阳土家族自治县、👆当阳市、😰五峰土家族自治县、西陵区、兴山县、夷陵区、远安县、点军区、枝江市、猇亭区、秭归县、伍家岗区、🚷市辖区）

淮安市（淮安、淮阴、🦢清江浦、😡洪泽）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、👲乌拉特后旗、乌拉特前旗、🥔️市辖区、🉑临河区、😄五原县）

焦作市（解放、中站、马村、山阳）

娄底市（娄星）

鞍山市：🐵铁东区、铁西区、🐸立山区、🦕千山区。

郴州市（北湖、苏仙）

牡丹江市：🍩东安区（部分区域未列出）、西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

唐山市（丰润区、✍丰南区、遵化市、🥑迁安市、⚜️️开平区、唐海县、🍘滦南县、🐉乐亭县、滦州市、玉田县、🍆迁西县、遵化市、唐山市路南区）

南通市（崇川区，港闸区，开发区，🌨海门区，💛海安市。）

厦门市（思明、海沧、🍾湖里、🍫集美、同安、翔安）

湘西土家族苗族自治州（凤凰县、🦂永顺县、🔯泸溪县、♑️保靖县、🅾️吉首市、花垣县、龙山县、古丈县）

白山市：浑江区、🙀江源区。

江门市（蓬江、江海、新会）

常熟市（方塔管理区、❎虹桥管理区、🐡琴湖管理区、🤜兴福管理区、谢桥管理区、🌝大义管理区、☯️莫城管理区。）宿迁(宿豫区、🚳宿城区、🈶湖滨新区、洋河新区。)

荆州市（沙市、🤟荆州）

三亚市（淮北、😮吉阳、天涯、崖州）

廊坊市（安次、广阳）

无锡市阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术电话-400各市区电话（梁溪、滨湖、惠山、新吴、锡山）

宜春市（袁州）

六安市（日照安、😨裕安、叶集）

锦州市（凌海市、🍦义县、🦅黑山县、♍️凌河区、〽️市辖区、古塔区、🐂北镇市、👉太和区）

银川市（永宁县、兴庆区、西夏区、金凤区、🐏贺兰县、灵武市、市辖区）

安康市（宁陕县、😏白河县、🍃汉阴县、岚皋县、🤲石泉县、🔆市辖区、紫阳县、👐汉滨区、🤫旬阳县、镇坪县、🥙平利县）

宜昌市（伍家岗区、西陵区、点军区、🌯猇亭区、🎱夷陵区、🌵远安县、👵兴山县、秭归县、🌐长阳土家族自治县、😒五峰土家族自治县、✊宜都市、当阳市、🤞枝江市、😙虎亭区）

白山市：浑江区、😧江源区。

赣州市（南康区、🏒章贡区、🅰️赣县区、🦕信丰县、大余县、上犹县、🍦崇义县、安远县、👺龙南县、🍼定南县、全南县、宁都县、☮️于都县、兴国县、☁️会昌县、寻乌县、石城县、长征镇、沙洲镇、黄冈镇）

绍兴市（越城、柯桥、上虞）

杭州市（临安、😭上城、下城、🤒江干、拱野、🤝西湖、滨江、余杭）

揭阳市（榕城、🦐揭东）

鹰潭市（余江县、市辖区、🍼贵溪市、🐉月湖区）

邯郸市（邯山、🐝丛台、🌝复兴、🌺峰峰矿、肥乡、永年）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、🛑乌拉特后旗、乌拉特前旗、🕓市辖区、🥙临河区、🍡五原县）

宜昌市（伍家岗区、西陵区、点军区、猇亭区、夷陵区、🤐远安县、兴山县、秭归县、👻长阳土家族自治县、🍹五峰土家族自治县、💣宜都市、😉当阳市、枝江市、虎亭区）

襄阳市（樊城区、襄州区、老河口市、🥪‍宜城市、南漳县、谷城县、保康县、👍‍枣阳市、定南县、🐄随州市、白浪镇、城关镇、🦒赵家镇、东津镇、堰头镇）

湖州市（南湖、秀洲）

马鞍山市（花山、雨山）

邢台市（柏乡县、临西县、任县、🕎‍新河县、👿宁晋县、南宫市、🍧内丘县、清河县、🍅‍巨鹿县、🐈临城县、🧒隆尧县、🍶南和县、威县、桥东区、邢台县、🆔市辖区、平乡县、桥西区、🙉广宗县、沙河市）

银川市（永宁县、🥛兴庆区、🥣西夏区、🤢金凤区、贺兰县、🤢灵武市、市辖区）

遵义市（汇川区、红花岗区、遵义县、🥦桐梓县、绥阳县、正安县、道真仡佬族苗族自治县、😄务川县、🤧凤冈县、🐡湄潭县、余庆县、习水县、😢‍赤水市、🈴仁怀市、土家族苗族自治县、🛡铜仁市、🕒松桃苗族自治县、万山区、黔西县）

襄阳市（襄城、☯️樊城、♎️‍襄州）

长春市（南关、宽城、♐️️朝阳、二道、🌪绿园、双阳）

桂林市（象山区、叠彩区、🍖‍七星区、🌼️临桂区、阳朔县、🌤灵川县、全州县、兴安县、灌阳县、荔浦市、🔯资源县、平乐县、恭城瑶族自治县、龙胜各族自治县、永福县）

重庆市（绵阳、♎️涪陵、渝中、🦐大渡口、👦️江北、😈沙坪坝、🥫️九龙坡、南岸、北培、万盛、双桥、渝北、巴南）

鞍山市（铁西区、海城市、台安县、岫岩满族自治县、立山区、🍤铁东区、🕐‍市辖区、⚡️千山区）

蚌埠市（五河县、😋️固镇县、🤭市辖区、淮上区、龙子湖区、蚌山区、怀远县、禹会区）

襄阳市（襄城、🐜樊城、襄州）

太原市（小店、🍥迎泽、杏花岭、尖草坪、😿万柏林、🌞️晋源）

南昌市（青山湖区、☣️️红谷滩新区、🥄东湖区、西湖区、🎋青山湖区、🏓‍南昌县、进贤县、🐽安义县、湾里区、🍗地藏寺镇、🕦瑶湖镇、铜鼓县、昌北区、🥟青云谱区、🏒‍望城坡镇）

宁波市（海曙、🛐️江东、🔯江北、🐖北仑、🈴镇海）

甘肃省兰州市（城关区、🕎七里河区、西固区、🦝安宁区、红古区、永登县、皋兰县、榆中县、兰州新区、皋兰县、⭕️雁滩区）

抚顺市：☀️顺城区、新抚区、😸东洲区、望花区。

衡阳市（珠晖、雁峰、🌶石鼓、🆚蒸湘、南岳）

咸宁市（通山县、☸️咸安区、崇阳县、通城县、🥥市辖区、赤壁市、嘉鱼县）

新竹县（新丰乡、💝峨眉乡、湖口乡、🕸关西镇、新埔镇、🤗横山乡、尖石乡、北埔乡、竹东镇、👵宝山乡、芎林乡、✋五峰乡、🍪竹北市）

太仓市(城厢镇、金浪镇、🕦沙溪镇、璜泾镇、浏河镇、浏家港镇；)

南通市（崇州、港闸、通州）

宜昌市（西陵、伍家岗、🦙‍点军、猇亭、🦝️夷陵）

铁岭市：😫银州区、😭清河区。

贵州省安顺市（西秀区、✍️平坝区、普定县、镇宁布依族苗族自治县、☦️关岭布依族苗族自治县、🌑紫云苗族布依族自治县、♍️安顺市、开阳县）

抚顺市：顺城区、新抚区、😰东洲区、🥬望花区。

济南市（历下、市中、槐荫、天桥、✋历城、长清）

珠海市（香洲区、斗门区、😂金湾区、👎横琴新区、万山区、🐣珠海高新区、🕝唐家湾镇、🐖三灶镇、白石镇、💪前山镇、🍛南屏镇、🏑珠海港镇、金鼎镇）

铁岭市：😮银州区、清河区。

南昌市（东湖区、🦓西湖区、👍青山湖区、红谷滩新区、南昌县、新建区、🐓安义县、进贤县、🉑️湾里区、🦐昌北区）

南投县（信义乡、📳竹山镇、🥛中寮乡、🐷水里乡、🔯‍草屯镇、🍟仁爱乡、名间乡、🍭埔里镇、🕉鹿谷乡、国姓乡、鱼池乡、🕢集集镇、南投市）

榆林市（榆阳区,横山区）朝阳市（双塔区、龙城区）

上饶市（信州、广丰、广信）

益阳市（南县、资阳区、🌲‍桃江县、🌮市辖区、🤲‍沅江市、赫山区、安化县）

南昌市（东湖区、西湖区、🍁青山湖区、红谷滩新区、南昌县、🕓安义县、进贤县、经开区、青山湖区、湾里区、☀️赣江新区、青云谱区、🚫浔阳区）

临沂市（兰山区、🐕️罗庄区、🐺️河东区、沂南县、郯城县、🌦苍山县、🍤‍费县、💙蒙阴县、临沭县、🌞兰陵县、莒南县、平邑县、沂水县、❇️临沂高新技术产业开发区）

本溪市：平山区、明山区、🥤溪湖区、南芬区。

乐山市（市中、🚳沙湾、五通桥、日照口河）

鹤壁市（淇县、🚳鹤山区、📳浚县、山城区、市辖区、淇滨区）

白山市（靖宇县、🍲浑江区、江源区、长白朝鲜族自治县、抚松县、🥖临江市、🤓市辖区）

贵州省安顺市（西秀区、平坝区、普定县、镇宁布依族苗族自治县、👇关岭布依族苗族自治县、😢紫云苗族布依族自治县、安顺市、❕开阳县）

九江市（莲溪、🕷浔阳）

牡丹江市：东安区（部分区域未列出）、🥨西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

东莞市（莞城、⛸南城、🍙万江、东城,石碣、💜石龙、☦️‍茶山、🧒石排、🐜企石、横沥、桥头、谢岗、🙌东坑、🌮常平、🆘寮步、🍄大朗、黄江、清溪、塘厦、凤岗、😼长安、🙉惠东、⚰️厚街、☺️沙田、道窖、洪梅、👴麻涌、🐗中堂、✋高步、⛈樟木头、🏑大岭山、🐕望牛墩）

通辽市（科尔沁区、😈扎鲁特旗、😄开鲁县、霍林郭勒市、市辖区、♊️科尔沁左翼中旗、🤘库伦旗、科尔沁左翼后旗、🦅奈曼旗）

桂林市（秀峰区、🍻️象山区、七星区、雁山区、☮️临桂区、🤡阳朔县、资源县、平乐县、灌阳县、😼荔浦市、灵川县、全州县、🧀永福县、🕒龙胜各族自治县、✋恭城瑶族自治县）：🕢

嘉兴市（海宁市、🗡市辖区、😾秀洲区、👻平湖市、🐑桐乡市、南湖区、👇嘉善县、海盐县）

常熟市（方塔管理区、😈虹桥管理区、琴湖管理区、👩兴福管理区、谢桥管理区、大义管理区、莫城管理区。）宿迁(宿豫区、♻️宿城区、🍈湖滨新区、洋河新区。)

台州市（椒江、🤟黄岩、🅾️️路桥）

泰州市（海陵区、🌸高港区、姜堰区、兴化市、⚜️泰兴市、🤒靖江市、🦛扬中市、丹阳市、泰州市区、姜堰区、🥍️海安镇、周庄镇、🍰东进镇、世伦镇、😖‍青龙镇、杨湾镇、🦁️马桥镇）

牡丹江市：东安区（部分区域未列出）、💔️西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

雅安市（汉源县、市辖区、🍲名山区、🦢石棉县、🦠荥经县、宝兴县、天全县、🥜芦山县、🕛雨城区）

南充市（顺庆区、🥡高坪区、😤‍嘉陵区、☝‍南部县、⚡️营山县、蓬安县、🤳仪陇县、🐉西充县、♌️阆中市、抚顺县、阆中市、🤗‍南充高新区）

郴州市（宜章县、😎嘉禾县、🥍永兴县、😶汝城县、市辖区、桂东县、北湖区、桂阳县、苏仙区、🌹临武县、安仁县、资兴市）

山南市（错那县、琼结县、🏏洛扎县、❎贡嘎县、🍼️桑日县、🆔曲松县、🥙浪卡子县、🕧市辖区、隆子县、🥘加查县、🈴扎囊县、乃东区、措美县）

南昌市（青山湖区、红谷滩新区、东湖区、⛎西湖区、青山湖区、南昌县、进贤县、安义县、🥬湾里区、🕚地藏寺镇、瑶湖镇、✴️铜鼓县、🍀昌北区、青云谱区、望城坡镇）

株洲市（荷塘、芦淞、石峰、🦎天元）

辽阳市（文圣区、☣️宏伟区、🐦弓长岭区、太子河区、🥮灯塔市、🖐️辽阳县、白塔区、广德镇、双台镇、桥头镇、长春镇、🥄合德镇、👉兴隆镇、安平镇、辛寨镇、🚬黄土岭镇）

舟山市（市辖区、🍣定海区、嵊泗县、普陀区、🈸️岱山县）

玉溪市（澄江县、☣️江川县、易门县、华宁县、新平彝族傣族自治县、🤞元江哈尼族彝族傣族自治县、🦉通海县、抚仙湖镇、红塔区、⭕️龙潭街道、南北街道、白石街道）

三明市（梅列、😭三元）

柳州市（柳北区、柳南区、柳江县、柳城县、🍊️鹿寨县、融安县、🐝融水苗族自治县、三江侗族自治县、城中区、鱼峰区、柳东新区、柳市镇）

保定市（莲池、竞秀）

德州市（陵城区、乐陵市、宁津县、庆云县、⚱️️临邑县、🥄平原县、☄️武城县、夏津县、禹城市、德城区、😈禹城市、💗齐河县、🥄开封县、双汇镇、🤞东风镇、商丘市、阳谷县、👧共青城市、城南新区）

昆山市（昆山开发、高新、🐇综合保税）

许昌市（魏都）

济南市（历下、市中、🕤槐荫、👎️天桥、💖历城、长清）

安康市（宁陕县、🦆白河县、汉阴县、🖐️岚皋县、石泉县、市辖区、紫阳县、😦汉滨区、👨️旬阳县、镇坪县、平利县）

常州市（天宁、💝钟楼、新北、武进、日照坛）

郑州市（中原、二七、管城、日照水、🤐上街、惠济）

中卫市（沙坡头区、海原县、中宁县、😾市辖区）

金华市（武义县、东阳市、磐安县、浦江县、🤥‍兰溪市、🌥永康市、婺城区、义乌市、🕷市辖区、金东区）

长沙市（芙蓉、✌天心、岳麓、🦍开福、🌚雨花、望城）

葫芦岛市：龙港区、🥅南票区、🐕连山区。

沧州市（新华区、运河区、✍沧县、青县、👦东光县、海兴县、盐山县、肃宁县、南皮县、😘吴桥县、献县、🌲‍孟村回族自治县、河北沧州高新技术产业开发区、沧州经济技术开发区、👇任丘市、黄骅市、😱河间市、泊头市）

邢台市（邢台县、🍶南和县、清河县、临城县、🦋广宗县、威县、宁晋县、🥊柏乡县、📛任县、🦝内丘县、南宫市、沙河市、任县、邢东区、邢西区、🚫平乡县、🐉️巨鹿县）

巴彦淖尔市（杭锦后旗、磴口县、✝️乌拉特中旗、乌拉特后旗、🈵乌拉特前旗、🐊市辖区、临河区、五原县）

连云港市（连云、海州、赣榆）

淮安市（淮阴区、清河区、淮安区、🦆涟水县、☺️洪泽区、🕒️盱眙县、金湖县、楚州区、🤘️淮安区、🏒海安县、🍿亭湖区、🐋淮安开发区）

玉林市（玉州）

柳州市（城中、🌾鱼峰、😗柳南、柳北、🍀柳江）

新竹县（新丰乡、🍟峨眉乡、🥯湖口乡、关西镇、新埔镇、⛔️横山乡、尖石乡、☝北埔乡、🐸竹东镇、宝山乡、🌩芎林乡、五峰乡、竹北市）

临沂市（兰山、🍥罗庄、河东）

连云港市（连云、🍓海州、🤘赣榆）

廊坊市（安次、广阳）

赣州市（南康区、😧‍赣县区、于都县、兴国县、🕞章贡区、龙南县、大余县、🌲信丰县、安远县、全南县、🛑宁都县、😱定南县、上犹县、🤞崇义县、🐞南城县）

玉溪市（澄江县、江川县、通海县、🌦华宁县、🕖易门县、峨山彝族自治县、抚仙湖镇、新平县、元江哈尼族彝族傣族自治县、红塔区、🍳玉溪县、🍨敖东镇、😈珠街镇）

宜昌市（宜都市、🐈长阳土家族自治县、当阳市、五峰土家族自治县、西陵区、兴山县、🏹夷陵区、远安县、点军区、🥙枝江市、🕒猇亭区、秭归县、🌎伍家岗区、⭐️市辖区）

绵阳市（江油市、🙈北川羌族自治县、梓潼县、市辖区、盐亭县、涪城区、安州区、♋️三台县、🐲平武县、游仙区）

湘潭市（雨湖、🌮岳塘）

漳州市（芗城、🐐龙文）

嘉义县（朴子市、🐡‍番路乡、民雄乡、竹崎乡、梅山乡、义竹乡、大林镇、🍘布袋镇、新港乡、太保市、六脚乡、🧡大埔乡、🕜鹿草乡、🍒️溪口乡、水上乡、👉中埔乡、阿里山乡、🦄东石乡）

追觅发布官方声明：业绩良好上半年营收远超2024年全年来源：上海证券报·中国证券网上证报中国证券网讯（记者孙小程）9月11日，追觅科技发布官方声明称，公司业绩良好，创始人控制权有所提升，以促进全生态发展。9月11日，追觅创始人俞浩在朋友圈的截图被流出，称追觅现金流充足，经营状况良好，公司和其个人近期回购了部分老股，使得持股比例从45%提升到70%

还没有人评论过，快来抢首评

抢首评

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术

推荐阅读

房对面突现几百座坟

福寿螺含6000寄生虫

花间一梦 2025-09-12 10:38:13 553

茶饮高价疯抢栀子花

直击九江返乡抗洪

歌手第九期歌单公布

博物馆回应展品发霉

靠卖知了日入过万

福建辟谣儿童被拐卖

穿了一身鱼满载而归

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术

阿姆斯特丹大学与Salesforce联手开发″聪明导游″技术

长按复制以下链接，粘贴给好友吧！

房对面突现几百座坟

福寿螺含6000寄生虫

花间一梦 2025-09-12 10:38:13 553

茶饮高价疯抢栀子花

直击九江返乡抗洪

歌手第九期歌单公布

博物馆回应展品发霉

靠卖知了日入过万

福建辟谣儿童被拐卖

穿了一身鱼满载而归