微信
投稿

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

2025-07-15 09:52 来源:腾讯混元作者:

腾讯混元团队近日正式宣布其最新大语言模型 Hunyuan-80B-A13B(下面简称Hunyuan-A13B)全面开源,模型API在腾讯云官网上线,输入价格为每百万Tokens 0.5元,输出价格为每百万Tokens 2元。

这款模型基于领先的混合专家(MoE)架构,模型仅凭百亿级参数的轻量规模,实现了可与业界前沿千亿级模型相媲美的性能,精准击中了长期以来困扰大模型领域的智能与效率的“甜蜜点”。

Hunyuan-A13B的开源,旨在提供一个兼具顶尖性能与低成本部署优势的强大基座,成为撬动AI应用落地的新支点。 

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

为AI普惠应用而生,定义“甜蜜点”

当前大模型应用领域普遍面临一个困境:性能越强的模型往往伴随着更高的部署和推理成本。追求极致效果就往往要选择满血版本的大模型,而高昂的推理费用则劝退了不少业务,腾讯混元推出的Hunyuan-A13B,正是为了破解这一难题。

腾讯混元此次开源的Hunyuan-A13B采用了高性能的细粒度MoE(混合专家)架构,总参数规模为800亿,而单次推理仅需激活130亿参数。这种“以小博大”的精巧设计,使其在保持强大智能的同时,推理吞吐量相较同类前沿模型提升超过100%。加之其原生支持的256K超长上下文窗口, Hunyuan-A13B在核心指标上,为业界树立了一个全新的性能与效率平衡的标杆。

Hunyuan-A13B 模型对个人开发者较为友好,在严格条件下,只需要1张中端GPU卡即可部署。目前,Hunyuan-A13B 全面融入开源生态,支持主流推理框架(i.e. SGLang,vLLM and TensorRT-LLM),无损支持多种量化格式。 

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

技术拆解:揭秘“甜蜜点”背后的硬核操作

如此精准卡位的“甜蜜点”是如何炼成的?我们将先揭秘其背后的两大技术支柱:高质量的预训练、结构化的后训练。接着,我们以“Agent能力”构建为样板,拆解SFT与RL双轮驱动的后训练方案设计。

夯实基座苦练内功:高质量预训练

高质量的输入是决定模型能力上限的关键。Hunyuan-A13B的高性能背后,离不开腾讯混元团队在预训练阶段对训练数据的精心打磨,团队不只追求数量,更追求质量。模型在高达20T Tokens的优质数据上训练,更关键的是,团队对STEM(科学、技术、工程和数学)领域的数据进行了专项强化,这成为模型在推理任务中表现出色的重要基础。同时,通过科学的三阶段训练策略,团队稳步构建并扩展了模型的能力。

具体来说,这三阶段训练策略包括:

(1)基础训练阶段, 旨在构建模型的核心语言理解和生成能力,为后续优化奠定坚实基础;

(2)快速退火阶段,通过调整 样本配比和学习率优化,快速提升模型在推理上的性能表现;

(3)以及长文本训练阶段,逐步扩展模型的上下文处理能力,最终实现了原生支持256K超长上下文窗口。

这一策略结合了上下文窗口 的扩展,不仅确保能够兼顾学习基础模式和处理长距离依赖,也显著提升了模型的泛化能力。可 以说,强大的基础决定了模型能达到的最终高度。

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

激发潜能专项优化:结构化后训练

混元团队通过精心设计的一套精密的、分阶段的后训练框架,辅以高质量标注数据和相应的训练策略,将 Hunyuan-A13B 从一个“博学”的知识大脑,系统性地调优成为一个聪明、可靠和实用的AI助手。强大的预训练模型是如何在后训练阶段变得更“好用”的?

第一阶段,专注“智商拉满”:混元致力于打磨模型的理科能力,通过高质量的推理数据微调和以最终结果为导向的强化学习,让它在数理、代码等硬核任务上达到顶尖水平。具体包括:使用包含高质量解题步骤的数学、代码、逻辑数据进行训练;并采用“结果导向”奖励,如代码沙箱执行是否通过,直接提升准确率。

第二阶段,保证“情商在线”:混元全面扩展模型的通用能力,让它在面对对话、创意写作等多样 化任务场景下都能应对自如,确保了模型能力的全面和均衡。这包括:混合推理与通用指令数据,扩展模型在写作、对话等场景的能力;并采用更复杂的奖励模型,综合评估正确性、风格与有用性,全面提升体验。

卓越Agent能力的背后:SFT与RL双轮驱动

      Hunyuan-A13B 在 Agent 方面的优势显著,其强大智能体能力,源于SFT阶段的精心数据构建和RL阶段的精准奖励信号设计,二者缺一不可。因此,这里以Agent能力的构建为例,展示后训练阶段的完整设计思路,该方案采用了SFT与RL的双轮驱动策略:

在SFT阶段,团队通过多角色数据引擎、三位一体的工具整合以及指令泛化设计,使模型掌握了任务执行的基本能力。

团队采取一系列数据构建措施来增强模型应对智能体任务的各项技能,包括规划、工具调用和反思能力。首先,团队开发了一个包含五个角色的多角色合成数据引擎,包括用户、规划师、工具、智能体和检查员。该引擎通过模拟真实的多方对话生成训练数据,使模型能够理解复杂交互场景中的角色分工与协作逻辑。

其次,团队还整合了三个数据源以实现工具响应:沙箱工具、外部工具调用(MCPs)和合成工具。这种整合有效解决了真实数据获取成本高和工具种类有限的问题,生成了多样化的环境反馈,极大地 丰富了模型的学习场景。

同时,团队还设计了超过30种智能体系统指令,将工具、动作和响应的 格式变化相结合,创建了20000种格式组合,将训练数据多样性进一步扩展以提高模型的泛化能力。

然而,仅有SFT阶段的训练尚不足以达到最佳效果。在RL阶段,团队设计了一套精准的奖励系统,像一位严格的教练,教会模型“如何做对”。其中,团队采用沙箱工具与MCPs构建信息反馈机制,在强化训练阶段通过基于规则的奖励系统进行优化,这套奖励系统包含两部分:“格式奖励”确保它的回答规范、能被执行;“正确性奖励”则从工具选择到参数设置,精细地校准每一步操作,确保模型输出结果的规范性和鲁棒性。

正是SFT与RL双轮驱动的设计,才造就了Hunyuan-A13B模型在工具调用、任务规划和复杂决策方面的突出能力,使得该模型能够轻松驾驭智能体高频任务,例如Excel处理和深度搜索等实用 场景,使其成为构建下一代智能应用的理想基座。

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

性能验证:评测结果背书的“小身材,大智慧”

扎实的技术实现,带来了不俗的性能表现。根据评测数据,Hunyuan-A13B在多个关键维度上,充分展现了其“小身材,大智慧”的硬核实力。

Agent能力全面领先:在BFCL V3、C3-Bench等多个权威Agent评测中,Hunyuan-A13B得 分全面超越业界顶尖模型,展现了其在理解和执行复杂任务上的卓越能力。 理科推理比肩顶尖:在AIME(美国数学邀请赛)、BBH(大型语言模型难题基准)等测试中,其表现与参数量数倍于己的模型不相上下,部分指标甚至取得最高分。 长文与双模优势显著:模型不仅在RULER等长文本评测中表现出优异的稳定性,其业界领先的“快慢思考”双模式,融合模型一次部署支持两种模式,允许用户推理时按需在效率与深度间自由切换,灵活利用计算资源,极大提升了实用性。

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

轻量好用,全面开源,撬动 AI 应用的新支点

腾讯混元Hunyuan-A13B技术报告:智能与效率“甜蜜点”的极致追求

Hunyuan-A13B并非一个实验室模型,已在腾讯内部超过400个业务场景中得到实际验证。如今,腾讯混元团队将这一经过实践检验的技术成果全面开源,回馈给全球开发者社区。

Hunyuan-A13B的模型权重、代码、技术报告已在GitHub和Hugging Face同步上线,并开放腾讯云API服务。同时,团队还开源了C3-Bench和ArtifactsBench两大评测数据集,以期与全球开发者和研究者共同推动AI技术的创新与应用。

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

精彩评论

暂无评论...
验证码 换一张
取 消

热门作者

东方

简介: 天马行空的文字之旅。

邮箱: liutingting03@hczyw.com

简介: 保持期待,奔赴山海。

邮箱: zhuangjiaxin@hczyw.com

松月

简介: 脚踏实地,仰望星空。

邮箱: wuxiaqing@hczyw.com