Token调用量增长超10倍！豆包大模型2.1上线，Seedance 2.5预计7月初正式上线

火山引擎连发三款模型，以密集的产品节奏和激进的定价策略向生产级AI市场全面发力。

周二，火山引擎正式发布豆包大模型2.1系列，包括旗舰版Doubao-Seed-2.1-Pro与轻量版Doubao-Seed-2.1-Turbo，API即日在火山方舟全量上线。与此同时，视频生成模型Seedance 2.5宣布将于7月初正式发布，音频生成模型1.0同步开启邀测，标志着豆包生态从语言理解向多模态内容生产全面延伸。

豆包大模型2.1 Pro定价为每百万Tokens输入6元、输出30元，在Coding和Agent场景下综合成本降至每百万Tokens仅1.96元，直接瞄准企业级生产环境。火山引擎同步推出持续迭代版本Doubao-Seed-Evolving，以每月2至4次的频率滚动更新，企业无需更换API接入节点即可获得最新模型能力。

此次大会上，火山引擎总裁谭待对外披露了最新数据：截至今年6月，豆包大模型日均Token调用量已突破180万亿，较去年增长超10倍。与此同时，在中国公有云MaaS服务市场，火山引擎以49.5%的市场份额位居第一。

上述产品组合将直接影响国内企业AI采购格局。豆包大模型2.1已接入WPS、得到、Unity（团结引擎）等合作伙伴，并计划覆盖数亿豆包用户。在多项公认基准测试中，豆包大模型2.1 Pro在Coding与Agent任务上的表现已逼近甚至超越OpenAI GPT-5.5和Anthropic Claude Opus 4.7等国际顶尖模型。

Coding能力跨越生产级门槛

豆包大模型2.1 Pro在多项业界公认编程基准上展现出对标国际旗舰模型的能力。在Terminal Bench评测上，豆包大模型2.1 Pro与Claude Opus 4.7基本持平，能够在命令行环境中端到端完成完整工程任务；在长程软件开发基准SWE-Pro上，其表现接近GPT-5.5。

在自然语言到仓库级代码转化的NL2Repo-Bench评测中，豆包大模型2.1 Pro超越GPT-5.5。在科学计算代码评测SciCode上，豆包2.1 Pro以59.8分超过Claude Opus 4.7和GPT-5.5，该测试覆盖数理化生材五大学科的真实科研问题，是AI for Science方向含金量最高的基准之一。

在开发者众测环节，逾六成开发者认为豆包大模型2.1 Pro在真实Coding任务中的产物质量高于Claude Opus 4.6。火山引擎还披露了一个芯片设计RTL案例：豆包大模型2.1 Pro连续运行近18小时，经历9轮迭代，完成6个核心模块、1303行RTL代码的生成，并通过仿真、测试、综合检查等完整工程流程，最终通过手写数字识别验证，完成生产级Coding交付。

Agent能力跃升，覆盖高经济价值任务

在通用Agent能力方面，豆包大模型2.1 Pro在OpenAI发布的GDPval基准上获得最高分，该测试集覆盖9大行业、44种职业的真实世界经济价值任务。在2026年6月刚发布的Agents' Last Exam（ALE）评测上，豆包大模型2.1 Pro超越Claude Opus 4.7——该基准涵盖13个行业集群、逾1000项高经济价值真实任务，且发布不久难以被定向优化，更能真实衡量模型面对新场景时的泛化能力。

工具调用方面，豆包大模型2.1 Pro在MCP-Atlas评测集上全面超越Claude Opus 4.7与GPT-5.5，在使用真实MCP Server及多类工具时表现更为稳定。火山引擎展示了一个典型应用案例：一位开发者使用该模型调度超过500个Agent协同作业，累计触发工具调用上千次，最终在单张大地图上完成逾100栋造型各异建筑的3D城市构建。

多模态理解保持全球领先

图像理解方面，豆包大模型2.1在MMMU-Pro等多项榜单上全面超越GPT-5.5、Claude Opus 4.7和Gemini 3.1 Pro，达到全球SOTA。视频时序理解方面，豆包2.1 Pro在TOMATO与LVBench两项业界权威基准上大幅领先Gemini 3.1 Pro。

GUI Agent方面，豆包大模型2.1 Pro桌面端能力接近Claude Opus 4.7，移动端大幅领先，并全面超过GPT-5.5，在全球取得SOTA。火山引擎展示了一个端到端视频剪辑案例：豆包大模型2.1 Pro一次性处理逾两小时长视频，自动完成口语化解说稿生成、精准片段定位、音频合成及字幕输出，全程无需人工干预。

Seedance 2.5与音频模型拓展版图

据华尔街见闻获悉，豆包视频生成模型Seedance 2.5目前已处于内测尾声，预计7月初正式发布。新模型支持单段视频生成时长最高30秒，镜头连贯性大幅提升；并支持最多50个全模态素材联合输入，官方称为全球最多；此外还具备更灵活可控的视频编辑能力，旨在进一步提升创作者效率与成品品质。

同日，火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本及参考音频等多模态输入，可端到端生成包含多角色对白、背景音乐和环境音效的完整音频作品，免去传统工作流中多轨剪辑、对齐、混音等后期环节。该模型单次支持2分钟音频创作，并可通过参考输入延长音频同时保持音色一致性。API即日起在火山方舟开启邀测，并计划接入剪映、即梦、番茄等产品。

定价策略与规模化商业布局

豆包大模型2.1的定价设计兼顾旗舰性能与规模化部署需求。Pro版每百万Tokens输入6元、输出30元，缓存命中条件下输入仅需1.2元；Turbo版能力与Pro版相近，价格降低一半，更适合高频调用场景。在Coding和Agent场景综合计算下，Pro版的实际成本压缩至每百万Tokens仅1.96元。

在产品集成方面，豆包大模型2.1已全面兼容Claude Code、Codex等主流Harness框架，并已上线TRAE、TRAE WORK、扣子等开发工具。合作伙伴方面，WPS表示该模型在PPT生成、表格交付等办公核心任务上形成稳定可用链路；得到反映其在业务规则遵循和核心禁令执行上实现零违规；Unity（团结引擎）则认为该模型在脚本逻辑类任务上的单次能力上限高于顶尖模型。火山引擎表示，豆包产品即将接入豆包大模型2.1 Pro，服务数亿用户的办公与生产力场景。

风险提示及免责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。