火山引擎连发三款模型,以密集的产品节奏和激进的定价策略向生产级AI市场全面发力。
周二,火山引擎正式发布豆包大模型2.1系列,包括旗舰版Doubao-Seed-2.1-Pro与轻量版Doubao-Seed-2.1-Turbo,API即日在火山方舟全量上线。与此同时,视频生成模型Seedance 2.5宣布将于7月初正式发布,音频生成模型1.0同步开启邀测,标志着豆包生态从语言理解向多模态内容生产全面延伸。
豆包大模型2.1 Pro定价为每百万Tokens输入6元、输出30元,在Coding和Agent场景下综合成本降至每百万Tokens仅1.96元,直接瞄准企业级生产环境。火山引擎同步推出持续迭代版本Doubao-Seed-Evolving,以每月2至4次的频率滚动更新,企业无需更换API接入节点即可获得最新模型能力。
此次大会上,火山引擎总裁谭待对外披露了最新数据:截至今年6月,豆包大模型日均Token调用量已突破180万亿,较去年增长超10倍。与此同时,在中国公有云MaaS服务市场,火山引擎以49.5%的市场份额位居第一。
上述产品组合将直接影响国内企业AI采购格局。豆包大模型2.1已接入WPS、得到、Unity(团结引擎)等合作伙伴,并计划覆盖数亿豆包用户。在多项公认基准测试中,豆包大模型2.1 Pro在Coding与Agent任务上的表现已逼近甚至超越OpenAI GPT-5.5和Anthropic Claude Opus 4.7等国际顶尖模型。
豆包大模型2.1 Pro在多项业界公认编程基准上展现出对标国际旗舰模型的能力。在Terminal Bench评测上,豆包大模型2.1 Pro与Claude Opus 4.7基本持平,能够在命令行环境中端到端完成完整工程任务;在长程软件开发基准SWE-Pro上,其表现接近GPT-5.5。
在自然语言到仓库级代码转化的NL2Repo-Bench评测中,豆包大模型2.1 Pro超越GPT-5.5。在科学计算代码评测SciCode上,豆包2.1 Pro以59.8分超过Claude Opus 4.7和GPT-5.5,该测试覆盖数理化生材五大学科的真实科研问题,是AI for Science方向含金量最高的基准之一。
在开发者众测环节,逾六成开发者认为豆包大模型2.1 Pro在真实Coding任务中的产物质量高于Claude Opus 4.6。火山引擎还披露了一个芯片设计RTL案例:豆包大模型2.1 Pro连续运行近18小时,经历9轮迭代,完成6个核心模块、1303行RTL代码的生成,并通过仿真、测试、综合检查等完整工程流程,最终通过手写数字识别验证,完成生产级Coding交付。
在通用Agent能力方面,豆包大模型2.1 Pro在OpenAI发布的GDPval基准上获得最高分,该测试集覆盖9大行业、44种职业的真实世界经济价值任务。在2026年6月刚发布的Agents' Last Exam(ALE)评测上,豆包大模型2.1 Pro超越Claude Opus 4.7——该基准涵盖13个行业集群、逾1000项高经济价值真实任务,且发布不久难以被定向优化,更能真实衡量模型面对新场景时的泛化能力。
工具调用方面,豆包大模型2.1 Pro在MCP-Atlas评测集上全面超越Claude Opus 4.7与GPT-5.5,在使用真实MCP Server及多类工具时表现更为稳定。火山引擎展示了一个典型应用案例:一位开发者使用该模型调度超过500个Agent协同作业,累计触发工具调用上千次,最终在单张大地图上完成逾100栋造型各异建筑的3D城市构建。
图像理解方面,豆包大模型2.1在MMMU-Pro等多项榜单上全面超越GPT-5.5、Claude Opus 4.7和Gemini 3.1 Pro,达到全球SOTA。视频时序理解方面,豆包2.1 Pro在TOMATO与LVBench两项业界权威基准上大幅领先Gemini 3.1 Pro。
GUI Agent方面,豆包大模型2.1 Pro桌面端能力接近Claude Opus 4.7,移动端大幅领先,并全面超过GPT-5.5,在全球取得SOTA。火山引擎展示了一个端到端视频剪辑案例:豆包大模型2.1 Pro一次性处理逾两小时长视频,自动完成口语化解说稿生成、精准片段定位、音频合成及字幕输出,全程无需人工干预。
据华尔街见闻获悉,豆包视频生成模型Seedance 2.5目前已处于内测尾声,预计7月初正式发布。新模型支持单段视频生成时长最高30秒,镜头连贯性大幅提升;并支持最多50个全模态素材联合输入,官方称为全球最多;此外还具备更灵活可控的视频编辑能力,旨在进一步提升创作者效率与成品品质。
同日,火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本及参考音频等多模态输入,可端到端生成包含多角色对白、背景音乐和环境音效的完整音频作品,免去传统工作流中多轨剪辑、对齐、混音等后期环节。该模型单次支持2分钟音频创作,并可通过参考输入延长音频同时保持音色一致性。API即日起在火山方舟开启邀测,并计划接入剪映、即梦、番茄等产品。
豆包大模型2.1的定价设计兼顾旗舰性能与规模化部署需求。Pro版每百万Tokens输入6元、输出30元,缓存命中条件下输入仅需1.2元;Turbo版能力与Pro版相近,价格降低一半,更适合高频调用场景。在Coding和Agent场景综合计算下,Pro版的实际成本压缩至每百万Tokens仅1.96元。
在产品集成方面,豆包大模型2.1已全面兼容Claude Code、Codex等主流Harness框架,并已上线TRAE、TRAE WORK、扣子等开发工具。合作伙伴方面,WPS表示该模型在PPT生成、表格交付等办公核心任务上形成稳定可用链路;得到反映其在业务规则遵循和核心禁令执行上实现零违规;Unity(团结引擎)则认为该模型在脚本逻辑类任务上的单次能力上限高于顶尖模型。火山引擎表示,豆包产品即将接入豆包大模型2.1 Pro,服务数亿用户的办公与生产力场景。
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。