火山引擎赋能机器人 40家具身智能企业合作
发布时间:2026-02-24 14:58 浏览量:1
今年春晚舞台上,机器人不再是背景板里的机械装置,而是表演参与者。它们有的打拳,有的聊天,有的还能学明星说话逗乐观众。这些功能的实现,得益于火山引擎豆包大模型提供技术的支持。目前,已有40家具身智能企业接入该体系,宇树科技、松延动力等均在合作名单之列。
据了解,在《武BOT》节目中表演醉拳的机器人出自宇树科技,而它与火山引擎的合作已覆盖豆包语音合成模型、大语言模型(LLM)及视觉语言模型(VLM)等核心技术。
豆包语音合成模型2.0的核心突破在于语义深度理解。传统TTS系统处理的是"文本到声音"的映射,而该模型实现了"意图到表达"的跨越。具体而言,模型基于大语言模型架构,能够解析文本背后的情感倾向与语境信息,生成符合场景的韵律、停顿与音色变化。
该套技术方案使设备具备"高情商"交互特征——不仅能回应指令,还能理解潜台词。例如,当用户以反问语气提出需求时,模型可识别真实意图而非字面意思,并生成匹配的情感反馈。
除了宇树以外,蔡明、王天放与机器人合作的小品,是本次春晚技术密度最高的环节之一。这个节目里面的机器人来自松延动力,同样搭载了豆包语音合成模型2.0。这款布米机器人,整合了豆包大模型(LLM)、豆包视觉大模型(VLM)、豆包语音识别(ASR)、豆包语音合成(TTS)及RTC技术,实现了多模态互动,端到端延时缩至1秒,保障交流顺畅自然。换句话说,就是一个反应更快、真人感更强的具身机器人产品。
在这场小品中,机器人需处理开放式对话、承接即兴包袱、并在适当时机触发预设笑点。这要求模型具备长上下文记忆能力与话题追踪能力,豆包语音合成模型2.0的上下文窗口与推理深度为此提供了支撑。
春晚舞台的展示具有符号意义,但技术的真正考验在于规模化落地。目前,豆包大模型日均调用量已达63万亿Tokens,除机器人领域外,大疆、华为、拓竹等智能硬件厂商亦接入其服务。这表明,语音交互能力正从"功能卖点"转变为"基础配置",而火山引擎提供的方案降低了企业的集成门槛。
从产业视角看,40家具身智能企业的集中接入,反映的是技术分工的细化趋势——机器人厂商聚焦本体设计与场景定义,智能能力由云厂商统一供给。这种模式下,技术迭代速度取决于云侧模型的进化节奏,而产品差异化则体现在数据闭环与场景适配层面。春晚的高光时刻已过,真正的竞赛才刚刚开始。