没等VC下场,机器人厂商先投了一家具身数据基础设施公司
发布时间:2026-04-17 12:35 浏览量:2
灵初智能、穹彻智能、浙江人形、智平方
联合投资
。
作者丨高景辉
编辑丨林觉民
2026年以来,具身智能依旧是一级市场最受关注的赛道之一。融资消息不断、玩家持续增加,围绕本体、模型、场景和应用的竞争也在快速升温。
但在这股热潮中,有一家公司显得有些不同。
它成立时间不长,切入的也不是最容易被资本讲述的机器人本体或基础模型,而是具身智能里一条更底层、也更难标准化的链路:
数据基础设施
。
这家公司名为
智域基石
。
近日,智域基石完成数千万元天使轮融资,投资方包括灵初智能、穹彻智能、浙江人形、智平方、紫江集团控股的紫竹高新区旗下VC投资管理平台小苗朗程。对一家成立不久的创业公司来说,这样的投资方结构颇具代表性:在传统财务投资机构大规模下场之前,产业方已经率先给出了自己的判断。
智域基石对外的定位是
具身智能数据基础设施服务商
。它既不做机器人本体,也不直接做基础模型,而是试图围绕数据入口、数据编译和训练输入,搭建一层面向具身智能时代的底层能力。据公司介绍,成立不到半年,其已积累近亿元在手项目与合作储备。
那么,为什么是一家做“数据基础设施”的公司,率先获得了多家具身智能产业方的投资?在本体和模型之外,这条看似不那么显眼的赛道,为什么开始被重新审视?
01
三位核心高管,拼出一套交叉能力
从团队背景看,智域基石的管理层配置有明显的“交叉学科”特征。
核心管理团队由创始人兼 CEO 杨哲轩、CTO 徐良威、COO 张计业等人组成,覆盖了大数据基础设施、机器人技术和商业运营等多个方向。
杨哲轩拥有分布式数据库与大数据产业经验,曾任职于 PingCAP,长期从事海量数据基础设施与商业化体系建设,负责公司战略规划、组织管理与业务判断。
CTO 徐良威具备机器人领域的学术与产业背景,曾在腾讯、鹏行智能等机构从事机器人软硬件与具身智能相关工作,目前主要负责技术研发、硬件方案设计以及数据标准相关工作。
COO 张计业则长期负责产业合作与商业化落地,当前聚焦场景拓展、政企合作与客户交付。
在组织设计上,智域基石采用了更偏“分工式”的技术架构:一侧聚焦机器人技术适配,另一侧聚焦数据编译系统与大数据基础设施。这样的安排,某种程度上也是由行业特性决定的。
具身智能的数据问题,本身就不是一个单点技术问题。
它既涉及机器人本体、传感器、操作任务和物理环境,也涉及海量数据的采集、存储、调度、检索和交付。换句话说,这不是单靠机器人团队或单靠数据工程团队就能完成的工作,而是两套能力的叠加。
02
为什么具身智能首先卡在“数据”上?
谈及创业起点,杨哲轩给出的判断很明确:
具身智能当前的瓶颈,不只是模型和算力,更在于高质量交互数据的供给能力。
这也是具身智能和互联网模型最根本的差异之一。
文本模型可以直接利用互联网中已经高度结构化、被人类长期“编码”过的数据;而机器人面对的是物理世界中的原始记录——视频、IMU、关节状态、力反馈、环境变化、任务结果,这些数据天然具有
多模态、强时序、强耦合、异步采样
等特征,且必须与任务目标、动作结果和环境反馈绑定,才能真正进入训练流程。
因此,对具身模型而言,真正有价值的并不只是“数据量”,而是那些
带有任务意图、动作边界、成功
/
失败结果和部署反馈的高信息密度样本
。
这也意味着,具身智能数据的难点从来不只是“采到”,而是“采到之后如何变得可用”。
同样一段机器人执行任务的原始记录,如果存在时间戳漂移、传感器不同步、空间标定误差,或者缺少动作阶段、任务语义和结果标记,那么它对模型的训练价值就会迅速下降。更进一步说,成功轨迹固然重要,但
失败样本、纠偏过程和恢复动作
,往往更能决定模型在真实环境中的鲁棒性和可部署性。
从这个角度看,具身智能行业真正缺的并不是原始数据本身,而是把原始数据稳定转化为训练输入的能力。
这也是智域基石选择切入的核心问题。
03
做具身智能行业的“炼化层”
杨哲轩用过一个比喻来解释这件事:如果说原始数据像原油,那么真正稀缺的未必是谁囤了更多“原油”,而是谁能把不同场景、不同本体、不同质量的数据,稳定炼化成模型可直接使用的训练输入。
围绕这个目标,智域基石设计了一套五段式的数据处理管线,包括
质检、底座、编译、检索、交付
五个环节。
第一层:质检
质检是原始数据进入系统前的第一道关口。
在这一层,系统会对相机、IMU、关节状态等多源传感器数据进行完整性与一致性检查,识别丢帧、时钟漂移、信号异常、校准失效等问题。对具身智能而言,这一步的重要性不言而喻:如果基础数据本身存在错位,后续模型训练就很容易建立起错误的感知—动作映射。
第二层:底座
底座层主要解决的是多模态数据的时空对齐与统一组织问题。
来自不同设备、不同采样频率、不同坐标系的数据,必须被映射到同一套数据底座上,才能支撑后续动作切分、语义标注和样本构建。对于机器人学习来说,这不是简单的数据存储问题,而是训练输入能否成立的前提。
第三层:编译
编译层是整条链路的核心。
在这里,连续轨迹会被切分成可训练的样本单元,并补充任务语义、动作边界、成功/失败结果、接触事件与关键状态变化等信息。换句话说,原始记录从这一层开始,才逐渐从“物理过程”变成“模型可以学习的结构化样本”。
这也是“数据编译”这一概念最关键的地方:它不是传统意义上的数据清洗或标注,而是把高熵、非结构化、难复用的物理世界记录,转化成模型能够反复调用和迭代的训练资产。
第四层:检索
当数据规模上来之后,问题就不再是“有没有数据”,而是“能不能快速找到对当前任务真正有价值的数据”。
因此,检索层面向的是海量数据资产管理。它围绕场景、任务、对象、机器人类型、动作阶段、失败模式等维度建立可查询的数据索引体系,让工程团队能够更高效地完成样本筛选、组合和调用。
第五层:交付
最终,数据还需要以标准化的方式进入客户训练和评测流程。
在这一层,数据集、元数据、版本信息以及配套说明会被统一封装,以便客户直接接入训练、评测和回归体系。这意味着,交付出去的不再是一堆原始文件,而是一套可直接被工程系统消费的数据产品。
整体来看,这套管线的目标,是尽可能提升后端加工环节的自动化程度,仅在真机采集和场景配置等前端环节保留必要人工参与,从而降低传统人工处理模式在整体流程中的占比,并在成本、交付效率和标准化程度上形成工程化能力。
04
为什么更看好 To B,而不是家庭场景?
在“具身智能的 GPT-4 时刻”这个热门话题上,杨哲轩的判断相对克制。
他认为,具身智能的关键拐点不会以某一天突然发生的方式到来,而更可能是分阶段出现:先在少数高频任务上形成稳定能力,再逐步扩展到更多场景和更多机器人平台。
从这个逻辑出发,智域基石当前更看重的是
To B
场景
。
原因并不复杂。家庭场景当然拥有长期想象空间,但在短期内,它仍然受制于成本、安全、可靠性和售后体系,真正愿意率先买单的用户群体相对有限。相比之下,国内制造、仓储、零售、医疗等 To B 场景任务密度更高、反馈链条更短,也更容易形成“采集—训练—部署—回流”的闭环。
这对一家做数据基础设施的公司尤其重要。
因为对具身智能来说,数据价值不是停留在采集端,而是取决于它能否在部署中继续回流,并进一步沉淀为可迁移、可复用的能力。也正因如此,智域基石判断,具身能力大概率会先在工厂、仓储、医院、门店等半结构化 B 端场景中逐步落地。
当然,这并不意味着 B 端数据天然就更容易处理。
恰恰相反,To B 场景的数据往往还伴随着私有化部署、本地化合规、可追溯、系统稳定性和结果复现性等要求。对数据公司来说,真正的挑战不是把数据简单汇集起来,而是在数据难以跨企业、跨场景自由流动的前提下,如何把局部场景经验沉淀为可迁移、可复用的模型能力。
05
产业方率先下注,
但公司要做的是开放型基础设施
商业化层面,智域基石目前处于很早期,但节奏并不慢。
据公司介绍,成立不到半年,其已形成近亿元在手项目与合作储备。客户类型覆盖机器人厂商、场景合作方及产业链伙伴,其中既包括与投资方之间的业务协同,也包括独立的外部合作。
产业投资方的加入,确实能够帮助一家新公司更早进入真实场景、理解真实需求、验证真实流程;与此同时,智域基石也对模型厂商、场景方保持足够的开放性和中立性。
从公司现阶段的规划看,智域基石也在朝这个方向推进。
短期内,它仍会把重点放在数据采集、数据编译和场景交付能力的打磨上;中期,则希望把前期沉淀下来的通用动作、场景经验和处理流程,抽象为可复用的数据产品和标准化工具链;更长期看,公司希望沉淀出一套面向具身智能的数据底座,逐步升级为平台型基础设施,并围绕接口、工具链和合作伙伴体系建立生态。
06
写在最后
过去一段时间,具身智能行业的注意力更多集中在“大模型能不能泛化”“机器人本体能不能降本”这些更容易被讨论的话题上。但越来越多从业者开始意识到,决定行业节奏的,往往不只是模型本身,而是模型背后的那套数据供给和反馈体系。
在这个意义上,智域基石的价值,不在于它是不是一家“数据公司”,而在于它试图解决的是具身智能最底层、也最工程化的一件事:
如何让物理世界中的原始记录,稳定转化为模型能够持续学习的训练输入。
这件事不够热闹,却很可能足够关键。
如果说具身智能真正的分水岭,不会只来自某一个模型版本的发布,而是来自整条“采集—编译—训练—部署—回流”链路的成熟,那么数据基础设施这条赛道,或许才刚刚开始进入价值显现期。
//