前阿里机器人高管创业、获数千万种子轮融资,聚焦L4级具身智能技术应用|硬氪首发
作者|黄楠
编辑|袁斯来
硬氪获悉,杭州影身智能技术有限公司(以下简称「影身智能」)近日连续完成数千万元种子轮、种子+轮融资。种子轮由卓源亚洲投资;种子+轮由卓源亚洲、杭州西湖科创投联合投资。融资资金将用于机器人右脑的开发训练、商业化落地与团队建设。
「影身智能」成立于2024年,专注具身智能技术研发与应用,基于其自主研发的空间大模型和工业场景机器人,为企业提供低成本、高可靠、模块化的软硬件协同方案,以从轻工业柔性工序逐渐切入,落地服务业及多种C端场景。
创始人兼CEO闵伟曾任前阿里巴巴机器人团队技术负责人,从0到1搭建了阿里本地生活配送机器人,并在楼宇、医院、酒店等场景落地运营。多位核心团队成员均来自清华大学,在人工智能和机器人领域有多年的技术研发及产品应用经验。
当前具身智能的进阶和泛化对其技术落地意义重大。具身智能的进阶,指智能体在复杂物理环境中需展现出更高级的行为,从简单的动作执行到复杂任务的协同处理,具备更强的环境感知、决策规划和执行能力。例如在工业生产场景中,机器人不仅要精准地完成重复性的组装任务,还要根据零部件的细微差异或生产流程的临时调整,迅速做出适应性改变。泛化则是指机器人可将特定场景学到的技能应用到新场景,像家庭清洁机器人在不同环境都能高效工作。
但受各种物理规律、多样的物体属性以及复杂的环境动态变化影响,想要令机器人在复杂环境中有可靠表现,需要对物理世界有深入、全面且精准的理解。物理世界大模型在当中起到关键作用。
通过整合海量多模态数据,特别是视觉信息,模型可在深度挖掘和学习的过程中,捕捉真实环境下的内在规律和复杂特征,以模拟其运动、相互作用以及环境的变化,帮助机器人学习物理世界规律,在新环境快速推理决策和预测动作结果,并选择最优方案。
其中,由「影身智能」自主研发的时空智能大模型,通过Real to Real构建四维真实世界大模型,通过大规模无标签数据预训练,具备了对物理世界理解和映射的基础能力。
语言作为一种高度浓缩的信息表达方式,在机器人领域,尽管语言模型可由大规模文本数据获得语义理解能力,但物理动作的时空连续性与语言符号的高度浓缩和离散性存在根本矛盾。
闵伟指出,人类可通过视觉感知、物理常识等右脑机制补充信息,而VLA模型仅能依赖有限的视觉-语言对齐特征进行推断,容易产生动作偏差,最终导致生成的指令与现实世界的实际情况存在偏差,影响模型输出的准确性和可靠性。
“这也就意味着,在具身智能时代,让机器人继续使用人类的语言,它可能会受到表达方式的限制。当我们的具身智能大模型足够聪明时,是否可能出现一种新的语言使其不受人类自然语言的限制?”闵伟说。
基于上述思考,「影身智能」在时空智能大模型中,直接对视频数据建模,将视频语言化,直接从视频数据中提取最真实的信息来理解真实的物理世界,最大限度地减少人为干预。这种方法不仅能提高模型的精确性和效率,也有助于减少自然语言抽象带来的信息损耗。
在数据端,「影身智能」利用国内海量视频数据,可将数据训练成本被控制在极低水平。据闵伟介绍,「影身智能」在多种工作场景中合理布置有多个摄像头,比如工人的上方和前方安装交叉视角等,可从不同角度捕捉工人工作画面,并充分利用这些视频数据进行机器人的三维空间建模、动作捕捉和动作生成模型训练。
这种训练方式的一大优势在于,无需购置额外复杂设备,极大地简化了训练流程,同时避免对工厂正常生产秩序的干扰,实现了生产与训练的并行不悖。
期间,时空智能大模型会生成两部分数据:一部分是通过动捕技术捕捉工人关节的位置和姿态,将其映射到机器人的关节;第二部分是模拟工人视角的视频数据,生成与传统摇操作类似的训练数据。这些数据最终用于训练端上的小模型,再将其部署到统一的硬件本体上,进而应用到具体场景的作业机器人中。
目前「影身智能」已发布了 “影身” 系列工业机器人,能在不同工况下持续稳定操作,并且具有泛化性。
闵伟告诉硬氪,得益于其在阿里本地生活的工作经验,「影身智能」正同多个行业客户进行合作需求沟通,已拿下千万级的产业订单,将首先聚焦服务于工厂等场景,持续拓展至快递、酒店等行业,预计2025年将累计交付上百台机器人。
此外,今年「影身智能」将着力开发机器人大脑,提升机器人理解外部世界并执行任务的能力,以加快实现将L4级别具身智能普及到日常生产和生活中。
投资方观点:
卓源亚洲创始合伙人及董事长林海卓表示,影身智能团队是一支源自阿里和清华的产学研结合的团队,既能仰望星空,从底层技术入手,让机器人通过视频语言化去理解物理世界,又能脚踏实地,稳步推进机器人在工业场景的落地应用,我们坚定看好影身智能开辟技术领域新赛道,推动具身智能技术的普惠化落地。


