中国团队视频训练机器人技术领先特斯拉,具身智能迎来“零示教”革命
当特斯拉宣布Optimus机器人将摒弃传统动作捕捉方案,转而借助员工日常操作视频开展训练时,这一决策犹如投入湖面的巨石,在业界激起千层浪。但鲜为人知的是,早在特斯拉转向视频学习前半年,中国团队跨维智能就已通过YOTO技术框架,实现了仅用30秒视频训练机械臂完成米其林级精细操作。这场由中国人主导的“零示教”革命,正在重新定义全球机器人学习的未来。

特斯拉转向视频学习的背后:中国技术已抢先落地

特斯拉Optimus放弃动作捕捉服和虚拟现实设备,转而采用工人操作视频训练机器人的决策,看似是技术路线的重大突破,实则验证了中国团队的前瞻性。跨维智能的YOTO技术框架早在2025年初就实现了仅凭单条双目视觉人类视频,让双臂机器人零示教复现复杂长程操作。其演示案例中,机械臂通过30秒短视频学会了米其林餐厅级的协同操作,且无需采集大量真机数据,展现出远超传统方法的泛化能力。

这一突破不仅早于特斯拉半年落地,更被机器人顶会RSS收录为论文。当特斯拉还在探索如何用视频训练机器人折叠T恤时,中国技术已证明视频学习在效率与精度上的双重优势。
从动作捕捉到视频学习:技术路线的范式革新
传统机器人训练依赖动作捕捉技术,需要真人穿戴设备反复演示,数据采集成本高且泛化性差。而视频学习模式彻底重构了这一流程:数据来源上,仅需普通人类操作视频;迁移效率上,跨维智能证明30秒视频即可完成复杂技能迁移;行业标准上,特斯拉的跟进标志着“视频即代码”成为新范式。
特斯拉机械工程师Milan Kovac坦言,神经网络训练使Optimus能执行电池排列等任务,但中国团队的技术路径更彻底——直接跳过真机示教阶段,实现从视频到动作的无缝转换。这种范式革新将机器人学习成本降低了一个数量级。
国际顶会背书:中国技术如何定义全球机器人学习未来
跨维智能论文被RSS顶会收录的事件,标志着中国技术首次在机器人学习领域获得国际学界规则制定权。值得注意的是,李飞飞团队与FigureAI同期开展的视频学习研究,均晚于中国团队的实践成果。
特斯拉官方视频中“从互联网视频学习”的表述,进一步佐证了这一趋势的不可逆性。当Optimus通过观看人类视频学会清洁、烹饪时,其底层逻辑与中国团队的技术框架高度吻合。这种技术共振现象,揭示了中国从跟随者到引领者的角色转变。
具身智能的下一站:视频学习将如何重塑产业
视频学习技术的爆发正在打开三大场景:制造业中,机械臂可通过工人操作视频快速掌握产线技能;服务业里,类似特斯拉爆米花机器人的互动服务将普及;家庭场景下,清洁、烹饪等长尾任务可通过日常视频训练解决。
国盛证券研报指出,这一变革将带动视觉导航、传感器等技术融合爆发。从特斯拉工厂的电池分拣到跨维智能的米其林帮厨,视频学习正在消弭机器人与人类技能的鸿沟。
结语:一场由中国团队引爆的机器人认知革命
从特斯拉Optimus的转型到跨维智能的技术落地,视频学习正在重构具身智能的发展轨迹。中国团队用30秒视频训练机械臂的突破,不仅验证了技术路线的正确性,更让“未来已来”的预言加速照进现实。当机器人学会像人类一样观察与模仿时,这场认知革命的震中,已然东移。