2026-01-19 08:53:07|kindsoft |来源:kindsoft
12月10日消息,今年8月举办的世界机器人大会(WRC)期间,宇树科技创始人王兴兴针对VLA(视觉语言动作模型)提出的质疑言论,在行业内引发了广泛讨论。
王兴兴称,对于当前机器人大火的VLA路线,他持有一定的怀疑态度,并直言称“这是一个相对傻瓜式的架构”。
原因是当VLA模型与真实世界交互的时候,背后的数据质量、数量,并不太够用。
而今日,理想汽车自动驾驶研发高级副总裁@ 郎咸朋在微博发长文,回应了此事。
郎咸朋称,当时未阐述个人观点,一方面是理想VLA司机大模型尚未正式推出,缺乏实际依据;另一方面是我们对于具身机器人行业,仍处在持续关注的阶段。
我和王兴兴看法差异最大的一点是,他觉得模型架构更为关键,可我认为模型的核心在于要和整个具身智能系统相适配,在这个前提下,数据才具有决定性的意义。
从今年9月VLA正式发布,到12月6日OTA 8.1推送,历经两个多月的实践验证后,我总结出两点体会:其一,VLA堪称自动驾驶领域最优的模型方案;其二,具身智能的核心竞争力最终取决于整体系统能力的强弱。
郎咸朋表示,理想中的VLA从本质上来说属于生成式模型,其运作方式与GPT做自动驾驶类似,区别仅在于生成的Token并非文本,而是轨迹和控制信号。
从当前用户的使用反馈来看,在部分场景中,理想的VLA已呈现出对物理世界的认知涌现现象。具体体现为用户会愈发频繁地察觉到此前端到端模式下未曾出现过的拟人化行为。
并且,世界模型更适合充当“考场”而非“考生”。在自动驾驶领域,脱离海量真实数据去谈论模型架构,终究是空中楼阁。我们之所以坚持VLA,正是因为我们拥有由数百万辆车构建的数据闭环——这一优势,让我们得以在现有算力条件下,将驾驶水平打磨到接近人类的程度。
在具身智能领域,若要推进自动驾驶技术,需将其视为一个完整的具身智能系统,研发过程中各环节需协同配合才能实现价值最大化。理想的自动驾驶团队与基座模型、芯片及底盘团队紧密协作,共同构建了完整的自动驾驶系统。
同时,模型的核心在于与整个具身智能系统相适配,在此前提下,数据起着决定性作用。机器人领域的数据获取难度较大,不过对于自动驾驶领域,尤其是已具备数据闭环能力的车企而言,这并非难题。
理想不仅可以从过去几年积累的10几亿公里的存量数据里进行挖掘和筛选,更可以通过150万车主的日常使用源源不断的获取新的数据。
此外,李想前两天明确提到,未来五到十年,具身机器人核心将有两种形态:汽车类的具身机器人、人形类的具身机器人。
理想的VLA不仅服务于现在的理想各类汽车产品形态,也将服务于未来的汽车类具身机器人。