能認錐桶、懂看路牌、還會預判盲區(qū)!元戎啟行VLA模型讓車機更有“意識”
2025年8月26日,元戎啟行重磅發(fā)布全新一代輔助駕駛平臺——DeepRoute IO 2.0及其核心——自研的VLA(Vision-Language-Action)視覺-語言-動作大模型。標志著輔助駕駛技術(shù)范式的一次重要轉(zhuǎn)變,從傳統(tǒng)規(guī)則驅(qū)動或單一感知的端到端模型,邁向了融合感知、認知與決策的通用人工智能的新階段。
自研VLA模型是本次發(fā)布的核心突破。它將視覺感知、語義理解與動作決策三大能力整合于一體。與傳統(tǒng)“黑盒”端到端模型相比,VLA模型借鑒了語言模型的“思維鏈”能力,能夠像人類一樣進行信息串聯(lián)、分析和因果推理,從而在面對復雜多變的真實路況時,做出更安全、更舒適、更擬人化的決策。根據(jù)元戎啟行CEO周光現(xiàn)場介紹:“其天然集成的海量知識庫,也使其具備了前所未有的泛化能力。”
空間語義理解是本次發(fā)布的最大亮點。該功能可在視野受限的動態(tài)或靜態(tài)盲區(qū)環(huán)境中(如公交車遮擋、復雜路口、橋洞等)感知潛在風險,主動對盲區(qū)進行 “預防性預判”。系統(tǒng)可在風險出現(xiàn)前提前減速、穩(wěn)妥通行,具備高度擬人化的防御性駕駛策略,為用戶帶來更安心的出行體驗。
其余三項能力也各具特色:異形障礙物識別使系統(tǒng)能夠識別并靈活應對如施工錐桶、超載小貨車等非結(jié)構(gòu)化障礙;文字類引導牌識別讓系統(tǒng)“看懂路標”,準確解析潮汐車道、公交專用道等文字信息;記憶語音控車功能支持自然語言指令交互,并逐步學習用戶偏好,帶來更具個性化與擬人化的駕駛體驗。
在此次發(fā)布會上,元戎啟行同步展示VLA模型的4大功能:空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車,這些功能將根據(jù)實際部署節(jié)奏逐步釋放。
在推動技術(shù)革新的同時,元戎啟行的商業(yè)化進程同樣堅實。DeepRoute IO 2.0平臺秉持“多模態(tài)+多芯片+多車型”的設(shè)計理念,兼具激光雷達與純視覺兩種方案,適配性極廣。公司目前已獲5個定點合作項目,并已累計交付近10萬臺搭載其城市領(lǐng)航輔助系統(tǒng)的量產(chǎn)車,涵蓋SUV、MPV、越野車等多個車型。也為后續(xù)VLA模型的快速、規(guī)?;?、商業(yè)化落地奠定了堅實基礎(chǔ)。
周光總結(jié):“10萬量產(chǎn)是一個起點。隨著高階輔助駕駛市場的加速打開,我們相信像元戎啟行這樣具備核心技術(shù)能力的公司將迎來更大的市場空間。”
元戎啟行后續(xù)將圍繞VLA模型持續(xù)拓展應用邊界,在乘用車市場加速量產(chǎn)部署的同時,推進基于量產(chǎn)車平臺的Robotaxi業(yè)務。
在更廣闊的Road AGI體系中,VLA模型也將向更多可移動智能體延展復用,逐步實現(xiàn)從單點功能到通用智能體的系統(tǒng)化演進。
【廣告】(免責聲明:本文為本網(wǎng)站出于傳播商業(yè)信息之目的進行轉(zhuǎn)載發(fā)布,不代表本網(wǎng)站的觀點及立場。本文所涉文、圖、音視頻等資料的一切權(quán)利和法律責任歸材料提供方所有和承擔。本網(wǎng)站對此資訊文字、圖片等所有信息的真實性不作任何保證或承諾,亦不構(gòu)成任何購買、投資等建議,據(jù)此操作者風險自擔。) 本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人,如有侵權(quán),請聯(lián)系本網(wǎng)進行刪除。
責任編輯:彭羽佳