5月7日,理想汽車推出“理想AI Talk第二季——理想VLA司機大模型,從動物進化到人類”,理想汽車董事長兼CEO李想重點分享了對于人工智能的最新思考,VLA司機大模型的作用、訓練方法和挑戰(zhàn),以及對于創(chuàng)業(yè)和個人成長的見解。
李想將AI工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。
李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇傭司機,人工智能技術(shù)最終也會承擔類似職責,成為真正的生產(chǎn)工具。”
VLA的實現(xiàn)不是突變的過程,是進化的過程
目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA(視覺語言行動模型)能夠讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對理想汽車而言,未來的VLA就是一個像人類司機一樣工作的司機大模型”。
VLA的實現(xiàn)不是一個突變的過程,是進化的過程,經(jīng)歷了三個階段,對應理想汽車輔助駕駛的昨天、今天和明天。第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。
端到端模型在處理復雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領(lǐng)域的能力有限。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學術(shù)會議上發(fā)表論文,夯實了理論基礎(chǔ)。
在端到端的基礎(chǔ)上,到第三階段,VLA將開啟“人類智能”的階段。它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。
VLA司機大模型以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。
超級對齊確保AI決策安全,世界模型破解AI黑盒難題
除了提升專業(yè)能力,VLA司機大模型還需解決安全性和模型黑盒的問題。
模型能力越強,越需要職業(yè)性約束,以確保能力下限。為了保障VLA司機大模型能夠?qū)崿F(xiàn)職業(yè)司機般的安全和舒適,避免學習加塞等違規(guī)行為,理想汽車在強化訓練環(huán)節(jié)投入大量資源,并于2024年底組建超過100人的超級對齊團隊,相當于為司機Agent注入職業(yè)素養(yǎng)。
為解決模型的黑盒問題,理想汽車結(jié)合重建和生成兩種路徑,打造了真實、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素?;谑澜缒P偷姆抡婺芰Γ琕LA可以在世界模型中低成本、準確地驗證現(xiàn)實問題,提升解決問題的效率,有效應對模型黑盒帶來的挑戰(zhàn)。
VLA司機大模型提升了專業(yè)能力,超級對齊增強了職業(yè)能力,VLA通過理解自然語言、具備記憶能力提升了構(gòu)建信任的能力。
人工智能時代,扎實的基本功比走捷徑重要
理想汽車堅持自研,通過技術(shù)賦能用戶價值。例如,在輔助駕駛方面,由于英偉達Orin-X芯片無法直接運行語言模型,端到端+VLM的輔助駕駛方案對部分企業(yè)來說仍具挑戰(zhàn)。理想汽車依托自有編譯團隊,自研底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運行VLM。同時,憑借芯片、控制器設(shè)計和自研汽車操作系統(tǒng)等綜合能力,理想汽車實現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運行同等規(guī)模的VLA司機大模型。李想表示,大型企業(yè)的基本功和能力永遠無法被逾越。
得益于DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發(fā)上提速顯著,節(jié)省了近9個月的時間和數(shù)億元成本。盡管如此,理想汽車仍選擇加大投入,在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。
十周年將至,持續(xù)為行業(yè)和用戶創(chuàng)造價值
今年7月,理想汽車將迎來成立十周年。李想表示,“創(chuàng)業(yè)確實不容易,但是沒必要苦哈哈的。苦和甜是一個硬幣的正反面,取決于看哪一面?!币舱蜻@份積極樂觀的創(chuàng)業(yè)心態(tài),理想汽車才能快速成長為千億營收規(guī)模、百萬交付量的新勢力企業(yè)。
面對AI的發(fā)展,李想認為,在AI面前所有的人性都應被保留,無論好壞,因為一切人性都是文化、生命、性格、能力的特質(zhì),也是人類真正的生命力所在。
從使用增程電動和5C超充技術(shù)解決電池成本高、充電難、充電慢的問題,到自研汽車操作系統(tǒng)攻克傳統(tǒng)汽車操作系統(tǒng)性能差、開發(fā)緩慢、芯片匹配周期長等挑戰(zhàn),理想汽車始終以技術(shù)創(chuàng)新解決行業(yè)無法解決的問題。自研VLA時,理想汽車更是踏入了人工智能的無人區(qū)。當前,輔助駕駛走到了新的十字路口上,理想汽車將不斷挑戰(zhàn)成長的極限,持續(xù)為行業(yè)和用戶創(chuàng)造價值。
本文鏈接:http://www.020gz.com.cn/news-5-8873-0.html讓AI化身專業(yè)“老司機”,理想汽車推出“VLA 司機大模型”
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕