不知道,最近大家有沒(méi)有關(guān)注到一個(gè)現(xiàn)象,悄然間「世界模型」已經(jīng)站在智駕的高地,成為衡量一家車企智駕能力的「新」風(fēng)向標(biāo)。
有人說(shuō),這是在智能駕駛領(lǐng)域繼「BEV&Transformer」、「占用網(wǎng)絡(luò)OCC」、「端到端」等技術(shù)后,又一次跨越式進(jìn)步。
更有行業(yè)大佬,募集十幾億,致力于構(gòu)建「大型世界模型」。更像一些頭部公司,諸如谷歌旗下人工智能企業(yè)DeepMind,花費(fèi)重金聘請(qǐng)了OpenAI視頻生成器Sora的聯(lián)合負(fù)責(zé)人蒂姆·布魯克斯來(lái)開(kāi)發(fā)世界模型。
世界模型的準(zhǔn)確定義是這樣的:
通過(guò)模擬人類的認(rèn)知過(guò)程,使機(jī)器系統(tǒng)能夠理解和預(yù)測(cè)復(fù)雜環(huán)境中的未來(lái)情景,從而實(shí)現(xiàn)自主決策和行動(dòng)。
說(shuō)人話就是,人為地創(chuàng)造一個(gè)像大腦一樣具備思考能力的智能體。
它可以理解真實(shí)世界的物理法則,還能對(duì)事物的關(guān)系、規(guī)律、原因和結(jié)果進(jìn)行理解和預(yù)測(cè),從而做出決策判斷。
關(guān)于理解真實(shí)世界的物理法則,其實(shí)并沒(méi)有大家想象得那么容易。
比如說(shuō),現(xiàn)在讓大家去想象手掌時(shí),幾乎所有人都能準(zhǔn)確且毫不費(fèi)力地想象出來(lái),但是在目前的AI制作中,卻會(huì)經(jīng)常會(huì)出現(xiàn)多根手指或連指的現(xiàn)象。
此前,圖靈獎(jiǎng)得主Yann LeCun就明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像Sora這樣通過(guò)生成像素來(lái)建模世界的方式注定要失敗。
表象尚且不準(zhǔn),至于對(duì)事物的關(guān)系、規(guī)律、原因和結(jié)果的理解就更難了,以我們最為熟悉的ChatGPT舉例,目前還存在「幻覺(jué)問(wèn)題」。
就是用一種可以令人信服但完全編造的方式來(lái)表達(dá)自己,也就是一本正經(jīng)地已讀亂回。
比如:?jiǎn)柲P偷谝粋€(gè)在月球上行走的人是誰(shuí)?模型回復(fù),Charles Lindbergh在1951年的月球先驅(qū)任務(wù)中第一個(gè)登上月球。
實(shí)際上,第一個(gè)登上月球的人是Neil Armstrong。
這也在一定程度上限制了ChatGPT在金融、法律等知識(shí)鑒別門檻極高的行業(yè)里應(yīng)用。
而理解只是路徑,決策才是最終想要達(dá)到的結(jié)果。
通常來(lái)說(shuō),當(dāng)大腦內(nèi)部進(jìn)行預(yù)測(cè)時(shí),可以根據(jù)我們當(dāng)前的運(yùn)動(dòng)動(dòng)作,預(yù)測(cè)未來(lái)的感官數(shù)據(jù)。
我們能夠本能地按照這種預(yù)測(cè)采取行動(dòng),并在面臨危險(xiǎn)時(shí)做出快速的反應(yīng),而無(wú)需有意識(shí)地規(guī)劃行動(dòng)方案。
以棒球?yàn)槔?,棒球擊球手只有幾毫秒的時(shí)間來(lái)決定如何揮棒,甚至比我們眼睛的視覺(jué)信號(hào)到達(dá)大腦所需的時(shí)間還要短。
而擊球員能夠擊出時(shí)速100英里的快速球,是因?yàn)樗軌虮灸艿仡A(yù)測(cè)球會(huì)在何時(shí)何地飛去哪里。
對(duì)于職業(yè)球員來(lái)說(shuō),這一切都是潛意識(shí)發(fā)生的。他們的肌肉會(huì)根據(jù)大腦的預(yù)測(cè),在正確的時(shí)間和地點(diǎn)反射性地?fù)]棒,無(wú)需有意識(shí)地推出可能的未來(lái)情景來(lái)制定計(jì)劃。
帶入這個(gè)視角,你會(huì)發(fā)現(xiàn),一些車企的智駕技術(shù)就很好理解了。
比如,智已說(shuō)的邁入「直覺(jué)」智駕新時(shí)代。
這套系統(tǒng)就在強(qiáng)調(diào)一個(gè)“下意識(shí)”的決策動(dòng)作,無(wú)需經(jīng)過(guò)常規(guī)的識(shí)別與處理,就像老司機(jī)遇到緊急情況那樣,不需要復(fù)雜思考,就能夠給出一個(gè)正確的反應(yīng)。
說(shuō)了這么多世界模型,大家或許發(fā)現(xiàn)了,世界模型是一個(gè)覆蓋面很大的詞匯,可以應(yīng)用在機(jī)器人、智能汽車等多個(gè)領(lǐng)域。
僅對(duì)于智能駕駛來(lái)說(shuō),世界模型具體有什么用呢?
答案是成本。
智能駕駛發(fā)展至今,數(shù)據(jù)的重要性越發(fā)凸顯。然而,實(shí)車采集、人工標(biāo)注的費(fèi)用卻在水漲船高,況且,能夠滿足訓(xùn)練要求的數(shù)據(jù)還少之又少,更不必說(shuō)一些非常罕見(jiàn)的corner case。
自動(dòng)駕駛應(yīng)用了世界模型,就可以借助視頻生成技術(shù),創(chuàng)建駕駛場(chǎng)景,從而降低成本。
比如說(shuō),有一天,路測(cè)人員在測(cè)試中發(fā)現(xiàn)了測(cè)試車輛的問(wèn)題,后續(xù)可以通過(guò)世界模型,生成多條軌跡和這些軌跡實(shí)時(shí)交互的多場(chǎng)景視角,滿足訓(xùn)練模型的需求,從而提升系統(tǒng)的迭代效率。
例如,按照官方的說(shuō)法,NWM(即蔚來(lái)世界模型)能夠在0.1秒內(nèi)推演出216種可能發(fā)生的軌跡,尋找最佳決策。
然后在接下來(lái)的0.1秒內(nèi),根據(jù)外界的信息輸入,重復(fù)更新內(nèi)在時(shí)空的模型,再去預(yù)測(cè)216種可能性。以此循環(huán),跟隨駕駛軌跡持續(xù)預(yù)測(cè),得到駕駛的最優(yōu)解。
也就是說(shuō),后續(xù)我們完全可以借助世界模型仿真模擬出極端的駕駛場(chǎng)景,來(lái)訓(xùn)練提升車輛的智駕能力。
這也是世界模型在自動(dòng)駕駛的兩大應(yīng)用:生成能力、仿真能力。
但是,目前的世界模型缺陷也有很多。比如生成長(zhǎng)視頻的能力,目前公開(kāi)的、最長(zhǎng)的視頻時(shí)間,也不過(guò)幾分鐘而已。
還有視頻的清晰程度,即使是國(guó)外領(lǐng)先的自動(dòng)駕駛公司W(wǎng)AYVE旗下的世界模型GAIA,它所生成的視頻也很模糊。同時(shí),時(shí)間和空間一致性的問(wèn)題也不能忽略。
這些背后都指向了算力需求,而算力成本是非常高昂的。
可以說(shuō),世界模型還是一項(xiàng)非常新興的技術(shù),需要大量的資金,大量的人力鋪在上面。當(dāng)然,資本市場(chǎng)對(duì)大模型技術(shù)也是非??春玫摹?/p>
根據(jù)國(guó)際數(shù)據(jù)公司(IDC)最新發(fā)布的《中國(guó)模型即服務(wù)(MaaS)及AI大模型解決方案市場(chǎng)追蹤(2024H1)》報(bào)告顯示,2024上半年,中國(guó)AI大模型解決方案市場(chǎng)的規(guī)模為13.8億元人民幣。
預(yù)計(jì)在2024-2028年期間也將持續(xù)高速長(zhǎng),年均復(fù)合增長(zhǎng)率為56.2%,到2028年整體市場(chǎng)規(guī)模將達(dá)到211億元人民幣。
燃油車時(shí)代,仿佛一切都比較簡(jiǎn)單,沒(méi)有那么多技術(shù)名詞。來(lái)到了智能化時(shí)代,層出不窮的技術(shù)名詞,不僅令消費(fèi)者感到困惑,包括多數(shù)業(yè)內(nèi)人士也是一頭霧水。
但對(duì)于智能化的宏大主題來(lái)說(shuō),行進(jìn)道路確實(shí)非常艱難。有時(shí)目標(biāo)足夠沉,問(wèn)題足夠多,才有這么多的技術(shù)被發(fā)明、被創(chuàng)造,而每個(gè)技術(shù)名詞的背后,都是成長(zhǎng)的印記,也是試錯(cuò)的痕跡。
合抱之木,生于毫末,九層之臺(tái),起于累土。正是一段段的技術(shù)死磕,才讓智能化逐漸有了一個(gè)更明朗的未來(lái)。