清華AIR張亞勤:預(yù)訓(xùn)練生成式大模型,將帶來智駕技術(shù)范式新變革
以GPT為代表的生成式大模型的出現(xiàn),讓人工智能技術(shù)再次發(fā)生躍遷,AI技術(shù)正在經(jīng)歷從判別式到生成式的技術(shù)范式變革過程。隨著生成式、預(yù)訓(xùn)練、多模態(tài)等大模型技術(shù)的引入也在為自動(dòng)駕駛技術(shù)走向成熟的無人化提供了可能。
來自全球領(lǐng)先的人工智能研究機(jī)構(gòu)清華智能產(chǎn)業(yè)研究院(AIR)與國(guó)內(nèi)領(lǐng)先的自動(dòng)駕駛AI技術(shù)公司毫末智行,在對(duì)大模型的技術(shù)趨勢(shì)上及應(yīng)用上有著驚人的一致判斷。同時(shí),雙方也已經(jīng)在基于數(shù)據(jù)驅(qū)動(dòng)決策優(yōu)化方向上展開深入探索,共同推動(dòng)全方位、多層次的產(chǎn)學(xué)研深度合作,加速AI技術(shù)在自動(dòng)駕駛領(lǐng)域的落地應(yīng)用。
2023年10月11日,中國(guó)工程院院士、清華大學(xué)教授、清華智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤現(xiàn)場(chǎng)出席毫末智行舉辦的第九屆HAOMO AI DAY,發(fā)表了題為《智能駕駛新進(jìn)展——Big Model, Generative Al and Intelligent Driving》的主題演講,分享了他對(duì)生成式AI大模型應(yīng)用于自動(dòng)駕駛技術(shù)的最新思考,以及介紹了清華AIR在構(gòu)建Real2Sim2Real基礎(chǔ)模型平臺(tái)、自動(dòng)駕駛仿真平臺(tái)等最新成果。
以下是張亞勤院士的演講全文:
這么美麗的天氣,這么漂亮的地方,很高興參加HAOMO AI DAY,也感謝張凱董事長(zhǎng)和維灝的邀請(qǐng)。
今天是第九屆HAOMO AI DAY,首先我要祝賀毫末在不到4年的時(shí)間里取得了很大的成績(jī),特別是走出一條自己的路。我印象當(dāng)中毫末是最先在自動(dòng)駕駛方面發(fā)布了生成式大模型DriveGPT,也很快地走向規(guī)?;?,在這么短的時(shí)間就能夠成為自動(dòng)駕駛領(lǐng)域的領(lǐng)軍企業(yè)。
今天我想談一下在智能駕駛方面新的進(jìn)展,這些年我一直用同樣的題目,但是每一次會(huì)發(fā)現(xiàn)里面的內(nèi)容都完全不同,特別是最近生成式AI出來之后,對(duì)自動(dòng)駕駛有了很大的推進(jìn)。
我們一直講新的“四化”——網(wǎng)聯(lián)化、智能化、共享化、電動(dòng)化,其中最重要的是兩化——電動(dòng)化、智能化。電動(dòng)化可以理解成是新能源,現(xiàn)在中國(guó)已經(jīng)是全球最活躍、最大的新能源市場(chǎng),不管是在用戶規(guī)?;蛘叱隹谝?guī)模都是全球第一,這是新汽車的上半場(chǎng)。下半場(chǎng)最重要的是智能駕駛,未來5-10年全球競(jìng)爭(zhēng)的熱點(diǎn)和制高點(diǎn)就是自動(dòng)駕駛。人工智能是自動(dòng)駕駛核心的技術(shù)驅(qū)動(dòng)力,毫末從一開始成立就以AI作為公司的技術(shù)引擎,所以HAOMO AI DAY十分重要。
為什么這么多的企業(yè)都在做智能駕駛?包括傳統(tǒng)汽車廠商、新勢(shì)力、高科技企業(yè)都在進(jìn)入自動(dòng)駕駛市場(chǎng)?其實(shí),這里面有很多的技術(shù)挑戰(zhàn),首先從AI的角度來看,自動(dòng)駕駛是高度復(fù)雜的,需要很多算力、新算法,是最具有挑戰(zhàn)的AI垂直領(lǐng)域問題,其次,自動(dòng)駕駛也是目前看到的聚生智能、邊緣智能、自主智能的交集。剛剛毫末的測(cè)試視頻里可以看到自動(dòng)駕駛面對(duì)這么多的復(fù)雜場(chǎng)景和變化,確實(shí)有很多的挑戰(zhàn)。
但是,我認(rèn)為自動(dòng)駕駛是完全可以實(shí)現(xiàn)的,其中有一些關(guān)鍵的問題,有一些是市場(chǎng)的因素,有一些是非市場(chǎng)的力量。市場(chǎng)的因素包括技術(shù)是否可行?用戶有沒有真正需求?產(chǎn)業(yè)生態(tài)及商業(yè)模式。非市場(chǎng)因素也很重要,需要行業(yè)有技術(shù)突破,也需要有政府產(chǎn)業(yè)方面的支持,以及與政策法規(guī)突破。
在技術(shù)方面,一開始很多人在講無人駕駛是否可行,特別是L4以上是否可行?我從一開始認(rèn)為就是可行的。最近看到一些數(shù)據(jù),無人駕駛比有人駕駛安全10倍左右,在去年我還在講是3倍,今年已經(jīng)到了10倍。這說明技術(shù)突破已經(jīng)完成。在商業(yè)化路線圖上,目前也有各種各樣的方式,有一些是用單車智能,有一些車路協(xié)同,還有漸進(jìn)式、跳躍式的路線,開源、封閉的路線,不同企業(yè)都在探索不同的路線圖,沒有說哪一個(gè)是完全正確的,產(chǎn)業(yè)在用不同的方式嘗試自動(dòng)駕駛。我知道毫末選擇了漸進(jìn)式,我覺得這些都很好,大家用不同的方式去探索。
最近在AI方面有很多新的突破。我們看到新的算法、新的框架,特別是預(yù)訓(xùn)練、多模態(tài)、多監(jiān)督學(xué)習(xí)、大模型成為主流。在Transformer之前,ResNeT曾經(jīng)是作為非常廣泛應(yīng)用的視覺算法框架,我之所以特別提到ResNeT,這個(gè)算法其實(shí)是中國(guó)的年輕科學(xué)家在中國(guó)完成的,因此中國(guó)科學(xué)家對(duì)于人工智能有著很大的貢獻(xiàn)。我聽到很多的說法,認(rèn)為AI的核心主要是從歐洲來的,基本的理論是從那里來的,但是中國(guó)科學(xué)家在人工智能領(lǐng)域也做出了很多的貢獻(xiàn)。
大模型很重要的一點(diǎn)是要突破技術(shù)限制。過去六、七十年中主要有三個(gè)重要的理論:摩爾定律、馮·諾依曼架構(gòu)、香農(nóng)三定律,現(xiàn)在那這三個(gè)理論都在被突破。如果不突破,大模型不可能實(shí)現(xiàn),這其中需要有新的傳感方式,新的感知方式,需要有新的計(jì)算機(jī)體系架構(gòu)的突破,包括芯片新框架等,現(xiàn)在主流的Transformer和CNN卷積神經(jīng)網(wǎng)絡(luò)也都不一樣。目前,數(shù)字技術(shù)產(chǎn)業(yè)主要還是基于硅片的計(jì)算,未來可能會(huì)有生物科學(xué)、光計(jì)算、量子計(jì)算。
當(dāng)前,很重要的一點(diǎn)就是大模型帶來生成式的AI,過去AI講的是分類,也就是判別式的AI?,F(xiàn)在可以完全生成新的內(nèi)容創(chuàng)意、數(shù)據(jù)的創(chuàng)意,也可以在場(chǎng)景方面有很多新的創(chuàng)意。下面我稍微講一下在這方面的工作。
大模型走向了新方向。首先是多模態(tài),不僅僅是自然語言、圖像、視頻,也包括傳感信號(hào)、激光雷達(dá)等從所有車機(jī)發(fā)出的物理感知、生物感知信號(hào)。大家看到GPT-4大模型就是多模態(tài)的,其功能很強(qiáng)大,不過效率很低,大致比人大腦的計(jì)算和決策效率至少要低1000倍,所以還需要有新的算法,我覺得5年之后就會(huì)有新的算法出現(xiàn)。其次是自主智能,可以去自動(dòng)的完成任務(wù),包括邊緣計(jì)算,把很復(fù)雜的大模型怎么樣放在手機(jī)、汽車、機(jī)器人邊緣上,還有具身智能和物理世界連在一塊,我認(rèn)為自動(dòng)駕駛是最重要的具身智能場(chǎng)景。未來是腦機(jī)智能階段,大模型將面臨怎么樣用到生物的世界、生命的世界,怎樣讓人和腦更好的連接。
新技術(shù)架構(gòu)都會(huì)用到大模型,就像新的AI操作系統(tǒng)一樣,上面會(huì)有很多垂直的模型,包括做自動(dòng)駕駛或者其他像生命科學(xué)垂直的模型。
我這里再簡(jiǎn)單講一下清華智能產(chǎn)業(yè)研究院(AIR),這是我從百度退休之后創(chuàng)立的人工智能產(chǎn)業(yè)研究院,3年的時(shí)間發(fā)展速度很快,也很幸運(yùn)能夠找到一批有很深產(chǎn)業(yè)背景,同時(shí)有很深學(xué)術(shù)造詣的科學(xué)家和企業(yè)CTO?,F(xiàn)在差不多加上博士后、學(xué)生有300人左右,自動(dòng)駕駛是其中的一個(gè)方向,大概有100人左右。
每一次講到AIR研究院,都會(huì)想起25年前我回國(guó)創(chuàng)立微軟亞洲研究院。下個(gè)月會(huì)慶祝微軟亞洲研究院25周年,這個(gè)研究院本身相當(dāng)?shù)某晒ΑN覄倓傊v的大模型就是在微軟研究院所開發(fā)的,希望能夠打造面向中國(guó)產(chǎn)業(yè)的研究院。
我們?cè)趶氖赂鞣N研究的時(shí)候希望有一個(gè)大的框架,比如智能駕駛方面要先確定一些技術(shù)路線。首先我認(rèn)為多模態(tài)的感知很重要,從原多尺度、多維的數(shù)據(jù)很重要。因?yàn)樽鰺o人駕駛、智能駕駛,機(jī)器人的優(yōu)勢(shì)首先就是要求數(shù)據(jù)比較多,這個(gè)數(shù)據(jù)優(yōu)勢(shì)不能仍掉,所以我不同意馬斯克所說的只用攝像頭,我們需要用更多的數(shù)據(jù)源。其次是現(xiàn)在很多的自動(dòng)駕駛會(huì)用到很多高精地圖,但是我們認(rèn)為未來是輕地圖,不能完全依賴于地圖。
自動(dòng)駕駛達(dá)到最后的安全、可靠階段一定是端到端方式實(shí)現(xiàn)的,這個(gè)也非常難,這里面有更詳細(xì)的技術(shù)因素,包括生成式AI、強(qiáng)化學(xué)習(xí)、大語言模型,我們有兩個(gè)平臺(tái):數(shù)據(jù)大模型平臺(tái)、仿真平臺(tái)。
AIR也提出了自己的自動(dòng)駕駛基礎(chǔ)模型。首先模型提出了怎么樣獲取不同數(shù)據(jù),包括真實(shí)世界數(shù)據(jù)和仿真數(shù)據(jù)。數(shù)據(jù)要經(jīng)過受控管道進(jìn)行清理,然后再經(jīng)過兩個(gè)大模型:感知模型、決策模型,包括在一些云端和車端的關(guān)鍵場(chǎng)所做出決策,有一些模塊是提供信息,有一些是統(tǒng)計(jì)的,也有一些是基于規(guī)則的模塊。
我在里面專門把“強(qiáng)化學(xué)習(xí)”拿出來,因?yàn)閺?qiáng)化學(xué)習(xí)我從百度開始的時(shí)候就在用到的,但是很難用。因?yàn)樽詣?dòng)駕駛安全性很重要,用起來相當(dāng)困難,但是我認(rèn)為這個(gè)是我們唯一真正達(dá)到更高安全的方式,強(qiáng)化學(xué)習(xí)可以學(xué)到新的東西,現(xiàn)在泛化的方式要靠強(qiáng)化學(xué)習(xí)去學(xué)習(xí),最近也有很多新的進(jìn)展。怎么樣把強(qiáng)化學(xué)習(xí)用到很多模擬和決策,用到真正駕駛的行為當(dāng)中。左邊模型是垂直大數(shù)據(jù),怎么樣用強(qiáng)化學(xué)習(xí)去調(diào)整模型。
另外是生成式AI怎么樣能用到仿真、決策當(dāng)中?這里面有一個(gè)小的例子,大模型和深度學(xué)習(xí)都有透明度的問題,所以我們也做了這方面的研究,我到底為什么做這個(gè)決定?左轉(zhuǎn)、右轉(zhuǎn)、剎車,告訴我看到什么東西了,以及我為什么要做這個(gè)決定,它可以引導(dǎo)怎么樣做決定。這個(gè)是用真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)、垂直模型、大模型生成語意深度場(chǎng)景,包括交通和行人的信息。
另外是人腦和機(jī)器的融合,我們要去研究一下人是怎么開車的。人有的時(shí)候決策很好,有的時(shí)候決策不好,把這些信息通過傳感器收集起來。一方面在很長(zhǎng)時(shí)間人和機(jī)器要共駕,無人駕駛要慢慢理解人的駕駛。另一方面把模型用到算法當(dāng)中,改善算法的效率。
最后,我們非常高興能和毫末在技術(shù)方面有深度的合作,這個(gè)合作是關(guān)于怎么樣把強(qiáng)化學(xué)習(xí)用到認(rèn)知決策里面?怎么樣用真實(shí)的數(shù)據(jù)和實(shí)車場(chǎng)景用強(qiáng)化學(xué)習(xí)把它融合起來,當(dāng)前,強(qiáng)化學(xué)習(xí)有很多的問題,在線或者離線的方式,包括函數(shù)定義的問題、策略模糊性的問題,所以我們做了很多這樣的研究。過去一年多,在國(guó)際頂會(huì)發(fā)表了很多的論文,同時(shí)也有專利,最重要的是現(xiàn)在開始用到車?yán)锩妫瑒倓偪吹轿锪鞯男≤囈呀?jīng)開始用這些算法。
總結(jié)一下,如果看智能駕駛和自動(dòng)駕駛經(jīng)歷的不同階段,一開始的時(shí)候更多是用激光雷達(dá)和硬件驅(qū)動(dòng),更多是基于人工的規(guī)則。2.0是軟件和算法的驅(qū)動(dòng),這個(gè)階段有更多的傳感器,也要靠機(jī)器學(xué)習(xí)和規(guī)則。現(xiàn)在走到3.0的時(shí)代,就是大模型的驅(qū)動(dòng),這個(gè)階段有多傳感器用到端與端的算法,也會(huì)用到強(qiáng)化學(xué)習(xí),可以更大程度地實(shí)現(xiàn)自動(dòng)駕駛在真實(shí)的世界落地。
>>點(diǎn)擊查看今日優(yōu)惠<<