百度智駕,勝在AI
“百度智駕的優(yōu)勢(shì)還是在AI,包括算法、數(shù)據(jù)和人才,以及大模型時(shí)代我們對(duì)AI原生思維,對(duì)大模型算法的理解,還有我們儲(chǔ)備的AI算力。”
3月17日,正在北京參加中國(guó)電動(dòng)汽車百人會(huì)論壇(2024)的百度智能駕駛事業(yè)群組(IDG)首席研發(fā)架構(gòu)師 IDG技術(shù)委員會(huì)主席王亮接受了太平洋汽車等多家媒體的采訪。當(dāng)被問(wèn)及相比于華為、大疆等頭部智駕玩家的優(yōu)勢(shì)時(shí),他如此說(shuō)道。
一天前,百度集團(tuán)副總裁、智能駕駛事業(yè)群組總裁王云鵬也在百人會(huì)高層論壇上表示,華為智駕確實(shí)遙遙領(lǐng)先,只比百度差一點(diǎn)點(diǎn)了,做成這樣相當(dāng)不容易。
外界不禁好奇,百度的智駕實(shí)力究竟怎樣?AI又將如何賦能百度智駕?智駕的未來(lái)是端到端嗎?
不少人調(diào)侃說(shuō),百度自動(dòng)駕駛“起個(gè)大早,趕個(gè)晚集”。但在王云鵬看來(lái),前半句話沒(méi)有錯(cuò),百度投入自動(dòng)駕駛起步最早,2014年就開始做了。但是后半句不對(duì),因?yàn)樽詣?dòng)駕駛剛剛見到曙光,真正的大集還沒(méi)有開始。電動(dòng)化趨勢(shì)已定,智能化才剛剛開場(chǎng)。
王亮也深有同感。他說(shuō)今天的智能駕駛的發(fā)展、普及還處在早期,消費(fèi)者對(duì)于智駕的理解還比較淺,智駕功能距離成為消費(fèi)者購(gòu)車的頭部考慮因素還欠些火候。他認(rèn)為智駕的終局要以用戶是不是能形成依賴、是不是能長(zhǎng)期使用為標(biāo)準(zhǔn)。第一要支持城市點(diǎn)到點(diǎn)的駕駛;第二要全國(guó)都能跑,不能是幾個(gè)樣板間;第三,使用起來(lái)廣度擴(kuò)起來(lái)之后,體驗(yàn)安心感要比較一致,讓用戶有信賴感;第四要具備一個(gè)自身的數(shù)據(jù)飛輪和自演化能力。
“今天同時(shí)滿足四個(gè)必要條件的智駕產(chǎn)品,嚴(yán)格意義上市場(chǎng)上還沒(méi)有,各家都在努力的卷功能、卷體驗(yàn)。”王亮介紹說(shuō),去年百度智駕產(chǎn)品實(shí)現(xiàn)了技術(shù)能力和產(chǎn)品體驗(yàn)的雙重突破,基于BEV+Transformer的技術(shù),在極越01上量產(chǎn)了國(guó)內(nèi)唯一的純視覺城市領(lǐng)航輔助駕駛產(chǎn)品。今年一季度最新版本已經(jīng)率先落地了純視覺占據(jù)網(wǎng)絡(luò)技術(shù),安全性和用戶體驗(yàn)比市面上絕大多數(shù)搭載了激光雷達(dá)的產(chǎn)品還要好。
之所以敢這么說(shuō),王亮表示這得益于AI的賦能。百度智駕系統(tǒng)的AI占比非常高、模型可以高頻的迭代,過(guò)去一年中系統(tǒng)的核心關(guān)鍵模型累計(jì)迭代多達(dá)300多次,在客戶SOP后的四個(gè)多月中,百度OTA給用戶的智駕新增功能和體驗(yàn)優(yōu)化項(xiàng)多達(dá)90多個(gè)。
另?yè)?jù)官方信息顯示,截至今年第一季度,百度城市智駕已經(jīng)開了4個(gè)城市。像上海、北京、深圳、杭州的用戶已經(jīng)可以全量去使用。另外值得期待的是,到今年6月底,百度會(huì)做一個(gè)輕圖的開城,直接把開城數(shù)量提升至300個(gè)。凡是百度地圖導(dǎo)航能到的地方,百度的城市智駕都可以覆蓋。
2023年是城市智駕元年,百度、華為和小鵬站在了第一梯隊(duì)。但與華為和小鵬不同,百度智駕走的是純視覺路線。王亮認(rèn)為,強(qiáng)大的視覺技術(shù)是智駕產(chǎn)品能夠?qū)崿F(xiàn)體驗(yàn)跨溝的充分必要條件,視覺能力的高低決定了產(chǎn)品能否走到競(jìng)爭(zhēng)的終局。
“今天的智駕產(chǎn)品研發(fā)過(guò)程和交付絕對(duì)不是一錘子買賣,上市僅是起點(diǎn)。”王亮強(qiáng)調(diào),如何在后續(xù)用戶的使用過(guò)程中通過(guò)反饋驅(qū)動(dòng)產(chǎn)品力持續(xù)提升是技術(shù)路線選擇的關(guān)鍵考慮因素,其中比初速度重要的因素是加速度這個(gè)跟時(shí)間相關(guān)的變量。
“初速度決定了產(chǎn)品原型的研發(fā)速度,這點(diǎn)上激光雷達(dá)確實(shí)占優(yōu),厘米級(jí)精度的三維測(cè)距能力能讓感知算法實(shí)現(xiàn)的難度大幅降低,工程師很快就能上手完成自動(dòng)駕駛的閉環(huán)。”王亮坦言,相比來(lái)說(shuō),視覺的初速度就慢得多,從二維象素恢復(fù)三維信息是計(jì)算機(jī)視覺領(lǐng)域十幾年、幾十年幾代科研人員在力圖解決的難題。但一旦技術(shù)進(jìn)入軌道,圖像里天然蘊(yùn)含的信息量?jī)?yōu)勢(shì)會(huì)在其在迭代加速度上比所有主動(dòng)光傳感器都敏捷、都迅猛。同時(shí),配合大模型、AI算法,視覺能達(dá)到的能力天花板也更高。
“在大模型時(shí)代指導(dǎo)AI研發(fā)的一條規(guī)律就是OpenAI在2020年提出的Scaling Laws概念,中文可以分成規(guī)模法則。隨著數(shù)據(jù)大小、模型大小和用于訓(xùn)練的計(jì)算點(diǎn)數(shù)的增加,模型的性能就會(huì)提高,為了獲得最佳性能,所有三個(gè)因素必須同時(shí)放大。”王亮稱,目前搭載百度智駕方案的極越上使用的普通800萬(wàn)象素?cái)z像頭。攝像頭的采樣密度是今天主流激光雷達(dá)的160倍,等接下來(lái)最好的激光雷達(dá)上市之后,攝像頭的密度仍然是它的20倍。
“依靠激光雷達(dá)肯定是走不到智駕終局的。”王亮強(qiáng)調(diào),一圖勝千言。激光雷達(dá)蘊(yùn)含的信息量,相比圖像(視覺)來(lái)說(shuō)少得非常多,少好幾個(gè)量級(jí)。它的優(yōu)勢(shì)在于可以很快上車。
基于上述原因,王亮認(rèn)可激光雷達(dá)是拐杖的說(shuō)法。“做視覺研發(fā),工程師也有惰性,如果同時(shí)有激光雷達(dá)也有視覺,遇到困難、又在時(shí)間很緊迫、老板要求你解決問(wèn)題的情況下,大部分人還是從激光雷達(dá)上想辦法。好比一個(gè)很大的樹下,下面小草能長(zhǎng)大,大樹把陽(yáng)光遮蔽了,生長(zhǎng)很緩慢”。
過(guò)去的一年,以文心一言、ChatGPT為代表的大語(yǔ)言模型所呈現(xiàn)的智慧涌現(xiàn)能力,讓人們看到了實(shí)現(xiàn)通用人工智能的曙光和路徑,也加速了大模型上車。
王亮表示,相比于華為和大疆,百度最大的優(yōu)勢(shì)就在于AI。“傳統(tǒng)的模型迭代范式,每個(gè)模型由主干網(wǎng)絡(luò)backbone和任務(wù)頭head構(gòu)成,backbone主要負(fù)責(zé)提取圖像的特征。backbone在模型層面決定了模型的泛化能力和它的識(shí)別能力。”
但過(guò)去幾年,算法從規(guī)則過(guò)渡到機(jī)器學(xué)習(xí)、數(shù)據(jù)驅(qū)動(dòng)、車端模型的數(shù)量快速增長(zhǎng),在有限算力的資源下任務(wù)和模型增加帶來(lái)很多顯性問(wèn)題。王亮距離說(shuō),一是backbone這個(gè)核心主干網(wǎng)絡(luò)的參數(shù)量漲不起來(lái)、算力競(jìng)爭(zhēng)讓各個(gè)單一模型的參數(shù)量都受到限制。二是計(jì)算存在冗余,多任務(wù)之間的主干往網(wǎng)絡(luò)他們?cè)谔卣魈崛〉牟襟E中有大量的計(jì)算是冗余的,每個(gè)都在做,對(duì)算力是一種侵蝕。最后,多學(xué)習(xí)任務(wù)之間是隔離的,難以學(xué)習(xí)圖像的通用表征,各任務(wù)需要長(zhǎng)期補(bǔ)充大規(guī)模人工標(biāo)注的數(shù)據(jù),來(lái)彌補(bǔ)模型泛化能力的不足。
基于此,百度決心改變?cè)贫撕蛙嚩说母兄軜?gòu)。用一個(gè)多任務(wù)共享的統(tǒng)一基礎(chǔ)感知模型代替原來(lái)模型的主干網(wǎng)絡(luò),在預(yù)訓(xùn)練階段使用多元的圖像數(shù)據(jù),訓(xùn)練基礎(chǔ)大主干網(wǎng)絡(luò),來(lái)學(xué)習(xí)圖像的通用表征。而且這里的數(shù)據(jù)不再局限于自動(dòng)駕駛場(chǎng)景下的數(shù)據(jù),也包括物聯(lián)網(wǎng)的數(shù)據(jù),包括疊加公開數(shù)據(jù)集的圖像數(shù)據(jù)。王亮透露,這個(gè)模型的參數(shù)規(guī)??梢宰龅皆瓉?lái)backbone的數(shù)十倍甚至百倍。
王亮告訴太平洋汽車,支撐百度自動(dòng)駕駛大模型發(fā)展的背后是百度在自動(dòng)駕駛領(lǐng)域持續(xù)高強(qiáng)度的研發(fā)投入。規(guī)模法則里面很重要的一條是算力,多大算力決定你的模型能走多遠(yuǎn)。在當(dāng)前的訓(xùn)練算力方面,百度在智駕這個(gè)項(xiàng)目上投入的總算力資源達(dá)到了2.2eflops的量級(jí),現(xiàn)在對(duì)算力的使用是上不封頂?shù)摹?/p>
當(dāng)被問(wèn)及百度在端到端技術(shù)方面的看法和規(guī)劃時(shí),王亮表示,特斯拉也不是一蹴而就的。他之前在BEV Transformer把視覺感知能力迭代得非常好,路上測(cè)試兩年以后,開始把決策規(guī)劃用機(jī)器學(xué)習(xí)的方式去解決。
“如果你前面一步?jīng)]有做到,沒(méi)有那么扎實(shí),直接蹦到端到端,我個(gè)人不是很看好。”王亮判斷,今年大概率能看到很多車企關(guān)于端到端的一些演示,但是量產(chǎn)應(yīng)該是在2025年。
在采訪的最后,王亮表示,十分希望特斯拉FSD能早日進(jìn)入中國(guó),但他相信它在中國(guó)的體驗(yàn)不會(huì)比極越、華為、小鵬更好。即便有那么多卡也需要很多時(shí)間去適配中國(guó)的道路結(jié)構(gòu)、駕駛習(xí)慣。
>>點(diǎn)擊查看今日優(yōu)惠<<