歷史上的前車之鑒 車內(nèi)語音識(shí)別靠譜么
1920年,一只名叫“無線電雷克斯”的玩具狗可能是最早的語音系統(tǒng)識(shí)別器。當(dāng)狗的名字被叫時(shí),它會(huì)跳出它的底座。1992年,時(shí)任蘋果電腦公司語音組經(jīng)理的李開復(fù),用一個(gè)叫卡斯珀的語音助手,讓語音控制在電腦上實(shí)現(xiàn)文字輸入、字體大小變化、開/關(guān)程序等操作,驗(yàn)證了語音控制可以實(shí)現(xiàn)更智能的操作,有能力替代傳統(tǒng)輸入。2021年,在語音識(shí)別技術(shù)誕生近100年后,仍然不成功,甚至“徹底失敗”。
2000年是一個(gè)關(guān)鍵的時(shí)間點(diǎn),語音識(shí)別系統(tǒng)開始大規(guī)模進(jìn)入各類產(chǎn)品,包括汽車。然而,到目前為止,語音控制系統(tǒng)在技術(shù)產(chǎn)品和車內(nèi)交互應(yīng)用方面都沒有取得令人滿意的體驗(yàn)。但現(xiàn)在這項(xiàng)技術(shù)已經(jīng)“沉寂”了很多年,現(xiàn)在在新能源概念車中被很多新興車企拿出來,再加上“AI技術(shù)”等各種標(biāo)簽,冷飯又被復(fù)制了。
回顧早期,語音識(shí)別的準(zhǔn)確性問題成為人們不信任這項(xiàng)技術(shù)的主要原因。然而,隨著技術(shù)的發(fā)展,準(zhǔn)確率和聯(lián)想能力都在提高,但這種互動(dòng)模式的使用率仍然遠(yuǎn)遠(yuǎn)低于傳統(tǒng)模式。想一想,在最常見的場景中,你真的能用到智能手里的聲控嗎?
猜一猜:在什么情況下我們會(huì)使用語音控制?
首先我們來思考一下在什么情況下需要使用語音操作,或者在什么情況下語音操作會(huì)取代傳統(tǒng)的觸摸操作。是辦公室嗎?好吧,走在路上?回家?還是坐私家車?我想無論在任何環(huán)境下,除非你無法或者懶得使用傳統(tǒng)操作,你都會(huì)嘗試使用語音控制,但這種情況在我們現(xiàn)在的生活中絕對(duì)不是高頻。
語音控制自出現(xiàn)以來,在交互創(chuàng)新的層面上并不能讓我們感到驚訝,因?yàn)楹芏鄷r(shí)候它的交互效率并不比傳統(tǒng)的輸入操作高,無論是在移動(dòng)設(shè)備還是汽車上。在早期,我們需要通過按下“語音控制按鈕”來輸入語音命令?,F(xiàn)在雖然增加了語音喚醒命令,但是在提高運(yùn)行效率空之間很難改變局面。
目前,在快節(jié)奏的生活中,所有技術(shù)產(chǎn)品都有必要用低學(xué)習(xí)成本換取高效率的體驗(yàn)。很多人不愿意做深度閱讀,靠短信獲取信息,不喜歡坐在電腦前玩游戲,而是拿起手機(jī)。人們?cè)絹碓讲辉敢飧冻?,卻希望獲得更簡單更輕松的收獲體驗(yàn)。語音識(shí)別在這方面還有不可克服的困難。
猜想二:以智力為口號(hào),卻靠“沒有智力”生存。
我們?cè)傧胂?。很明顯,語音交互的效率不如傳統(tǒng)操作,但為什么偶爾會(huì)用到呢?我們?cè)谶@里有一個(gè)大膽的猜測:一項(xiàng)標(biāo)榜智能的技術(shù),恰恰相反,因?yàn)椤安粔蛑悄堋?,讓我們自信地使用它?/p>
除了提高效率,人們對(duì)接受新技術(shù)有信任感也非常重要。記得有一部科幻電影,女主人想教機(jī)器人完美識(shí)別人聲并準(zhǔn)確執(zhí)行,從而無限制地放開機(jī)器人的自學(xué)習(xí)模式。最后,機(jī)器人不僅有識(shí)別能力,還有情感轉(zhuǎn)化,可以偷聽,可以講故事,甚至可以吃醋。
目前,我們可以大膽地使用語音識(shí)別技術(shù),因?yàn)樗粔蚵斆?,不夠愚蠢,只能單?dú)接受信息和轉(zhuǎn)換。它沒有學(xué)習(xí)和思考的能力,甚至依賴精確的語句來實(shí)現(xiàn)。而如果一旦語音識(shí)別具備了自我學(xué)習(xí)能力,你對(duì)它的信任度會(huì)和現(xiàn)在一樣嗎?
在其他客觀方面,語音識(shí)別仍然不夠智能。比如跨語言識(shí)別和多輪交互識(shí)別就是一直卡在這項(xiàng)技術(shù)中的難題,這也是語音交互與傳統(tǒng)輸入交互效率的差異。同時(shí),語音交互的“回刪處理”也不好。一旦我輸入了錯(cuò)誤的命令,語音系統(tǒng)也會(huì)運(yùn)行不正常,導(dǎo)致你不得不重新輸入,讓人覺得很煩。
猜想:打破固有的操作習(xí)慣。
提供足夠高的轉(zhuǎn)換效率是所有創(chuàng)新產(chǎn)品成功的必要條件之一,但絕不是唯一的條件。人們并不是一直都需要隱私,各種技術(shù)也在為隱私做創(chuàng)新,比如降噪耳機(jī)等等。然而,語音輸入顯然直接破壞了交互模式的私密性。國外研究機(jī)構(gòu)曾將這種毀滅感稱為“羞恥”。的確,即使你一個(gè)人在車?yán)铮氵€是不想沖著空大喊:酷!大風(fēng)!恒溫!
因此,語音識(shí)別要想挑戰(zhàn)傳統(tǒng)交互,還需要做更多的創(chuàng)新。比如谷歌在今年的開發(fā)者大會(huì)上提出了一個(gè)新的理論:既然我們不想“主動(dòng)培養(yǎng)”語音交互習(xí)慣,技術(shù)能從“被動(dòng)培養(yǎng)”發(fā)展起來嗎?
谷歌理論在現(xiàn)實(shí)中的應(yīng)用會(huì)是這樣的。比如你還是用傳統(tǒng)的方法輸入指令,但指令的轉(zhuǎn)換會(huì)通過語音方式向?qū)Ψ奖磉_(dá)或執(zhí)行。例如,如果你想在周三去理發(fā)店,并在備忘錄中記錄這條消息,那么語音系統(tǒng)可以主動(dòng)打電話來幫助你在理發(fā)店預(yù)訂。比如你在開車的時(shí)候收到一條短信,為了不影響你的安全駕駛,語音系統(tǒng)會(huì)幫你屏蔽鈴聲,提醒你對(duì)方的身份,并通過將文字轉(zhuǎn)換成語音的方式向你報(bào)告。
因?yàn)槲覀冋娴暮茈y去積極培養(yǎng)一個(gè)新的習(xí)慣,就像現(xiàn)在全球還有大量的Windows用戶不愿意學(xué)習(xí)Win10系統(tǒng),繼續(xù)使用Win 7甚至Win XP一樣。雖然前者在效率和功能上遠(yuǎn)遠(yuǎn)超過了后者,但改變習(xí)慣可能是人類本能的一大“硬傷”。
總結(jié):顛覆性的互動(dòng)體驗(yàn)會(huì)帶來顛覆性的變化。
十年前,觸摸屏技術(shù)徹底顛覆了一代產(chǎn)品,無論是手機(jī)還是汽車,為人類提供了一種真正全新的交互方式。除了提高效率和準(zhǔn)確性,觸控還在其他維度上提供了不可估量的創(chuàng)新空,比如UI系統(tǒng),因此可以稱之為顛覆性技術(shù),但顯然語音交互不具備這種能力。同樣,應(yīng)用于車輛的手勢交互現(xiàn)在似乎比語音識(shí)別更尷尬。
下一個(gè)也能帶來顛覆性互動(dòng)的技術(shù)會(huì)是什么?眼控或者腦電波傳輸,但無論任何一種,它都應(yīng)該有能力挑戰(zhàn)以上三種猜測。它的到來絕對(duì)會(huì)是整個(gè)產(chǎn)品線的一次革命。但對(duì)于下一輪汽車技術(shù)的前景,我真的不看好空語音交互會(huì)帶來多大的創(chuàng)新。顯然,這條路線只能作為一些汽車公司炒作噱頭的手段。
點(diǎn)擊此處了解詳情。
>>點(diǎn)擊查看今日優(yōu)惠<<