來(lái)源:巨靈鳥(niǎo)軟件 作者:進(jìn)銷存軟件 發(fā)布:2017/5/11 瀏覽次數(shù):5014
語(yǔ)音識(shí)別的產(chǎn)業(yè)歷程
語(yǔ)音識(shí)別這半個(gè)多世紀(jì)的產(chǎn)業(yè)歷程中,其中共有三個(gè)關(guān)鍵節(jié)點(diǎn),兩個(gè)和技術(shù)有關(guān),一個(gè)和應(yīng)用有關(guān)。第一個(gè)關(guān)鍵節(jié)點(diǎn)是 1988 年的一篇博士論文,開(kāi)發(fā)了第一個(gè)基于隱馬爾科夫模型(HMM)的語(yǔ)音識(shí)別系統(tǒng)—— Sphinx,當(dāng)時(shí)實(shí)現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開(kāi)復(fù)。
從 1986 年到 2010 年,雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語(yǔ)音識(shí)別中,并且確實(shí)提升了語(yǔ)音識(shí)別的效果,但實(shí)際上語(yǔ)音識(shí)別已經(jīng)遭遇了技術(shù)天花板,識(shí)別的準(zhǔn)確率很難超過(guò) 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經(jīng)推出和語(yǔ)音識(shí)別相關(guān)的軟件,但最終并未取得成功。
第二個(gè)關(guān)鍵節(jié)點(diǎn)是 2009 年深度學(xué)習(xí)被系統(tǒng)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域中。這導(dǎo)致識(shí)別的精度再次大幅提升,最終突破 90%,并且在標(biāo)準(zhǔn)環(huán)境下逼近 98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,比如 Siri、Google Assistant 等,但與其引起的關(guān)注度相比,這些產(chǎn)品實(shí)際取得的成績(jī)則要遜色得多。Siri 剛一面世的時(shí)候,時(shí)任 Google CEO 的施密特就高呼,這會(huì)對(duì) Google 的搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實(shí)上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。
第三個(gè)關(guān)鍵點(diǎn)正是 Amazon Echo 的出現(xiàn),純粹從語(yǔ)音識(shí)別和自然語(yǔ)言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對(duì)于 Siri 等并未有什么本質(zhì)性改變,核心變化只是把近場(chǎng)語(yǔ)音交互變成了遠(yuǎn)場(chǎng)語(yǔ)音交互。Echo 正式面世于2015年6月,到 2017 年銷量已經(jīng)超過(guò)千萬(wàn),同時(shí)在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態(tài),其后臺(tái)的第三方技能已經(jīng)突破 10000 項(xiàng)。借助落地時(shí)從近場(chǎng)到遠(yuǎn)場(chǎng)的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)領(lǐng)導(dǎo)者。
但自從遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)規(guī)模落地以后,語(yǔ)音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)已經(jīng)開(kāi)始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰(shuí)更有優(yōu)勢(shì),而應(yīng)用比較的是在真實(shí)場(chǎng)景下誰(shuí)的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場(chǎng)景下的體驗(yàn),語(yǔ)音識(shí)別便失去獨(dú)立存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。
所以到 2019 年,語(yǔ)音識(shí)別似乎進(jìn)入了一個(gè)相對(duì)平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋(píng)果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過(guò)后紛紛開(kāi)始反思自己的定位和下一步的打法。
語(yǔ)音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種大躍進(jìn)的姿態(tài)出現(xiàn)在大眾面前。2016 年以前,智能音箱玩家們對(duì)這款產(chǎn)品的認(rèn)識(shí)還都停留在:亞馬遜出了一款叫 Echo 的產(chǎn)品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點(diǎn)是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬(wàn)的美國(guó)銷量讓整個(gè)世界震驚。這是智能設(shè)備從未達(dá)到過(guò)的高點(diǎn),在 Echo 以前除了 Apple Watch 與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬(wàn)銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國(guó)內(nèi)各大巨頭幾乎是同時(shí)轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱。
未來(lái),回看整個(gè)發(fā)展歷程,2019 年是一個(gè)明確的分界點(diǎn)。在此之前,全行業(yè)是突飛猛進(jìn),但 2019 年之后則開(kāi)始進(jìn)入對(duì)細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點(diǎn)也不再是單純的技術(shù)指標(biāo),而是回歸到體驗(yàn),回歸到一種“新的交互方式到底能給我們帶來(lái)什么價(jià)值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進(jìn)行交互結(jié)合,比如人物形象;流程自動(dòng)化是否要與語(yǔ)音結(jié)合;酒店場(chǎng)景應(yīng)該如何使用這種技術(shù)來(lái)提升體驗(yàn),諸如此類最終都會(huì)一一呈現(xiàn)在從業(yè)者面前。而此時(shí)行業(yè)的主角也會(huì)從原來(lái)的產(chǎn)品方過(guò)渡到平臺(tái)提供方,AIoT 縱深過(guò)大,沒(méi)有任何一個(gè)公司可以全線打造所有的產(chǎn)品。
語(yǔ)音識(shí)別的產(chǎn)業(yè)趨勢(shì)
當(dāng)語(yǔ)音產(chǎn)業(yè)需求四處開(kāi)花的同時(shí),行業(yè)的發(fā)展速度反過(guò)來(lái)會(huì)受限于平臺(tái)服務(wù)商的供給能力。跳出具體案例來(lái)看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個(gè)點(diǎn)的投入產(chǎn)出是否達(dá)到一個(gè)普遍接受的界限。
離這個(gè)界限越近,行業(yè)就越會(huì)接近滾雪球式發(fā)展的臨界點(diǎn),否則整體增速就會(huì)相對(duì)平緩。不管是家居、酒店、金融、教育或者其他場(chǎng)景,如果解決問(wèn)題都是非常高投入并且長(zhǎng)周期的事情,那對(duì)此承擔(dān)成本的一方就會(huì)猶豫,這相當(dāng)于試錯(cuò)成本過(guò)高。如果投入后,沒(méi)有可感知的新體驗(yàn)或者銷量促進(jìn),那對(duì)此承擔(dān)成本的一方也會(huì)猶豫,顯然這會(huì)影響值不值得上的判斷。而這兩個(gè)事情,歸根結(jié)底都必須由平臺(tái)方解決,產(chǎn)品方或者解決方案方對(duì)此無(wú)能為力,這是由智能語(yǔ)音交互的基礎(chǔ)技術(shù)特征所決定。
從核心技術(shù)來(lái)看,整個(gè)語(yǔ)音交互鏈條有五項(xiàng)單點(diǎn)技術(shù):?jiǎn)拘选Ⅺ溈孙L(fēng)陣列、語(yǔ)音識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成,其它技術(shù)點(diǎn)比如聲紋識(shí)別、哭聲檢測(cè)等數(shù)十項(xiàng)技術(shù)通用性略弱,但分別出現(xiàn)在不同的場(chǎng)景下,并會(huì)在特定場(chǎng)景下成為關(guān)鍵。看起來(lái)關(guān)聯(lián)的技術(shù)已經(jīng)相對(duì)龐雜,但切換到商業(yè)視角我們就會(huì)發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗(yàn)上佳的產(chǎn)品仍然有絕大距離。
所有語(yǔ)音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來(lái)打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺(tái),逐項(xiàng)整合具體的內(nèi)容(比如音樂(lè)、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來(lái)看是不可接受的。這時(shí)候就會(huì)催生相應(yīng)的平臺(tái)服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問(wèn)題,最終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。
平臺(tái)服務(wù)并不需要閉門(mén)造車,平臺(tái)服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI+IOT 的特征,也是有所參照的,亞馬遜過(guò)去近 10 年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進(jìn)行平臺(tái)化,面向設(shè)備端和技能端同步開(kāi)放SDK和調(diào)試發(fā)布平臺(tái)。雖然 Google Assistant 號(hào)稱單點(diǎn)技術(shù)更為領(lǐng)先,但從各方面的結(jié)果來(lái)看 Alexa 是當(dāng)之無(wú)愧的最為領(lǐng)先的系統(tǒng)平臺(tái),可惜的是 Alexa 并不支持中文以及相應(yīng)的后臺(tái)服務(wù)。
國(guó)內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺(tái)提供商,當(dāng)前的平臺(tái)提供商分為兩個(gè)陣營(yíng):一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來(lái)、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。
類比過(guò)去的 Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過(guò)程可能會(huì)更加的曲折。過(guò)去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。
過(guò)去的 Linux 以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以 Alexa 為代表的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出最終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系,不同的 AIoT 硬件產(chǎn)品在傳感器(深度攝像頭、雷達(dá)等)、顯示器上(有屏、無(wú)屏、小屏、大屏等)具有巨大差異,這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和 Linux 的分化相對(duì)應(yīng))。這反過(guò)來(lái)也就意味著一套智能型系統(tǒng),必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。
這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開(kāi)發(fā)者。這里面蘊(yùn)含著巨大的挑戰(zhàn)和機(jī)遇。在過(guò)去功能型操作系統(tǒng)的打造過(guò)程中,國(guó)內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來(lái)從頭打造完整的系統(tǒng)。(國(guó)外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實(shí)上都非常薄弱,不存在侵略國(guó)內(nèi)市場(chǎng)的可能性)
隨著平臺(tái)服務(wù)商兩邊的問(wèn)題解決的越來(lái)越好,基礎(chǔ)的計(jì)算模式則會(huì)逐漸發(fā)生改變,人們的數(shù)據(jù)消費(fèi)模式會(huì)與今天不同。個(gè)人的計(jì)算設(shè)備(當(dāng)前主要是手機(jī)、筆記本、Pad)會(huì)根據(jù)不同場(chǎng)景進(jìn)一步分化。比如在車上、家里、酒店、工作場(chǎng)景、路上、業(yè)務(wù)辦理等會(huì)根據(jù)地點(diǎn)和業(yè)務(wù)進(jìn)行分化。但分化的同時(shí)背后的服務(wù)則是統(tǒng)一的,每個(gè)人可以自由的根據(jù)場(chǎng)景做設(shè)備的遷移,背后的服務(wù)雖然會(huì)針對(duì)不同的場(chǎng)景進(jìn)行優(yōu)化,但在個(gè)人偏好這樣的點(diǎn)上則是統(tǒng)一的。
人與數(shù)字世界的接口,在現(xiàn)在越來(lái)越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機(jī)),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會(huì)越來(lái)越統(tǒng)一于系統(tǒng)本身。作為結(jié)果這會(huì)帶來(lái)數(shù)據(jù)化程度的持續(xù)加深,我們?cè)絹?lái)越接近一個(gè)百分百數(shù)據(jù)化的世界。
總結(jié)
從技術(shù)進(jìn)展和產(chǎn)業(yè)發(fā)展來(lái)看,語(yǔ)音識(shí)別雖然還不能解決無(wú)限制場(chǎng)景、無(wú)限制人群的通用識(shí)別問(wèn)題,但是已經(jīng)能夠在各個(gè)真實(shí)場(chǎng)景中普遍應(yīng)用并且得到規(guī)模驗(yàn)證。更進(jìn)一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場(chǎng)景越多,得到的真實(shí)數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語(yǔ)音識(shí)別技術(shù)快速進(jìn)步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實(shí)際問(wèn)題,這也是語(yǔ)音識(shí)別相對(duì)其他 AI 技術(shù)最為明顯的優(yōu)勢(shì)。
不過(guò),我們也要看到,語(yǔ)音識(shí)別的內(nèi)涵必須不斷擴(kuò)展,狹義語(yǔ)音識(shí)別必須走向廣義語(yǔ)音識(shí)別,致力于讓機(jī)器聽(tīng)懂人類語(yǔ)言,這才能將語(yǔ)音識(shí)別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來(lái)人工智能發(fā)展的主流趨勢(shì)。在這種趨勢(shì)下,我們還有很多未來(lái)的問(wèn)題需要探討,比如鍵盤(pán)、鼠標(biāo)、觸摸屏和語(yǔ)音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?
本文得到眾多語(yǔ)音識(shí)別領(lǐng)域?qū)<业闹笇?dǎo),并引用了一些參考資料的配圖,在此表示感謝,本文中的不足之處還請(qǐng)批評(píng)指正。
來(lái)源:巨靈鳥(niǎo) 歡迎分享本文
上一個(gè)文章:技術(shù)一旦被用來(lái)作惡,究竟會(huì)有多可怕(一)
下一個(gè)文章:云計(jì)算數(shù)據(jù)中心綜合布線的七大發(fā)展趨勢(shì)