RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

千萬銷量百億市場，人工智能語音芯片正崛起

作者：寓揚(yáng)

來源：智東西

日期：2017-12-06 11:41:45

摘要：隨著語音交互走向爆發(fā)，一個新興行業(yè)、數(shù)十家芯片公司宣告語音芯片的崛起。

　　隨著智能音箱的火熱以及背后語音交互生態(tài)的成熟，將會帶動越來越多的設(shè)備語音化、智能化，使語音真正成為人機(jī)交互的一個界面。而在語音交互設(shè)備中，語音芯片憑借定制化、低功耗、高能效、端智能以及成本優(yōu)勢等地位越發(fā)重要，成為人與云端“溝通”的橋梁。

　　在智能語音市場，隨著亞馬遜、谷歌等互聯(lián)網(wǎng)巨頭公司的推動，僅僅是智能音箱一個品類今年的全球銷量預(yù)期有望達(dá)到3000萬臺，并陸續(xù)涌現(xiàn)在各個國家，市場呈爆發(fā)之態(tài)。作為語音芯片市場最大的玩家聯(lián)發(fā)科以占據(jù)了70%的市場份額，2017年語音芯片出貨量預(yù)計達(dá)到2000萬片以上。

　　智東西通過調(diào)查梳理發(fā)現(xiàn)，隨著語音交互的涌現(xiàn)，誕生了一個新的語音芯片行業(yè)，數(shù)十家公司參與其中，語音芯片的發(fā)展呈現(xiàn)初期通用組合芯片——語音芯片涌現(xiàn)——語音AI芯片蓄勢待發(fā)的趨勢。通過語音芯片發(fā)展的三階段以及數(shù)十家芯片公司的介紹，智東西為你呈現(xiàn)語音芯片的崛起!

　　▲注以上為智東西不完全統(tǒng)計

　　綜述：語音芯片發(fā)展三階段

　　本文所講的語音芯片側(cè)重于智能語音設(shè)備興起后，專門為語音交互場景打造的SoC芯片(芯片級系統(tǒng)，System on Chip)，它兼具運(yùn)算力和低功耗，支持多通道麥克風(fēng)陣列接口，支持信號處理算法等。

　　在人機(jī)對話的語音交互中，語音識別、語義理解、語音合成、任務(wù)執(zhí)行等都是在云端進(jìn)行。而在終端側(cè)，語音芯片的作用是對智能語音設(shè)備拾取的多通道聲音進(jìn)行處理并傳輸?shù)皆贫?，并將反饋結(jié)果以語音的形式輸出。如果說云端是智能語音設(shè)備的大腦，那么語音芯片就是連接人與“云腦”的橋梁。

　　目前，智能音箱的迅速發(fā)展正成為語音芯片崛起的重要動力。結(jié)合產(chǎn)業(yè)鏈各方消息，智東西此前預(yù)測智能音箱市場規(guī)模在今年年底有望達(dá)到3000萬臺。這意味著僅僅是智能音箱的發(fā)展，就推動語音芯片市場達(dá)到3000萬量級，盡管與以億為計算單位的手機(jī)芯片無法相提并論，但作為一個新興品類，仍處于快速發(fā)展期。

　　在智能音箱這個市場中，聯(lián)發(fā)科、德州儀器、科勝訊、全志科技、杭州國芯、晶晨科技、成都啟英泰倫等芯片廠商都推出相關(guān)的語音芯片，且又以聯(lián)發(fā)科一家獨(dú)大，占據(jù)智能音箱約七成市場份額，粗略計算聯(lián)發(fā)科在2017年語音芯片銷量將達(dá)2000萬片以上。

　　通過對目前市面上語音芯片的觀察，我們發(fā)現(xiàn)語音芯片有以下特點(diǎn)：其一兼具運(yùn)算能力和低功耗的考量，采用最適合做語音處理的CPU(中央處理器);其二是具備高度整合性的語音SoC，支持多通道的麥克風(fēng)陣列接口，集成Codec(多媒體數(shù)字信號編解碼器)模塊/DSP(數(shù)字信號處理)模塊，并且集成WiFi/藍(lán)牙模塊等;其三在語音算法上支持回聲消除、噪聲抑制、聲源定位、語音增強(qiáng)等技術(shù)，或具備良好的音值調(diào)節(jié)功能;其四端智能化，集成神經(jīng)網(wǎng)絡(luò)單元將部分云端訓(xùn)練好的智能本地化工作。

　　通過智東西近期對產(chǎn)業(yè)鏈的采訪以及梳理，根據(jù)語音交互的發(fā)展?fàn)顩r，將語音芯片的發(fā)展歸納為三個階段，第一個階段為語音芯片過渡期，采用通用芯片組合方案;第二個階段為崛起期，語音芯片興起;第三個階段為語音芯片進(jìn)化期，語音AI芯片涌現(xiàn)。

　　第一階段，大約2015年以前盡管智能語音設(shè)備，包括智能音箱、遠(yuǎn)場交互的智能電視等都已出現(xiàn)，但在市場尚未起量的情況下，語音設(shè)備采用的多是通用芯片+Codec芯片/DSP芯片等相結(jié)合的方式實現(xiàn)語音處理，如全志的R16芯片。

　　2015年到2017年之間，隨著智能語音設(shè)備市場規(guī)模進(jìn)一步發(fā)展，專門用于智能家居或智能音箱的語音芯片開始陸續(xù)亮相，包括聯(lián)發(fā)科推出的MT8516芯片、科勝訊的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。

　　此外，隨著智能語音設(shè)備的迅速發(fā)展，對于端智能的需求也在顯現(xiàn)，語音AI芯片應(yīng)運(yùn)而生。端智能是近兩年來AI領(lǐng)域大火的概念之一，指的是數(shù)據(jù)的采集、計算、決策都在前端設(shè)備進(jìn)行，優(yōu)勢在于穩(wěn)定、時延小、同時能夠保護(hù)用戶隱私等。如杭州國芯推出的GX8010和啟英泰倫推出的CI1006都屬于語音AI芯片。

　　前期：通用芯片組合搭配

　　在智能語音設(shè)備的市場早期階段，由于芯片研發(fā)漫長的周期(一般需要18~24個月)，高昂的研發(fā)投入，因此在市場規(guī)模尚不大的情況下，市場并沒有專門的語音芯片應(yīng)用到智能語音設(shè)備中。

　　2010年6月微軟推出的Kinect體感周邊設(shè)備、2012年三星推出的遠(yuǎn)講語音電視、2014年秋亞馬遜推出的智能音箱Echo以及2015年京東&科大訊飛推出的叮咚音箱等是智能語音設(shè)備的早期代表，它們采用的多是通用芯片(AP芯片/平板芯片等)+Codec芯片/DSP芯片等組合的方式，由Codec芯片進(jìn)行模擬信號的數(shù)字信號的抓換，DSP部分對數(shù)字信號進(jìn)行處理，包括回聲消除、噪聲抑制、語音降噪/增強(qiáng)等，使語音便于后端的語音識別，再由通用芯片進(jìn)行處理傳輸?shù)皆贫颂峁┱Z音處理的計算力支持。

　　以亞馬遜Echo為例，2014年秋天亞馬遜推出智能音箱Echo，最初使用的是TI(德州儀器)的DM3725數(shù)字媒體處理器，該芯片之前主要應(yīng)用在多媒體設(shè)備、視頻機(jī)頂盒、游戲終端等，在進(jìn)行語音傳輸處理時，仍需要搭配Codec芯片。在早期的Ehco中，亞馬遜使用TI的DM3725(數(shù)字媒體處理器)+TI的ADC(模數(shù)轉(zhuǎn)換器)來實現(xiàn)。

　　▲德州儀器DM3725芯片

　　后來或許是處于成本以及其他考慮，亞馬遜的一些產(chǎn)品開始使用聯(lián)發(fā)科MT8563芯片，這款芯片同樣不是語音專用芯片。直到今年Q2季度，聯(lián)發(fā)科推出了MT8516才算真正意義上的語音芯片。

　　另外一個例子是國內(nèi)早期智能音箱的代表叮咚音箱，最初國內(nèi)也沒有專用語音芯片，采用的是全志科技R16芯片+科勝訊Codec芯片的方式進(jìn)行語音處理，而全志R16之前則是用于平板的芯片。

　　在語音交互場景的早期，智能設(shè)備并無太多銷量，即使看到了這一潛在機(jī)會，研發(fā)一款專用芯片的時間成本、投資成本都決定了在最初一段時間，智能設(shè)備需要使用通用芯片或其他芯片作為過渡期。

　　中小語音芯片廠商涌現(xiàn)

　　隨著智能語音設(shè)備銷量不斷增長，典型的就是2016年以來，以亞馬遜Echo為代表的智能音箱市場規(guī)模的不斷擴(kuò)大，專用的語音芯片也開始出現(xiàn)，2016年又剛好是語音芯片興起最集中的一年。

　　其實早在2013年7月國內(nèi)首顆專用語音芯片就誕生了，它由四川長虹和中科院聲學(xué)所付強(qiáng)(現(xiàn)為先聲互聯(lián)創(chuàng)始人)團(tuán)隊共同研發(fā)。新研發(fā)出的長虹語音芯片的優(yōu)勢是在語音識別的基礎(chǔ)上，融合了多方面的語音增強(qiáng)功能，包括語音降噪、回聲消除、波束形成等，支持低功耗喚醒，能夠?qū)崿F(xiàn)遠(yuǎn)場語音采集?？赡芤驗樗拇ㄩL虹的一些原因，這款芯片在研發(fā)出后并沒有投入生產(chǎn)，之后就不了了之。

　　2015年以后語音芯片就開始陸續(xù)興起，包括聯(lián)發(fā)科MT8516、科勝訊CX20924、晶晨半導(dǎo)體A113、瑞芯微RK3036、北京君正X1000等公司,如聯(lián)發(fā)科推出了MT8516應(yīng)用在了阿里天貓精靈上，晶晨A113應(yīng)用在了小米AI音箱上。

　　▲阿里天貓精靈主控板上使用的聯(lián)發(fā)科MT8516芯片

　　整體來說，這些語音芯片都是面向智能音箱以及智能家居場景打造的專用芯片，支持多通道麥克風(fēng)陣列接口，采用適合做語音處理的CPU;在語音算法上支持回聲消除、噪聲抑制、聲源定位、語音增強(qiáng)等技術(shù)，并兼具運(yùn)算能力和低功耗的考量。

　　但有趣的是，除了聯(lián)發(fā)科外，都是一些中小芯片公司推出語音芯片，像高通、英特爾等巨頭芯片公司并沒有推出語音芯片?？紤]到聯(lián)發(fā)科過去做DVD的光驅(qū)起家，多媒體一直是其核心技術(shù)，在語音芯片上跟進(jìn)不足為怪。而高通、英特爾等并未在語音芯片上跟進(jìn)，一方面反應(yīng)出相對于手機(jī)、電腦而言，語音芯片市場目前規(guī)模較小，并沒有引起巨頭玩家的重視;另一方面也反應(yīng)出他們在語音芯片布局上進(jìn)展較慢，如高通在今年6月份還專門發(fā)布了一個智能語音平臺，正是從另一方面彌補(bǔ)在語音芯片研發(fā)上的緩慢。

　　此外，智東西還了解到，全志科技會在2018年初推出一款專用的語音芯片，聯(lián)發(fā)科也會在明年推出更具競爭力的語音芯片。

　　語音AI芯片蓄勢待發(fā)

　　隨著華為麒麟970芯片以及蘋果A11芯片的推出，AI芯片成為行業(yè)熱議的話題。所謂AI芯片也被稱為AI加速器或計算卡，即專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé))，從而實現(xiàn)端側(cè)智能。

　　目前無論是智能音箱還是其他智能設(shè)備，更多的智能都是在云端來實現(xiàn)，但云端存在著語音交互“時延”的問題，對網(wǎng)絡(luò)的需求限制了設(shè)備的使用空間，以及由此帶來的數(shù)據(jù)與隱私危機(jī)。為了讓設(shè)備使用場景不受局限，用戶體驗更好，端側(cè)智能以成為一種趨勢，語音AI芯片也隨之而來。

　　2016年以來，語音AI芯片也開始走進(jìn)大家的視野。成都啟英泰倫在去年推出CI1006，杭州國芯在今年10月底推出GX8010，都是語音AI芯片。

　　▲杭州國芯GX8010芯片

　　對比語音芯片，語音AI芯片具備以下特點(diǎn)：首先語音AI芯片中集成了專用的AI處理器模塊，用以對本地的機(jī)器學(xué)習(xí)算法進(jìn)行加速;其二高度集成，語音AI芯片不但集成CPU、AI處理器，還會將DSP信號處理、WiFi/藍(lán)牙等模塊集成進(jìn)去;其三能夠?qū)崿F(xiàn)端側(cè)智能，將一些常用或者簡單的功能直接集成到本地，通過AI芯片進(jìn)行本地計算，從而設(shè)備可以在端側(cè)離線完成如聽音樂、日常問答及閑聊等任務(wù)，實現(xiàn)更快的交互能力。

　　再考慮到用戶體驗以及數(shù)據(jù)隱私等問題，更快的交互體驗以及更多本地計算會是一種趨勢，隨著智能語音場景的爆發(fā)，語音AI芯片也會迅速發(fā)展。

　　但目前的AI芯片更多的在于手機(jī)和視覺應(yīng)用領(lǐng)域，一方面手機(jī)市場體量足夠龐大，另一方面視覺應(yīng)用技術(shù)也相對成熟。而在語音領(lǐng)域，一方面語義理解技術(shù)短期內(nèi)很難突破，另外智能語音是一個新興市場，智能音箱作為典型爆款產(chǎn)品，今年全球整體市場規(guī)模也不過2500萬~3000萬臺之間，而這些都導(dǎo)致了語音AI芯片進(jìn)展相對緩慢。

　　聯(lián)發(fā)科副總經(jīng)理暨家庭娛樂產(chǎn)品事業(yè)群總經(jīng)理游人杰曾對智能語音的發(fā)展提出一個三階段論的觀點(diǎn)，他認(rèn)為智能語音的第一階段是智能音箱的普及，第二階段是更多智能語音設(shè)備的出現(xiàn)，語音成為人機(jī)交互的界面，第三階段就是端側(cè)智能，通過語音AI芯片來實現(xiàn)更多本地計算，提供用戶更好的交互體驗。

　　不難看出，我們目前還處于第一階段，需要推動智能音箱的普及以及更多智能設(shè)備的出現(xiàn)，從而推動語音交互界面的到來。只有當(dāng)語音成為一種交互界面，才意味著整個智能語音市場的爆發(fā)，才會有更多的巨頭芯片廠商以及中小芯片商涌入其中。

　　而針對當(dāng)下智能語音設(shè)備所需的智能化，游人杰談到，CPU本身可以做一些“輕”AI的功能，如果本地需要很強(qiáng)的AI能力，目前則會在語音芯片的基礎(chǔ)上外置一個AI處理器來實現(xiàn)。此外游人杰也透露，聯(lián)發(fā)科語音AI芯片的推出尚需1~2年時間。

　　相比一款新型芯片研發(fā)的高昂成本，在對算力有很大需求的產(chǎn)品上，通過添加一個獨(dú)立的AI處理器模塊，確實可以快速滿足產(chǎn)品端對AI能力的需求，并且緩解了芯片產(chǎn)品漫長的研發(fā)周期(一般18~24個月)。從時間來看，隨著智能語音的興起，未來1~2年后可能將會是語音芯片爆發(fā)的高峰期。

　　語音芯片帶動新興行業(yè)

　　有分析認(rèn)為，到2020年AI芯片市場規(guī)模將達(dá)到146.16億美元，約占全球人工智能市場規(guī)模12.18%。隨著人工智能的火熱，以GPU(圖形處理器) 、FPGA(現(xiàn)場可編程門陣列) 、ASIC(為專門目的而設(shè)計的集成電路)為代表的AI芯片類別均將獲得快速發(fā)展，語音芯片/語音AI芯片也會在這個過程中受益并爆發(fā)，在此過程中會誕生一個新興的語音芯片行業(yè)，以及一波語音芯片公司。

　　根據(jù)游人杰智能語音發(fā)展的三階段論，目前我們還處于第一階段的智能音箱普及期，先通過一款爆款產(chǎn)品來引爆整個語音交互行業(yè)，并由此推動家庭場景、辦公場景等的語音智能化，使語音成為人機(jī)交互的一個界面，才能真正推動語音芯片的爆發(fā)，以及演進(jìn)到語音AI芯片。

　　僅僅是今年全球智能音箱市場銷量預(yù)計有望達(dá)到3000萬臺，隨著語音交互進(jìn)一步爆發(fā)，場景進(jìn)一步開拓，智能語音設(shè)備將快速進(jìn)入億級規(guī)模市場，可見無論是當(dāng)下的語音芯片還是即將到來的語音AI芯片，都將有廣闊的市場空間。

　　由于當(dāng)下智能語音市場規(guī)模相對較小，相比芯片研發(fā)的高成本投入，像高通、英偉達(dá)、英特爾等芯片巨頭或是并不看好這塊市場或是語音芯片研發(fā)進(jìn)展緩慢，給予了更多中小芯片廠商發(fā)展的機(jī)會。

　　目前在語音芯片行業(yè)已涌現(xiàn)出數(shù)十家公司在這一領(lǐng)域“開疆?dāng)U土”，包括聯(lián)發(fā)科、杭州國芯、全志科技、晶晨半導(dǎo)體、啟英泰倫等，既有芯片領(lǐng)域的大公司，面向智能家居、消費(fèi)電子領(lǐng)域的國有芯片品牌，還有新興的創(chuàng)業(yè)公司。正是語音交互的興起，為他們在既有業(yè)務(wù)之外，提供了一個新的經(jīng)濟(jì)增長點(diǎn)，并且隨著語音交互的爆發(fā)，這一領(lǐng)域甚至?xí)Q生下一個巨頭芯片公司。

　　可以預(yù)見的是，2018年會有更多語音芯片的誕生，在未來1~2年，語音AI芯片也將進(jìn)一步發(fā)展迎來爆發(fā)期。

　　結(jié)語：語音芯片的崛起

　　隨著語音交互設(shè)備的誕生發(fā)展，芯片也經(jīng)歷著從通用組合芯片到語音芯片再到語音AI芯片的演進(jìn)。隨著語音交互的爆發(fā)，語音真正成為人機(jī)交互的界面，語音芯片也將成爆發(fā)之態(tài)。

　　但與此同時，語音與視覺也將會走向融合，畢竟多元的交互方式才更符合人性的體驗。在語音芯片崛起后，“語音+屏幕”相結(jié)合的交互方式也是業(yè)界更加認(rèn)可的一種趨勢。