物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

語音識別不好用?因為它還是個孩子?。?/h1>
作者:本站收錄
來源:中關(guān)村在線
日期:2017-05-09 09:26:53
摘要:這年頭,什么都系不帶上智能元素,似乎都賣不出去了,就算再高端的家居互聯(lián)系統(tǒng),如果不帶語音控制,照樣像段子里如來嘲笑玉皇大帝那樣被嫌棄。語音識別、語音控制對我們大家來說都不算新鮮的東西,但這一功能現(xiàn)在更多的功能還是為了提升產(chǎn)品的逼格,而真正得到使用的少之又少。究其原因,還是不好用。
關(guān)鍵詞:生物識別語音識別

  口音對語音系統(tǒng)來說是個難題

  這年頭,什么都系不帶上智能元素,似乎都賣不出去了,就算再高端的家居互聯(lián)系統(tǒng),如果不帶語音控制,照樣像段子里如來嘲笑玉皇大帝那樣被嫌棄。語音識別、語音控制對我們大家來說都不算新鮮的東西,但這一功能現(xiàn)在更多的功能還是為了提升產(chǎn)品的逼格,而真正得到使用的少之又少。究其原因,還是不好用。

口音對語音系統(tǒng)來說是個難題

  語音識別功能被廣泛普及 但使用者少之又少

  智能生活、智能人機交互的理念在很早之前就被提出,甚至在不少影視作品中都出現(xiàn)了能夠直接通過語音控制的設(shè)備、系統(tǒng),尤其無論使用者在多么嘈雜的環(huán)境中,語音識別系統(tǒng)都能快速、準確的識別使用者的語音。

口音對語音系統(tǒng)來說是個難題

  電影中的人工智能無論是對話還是講笑話無所不能

  那么,我們現(xiàn)在的語音識別技術(shù)發(fā)展到了什么程度?現(xiàn)在確實有非常多的智能設(shè)備都使用了語音操控的功能,但是無論是蘋果的Siri還是亞馬遜的Alexa,亦或是各家廠商推出的智能設(shè)備,在宣傳自己產(chǎn)品時都宣稱自己的語音識別系統(tǒng)識別率多高,內(nèi)置了多少種語言,但在用戶使用時,會非常普遍的出現(xiàn)無法識別的問題。并且這一問題出現(xiàn)的范圍非常廣泛,不僅僅只發(fā)生在小廠家身上,前段時間一個美國用戶向亞馬遜投訴Alexa系統(tǒng),原因是Alexa無法識別她母親稍帶口音的英文。

語音識別不好用?因為它還是個孩子啊!

  “罪魁禍首”Alexa

  為了驗證這個問題,筆者在辦公室里請同事們用方言、外語無限轟炸筆者的蘋果Siri,發(fā)現(xiàn)在設(shè)定普通話后,Siri完全無法識別各種方言,無論是閩南語、四川話、粵語甚至連與普通話非常相近的北京話也無法有效識別,就更不要提其他語種的語言了。

  那么,為什么本應(yīng)該非常好用的語音識別系統(tǒng)變得這么弱?最主要的原因就是,方言和口音太多了,我們先不說外語語系里都有多少種方言,就說中國就有多少種方言?如果是與普通話比較相近的方言還好,真遇上如閩南語、紹興話、馬鞍山話之類比較難懂的方言,什么樣的語音識別系統(tǒng)都沒辦法。

語音識別不好用?因為它還是個孩子??!

  從“倒鴨子”上就能看出口音對語音識別系統(tǒng)的影響

  即使語音識別系統(tǒng)想收錄這些方言也不是一件簡單的事兒,畢竟方言種類真的很多,光是大的語言分類就有官話、晉語、湘語、贛語、吳語、閩語、粵語、客語八種,每種大類方言下面又有多種區(qū)域性的方言,還有一些因為族群遷移與地方方言結(jié)合的變種方言,單從數(shù)量上來講,收錄這些語言就是一項非常龐大的工作。但如果硬性要求所有的用戶都說普通話,也是比較不現(xiàn)實的,首先中國普通話多少年了?在北京的街頭上依然能聽到各種各樣的方言。另外,學習普通話,對于年輕人來說可能不是什么太大的問題,對于年齡稍大一點的用戶來說,重新學習一種新的語言完全不現(xiàn)實。

  陷入兩難境地的語音系統(tǒng)

  從用戶使用的角度來說,現(xiàn)有的語音識別系統(tǒng)存在較大的矛盾,年輕人能夠比較快的接受新生事物,對新出現(xiàn)的智能產(chǎn)品、系統(tǒng)能夠以較快的速度接受,語音識別系統(tǒng)對他們來說只是一種讓操作更加快捷或更加節(jié)省時間的操作模式。而年齡較大的用戶,他們并不能較快的接受新的智能產(chǎn)品,在操作時會遇到各種各樣的問題(各位想想,父母有沒有在我們回家的時候舉著手機說有什么功能不會用了,讓我們教他們用),他們會更加希望依賴操作和理解起來都比較簡單的語音操作。但是上邊我們也說過了,這些年齡較大的用戶在學習普通話這件事上同樣困難重重,所以本應(yīng)非常好用的語音系統(tǒng)對于他們來說同樣不好用。

語音識別不好用?因為它還是個孩子??!

  事實上 真正需要語音識別系統(tǒng)的是年齡較大的用戶

  如果單獨是因為口音問題,現(xiàn)在這么多在研究語音識別系統(tǒng)的公司,如果合作起來,只要資源共享,這應(yīng)該不是個問題。那么,制約語音識別發(fā)展的最主要原因來了,各家公司語音識別系統(tǒng)的源數(shù)據(jù)并不共享。語音識別中最重要的就是對語音的采集和分析,這是項工作量非常龐大的內(nèi)容,如果想要構(gòu)建支持不同口音的語音識別系統(tǒng),這一工作量還將呈幾何倍數(shù)驟增。所以,即使是對于蘋果或亞馬遜這樣的超大型公司來說,也不可能支持無限語種的采集和分析。因此,各家研究語音識別系統(tǒng)的公司對源數(shù)據(jù)的保密控制堪稱苛刻,想弄到其他公司的語音源數(shù)據(jù)也是根本不可能的。

語音識別不好用?因為它還是個孩子啊!

  語音采集是一項非常繁復(fù)的工作

  除去口音問題和源數(shù)據(jù)不共享的問題,語音識別系統(tǒng)的分析能力和云計算能力也是嚴重制約語音發(fā)展的重要因素。當用戶在使用語音系統(tǒng)時,設(shè)備端收集到語音,需要通過識別系統(tǒng)的云計算能力進行運算和分析。云計算能力和支持云計算的硬件、傳輸網(wǎng)絡(luò)都不是一個非常好解決的問題,需要較長時間的積累不斷完善優(yōu)化。

 
  或許我們很快就能看到真正智能的語音識別系統(tǒng)

  很多人都覺得現(xiàn)在使用的語音識別系統(tǒng)并不好用,完全達不到我們想象中那種能夠僅憑借語音就能實現(xiàn)所有操作,或者能夠幫我們節(jié)約大量時間的程度。更多時候,我們會感覺面對的不適一個智能的語音識別系統(tǒng),而是家中聽不懂我們在說什么的寵物或者小孩子,需要我們放慢語氣、用最標準的普通話、一遍一遍的和他們慢慢說。不過別著急,現(xiàn)在的語音識別系統(tǒng)還真就是個孩子,它正在以非??斓乃俣冗M步著,相信不久以后,真正好用的語音識別系統(tǒng)就會出現(xiàn)在我們身邊。

人物訪談