物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

揭秘百度聲紋解鎖技術(shù) 讓君子動(dòng)口不動(dòng)手

作者:RFID世界網(wǎng) 收錄
來(lái)源:中國(guó)信息產(chǎn)業(yè)網(wǎng)
日期:2012-12-26 09:08:10
摘要:2012年12月,搭載百度云智能操作系統(tǒng)的聯(lián)想A586手機(jī)上市,其也是全球首款具有聲紋解鎖功能的智能手機(jī)?!洞笤捨饔巍分械摹爸ヂ殚_門”成為現(xiàn)實(shí)——手機(jī)能夠智能辨識(shí)主人的聲音進(jìn)行解鎖,一根手指頭都不用動(dòng)。如此炫酷的語(yǔ)音智能控制功能,技術(shù)上是如何實(shí)現(xiàn)的?百度工程師將為我們揭秘。

  2012年12月,搭載百度云智能操作系統(tǒng)的聯(lián)想A586手機(jī)上市,其也是全球首款具有聲紋解鎖功能的智能手機(jī)。《大話西游》中的“芝麻開門”成為現(xiàn)實(shí)——手機(jī)能夠智能辨識(shí)主人的聲音進(jìn)行解鎖,一根手指頭都不用動(dòng)。如此炫酷的語(yǔ)音智能控制功能,技術(shù)上是如何實(shí)現(xiàn)的?百度工程師將為我們揭秘。

  聲紋,每個(gè)人的聲音身份證

  什么是“聲紋”(Voiceprint)?借用“指紋”去理解也許容易些,反正是每個(gè)人獨(dú)一無(wú)二的。

  我們都有這樣的直觀感受,每個(gè)人說(shuō)話,語(yǔ)聲都不一樣。因?yàn)槿说陌l(fā)聲器官,包括聲帶、軟顎、舌頭、牙齒、唇等,存在著大小、形態(tài)及功能上的差異。這些差異會(huì)導(dǎo)致發(fā)聲氣流的改變,造成音質(zhì)、音色的差別。此外,人發(fā)聲的習(xí)慣亦有快有慢,用力有大有小,也造成音強(qiáng)、音長(zhǎng)的差別。音高、音強(qiáng)、音長(zhǎng)、音色在語(yǔ)言學(xué)中被稱為語(yǔ)音“四要素”,這些因素又可分解成九十余種特征。這些特征表現(xiàn)了不同聲音的不同波長(zhǎng)、頻率、強(qiáng)度、節(jié)奏。而語(yǔ)圖儀可以把聲波的變化轉(zhuǎn)換成電訊號(hào)的強(qiáng)度、波長(zhǎng)、頻率、節(jié)奏變化,儀器又把這些電訊號(hào)的變化繪制成波譜圖形,就成了聲紋圖。

  總體而言,聲紋是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜?,F(xiàn)代科學(xué)研究表明,聲紋不僅具有特定性,而且有相對(duì)穩(wěn)定性的特點(diǎn)。成年以后,人的聲音可保持長(zhǎng)期相對(duì)穩(wěn)定不變。實(shí)驗(yàn)證明,無(wú)論講話者是故意模仿他人聲音和語(yǔ)氣,還是耳語(yǔ)輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終相同。通俗來(lái)說(shuō),聲紋就是人的聲音的身份證。

  百度聲紋解鎖技術(shù)原理:建立聲紋VS聲紋識(shí)別

  實(shí)際上,百度聲紋解鎖的原理也牽涉到兩個(gè)階段的應(yīng)用。第一是聲紋注冊(cè),也就是通過(guò)用戶的互動(dòng),建立一個(gè)語(yǔ)音的身份證;其二,就是聲紋識(shí)別,通過(guò)既有的聲紋模型與當(dāng)前的用戶語(yǔ)音對(duì)比,看看是不是手機(jī)真正的主人。

  在聲紋注冊(cè)階段,用戶需要對(duì)著手機(jī)念一段文字或者數(shù)字,當(dāng)然,為了排除用戶情緒的失控(比如第一次玩聲紋解鎖的哥們、妹妹們),具備百度聲紋解鎖功能的手機(jī)會(huì)要求用戶重復(fù)輸入同樣的語(yǔ)音三次,這有點(diǎn)類似于我們?cè)O(shè)定密碼中的兩次輸入。

  在聲紋識(shí)別階段,用戶只需要輸入注冊(cè)時(shí)使用的語(yǔ)音,通過(guò)手機(jī)系統(tǒng)的驗(yàn)證,就能超酷炫的語(yǔ)音解鎖登錄了。這時(shí),語(yǔ)音解鎖是怎么工作的呢?它對(duì)當(dāng)前用戶的語(yǔ)音(姑且稱之為這個(gè)家伙)進(jìn)行處理,并對(duì)數(shù)據(jù)庫(kù)中的模型(主人)進(jìn)行匹配。結(jié)果其實(shí)就是兩種:一,如果“這個(gè)家伙”=“主人”,放行;二,如果“這個(gè)家伙”≠“主人”,就給出提示要求他注冊(cè)。

  百度聲紋解鎖的絕招:噪音處置算法

  大家一定想著,哇,超帥!開機(jī)不用手,動(dòng)動(dòng)嘴皮就行了。

  不過(guò),很多人就想到了,在這個(gè)人口爆棚的時(shí)代,充滿噪聲的環(huán)境無(wú)可避免,聲紋解鎖還能工作嗎?

  實(shí)際上,這正是百度聲紋解鎖技術(shù)的絕活所在——百度采用了先進(jìn)的語(yǔ)音端點(diǎn)檢測(cè)算法和信噪比估計(jì)算法,能夠精確地判斷用戶輸入的語(yǔ)音信息是否有效。

  大家知道,即便在嘈雜的環(huán)境中,我們?nèi)祟愡€是有一種超能力的——可以將噪音當(dāng)做耳邊風(fēng),將注意力集中在對(duì)方說(shuō)話的聲音上(尤其是面對(duì)辣妹或帥哥時(shí))。但是手機(jī)相對(duì)偉大的人類來(lái)說(shuō),這種能力絕不是與生俱來(lái)的。當(dāng)手機(jī)用戶說(shuō)話時(shí),不管是人聲還是背景噪音,手機(jī)沒(méi)有辦法挑肥揀瘦,只能照單全收。

  所以百度的工程師在研發(fā)手機(jī)的聲紋解鎖功能時(shí),給它賦予了兩個(gè)超級(jí)的語(yǔ)音處理能力。第一個(gè)是使用語(yǔ)音端點(diǎn)檢測(cè)算法,來(lái)探測(cè)到用戶輸入語(yǔ)音的起始和終止位置,也就是說(shuō),哪怕外面吵翻天,但用戶可能一個(gè)字都沒(méi)有說(shuō)。這種算法可以精確探測(cè)到用戶說(shuō)話到底說(shuō)了哪一段,因此分析起語(yǔ)音可以有的放矢。第二個(gè)是使用信噪比估計(jì)算法,來(lái)檢測(cè)用戶輸入語(yǔ)音的質(zhì)量是否滿足需求。如果背景噪聲太強(qiáng),就會(huì)提示用戶重新輸入。比如您在汪峰的演唱會(huì)現(xiàn)場(chǎng)給手機(jī)下指令,這就有點(diǎn)太過(guò)了,“這么吵也叫手機(jī)我識(shí)別?你當(dāng)我是你啊?”。

  通過(guò)上述兩種超級(jí)語(yǔ)音處理能力,百度聲紋解碼功能就能保障自己處于一個(gè)“能干活”的基礎(chǔ)上了。

  百度聲紋解鎖技術(shù)的未來(lái):?jiǎn)柎鹗降卿?/P>

  針對(duì)于眾多手機(jī)玩家的酷炫需求,百度的工程師也在為百度聲紋解鎖技術(shù)研發(fā)新的特性。比如在未來(lái),有可能實(shí)現(xiàn)問(wèn)答式登錄。

  目前利用聲紋解鎖時(shí),需要用戶輸入注冊(cè)時(shí)使用的特定內(nèi)容,這就是固定的口令.

  但在未來(lái),百度聲紋解鎖技術(shù)將允許用戶有新的玩法。比如登錄時(shí)系統(tǒng)會(huì)隨機(jī)給出問(wèn)題讓用戶回答,用戶回答問(wèn)題后就會(huì)對(duì)用戶的聲音進(jìn)行識(shí)別。如果用戶以前對(duì)系統(tǒng)輸入過(guò)語(yǔ)音,就算不是剛才回答的內(nèi)容,系統(tǒng)也能分辨出來(lái)。

  想象一下未來(lái)的手機(jī)生活:

  主人:手機(jī),乖,給我解鎖。

  具備百度聲紋解鎖功能的手機(jī)(以下簡(jiǎn)稱手機(jī)):主人,你媽貴姓?

  主人:姓王啊,不是跟你說(shuō)過(guò)了嗎?煩不煩啊!

  手機(jī):什么態(tài)度啊?再出一道題,52乘以10等于多少?

  主人:……

  手機(jī):520,答對(duì)了,聲學(xué)特征100%匹配,確認(rèn)為主人身份,通過(guò)。

  百度聲紋解鎖,君子動(dòng)口不動(dòng)手,聯(lián)想樂(lè)PhoneA586,君子之選。(RFID世界網(wǎng)編輯整理)

人物訪談