物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

“刷臉識(shí)別”不過小試牛刀,不斷進(jìn)化的深度學(xué)習(xí)將會(huì)怎么去改變世界?

作者:不詳
來源:物聯(lián)網(wǎng)智庫(kù)
日期:2016-03-28 12:15:59
摘要:隨著人工智能的大熱,深度學(xué)習(xí)技術(shù)也隨之走到人們的事業(yè)之前,雖然深度學(xué)習(xí)有著無限的潛力,但它也不是萬金油,在它提供更通用和更有效的解決方案的同時(shí),它在不同情景的使用依然需要大家經(jīng)驗(yàn)的積累和對(duì)問題的思考。雖然依靠著現(xiàn)代強(qiáng)大的計(jì)算能力發(fā)光發(fā)熱,但現(xiàn)在的它更像個(gè)黑箱子。背后的原理需要大家共同努力發(fā)現(xiàn)。

  隨著人工智能的大熱,深度學(xué)習(xí)技術(shù)也隨之走到人們的事業(yè)之前,雖然深度學(xué)習(xí)有著無限的潛力,但它也不是萬金油,在它提供更通用和更有效的解決方案的同時(shí),它在不同情景的使用依然需要大家經(jīng)驗(yàn)的積累和對(duì)問題的思考。雖然依靠著現(xiàn)代強(qiáng)大的計(jì)算能力發(fā)光發(fā)熱,但現(xiàn)在的它更像個(gè)黑箱子。背后的原理需要大家共同努力發(fā)現(xiàn)。

  2016年科技領(lǐng)域最火的是什么?那必須是虛擬現(xiàn)實(shí)(VR)與人工智能(AI)了,不久前的“人機(jī)大戰(zhàn)”引發(fā)了全民熱議,阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強(qiáng)大能力展示在了人們面前。

  而此時(shí),中國(guó)科學(xué)院計(jì)算技術(shù)研究所也發(fā)布了全球首個(gè)能夠“深度學(xué)習(xí)”的“神經(jīng)網(wǎng)絡(luò)”處理器芯片,名為“寒武紀(jì)”。這項(xiàng)技術(shù)在不久的未來,反欺詐的刷臉支付、圖片搜索等都將更加可靠、易用。

  深度學(xué)習(xí)技術(shù)的逐漸的成熟與商用,也使得人工智能的更加一步步的貼近消費(fèi)者的日常生活,那么,深度學(xué)習(xí)技術(shù)到底有什么魔力呢?

  深度學(xué)習(xí)有多深?學(xué)了究竟有幾分?

  深度學(xué)習(xí)其實(shí)是神經(jīng)網(wǎng)絡(luò)的品牌重塑。一提到神經(jīng)網(wǎng)絡(luò),我們很容易聯(lián)想到腦瓜里的千絲萬縷。的確,神經(jīng)網(wǎng)絡(luò)(Neural Network)模型在發(fā)明之初是從人腦神經(jīng)元這個(gè)概念得到靈感。首先我們看一個(gè)單一的神經(jīng)元模型。

  神經(jīng)網(wǎng)絡(luò)沒有一個(gè)嚴(yán)格的正式定義。它的基本特點(diǎn),是試圖模仿大腦的神經(jīng)元之間傳遞,處理信息的模式。

 

  一個(gè)計(jì)算模型,要?jiǎng)澐譃樯窠?jīng)網(wǎng)絡(luò),通常需要大量彼此連接的節(jié)點(diǎn) (也稱 ‘神經(jīng)元’),并且具備兩個(gè)特性:

  每個(gè)神經(jīng)元,通過某種特定的輸出函數(shù) (也叫激勵(lì)函數(shù) activation function),計(jì)算處理來自其它相鄰神經(jīng)元的加權(quán)輸入值

  神經(jīng)元之間的信息傳遞的強(qiáng)度,用所謂加權(quán)值來定義,算法會(huì)不斷自我學(xué)習(xí),調(diào)整這個(gè)加權(quán)值

  在此基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)的計(jì)算模型,依靠大量的數(shù)據(jù)來訓(xùn)練,還需要:

  成本函數(shù) (cost function):用來定量評(píng)估根據(jù)特定輸入值, 計(jì)算出來的輸出結(jié)果,離正確值有多遠(yuǎn),結(jié)果有多靠譜

  學(xué)習(xí)的算法 ( learning algorithm ):這是根據(jù)成本函數(shù)的結(jié)果, 自學(xué), 糾錯(cuò), 最快地找到神經(jīng)元之間最優(yōu)化的加權(quán)值

  用小明、小紅和隔壁老王們都可以聽懂的語(yǔ)言來解釋,神經(jīng)網(wǎng)絡(luò)算法的核心就是:計(jì)算、連接、評(píng)估、糾錯(cuò)、瘋狂培訓(xùn)。

  隨著神經(jīng)網(wǎng)絡(luò)研究的不斷變遷,其計(jì)算特點(diǎn)和傳統(tǒng)的生物神經(jīng)元的連接模型漸漸脫鉤。

  但是它保留的精髓是:非線性、分布式、并行計(jì)算、自適應(yīng)、自組織。

  深度學(xué)習(xí)技術(shù)應(yīng)用前景廣泛

  目前為止,人工智能商業(yè)化的主要方向主要包含以下幾個(gè)方面的內(nèi)容:自然語(yǔ)言處理(包括語(yǔ)音和語(yǔ)義識(shí)別、自動(dòng)翻譯)、計(jì)算機(jī)視覺(圖像識(shí)別)、知識(shí)表示、機(jī)器與機(jī)器人學(xué)。這些AI的深度學(xué)習(xí)技術(shù)主要的應(yīng)用場(chǎng)景有搜索、移動(dòng)支付、機(jī)器人、智能硬件、智能醫(yī)療、智能汽車、虛擬現(xiàn)實(shí)等。

  虛擬現(xiàn)實(shí)

  那么如此炫酷的深度學(xué)習(xí)能否應(yīng)用在大熱的VR行業(yè)?答案是肯定的。目前VR領(lǐng)域中應(yīng)用到深度學(xué)習(xí)技術(shù)的包括語(yǔ)音識(shí)別、手勢(shì)識(shí)別等方面。

  眾所周知,VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理,以手勢(shì)識(shí)別技術(shù)為例,手部有非常多的關(guān)節(jié),需要非常強(qiáng)的識(shí)別能力才可以準(zhǔn)確的識(shí)別每個(gè)精細(xì)動(dòng)作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進(jìn)行訓(xùn)練,所使用數(shù)據(jù)越多模型性能越高,非常適合在VR環(huán)境下做手勢(shì)識(shí)別。

  基于深度學(xué)習(xí)算法的思想實(shí)現(xiàn)的VR產(chǎn)品,并使用單機(jī)GPU方法來加速深度網(wǎng)絡(luò)的訓(xùn)練和識(shí)別工作。手勢(shì)識(shí)別模組可以使用深度攝像頭實(shí)現(xiàn)手部近距離3D成像,結(jié)合深度學(xué)習(xí)自主研發(fā)了一套數(shù)據(jù)處理算法,實(shí)現(xiàn)了高精度實(shí)時(shí)手部動(dòng)作識(shí)別,既能跟蹤單個(gè)手指,識(shí)別每個(gè)手指細(xì)微的動(dòng)作,也可擴(kuò)展至跟蹤多只手。

  這樣的VR產(chǎn)品的手勢(shì)識(shí)別具有捕捉精度高,響應(yīng)速度快,靈敏度高,可以不受環(huán)境光線強(qiáng)弱影響,室內(nèi)室外都可以使用。

  安防領(lǐng)域

  在安防領(lǐng)域,深度學(xué)習(xí)技術(shù)主要應(yīng)用于監(jiān)控?cái)z像機(jī),因?yàn)樾袠I(yè)領(lǐng)域?qū)嚺谱R(shí)別、人臉識(shí)別、軌跡行為等智能分析的需求逐漸加大,使得很多從事智能分析的初創(chuàng)公司進(jìn)入安防領(lǐng)域,通過合作或者純技術(shù)支持的方式,讓安防智能分析業(yè)務(wù)在大數(shù)據(jù)、云計(jì)算等技術(shù)框架下,不僅解決了用戶對(duì)監(jiān)控的基本需求,還能給用戶提供數(shù)據(jù)報(bào)表、數(shù)據(jù)分析等附加值高的需求,并且在解決復(fù)雜場(chǎng)景人臉識(shí)別、不同監(jiān)控畫面準(zhǔn)確識(shí)別同一人物等領(lǐng)域表現(xiàn)出誘人的應(yīng)用前景,給公安、交通等執(zhí)法部門在業(yè)務(wù)上帶來極高的效率。

  深度學(xué)習(xí)技術(shù)在安防的應(yīng)用,當(dāng)前也主要是以某個(gè)“技術(shù)奇點(diǎn)”進(jìn)入到攝像機(jī)中,這個(gè)過程更像是監(jiān)控?cái)z像機(jī)的“智能大腦”在進(jìn)行模塊化的組合,相信在未來不同的交叉技術(shù)之間的相互融合會(huì)產(chǎn)生更良好的化學(xué)反應(yīng)。

  機(jī)器人

  傳統(tǒng)人工智能的機(jī)器學(xué)習(xí)是通過標(biāo)記數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),隨著其所需處理數(shù)據(jù)量的增大,外界對(duì)其的支持和幫助也就更大,而且計(jì)算結(jié)果的準(zhǔn)確性也會(huì)受到影響。因此,對(duì)于這種傳統(tǒng)算法,越來越多的數(shù)據(jù)將成為負(fù)擔(dān),也更容易達(dá)到極限或產(chǎn)生錯(cuò)誤結(jié)果。但深度學(xué)習(xí)是從未經(jīng)標(biāo)記的數(shù)據(jù)展開學(xué)習(xí),這更接近人腦的學(xué)習(xí)方式,可以通過訓(xùn)練之后自行掌握概念。面對(duì)海量數(shù)據(jù),深度學(xué)習(xí)算法可以做到傳統(tǒng)人工智能算法無法做到的事情,而且輸出結(jié)果會(huì)隨著數(shù)據(jù)處理量的增大而更加準(zhǔn)確。

  深度學(xué)習(xí)賜予了機(jī)器人更高的“智商”,這將使得機(jī)器人不僅僅是智能干一些蠻力活,也能應(yīng)用與對(duì)智能有更高要求的領(lǐng)域,比如說醫(yī)療行業(yè),因?yàn)榫哂幸庾R(shí)的機(jī)器人能更好的了解人類的感受,從而對(duì)病人進(jìn)行更好護(hù)理。歐盟發(fā)布了Robo Earth項(xiàng)目,四個(gè)機(jī)器人在模擬醫(yī)院的環(huán)境中相互協(xié)作來照顧病人,它們通過與云端服務(wù)器的交互來進(jìn)行信息共享和互相學(xué)習(xí)。例如,一個(gè)機(jī)器人可以對(duì)醫(yī)院房間進(jìn)行掃描并將完成的地圖上傳至Robo Earth,而另外一個(gè)對(duì)這個(gè)房間完全不了解的機(jī)器人就可以通過訪問云端的這張地圖來找到房間中一杯水,而不需要再進(jìn)行額外的搜索。

  自動(dòng)駕駛

  自動(dòng)駕駛領(lǐng)域因?yàn)槠涓呶kU(xiǎn)屬性便對(duì)相關(guān)技術(shù)的實(shí)時(shí)性與準(zhǔn)確性提出了更高的要求,深度學(xué)習(xí)技術(shù)很好的契合了自動(dòng)駕駛的這種需求。目前低成本攝影機(jī)和感應(yīng)器讓車輛可以接受海量信息,通過深度學(xué)習(xí),自動(dòng)駕駛的智能控制系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)建立的模型,最終掌握人類駕駛的習(xí)慣。

  智能控制系統(tǒng)能夠迅速梳理出有用的信息,像是辨別各種車輛、區(qū)分警車和出租車、救護(hù)車和貨車,或是準(zhǔn)備上路的汽車,甚至還能找出人行道上的自行車和心不在焉的行人。

  深度學(xué)習(xí)未來九大趨勢(shì)

  任何技術(shù)都處于不斷的進(jìn)步與發(fā)展,深度學(xué)習(xí)目前所展現(xiàn)在人們面前的還只是其商用化的雛形,雖然已經(jīng)很驚艷,但也存在諸多的問題,比如:算法經(jīng)常停止于局部最優(yōu)解,而不是全球最優(yōu)解。這好比“只見樹木,不見森林”;算法的培訓(xùn),時(shí)間過長(zhǎng)時(shí),會(huì)出現(xiàn)過度擬合 (overfit),把噪音當(dāng)做有效信號(hào)等缺陷與不足之處,那么未來的深度學(xué)習(xí)有哪些趨勢(shì)呢?

 

  神經(jīng)網(wǎng)絡(luò)框架變得越來越復(fù)雜而精密

  在感知、語(yǔ)言翻譯等等方面的大部分最先進(jìn)的神經(jīng)網(wǎng)絡(luò)框架正在發(fā)展并且不在僅僅關(guān)于簡(jiǎn)單前饋式(feed forward)框架或者卷積式框架(convolutional)。特別地,它們正在混合并匹配不同的神經(jīng)網(wǎng)絡(luò)技術(shù)如LSTMs、卷積、自定義目標(biāo)函數(shù)、多皮層柱(multiple cortical columns)等等。

  所有最酷的系統(tǒng)都在使用 LSTMs

  大部分最先進(jìn)的系統(tǒng)都將LSTMs納入到系統(tǒng)中,以使系統(tǒng)具有捕捉重復(fù)模式的記憶力。

  “注意力模型”在升溫

  一些系統(tǒng),但不是全部,開始放到“注意力模型”的背景中,或者說讓神經(jīng)網(wǎng)絡(luò)在完成任務(wù)的過程中試圖學(xué)習(xí)在哪里放置其“注意力”。這些還不是一個(gè)正規(guī)神經(jīng)網(wǎng)絡(luò)流水線中的一部分,但是已經(jīng)時(shí)不時(shí)的出現(xiàn)在模型中了。

  神經(jīng)圖靈機(jī)仍然有趣,但并沒有影響到實(shí)際工作

  神經(jīng)網(wǎng)絡(luò)圖靈機(jī)(Neural Turing Machines)的研究,或者說能夠有差異地訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)算法,仍然有趣,但是還沒有應(yīng)用到實(shí)際工作中。它們還很復(fù)雜并且目前只能解決玩具問題(toy problems)。

  計(jì)算機(jī)視覺和自然語(yǔ)言處理,會(huì)變得幾乎不可分離——在電腦視覺和自然語(yǔ)言處理的領(lǐng)域的深度學(xué)習(xí)正在互相融合

  卷積神經(jīng)網(wǎng)絡(luò)第一次出現(xiàn)是在電腦視覺中,但是現(xiàn)在用于一些自然語(yǔ)言處理(NLP)中了,LSTMs和主流對(duì)遞歸神經(jīng)網(wǎng)絡(luò)使用的傾向性,第一次做出引人注目的成果是在NLP任務(wù)中——如序列到序列的翻譯(sequence-to-sequence translation),然而現(xiàn)在通過修剪被納入到電腦視覺神經(jīng)網(wǎng)絡(luò)任務(wù)中。

  另外,電腦視覺和NLP的交叉部分再加上在如圖片捕捉任務(wù)中使用到的常見的嵌入(embeddings)技術(shù),還很熱門。

  符號(hào)微分法越來越重要

  隨著神經(jīng)網(wǎng)絡(luò)框架和它們的目標(biāo)函數(shù)可以自定義,同時(shí)也變得越來越復(fù)雜,人為手動(dòng)提取它們反向傳播中的梯度變得越來越難,也容易出錯(cuò)。最新的工具包如谷歌的TensorFlow有了自動(dòng)符號(hào)微分,所以你可以構(gòu)建你的框架和目標(biāo)函數(shù),在訓(xùn)練過程中工具包會(huì)在眾多的碎片中自動(dòng)地找出正確的微分來保證誤差梯度可以反向傳播。

  神經(jīng)網(wǎng)絡(luò)模型壓縮帶來了越來越多令人驚喜的結(jié)果

  多個(gè)團(tuán)隊(duì)展示了不同的方式來劇烈地壓縮一個(gè)訓(xùn)練過的模型的權(quán)重?cái)?shù)量:二值化(binarization)、固定浮點(diǎn)(fixed floating point)、迭代剪枝(iterative pruning)和微調(diào)措施(fine tuning steps)等等更多。

  這些方法為許多應(yīng)用帶來了可能:有可能將很復(fù)雜的模型適配到手機(jī)上,例如,與云端無延遲的對(duì)話來得到結(jié)果,如語(yǔ)音識(shí)別。另外,如果我們能夠高幀率的快速查詢一個(gè)模型(因?yàn)樗目臻g和計(jì)算運(yùn)行時(shí)間成本很低,如30 FPS),那么在移動(dòng)裝置上使用復(fù)雜的、訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型來完成接近實(shí)時(shí)的新類型電腦視覺任務(wù)就有可能了。

  NIPS展示了這些壓縮技術(shù),但是我沒有看到任何人應(yīng)用它們。我覺得我們?cè)?016年可能見到相應(yīng)的應(yīng)用。

  深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的交叉在繼續(xù)

  雖然今年NIPS沒有展示關(guān)于強(qiáng)化學(xué)習(xí)的主要結(jié)果,但是深度強(qiáng)化學(xué)習(xí)研究討論室只剩下站立的地方,他們展示了深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的計(jì)劃能力兩者結(jié)合給人帶來的令人興奮的可能。

  在這個(gè)領(lǐng)域一些令人興奮的工作正在發(fā)生,如端對(duì)端機(jī)器人,使用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來完成原始傳感器數(shù)據(jù)到實(shí)際動(dòng)作執(zhí)行器的直接過度。我們正從過去的只是分類一步步發(fā)展到試圖理解如何在方程中加入計(jì)劃和行動(dòng)。還有更多的工作要做,但是早期工作很令人興奮。

  神經(jīng)網(wǎng)絡(luò)和產(chǎn)品應(yīng)用,應(yīng)該攜手同行

  你需要讓研究人員創(chuàng)造新的神經(jīng)網(wǎng)絡(luò)方法,而且也有途徑將這些方法快速擴(kuò)展到實(shí)際應(yīng)用產(chǎn)品中。谷歌的TensorFlow是數(shù)據(jù)庫(kù)中很少做到這一點(diǎn)的平臺(tái)之一:研究人員可以快速創(chuàng)造新的網(wǎng)絡(luò)拓?fù)淙鐖D像,然后這些能夠擴(kuò)展在不同的配置中——如使用像Python或C++主流程序語(yǔ)言的單個(gè)設(shè)備、多個(gè)設(shè)備或者是移動(dòng)設(shè)備中。

  然而,注意到TensorFlow還在早期階段;Caffe現(xiàn)在倒是能使用。TensorFlow的單裝置表現(xiàn)不如其他的構(gòu)架;谷歌也宣稱不久他們會(huì)公布一個(gè)使用Kubernetes和gRPC的分布式版本但是分布式訓(xùn)練尚未發(fā)揮作用;并且使用TensorFlow目前還不能在亞馬遜的AWS上運(yùn)行。盡管如此,TensorFlow的前景可期。

人物訪談