RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

“刷臉識(shí)別”不過小試牛刀，不斷進(jìn)化的深度學(xué)習(xí)將會(huì)怎么去改變世界？

作者：不詳

來源：物聯(lián)網(wǎng)智庫(kù)

日期：2016-03-28 12:15:59

摘要：隨著人工智能的大熱，深度學(xué)習(xí)技術(shù)也隨之走到人們的事業(yè)之前，雖然深度學(xué)習(xí)有著無限的潛力，但它也不是萬金油，在它提供更通用和更有效的解決方案的同時(shí)，它在不同情景的使用依然需要大家經(jīng)驗(yàn)的積累和對(duì)問題的思考。雖然依靠著現(xiàn)代強(qiáng)大的計(jì)算能力發(fā)光發(fā)熱，但現(xiàn)在的它更像個(gè)黑箱子。背后的原理需要大家共同努力發(fā)現(xiàn)。

關(guān)鍵詞：人工智能深度學(xué)習(xí)

　　隨著人工智能的大熱，深度學(xué)習(xí)技術(shù)也隨之走到人們的事業(yè)之前，雖然深度學(xué)習(xí)有著無限的潛力，但它也不是萬金油，在它提供更通用和更有效的解決方案的同時(shí)，它在不同情景的使用依然需要大家經(jīng)驗(yàn)的積累和對(duì)問題的思考。雖然依靠著現(xiàn)代強(qiáng)大的計(jì)算能力發(fā)光發(fā)熱，但現(xiàn)在的它更像個(gè)黑箱子。背后的原理需要大家共同努力發(fā)現(xiàn)。

　　2016年科技領(lǐng)域最火的是什么?那必須是虛擬現(xiàn)實(shí)(VR)與人工智能(AI)了，不久前的“人機(jī)大戰(zhàn)”引發(fā)了全民熱議，阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強(qiáng)大能力展示在了人們面前。

　　而此時(shí)，中國(guó)科學(xué)院計(jì)算技術(shù)研究所也發(fā)布了全球首個(gè)能夠“深度學(xué)習(xí)”的“神經(jīng)網(wǎng)絡(luò)”處理器芯片，名為“寒武紀(jì)”。這項(xiàng)技術(shù)在不久的未來，反欺詐的刷臉支付、圖片搜索等都將更加可靠、易用。

　　深度學(xué)習(xí)技術(shù)的逐漸的成熟與商用，也使得人工智能的更加一步步的貼近消費(fèi)者的日常生活，那么，深度學(xué)習(xí)技術(shù)到底有什么魔力呢?

　　深度學(xué)習(xí)有多深?學(xué)了究竟有幾分?

　　深度學(xué)習(xí)其實(shí)是神經(jīng)網(wǎng)絡(luò)的品牌重塑。一提到神經(jīng)網(wǎng)絡(luò)，我們很容易聯(lián)想到腦瓜里的千絲萬縷。的確，神經(jīng)網(wǎng)絡(luò)(Neural Network)模型在發(fā)明之初是從人腦神經(jīng)元這個(gè)概念得到靈感。首先我們看一個(gè)單一的神經(jīng)元模型。

　　神經(jīng)網(wǎng)絡(luò)沒有一個(gè)嚴(yán)格的正式定義。它的基本特點(diǎn)，是試圖模仿大腦的神經(jīng)元之間傳遞，處理信息的模式。

　　一個(gè)計(jì)算模型，要?jiǎng)澐譃樯窠?jīng)網(wǎng)絡(luò)，通常需要大量彼此連接的節(jié)點(diǎn) (也稱 ‘神經(jīng)元’)，并且具備兩個(gè)特性：

　　每個(gè)神經(jīng)元，通過某種特定的輸出函數(shù) (也叫激勵(lì)函數(shù) activation function)，計(jì)算處理來自其它相鄰神經(jīng)元的加權(quán)輸入值

　　神經(jīng)元之間的信息傳遞的強(qiáng)度，用所謂加權(quán)值來定義，算法會(huì)不斷自我學(xué)習(xí)，調(diào)整這個(gè)加權(quán)值

　　在此基礎(chǔ)上，神經(jīng)網(wǎng)絡(luò)的計(jì)算模型，依靠大量的數(shù)據(jù)來訓(xùn)練，還需要：

　　成本函數(shù) (cost function)：用來定量評(píng)估根據(jù)特定輸入值，計(jì)算出來的輸出結(jié)果，離正確值有多遠(yuǎn)，結(jié)果有多靠譜

　　學(xué)習(xí)的算法 ( learning algorithm )：這是根據(jù)成本函數(shù)的結(jié)果，自學(xué)，糾錯(cuò)，最快地找到神經(jīng)元之間最優(yōu)化的加權(quán)值

　　用小明、小紅和隔壁老王們都可以聽懂的語(yǔ)言來解釋，神經(jīng)網(wǎng)絡(luò)算法的核心就是：計(jì)算、連接、評(píng)估、糾錯(cuò)、瘋狂培訓(xùn)。

　　隨著神經(jīng)網(wǎng)絡(luò)研究的不斷變遷，其計(jì)算特點(diǎn)和傳統(tǒng)的生物神經(jīng)元的連接模型漸漸脫鉤。

　　但是它保留的精髓是：非線性、分布式、并行計(jì)算、自適應(yīng)、自組織。

　　深度學(xué)習(xí)技術(shù)應(yīng)用前景廣泛

　　目前為止，人工智能商業(yè)化的主要方向主要包含以下幾個(gè)方面的內(nèi)容：自然語(yǔ)言處理(包括語(yǔ)音和語(yǔ)義識(shí)別、自動(dòng)翻譯)、計(jì)算機(jī)視覺(圖像識(shí)別)、知識(shí)表示、機(jī)器與機(jī)器人學(xué)。這些AI的深度學(xué)習(xí)技術(shù)主要的應(yīng)用場(chǎng)景有搜索、移動(dòng)支付、機(jī)器人、智能硬件、智能醫(yī)療、智能汽車、虛擬現(xiàn)實(shí)等。

　　虛擬現(xiàn)實(shí)

　　那么如此炫酷的深度學(xué)習(xí)能否應(yīng)用在大熱的VR行業(yè)?答案是肯定的。目前VR領(lǐng)域中應(yīng)用到深度學(xué)習(xí)技術(shù)的包括語(yǔ)音識(shí)別、手勢(shì)識(shí)別等方面。

　　眾所周知，VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理，以手勢(shì)識(shí)別技術(shù)為例，手部有非常多的關(guān)節(jié)，需要非常強(qiáng)的識(shí)別能力才可以準(zhǔn)確的識(shí)別每個(gè)精細(xì)動(dòng)作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進(jìn)行訓(xùn)練，所使用數(shù)據(jù)越多模型性能越高，非常適合在VR環(huán)境下做手勢(shì)識(shí)別。

　　基于深度學(xué)習(xí)算法的思想實(shí)現(xiàn)的VR產(chǎn)品，并使用單機(jī)GPU方法來加速深度網(wǎng)絡(luò)的訓(xùn)練和識(shí)別工作。手勢(shì)識(shí)別模組可以使用深度攝像頭實(shí)現(xiàn)手部近距離3D成像，結(jié)合深度學(xué)習(xí)自主研發(fā)了一套數(shù)據(jù)處理算法，實(shí)現(xiàn)了高精度實(shí)時(shí)手部動(dòng)作識(shí)別，既能跟蹤單個(gè)手指，識(shí)別每個(gè)手指細(xì)微的動(dòng)作，也可擴(kuò)展至跟蹤多只手。

　　這樣的VR產(chǎn)品的手勢(shì)識(shí)別具有捕捉精度高，響應(yīng)速度快，靈敏度高，可以不受環(huán)境光線強(qiáng)弱影響，室內(nèi)室外都可以使用。

　　安防領(lǐng)域

　　在安防領(lǐng)域，深度學(xué)習(xí)技術(shù)主要應(yīng)用于監(jiān)控?cái)z像機(jī)，因?yàn)樾袠I(yè)領(lǐng)域?qū)嚺谱R(shí)別、人臉識(shí)別、軌跡行為等智能分析的需求逐漸加大，使得很多從事智能分析的初創(chuàng)公司進(jìn)入安防領(lǐng)域，通過合作或者純技術(shù)支持的方式，讓安防智能分析業(yè)務(wù)在大數(shù)據(jù)、云計(jì)算等技術(shù)框架下，不僅解決了用戶對(duì)監(jiān)控的基本需求，還能給用戶提供數(shù)據(jù)報(bào)表、數(shù)據(jù)分析等附加值高的需求，并且在解決復(fù)雜場(chǎng)景人臉識(shí)別、不同監(jiān)控畫面準(zhǔn)確識(shí)別同一人物等領(lǐng)域表現(xiàn)出誘人的應(yīng)用前景，給公安、交通等執(zhí)法部門在業(yè)務(wù)上帶來極高的效率。

　　深度學(xué)習(xí)技術(shù)在安防的應(yīng)用，當(dāng)前也主要是以某個(gè)“技術(shù)奇點(diǎn)”進(jìn)入到攝像機(jī)中，這個(gè)過程更像是監(jiān)控?cái)z像機(jī)的“智能大腦”在進(jìn)行模塊化的組合，相信在未來不同的交叉技術(shù)之間的相互融合會(huì)產(chǎn)生更良好的化學(xué)反應(yīng)。

　　機(jī)器人

　　傳統(tǒng)人工智能的機(jī)器學(xué)習(xí)是通過標(biāo)記數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)，隨著其所需處理數(shù)據(jù)量的增大，外界對(duì)其的支持和幫助也就更大，而且計(jì)算結(jié)果的準(zhǔn)確性也會(huì)受到影響。因此，對(duì)于這種傳統(tǒng)算法，越來越多的數(shù)據(jù)將成為負(fù)擔(dān)，也更容易達(dá)到極限或產(chǎn)生錯(cuò)誤結(jié)果。但深度學(xué)習(xí)是從未經(jīng)標(biāo)記的數(shù)據(jù)展開學(xué)習(xí)，這更接近人腦的學(xué)習(xí)方式，可以通過訓(xùn)練之后自行掌握概念。面對(duì)海量數(shù)據(jù)，深度學(xué)習(xí)算法可以做到傳統(tǒng)人工智能算法無法做到的事情，而且輸出結(jié)果會(huì)隨著數(shù)據(jù)處理量的增大而更加準(zhǔn)確。

　　深度學(xué)習(xí)賜予了機(jī)器人更高的“智商”，這將使得機(jī)器人不僅僅是智能干一些蠻力活，也能應(yīng)用與對(duì)智能有更高要求的領(lǐng)域，比如說醫(yī)療行業(yè)，因?yàn)榫哂幸庾R(shí)的機(jī)器人能更好的了解人類的感受，從而對(duì)病人進(jìn)行更好護(hù)理。歐盟發(fā)布了Robo Earth項(xiàng)目，四個(gè)機(jī)器人在模擬醫(yī)院的環(huán)境中相互協(xié)作來照顧病人，它們通過與云端服務(wù)器的交互來進(jìn)行信息共享和互相學(xué)習(xí)。例如，一個(gè)機(jī)器人可以對(duì)醫(yī)院房間進(jìn)行掃描并將完成的地圖上傳至Robo Earth，而另外一個(gè)對(duì)這個(gè)房間完全不了解的機(jī)器人就可以通過訪問云端的這張地圖來找到房間中一杯水，而不需要再進(jìn)行額外的搜索。

　　自動(dòng)駕駛

　　自動(dòng)駕駛領(lǐng)域因?yàn)槠涓呶ｋU(xiǎn)屬性便對(duì)相關(guān)技術(shù)的實(shí)時(shí)性與準(zhǔn)確性提出了更高的要求，深度學(xué)習(xí)技術(shù)很好的契合了自動(dòng)駕駛的這種需求。目前低成本攝影機(jī)和感應(yīng)器讓車輛可以接受海量信息，通過深度學(xué)習(xí)，自動(dòng)駕駛的智能控制系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)建立的模型，最終掌握人類駕駛的習(xí)慣。

　　智能控制系統(tǒng)能夠迅速梳理出有用的信息，像是辨別各種車輛、區(qū)分警車和出租車、救護(hù)車和貨車，或是準(zhǔn)備上路的汽車，甚至還能找出人行道上的自行車和心不在焉的行人。

　　深度學(xué)習(xí)未來九大趨勢(shì)

　　任何技術(shù)都處于不斷的進(jìn)步與發(fā)展，深度學(xué)習(xí)目前所展現(xiàn)在人們面前的還只是其商用化的雛形，雖然已經(jīng)很驚艷，但也存在諸多的問題，比如：算法經(jīng)常停止于局部最優(yōu)解，而不是全球最優(yōu)解。這好比“只見樹木，不見森林”;算法的培訓(xùn)，時(shí)間過長(zhǎng)時(shí)，會(huì)出現(xiàn)過度擬合 (overfit)，把噪音當(dāng)做有效信號(hào)等缺陷與不足之處，那么未來的深度學(xué)習(xí)有哪些趨勢(shì)呢?

　　神經(jīng)網(wǎng)絡(luò)框架變得越來越復(fù)雜而精密

　　在感知、語(yǔ)言翻譯等等方面的大部分最先進(jìn)的神經(jīng)網(wǎng)絡(luò)框架正在發(fā)展并且不在僅僅關(guān)于簡(jiǎn)單前饋式(feed forward)框架或者卷積式框架(convolutional)。特別地，它們正在混合并匹配不同的神經(jīng)網(wǎng)絡(luò)技術(shù)如LSTMs、卷積、自定義目標(biāo)函數(shù)、多皮層柱(multiple cortical columns)等等。

　　所有最酷的系統(tǒng)都在使用 LSTMs

　　大部分最先進(jìn)的系統(tǒng)都將LSTMs納入到系統(tǒng)中，以使系統(tǒng)具有捕捉重復(fù)模式的記憶力。

　　“注意力模型”在升溫

　　一些系統(tǒng)，但不是全部，開始放到“注意力模型”的背景中，或者說讓神經(jīng)網(wǎng)絡(luò)在完成任務(wù)的過程中試圖學(xué)習(xí)在哪里放置其“注意力”。這些還不是一個(gè)正規(guī)神經(jīng)網(wǎng)絡(luò)流水線中的一部分，但是已經(jīng)時(shí)不時(shí)的出現(xiàn)在模型中了。

　　神經(jīng)圖靈機(jī)仍然有趣，但并沒有影響到實(shí)際工作

　　神經(jīng)網(wǎng)絡(luò)圖靈機(jī)(Neural Turing Machines)的研究，或者說能夠有差異地訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)算法，仍然有趣，但是還沒有應(yīng)用到實(shí)際工作中。它們還很復(fù)雜并且目前只能解決玩具問題(toy problems)。

　　計(jì)算機(jī)視覺和自然語(yǔ)言處理，會(huì)變得幾乎不可分離——在電腦視覺和自然語(yǔ)言處理的領(lǐng)域的深度學(xué)習(xí)正在互相融合

　　卷積神經(jīng)網(wǎng)絡(luò)第一次出現(xiàn)是在電腦視覺中，但是現(xiàn)在用于一些自然語(yǔ)言處理(NLP)中了，LSTMs和主流對(duì)遞歸神經(jīng)網(wǎng)絡(luò)使用的傾向性，第一次做出引人注目的成果是在NLP任務(wù)中——如序列到序列的翻譯(sequence-to-sequence translation)，然而現(xiàn)在通過修剪被納入到電腦視覺神經(jīng)網(wǎng)絡(luò)任務(wù)中。

　　另外，電腦視覺和NLP的交叉部分再加上在如圖片捕捉任務(wù)中使用到的常見的嵌入(embeddings)技術(shù)，還很熱門。

　　符號(hào)微分法越來越重要

　　隨著神經(jīng)網(wǎng)絡(luò)框架和它們的目標(biāo)函數(shù)可以自定義，同時(shí)也變得越來越復(fù)雜，人為手動(dòng)提取它們反向傳播中的梯度變得越來越難，也容易出錯(cuò)。最新的工具包如谷歌的TensorFlow有了自動(dòng)符號(hào)微分，所以你可以構(gòu)建你的框架和目標(biāo)函數(shù)，在訓(xùn)練過程中工具包會(huì)在眾多的碎片中自動(dòng)地找出正確的微分來保證誤差梯度可以反向傳播。

　　神經(jīng)網(wǎng)絡(luò)模型壓縮帶來了越來越多令人驚喜的結(jié)果

　　多個(gè)團(tuán)隊(duì)展示了不同的方式來劇烈地壓縮一個(gè)訓(xùn)練過的模型的權(quán)重?cái)?shù)量：二值化(binarization)、固定浮點(diǎn)(fixed floating point)、迭代剪枝(iterative pruning)和微調(diào)措施(fine tuning steps)等等更多。

　　這些方法為許多應(yīng)用帶來了可能：有可能將很復(fù)雜的模型適配到手機(jī)上，例如，與云端無延遲的對(duì)話來得到結(jié)果，如語(yǔ)音識(shí)別。另外，如果我們能夠高幀率的快速查詢一個(gè)模型(因?yàn)樗目臻g和計(jì)算運(yùn)行時(shí)間成本很低，如30 FPS)，那么在移動(dòng)裝置上使用復(fù)雜的、訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型來完成接近實(shí)時(shí)的新類型電腦視覺任務(wù)就有可能了。

　　NIPS展示了這些壓縮技術(shù)，但是我沒有看到任何人應(yīng)用它們。我覺得我們?cè)?016年可能見到相應(yīng)的應(yīng)用。

　　深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的交叉在繼續(xù)

　　雖然今年NIPS沒有展示關(guān)于強(qiáng)化學(xué)習(xí)的主要結(jié)果，但是深度強(qiáng)化學(xué)習(xí)研究討論室只剩下站立的地方，他們展示了深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的計(jì)劃能力兩者結(jié)合給人帶來的令人興奮的可能。

　　在這個(gè)領(lǐng)域一些令人興奮的工作正在發(fā)生，如端對(duì)端機(jī)器人，使用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來完成原始傳感器數(shù)據(jù)到實(shí)際動(dòng)作執(zhí)行器的直接過度。我們正從過去的只是分類一步步發(fā)展到試圖理解如何在方程中加入計(jì)劃和行動(dòng)。還有更多的工作要做，但是早期工作很令人興奮。

　　神經(jīng)網(wǎng)絡(luò)和產(chǎn)品應(yīng)用，應(yīng)該攜手同行

　　你需要讓研究人員創(chuàng)造新的神經(jīng)網(wǎng)絡(luò)方法，而且也有途徑將這些方法快速擴(kuò)展到實(shí)際應(yīng)用產(chǎn)品中。谷歌的TensorFlow是數(shù)據(jù)庫(kù)中很少做到這一點(diǎn)的平臺(tái)之一：研究人員可以快速創(chuàng)造新的網(wǎng)絡(luò)拓?fù)淙鐖D像，然后這些能夠擴(kuò)展在不同的配置中——如使用像Python或C++主流程序語(yǔ)言的單個(gè)設(shè)備、多個(gè)設(shè)備或者是移動(dòng)設(shè)備中。

　　然而，注意到TensorFlow還在早期階段;Caffe現(xiàn)在倒是能使用。TensorFlow的單裝置表現(xiàn)不如其他的構(gòu)架;谷歌也宣稱不久他們會(huì)公布一個(gè)使用Kubernetes和gRPC的分布式版本但是分布式訓(xùn)練尚未發(fā)揮作用;并且使用TensorFlow目前還不能在亞馬遜的AWS上運(yùn)行。盡管如此，TensorFlow的前景可期。

“刷臉識(shí)別”不過小試牛刀，不斷進(jìn)化的深度學(xué)習(xí)將會(huì)怎么去改變世界？

“刷臉識(shí)別”不過小試牛刀，不斷進(jìn)化的深度學(xué)習(xí)將會(huì)怎么去改變世界？