物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

中國(guó)工程院院士李德毅:大數(shù)據(jù)時(shí)代的挑戰(zhàn)

作者:RFID世界網(wǎng)收錄
來(lái)源:中國(guó)計(jì)算機(jī)報(bào)
日期:2014-06-10 09:54:06
摘要:大數(shù)據(jù)通常來(lái)自三個(gè)方向:自然大數(shù)據(jù)、生命大數(shù)據(jù)和社交大數(shù)據(jù)。PB時(shí)代是對(duì)科學(xué)的挑戰(zhàn),更是對(duì)包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn),也是對(duì)軟件工程的挑戰(zhàn)。

  我們?cè)诖髷?shù)據(jù)時(shí)代面臨著什么樣的挑戰(zhàn),今天我就講講這個(gè)問(wèn)題。

  大數(shù)據(jù)通常來(lái)自三個(gè)方向:自然大數(shù)據(jù)、生命大數(shù)據(jù)和社交大數(shù)據(jù)。PB時(shí)代是對(duì)科學(xué)的挑戰(zhàn),更是對(duì)包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn),也是對(duì)軟件工程的挑戰(zhàn)。

  尤其是社交大數(shù)據(jù)。在奧巴馬就職的現(xiàn)場(chǎng)有這么多面孔,每一個(gè)面孔下都有一個(gè)故事。人臉是數(shù)據(jù)安全很重要的識(shí)別器。那么,怎么識(shí)別呢?人們想到了攝像頭,北京市約有80萬(wàn)個(gè)攝像頭,我們每天都在攝像頭的監(jiān)督下開(kāi)車(chē)、購(gòu)物等。

  “誰(shuí)?是他嗎?”這是社交網(wǎng)絡(luò)中基本的問(wèn)題。我們要確定一個(gè)人,通常需要從身份認(rèn)證、年齡識(shí)別、情感計(jì)算、親緣發(fā)現(xiàn)、性別識(shí)別、地區(qū)和民族識(shí)別等方面進(jìn)行辨識(shí)。

  結(jié)構(gòu)化數(shù)據(jù)面臨挑戰(zhàn)

  我們認(rèn)為計(jì)算在過(guò)去的20年里起到了主導(dǎo)作用,它的標(biāo)志就是摩爾速度。跟這個(gè)時(shí)代相對(duì)應(yīng)的是結(jié)構(gòu)化數(shù)據(jù),“軟件”加“程序”加“數(shù)據(jù)”加“存檔”,這個(gè)數(shù)據(jù)應(yīng)該是結(jié)構(gòu)化數(shù)據(jù)才能運(yùn)行起來(lái)。

  結(jié)構(gòu)化數(shù)據(jù)的典型代表就是關(guān)系數(shù)據(jù)庫(kù)。1970年,偉大的科學(xué)家埃德加·弗蘭克·科德教授提出關(guān)系模型,以關(guān)系代數(shù)為核心運(yùn)算,用二維表形式表示實(shí)體和實(shí)體間聯(lián)系,通過(guò)關(guān)系運(yùn)算實(shí)現(xiàn)結(jié)構(gòu)化查詢(xún)。30多年來(lái),各行各業(yè)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù),以及從數(shù)據(jù)庫(kù)發(fā)現(xiàn)知識(shí)的數(shù)據(jù)挖掘構(gòu)筑起巨大的信息處理產(chǎn)業(yè)。

  關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫(kù)的形式化理論和約束。關(guān)系數(shù)據(jù)庫(kù)有嚴(yán)格的頂層設(shè)計(jì)。為構(gòu)造良式關(guān)系,必須消除元組中不合適的數(shù)據(jù)依賴(lài),通過(guò)第三范式(BCNF)甚至約束度更高的范式,分解數(shù)據(jù)表,以解決插入異常、刪除異常和數(shù)據(jù)冗余等問(wèn)題。對(duì)這樣的關(guān)系進(jìn)行運(yùn)算,運(yùn)算結(jié)果仍然是關(guān)系,運(yùn)算符可以是集合運(yùn)算、算術(shù)運(yùn)算、邏輯運(yùn)算,或者關(guān)系運(yùn)算。只要數(shù)據(jù)在關(guān)系數(shù)據(jù)庫(kù)中,用戶(hù)總可以通過(guò)SQL語(yǔ)言將滿(mǎn)足條件的唯一結(jié)果挖掘出來(lái),無(wú)需關(guān)心數(shù)據(jù)的獲取、存儲(chǔ)、分析和提取過(guò)程,更無(wú)需關(guān)心數(shù)據(jù)結(jié)構(gòu)的內(nèi)部組織形式。

  但是,結(jié)構(gòu)化數(shù)據(jù)仍然面臨著一些挑戰(zhàn):挑戰(zhàn)一,形式化約束過(guò)于苛刻,無(wú)法表示原生態(tài)數(shù)據(jù);挑戰(zhàn)二,隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運(yùn)轉(zhuǎn)的性能急劇下降。

  在計(jì)算時(shí)代,人們發(fā)現(xiàn),這種摩爾速度下的存儲(chǔ)也有很大的發(fā)展。尤其隨著存儲(chǔ)材料和存儲(chǔ)技術(shù)的發(fā)展,市場(chǎng)上500元就能買(mǎi)到1TB的硬盤(pán),這是我們以前不可想象的。存儲(chǔ)技術(shù)在交互方面的發(fā)展,讓我們有了存儲(chǔ)的網(wǎng)絡(luò)和陣地。于是,整個(gè)社會(huì)進(jìn)入了半結(jié)構(gòu)化的數(shù)據(jù)階段。而半結(jié)構(gòu)化數(shù)據(jù)的典型特征是超文本、超鏈接、超媒體,其組成形式是C/S、B/S和云計(jì)算。

  萬(wàn)維網(wǎng)(World Wide Web)之父Tim Berners-Lee,是把超文本技術(shù)引入互聯(lián)網(wǎng)的第一人。1989年,他開(kāi)發(fā)出世界上第一個(gè)Web服務(wù)器和Web客戶(hù)機(jī)。1991年,Web實(shí)現(xiàn)了通過(guò)超文本方式,使網(wǎng)絡(luò)中不同計(jì)算機(jī)內(nèi)的信息實(shí)現(xiàn)超鏈接,通過(guò)超文本傳輸協(xié)議HTTP從一臺(tái)Web服務(wù)器轉(zhuǎn)到另一臺(tái)Web服務(wù)器上檢索。另外,服務(wù)器在軟件支持下可以發(fā)布包括文本、表格、圖片、音頻和視頻等碎片化的超媒體信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通過(guò)Web服務(wù)實(shí)現(xiàn)。從此開(kāi)始了Web紀(jì)元,人類(lèi)進(jìn)入搜索時(shí)代。

  我們看到,數(shù)據(jù)圍繞實(shí)體,實(shí)體圍繞鏈接轉(zhuǎn)。挖掘就是云環(huán)境下的探索和個(gè)性化服務(wù),沒(méi)有死板的查詢(xún)方式,也沒(méi)有唯一的結(jié)果,挖掘結(jié)果允許帶有不確定性,重視探索的統(tǒng)計(jì)性質(zhì)?,F(xiàn)在的挖掘已經(jīng)延伸到了圖片和語(yǔ)音的搜索,這類(lèi)搜索引擎的出現(xiàn)也帶來(lái)了互聯(lián)網(wǎng)上繁榮的內(nèi)容服務(wù)。

  移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘

  現(xiàn)在,我們處在網(wǎng)絡(luò)化和交互的時(shí)代。移動(dòng)互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)挖掘,主要是網(wǎng)絡(luò)環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘。這些數(shù)據(jù)形態(tài)反映的是帶毛的、鮮活的、碎片化了的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù),而這些原生態(tài)數(shù)據(jù)的特點(diǎn)常是低價(jià)值的、強(qiáng)噪音、并購(gòu)、冗余的冷數(shù)據(jù)。

  同時(shí),移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)的簡(jiǎn)約具有各自適應(yīng)性。長(zhǎng)期以來(lái),我們用認(rèn)知物理學(xué)方法來(lái)實(shí)現(xiàn)數(shù)據(jù)的自適應(yīng)簡(jiǎn)約。我們?cè)趪?guó)內(nèi)外第一次提出了數(shù)據(jù)場(chǎng)的思想。把人臉變成數(shù)據(jù)場(chǎng),大家可以看到這張人臉跟其他人的臉是有相似之處的,可以用線(xiàn)性的方法也可以用非線(xiàn)性的方法來(lái)表現(xiàn)。

  舉例來(lái)說(shuō),如果想突出眼睛、鼻子和嘴巴,我們可以用這種數(shù)據(jù)場(chǎng)的方法來(lái)突出。用物理學(xué)中“場(chǎng)”的方法來(lái)類(lèi)比形成數(shù)據(jù)場(chǎng),像素之間相互影響越小,特征點(diǎn)個(gè)數(shù)越多,圖像的描述細(xì)節(jié)越多,反之特征點(diǎn)個(gè)數(shù)越少。

  百度用深度學(xué)習(xí)的方法實(shí)現(xiàn)了數(shù)據(jù)自適應(yīng)簡(jiǎn)約,我們覺(jué)得他們跟我們現(xiàn)在做的是非常一致的,例如,百度搜圖做的人臉相似性搜索。當(dāng)前的情況是,數(shù)據(jù)量急劇增加,組織結(jié)構(gòu)已經(jīng)圍繞數(shù)據(jù)轉(zhuǎn)了,程序碎片化可以隨時(shí)重組,挖掘常常是人機(jī)交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)。

  社區(qū)可以給我們提供數(shù)據(jù)實(shí)物。網(wǎng)絡(luò)化大數(shù)據(jù)挖掘的方法是社區(qū)發(fā)現(xiàn)。人們最關(guān)心的是社區(qū),并且我們關(guān)心社區(qū)中的交互。社區(qū)交互表現(xiàn)的形式有顯性和隱性?xún)煞N形式。顯性形式有評(píng)論、心情、收集、購(gòu)買(mǎi)、評(píng)分、頂、踩、分享、加為好友、邀請(qǐng)加入等,而隱性形式有跳轉(zhuǎn)等。我們利用拓?fù)鋭?shì)方法挖掘社區(qū),并且發(fā)現(xiàn)社區(qū)成員的重要性及成員角色。現(xiàn)實(shí)生活中經(jīng)過(guò)一段時(shí)間的反復(fù)、交互、匯聚,修正和演化,群體形成趨于相對(duì)穩(wěn)定的共識(shí)。

  中國(guó)工程院院士李德毅:在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾之間的交互,融合計(jì)算機(jī)群組對(duì)大數(shù)據(jù)的價(jià)值挖掘,形成群體智能。由此,我們提出了一個(gè)新概念“眾挖”。用戶(hù)不再需要關(guān)心數(shù)據(jù)的形態(tài)、獲取位置、結(jié)構(gòu)模式、存儲(chǔ)方式和分析過(guò)程,就能夠獲得足夠滿(mǎn)意的挖掘結(jié)果。

  云計(jì)算支撐大數(shù)據(jù)挖掘

  云計(jì)算是基于互聯(lián)網(wǎng)大眾參與的計(jì)算模式,其計(jì)算資源、存儲(chǔ)能力、交互能力是動(dòng)態(tài)、可伸縮和被虛擬化的。端產(chǎn)品擺脫了傳統(tǒng)IT配置帶來(lái)的系統(tǒng)升級(jí)開(kāi)銷(xiāo),其特點(diǎn)是更加簡(jiǎn)潔、靈活、多樣、個(gè)性化。手機(jī)、游戲機(jī)、數(shù)碼相機(jī)、電視機(jī)、上網(wǎng)本、筆記本電腦等功能交叉,差別細(xì)微,出現(xiàn)更多iCloud產(chǎn)品。界面人性化、個(gè)性化,可隨時(shí)變換成為各種各樣的大數(shù)據(jù)發(fā)生器,或者虛擬遙控器,或者大數(shù)據(jù)挖掘終端。

  大數(shù)據(jù)挖掘和云計(jì)算在支撐著各種各樣的大數(shù)據(jù)應(yīng)用。于是,軟件工程出現(xiàn)了巨大的變化,通過(guò)眾包細(xì)分法,完成云環(huán)境下的社會(huì)生產(chǎn)。在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾之間的交互,融合計(jì)算機(jī)群組對(duì)大數(shù)據(jù)的價(jià)值挖掘,形成群體智能。由此,我們提出了一個(gè)新概念“眾挖”。用戶(hù)不再需要關(guān)心數(shù)據(jù)的形態(tài)、數(shù)據(jù)的獲取位置、結(jié)構(gòu)模式、存儲(chǔ)方式和分析過(guò)程,就能夠獲得足夠滿(mǎn)意的挖掘結(jié)果。

  大數(shù)據(jù)標(biāo)志著新時(shí)代的到來(lái),這個(gè)時(shí)代的特征不只是追求豐富的物質(zhì)資源,也不只是互聯(lián)網(wǎng)帶來(lái)的便利,它還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價(jià)值挖掘和價(jià)值轉(zhuǎn)換,以及由大數(shù)據(jù)給金融行業(yè)帶來(lái)的很多思考,同時(shí)還有由大數(shù)據(jù)挖掘帶來(lái)的精神和文化方面的嶄新現(xiàn)象。

人物訪(fǎng)談