物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

用戶大數(shù)據(jù)是高校開(kāi)展互聯(lián)網(wǎng)應(yīng)用研究的必選項(xiàng)

作者:劉挺
來(lái)源:百度百家
日期:2015-08-31 09:48:11
摘要:用戶大數(shù)據(jù)是高校開(kāi)展互聯(lián)網(wǎng)應(yīng)用研究的必選項(xiàng)。


  高校適合做基礎(chǔ)研究、超前研究,應(yīng)用研發(fā)留給企業(yè)去做,這個(gè)觀點(diǎn)得到越來(lái)越多的同仁們的共識(shí)。然而,高校里還是活著兩種人,一種人喜歡也擅長(zhǎng)做基礎(chǔ)研究,比如Hinton這樣的學(xué)者,能夠從算法上推動(dòng)機(jī)器學(xué)習(xí)的進(jìn)步,進(jìn)而對(duì)工業(yè)界產(chǎn)生重大的影響;更多的人在從事應(yīng)用研究,試圖解決應(yīng)用中出現(xiàn)的問(wèn)題。從事應(yīng)用研究的學(xué)者在互聯(lián)網(wǎng)時(shí)代,在大數(shù)據(jù)時(shí)代,如何才能做出真的對(duì)工業(yè)界有用的成果?換句話說(shuō),怎么做才能使大企業(yè)在當(dāng)下或未來(lái)真的需要借鑒或購(gòu)買高校的技術(shù)成果呢?

  在回答這個(gè)問(wèn)題以前,我們先把當(dāng)前互聯(lián)網(wǎng)大企業(yè)與高?;ヂ?lián)網(wǎng)域的實(shí)驗(yàn)室在6項(xiàng)技術(shù)研發(fā)要素上做一個(gè)對(duì)比:

  互聯(lián)網(wǎng)大企業(yè):

  1. 人才:都是各大學(xué)(尤其是重點(diǎn)大學(xué))培養(yǎng)出來(lái)的優(yōu)秀人才,都是成手,他們帶著在校門里掌握的技術(shù)加入企業(yè)

  2. 工作效率:全職工作,高工資加期權(quán),KPI嚴(yán)格考評(píng),行動(dòng)力極強(qiáng)

  3. 資金:不需要解釋了

  4. 計(jì)算設(shè)備:以GPU為代表的大批高性能服務(wù)器,以及工程化的支持大規(guī)模計(jì)算的軟件架構(gòu)

  5. 數(shù)據(jù):T級(jí),甚至P級(jí)海量真實(shí)數(shù)據(jù)

  6. 用戶:海量用戶,每天提供大量用戶行為數(shù)據(jù),這是群體智慧之源

  高?;ヂ?lián)網(wǎng)領(lǐng)域?qū)嶒?yàn)室:

  1. 人才:資深教師有眼光和經(jīng)驗(yàn),有限數(shù)量的青年教師掌握核心技術(shù),科研力量主要是研究生,每畢業(yè)一批學(xué)生,實(shí)驗(yàn)室的實(shí)力都會(huì)減弱,新入學(xué)的研究生需要從頭培養(yǎng)

  2. 工作效率:組織松散,教師需要講課、指導(dǎo)學(xué)生、申請(qǐng)項(xiàng)目、學(xué)術(shù)交流等,學(xué)生要上課、找工作等,效率比較低

  3. 資金:國(guó)家投入不斷增加,但跟互聯(lián)網(wǎng)大企業(yè)相比差幾個(gè)數(shù)量級(jí)

  4. 計(jì)算設(shè)備:國(guó)家投入不斷增加,但跟互聯(lián)網(wǎng)大企業(yè)差幾個(gè)數(shù)量級(jí)

  5. 數(shù)據(jù):總體上,跟企業(yè)相比差幾個(gè)數(shù)量級(jí)

  6. 用戶:幾乎等于零

  從對(duì)比中,我們可以看出,1-5項(xiàng),高校雖然弱,但還是有,而第6項(xiàng),對(duì)于絕大多數(shù)高校實(shí)驗(yàn)室而言就是0。弱,會(huì)帶來(lái)很多問(wèn)題,1-4項(xiàng)的弱會(huì)導(dǎo)致高校的技術(shù)生產(chǎn)力明顯不如互聯(lián)網(wǎng)大企業(yè),而5的不足將直接導(dǎo)致一些需要大數(shù)據(jù)支撐的科研工作,在高校里做出的成果對(duì)企業(yè)無(wú)意義,這又分兩種情況:一種是高校在小數(shù)據(jù)上做出的結(jié)果很好,但到企業(yè)大數(shù)據(jù)上一跑,失效了;另一種是高校在小數(shù)據(jù)上做的效果不佳,而企業(yè)使用同樣的方法在大數(shù)據(jù)上卻取得了很好的效果。如此,高校成果對(duì)企業(yè)的借鑒意義降低了,這也是國(guó)外一些著名的學(xué)者,如Hinton、吳恩達(dá)等,紛紛離開(kāi)高校,加盟企業(yè)的主要原因。

  不過(guò),“弱”畢竟還是”有“,可以通過(guò)集中優(yōu)勢(shì)兵力,超前布局等在一定程度上去克服。更要命的是第6項(xiàng),在高校里做研究普遍脫離了用戶!吳恩達(dá)在2014年的百度世界大會(huì)上講述了“人工智能正循環(huán)”的思想,訊飛研究院的胡郁院長(zhǎng)也曾提出非常類似的“漣漪效應(yīng)”的觀點(diǎn),就是把一個(gè)不成熟的系統(tǒng)放到互聯(lián)網(wǎng)上讓用戶使,用戶在使用過(guò)程中會(huì)貢獻(xiàn)大量的群體智慧,這種群體智慧會(huì)快速地幫助提高系統(tǒng)的技術(shù)指標(biāo)。任何一個(gè)系統(tǒng)的能力提升,都必須有外界知識(shí)、能量的注入,互聯(lián)網(wǎng)大企業(yè)有海量用戶,每天可以吸收到大量的知識(shí),而高校由于與用戶脫節(jié),只有靠人工標(biāo)注的小規(guī)模(甚至可以說(shuō)是微規(guī)模的數(shù)據(jù)),加上教師學(xué)生們?cè)谒惴ㄉ舷碌墓Ψ騺?lái)改進(jìn)系統(tǒng),這就失去了當(dāng)前人工智能研發(fā)范式中極其重要的一環(huán)。

  在很多研討會(huì)上,都看到高校的老師在問(wèn)企業(yè)到底能夠向?qū)W術(shù)界開(kāi)放多少數(shù)據(jù)?其實(shí),數(shù)據(jù)有兩種,一種是用戶貢獻(xiàn)的內(nèi)容數(shù)據(jù)(UGC),一種是用戶行為數(shù)據(jù),前者由于微博等開(kāi)放數(shù)據(jù)平臺(tái)的存在,是可以支持高校做不少研究的,但更為重要的是用戶行為數(shù)據(jù),用戶查詢了什么,點(diǎn)擊了什么,最最重要的是用戶怎樣使用你開(kāi)發(fā)的系統(tǒng),給出了什么樣的具體反饋。而用戶行為數(shù)據(jù),一方面有隱私問(wèn)題,另一方面由于其價(jià)值非常高,企業(yè)是不會(huì)開(kāi)放的。

  結(jié)論:在當(dāng)前條件下,高校從事互聯(lián)網(wǎng)應(yīng)用研究的學(xué)者,必須與企業(yè)緊密結(jié)合,或者自己做出能夠吸引一定數(shù)量用戶使用的原型系統(tǒng),才能獲得用戶行為數(shù)據(jù)。最好在企業(yè)已經(jīng)搭建起來(lái)的大平臺(tái)、高平臺(tái)上開(kāi)展企業(yè)暫時(shí)做不好或無(wú)暇去做的研究,保底也要自己拿到足夠的真實(shí)的用戶行為數(shù)據(jù),如此才有可能在某個(gè)很聚焦的點(diǎn)上做出真正有價(jià)值的應(yīng)用技術(shù)來(lái)。否則大企業(yè)在諸多互聯(lián)網(wǎng)應(yīng)用研究上領(lǐng)先于高校的情況將繼續(xù)存在,高校開(kāi)展應(yīng)用研究的價(jià)值真的就只是培養(yǎng)學(xué)生了。

  注:本文的觀點(diǎn)是對(duì)我四年前關(guān)于高校應(yīng)該與工業(yè)界松耦合想法的一個(gè)否定,自我否定的主要原因是意識(shí)到用戶大數(shù)據(jù)在技術(shù)提升方面迸發(fā)出的超能量,用戶大數(shù)據(jù)對(duì)于高校不是可有可無(wú)的,而是必選項(xiàng)。本人的研究領(lǐng)域:自然語(yǔ)言處理、社會(huì)媒體處理、信息檢索,本文所謂互聯(lián)網(wǎng)應(yīng)用研究,主要指的也是這幾個(gè)研究領(lǐng)域,受本人視野所限,偏頗之處,請(qǐng)讀者見(jiàn)諒、指正。

人物訪談