物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

王守崑:大數(shù)據(jù)時代社交圖譜與興趣圖譜的融合

作者:RFID世界網(wǎng)收錄
來源:騰訊科技
日期:2013-11-18 08:56:29
摘要:中國技術(shù)商業(yè)論壇組委會主辦、《IT經(jīng)理世界》雜志社承辦的“中國技術(shù)商業(yè)論壇”在京舉行,豆瓣首席科學(xué)家王守崑與會進行了主題演講。王守崑表示,個性化推薦會是整個互聯(lián)網(wǎng),包括移動互聯(lián)網(wǎng)的下一件大事。能夠成為大數(shù)據(jù)它的首要條件必須是增長非???,就是必須得以線性增長,然后快,這是第一個。第二個它必須有復(fù)雜的內(nèi)部結(jié)構(gòu)。

  中國技術(shù)商業(yè)論壇組委會主辦、《IT經(jīng)理世界》雜志社承辦的“中國技術(shù)商業(yè)論壇”在京舉行,豆瓣首席科學(xué)家王守崑與會進行了主題演講。王守崑表示,個性化推薦會是整個互聯(lián)網(wǎng),包括移動互聯(lián)網(wǎng)的下一件大事。能夠成為大數(shù)據(jù)它的首要條件必須是增長非常快,就是必須得以線性增長,然后快,這是第一個。第二個它必須有復(fù)雜的內(nèi)部結(jié)構(gòu)。

  騰訊科技對本次盛會進行了全方位專題報道。

  以下是文字實錄:

  謝謝各位,感謝主辦方和《IT經(jīng)理世界》能給大家提供這樣一個平臺。今天我演講的題目是“大數(shù)據(jù)時代社交圖譜與興趣圖譜的融合”也是豆瓣在過去幾年在數(shù)據(jù)和科技化方面的一個經(jīng)驗的積累。首先,我想問大家一個問題,這個詞我們聽了好長時間了,大數(shù)據(jù),什么是大數(shù)據(jù)?這個詞大概從去年,然后很多人就不停的聽到,可能很多同學(xué)在跟硬件相關(guān)的廠商那邊聽到,所以有的同學(xué)說是不是硬件廠商把其他的東西重新包裝一下,讓我們都賣產(chǎn)品。

  我們看這個例子,第一個如果我們把全球所有的移動電話和用戶的通話記錄放在一起,這個叫大數(shù)據(jù)嗎?我聽有同事說算大數(shù)據(jù)。第二個是所有的門戶網(wǎng)站,我們說中文的門戶網(wǎng)站,幾個大的門戶網(wǎng)站,每天產(chǎn)生的新聞,這個算大數(shù)據(jù)嗎?有同學(xué)說算,有同學(xué)說不算。第三個這個東西可能用的不多,原來還有,就是特別厚的一本,上面各種機構(gòu)或者有些時候還有個人的電話和他的地址,如果假設(shè)有這么一個東西,全世界的各個機構(gòu)的電話跟他的地址綜合在一起,可能也是非常大的數(shù)據(jù)量,幾十億,幾百億的數(shù)據(jù)量,這個算大數(shù)據(jù)嗎?

  下面,我用我自己的理解,這純粹是我個人的一家之言,不代表任何人來看一看這幾個東西到底算不算大數(shù)據(jù)?我覺得大數(shù)據(jù)的第一個條件就是所謂的超線性增長,你得增長特別快,超線性這個詞有一個廣義的理解,有一個狹義的,狹義的就是增長的斜率必須是固定的,必須大于1,必須得比線性斜率不能是恒定的。廣義的理解,就是即便是線性的,只要你是大于1的,就叫超線性增長。我在這里使用的是廣義的含義,就是你只要斜率大于1就算超線性。這個詞在美國的一個研究所,有一位物理學(xué)家是研究所有城市和機構(gòu)為什么能夠長這么大,為什么我們這個世界上有超大型的城市,他在研究這個的時候提出的這樣一個理論。我把這個東西借鑒到這個理論來,就是一個數(shù)據(jù)源產(chǎn)生數(shù)據(jù),能夠成為大數(shù)據(jù)它的首要條件必須是增長非常快,就是必須得以線性增長,然后快,這是第一個。第二個它必須有復(fù)雜的內(nèi)部結(jié)構(gòu),為什么說要有復(fù)雜的內(nèi)部結(jié)構(gòu)呢?如果僅僅是簡單的數(shù)據(jù)機構(gòu),沒有辦法分析出更深的結(jié)果,沒有辦法從里面得到更多的信息。有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)之后,再配合上超線性的增長,我們就可以從里面分析出很多有意思的結(jié)果,能夠得到很深的一些洞察。

  滿足前面這兩條的其實最最簡單的例子大家每天接觸的就是互聯(lián)網(wǎng),它為什么能滿足前面兩條呢?第一、首先它是網(wǎng)絡(luò),網(wǎng)絡(luò)的本質(zhì)就是互相有連接。我們這個屋子里大概有100多人,假設(shè)150人,這樣一個狀態(tài),如果是線性增長,我們每個人產(chǎn)生的數(shù)據(jù)肯定是一定比例的線性增長,但是如果我們之間互相之間都認識,兩兩之間都認識,這就是一個平方量級,就是150×149,或者150平方的關(guān)系。在這個關(guān)系上產(chǎn)生的數(shù)據(jù)就叫做超線性增長的數(shù)據(jù),具備這樣條件的把它叫做大數(shù)據(jù)。

  除此之外,當(dāng)然還有第三點,不是硬性的一個規(guī)定,只是說為什么我們在現(xiàn)在這個條件下大家會更多的討論什么是大數(shù)據(jù)?那就是我們現(xiàn)在能夠以非常低的成本去接觸大數(shù)據(jù),從大數(shù)據(jù)中挖掘出有意思的信息。這張圖是大概二三十年內(nèi)存下降的趨勢,縱軸是對數(shù),這實際上是線性下降的。我自己的印象也非常深刻,大概在20多年前,我念大學(xué)的時候,我的第一臺電腦,想把內(nèi)存搞大一些,所以我花了差不多快2000塊錢買了一個內(nèi)存條,當(dāng)時看來已經(jīng)非常大了,16兆的一個內(nèi)存條,當(dāng)時2000塊錢。我們現(xiàn)在2000塊錢可以買好幾十G的內(nèi)存了,這個下降非常快。這個也就使得普通的公司,非常小的公司,甚至是個人都能夠去從硬件的角度來看,都能夠處理大數(shù)據(jù),都能夠從大數(shù)據(jù)中挖掘出對自己有用的,或者對用戶有用的價值。所以,這個是我個人的一個看法,就是什么是大數(shù)據(jù),哪些東西能夠成為大數(shù)據(jù)?

  回來看前面說的三個數(shù)據(jù)源,這是我個人的觀點。第一、我覺得它是大數(shù)據(jù)?為什么?因為我們之間的通話,交往的過程,它是一個網(wǎng)絡(luò)狀的,是超線性增長的,并且我們的通話內(nèi)容是非常復(fù)雜的,具有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),包括我們的時間,包括方方面面的算法。第二個例子是這樣,如果只是每天產(chǎn)生的新聞,它不算大數(shù)據(jù),為什么?因為這個量是有限的,每天也就是大概幾十萬,上百萬條,而且每天的增長也是有限的。但是,如果把用戶的瀏覽記錄,甚至把新聞的內(nèi)容,比如說你對這個文本做分解,把這個文本之間產(chǎn)生互相的聯(lián)系的話,這個就算大數(shù)據(jù)。因為這些新聞網(wǎng)站的用戶量是非常龐大的,從瀏覽記錄能夠分析出用戶的興趣,這個超線性的增長,它的數(shù)據(jù)結(jié)構(gòu)會是非常復(fù)雜的一個結(jié)構(gòu),所以這個算是大數(shù)據(jù)。第三個在我個人來看,它不算大數(shù)據(jù),雖然它的量非常大,幾十億,上百億的量,但是它的數(shù)據(jù)結(jié)構(gòu)非常簡單,并且它的增長不是超線性的增長,僅僅是線性的增長。這個純粹是我個人的一個觀點,跟大家分享一下。

  我們豆瓣上線已經(jīng)有八年多的時間了,我們專注于一個都市青年的文化圈和生活的這樣一個線上服務(wù)。我們管我們自己叫做基于興趣圖譜的社會化網(wǎng)絡(luò)服務(wù)。從上線開始,我們就做一件事情,就是個性化推薦,我們依據(jù)用戶的歷史的興趣,或者他表現(xiàn)出來的偏好,給他推薦他可能感興趣的,但是他還不知道的東西。這也是個性化推薦所能做到的最重要的一點,就是它能夠幫你發(fā)現(xiàn)未知的,它跟搜索引擎不一樣,你在搜索引擎做搜索的時候必須心里有一個想法,或者你要知道是什么東西,你搜現(xiàn)在最熱的電影。但是,如果你不知道你想看什么電影的時候,這個時候推薦引擎就可以幫到你。

  這是我個人的一個簡單的分類,個性化推薦到現(xiàn)在大概有20多年的發(fā)展歷史,最早在Web1.0的時代,那時候有非常多的垃圾郵件,當(dāng)時用協(xié)同過濾的算法找到這些垃圾郵件的發(fā)送者。隨著亞馬遜把個性化推薦用到它的電子商務(wù)網(wǎng)站之后,其他很多網(wǎng)站都使用了這種個性化推薦的技術(shù),豆瓣在05年一上線我們的創(chuàng)始人就使用了這個個性化推薦的技術(shù)為大家做推薦。

  截止到目前來看,個性化推薦可以用在社交圖譜里面,社交的社會網(wǎng)絡(luò)里面,可以用在興趣圖譜里面,比如像豆瓣,還有像一些電子商務(wù)網(wǎng)站,用戶依據(jù)興趣挑選商品,或者挑選產(chǎn)品的這樣兩個大的緯度??v向來看,我們可以把這個服務(wù)分成信息服務(wù),是工具、體型的服務(wù),以及交易類的服務(wù),我用方塊的大小表示個性化推薦技術(shù)在這些領(lǐng)域的使用。從目前來看,基于交易的興趣圖譜和基于信息的興趣圖譜上是使用的最多的。豆瓣對各種各樣的產(chǎn)品都去做推薦,這是我們嘗試后的一些結(jié)果,這里只是一個大概的數(shù)字,并不是實際的產(chǎn)品數(shù)據(jù)。從我們這邊來看,比如說單曲的推薦,圖書的推薦,小組的推薦,都會獲得很好的效果。我們用幾個緯度衡量個性化推薦的效果,一條目數(shù)和用戶數(shù),一個是時效性和多樣性,比如時效性,這個產(chǎn)品出來多長時間之后,用戶就對它沒興趣了。比如新聞,一般來說我們的經(jīng)驗是一天半以前的新聞用戶就不會有興趣了,但是比如書的話,時效性非常強,幾百年前,幾千年前寫的東西,人們還在讀。興趣的不同,對個性化推薦的選擇會有很大的影響。我們還嘗試了很多我喜歡的這些東西,可能稍微偏技術(shù)性一點,就是用不同的算法,不同的模型看個性化推薦在不同緯度上的表現(xiàn)。我們的結(jié)論是說比較簡單的算法,比如最簡單的協(xié)同過濾算法,其實它在各個方面都有必須好的結(jié)果,也就是在數(shù)據(jù)量達到一定程度之后,其實算法和選擇更多需要看你實際用戶的需要,其實往往簡單的算法會有好的一些結(jié)果。

  個性化推薦技術(shù)可以給我們網(wǎng)站帶來非常大的效果上的提升,這是一個大概的數(shù)據(jù),它的最大的優(yōu)勢就在于新用戶的轉(zhuǎn)化率,尤其是新用戶在頭幾個訪問的時候,如果你能抓住他的興趣,迅速給他推薦一些他感興趣的產(chǎn)品,或者是感興趣的信息,它的轉(zhuǎn)化率會大大的提升。豆瓣上線沒多長時間我們就發(fā)現(xiàn)在依據(jù)興趣的這樣一個社交會給用戶的活躍度帶來很大的提升,所以我們在產(chǎn)品中也加入一些社交的元素。當(dāng)然,社交圖譜方面我相信大家都非常了解了,在這里就不做介紹了。

  我們做社交圖譜的時候發(fā)現(xiàn)這個東西比興趣圖譜要復(fù)雜的多,它的復(fù)雜其實來源于一個是人與人關(guān)系的復(fù)雜性,人跟產(chǎn)品之間的關(guān)系相對比較簡單,我喜歡這個產(chǎn)品,我不喜歡這個產(chǎn)品,這個描述大概能描述你80%的情況。但是,人跟人之間的關(guān)系就很復(fù)雜,沒有一個簡單的,或者說是清晰的模型去描述人與人之間關(guān)系的這個復(fù)雜性,或者人與人之間關(guān)系很難用單一緯度描述的,我們?nèi)伺c人之間的關(guān)系非常復(fù)雜。第二、人與人之間交互在網(wǎng)站上表現(xiàn)成文字了,現(xiàn)在互相的回帖,或者互相說個話等等,這個語義的復(fù)雜性也不是現(xiàn)在計算機技術(shù)能夠完全掌握,或者完全攻克的一個難題,所以語義的復(fù)雜性也帶來描述人和人之間關(guān)系的復(fù)雜性。

  我們解決這個東西的一個辦法,最后我們用了一個相對比較簡單的辦法,效果還不錯的辦法,其實就是我們用人來描述人,結(jié)合編輯的一些力量,結(jié)合算法的力量,用人描述一群人,給每一群人找到一些代表性的人物,然后用這些代表性的人物的特點表現(xiàn)他的興趣描述整個一群人這樣的特點。這一點在我們個性化推薦方面,就是我把人和人之間的社會關(guān)系用到個性化推薦方面也取得了不錯的效果。

  興趣圖譜跟社交圖譜的一個重大區(qū)別,在這里做了一個簡單的描述,在興趣圖譜中人群更多是一個生人的網(wǎng)絡(luò),大家來到興趣圖譜之前互相之間不太認識,依據(jù)興趣來結(jié)合新的網(wǎng)絡(luò)。但是,社交圖譜更多是熟人的網(wǎng)絡(luò),尤其是強社交的關(guān)系,像大家現(xiàn)在用的微信,手機里的通訊錄等等,這個是熟人的關(guān)系。不同的人群它表現(xiàn)出的特點其實也是不太一樣的,比如說社交圖譜在黏性上和頻度上都很高,但是它在持久性上,有時候有的產(chǎn)品比較高,但是有的產(chǎn)品其實也沒有那么高。興趣圖譜一般來說黏性和頻度都沒有那么高,但是它的持久性會比較好一些,因為興趣一般都會是長期的興趣。依據(jù)這樣不同的特點,在我們做個性化推薦的時候可以有不同的一些考量。

  我們把社交圖譜融入興趣圖譜也有一個很大的提升,首先是推薦準確率提升了,純粹用興趣圖譜做推薦的時候,新用戶轉(zhuǎn)化率比較好。把社交圖譜融合進來最大的挑戰(zhàn)其實就是數(shù)據(jù)層面的挑戰(zhàn),我們有上億量級的用戶,每個用戶細分的興趣大概有上千種,我們整個用戶的興趣。每個用戶相對比較強的社交的關(guān)系大概有幾百種的樣子,或者上百類。那么,這個乘起來其實就會是一個非常大的數(shù)據(jù)量,也就是我們會用幾十萬的維的向量描述一個人,甚至擺成一千量級的數(shù)據(jù)描述一個人,我們還要找人跟人之間的關(guān)系,在數(shù)據(jù)上就會是非常大的一個挑戰(zhàn),也是我們每天的工作要做的事情。

  對于我們來說,我們期待下一代推薦系統(tǒng)就是除了融合興趣圖譜和社交圖譜之外,我們真正想做的事情其實是給用戶的一個引導(dǎo),能夠幫助用戶發(fā)現(xiàn)它真正有價值的東西。其實現(xiàn)在的個性化推薦往往很難解決一個驚喜的問題,現(xiàn)在的個性化推薦很多時候,你看過天龍八部,給你推薦笑傲江湖,這個沒有什么興趣,我們主要要解決的就是幫助你進一步探索你未知的,而且對你很有用,而且能給你帶來驚喜的這樣的推薦的領(lǐng)域。

  從我個人來看,我也認為在現(xiàn)在的網(wǎng)絡(luò)融合的時代,有云計算好的基礎(chǔ),有強大的社會網(wǎng)絡(luò)和興趣網(wǎng)絡(luò),然后隨著移動互聯(lián)網(wǎng)的發(fā)展,我們大家也更愿意去把自己的信息放在網(wǎng)絡(luò)上,我們的手機是非常個人化的一個產(chǎn)品,從我個人來看,我也認為個性化推薦會是整個互聯(lián)網(wǎng),包括移動互聯(lián)網(wǎng)的下一件大事。謝謝各位!

人物訪談