物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

吳軍:三個案例透析大數(shù)據(jù)思維的核心

作者:本站采編
來源:《智能時代》中信出版社
日期:2016-11-29 11:41:43
摘要:邏輯推理能力是人類特有的本領(lǐng),給出原因,我們能夠通過邏輯推理得到結(jié)果。在過去,我們一直非常強(qiáng)調(diào)因果關(guān)系,一方面是因?yàn)槲覀兂3J窍扔性?,再有結(jié)果,另一方面是因?yàn)槿绻覀冋也怀鲈?,常常會覺得結(jié)果不是非常可信。而大數(shù)據(jù)時代,大數(shù)據(jù)思維要求我們從探求因果聯(lián)系到探索強(qiáng)相關(guān)關(guān)系。
關(guān)鍵詞:大數(shù)據(jù)思維

  邏輯推理能力是人類特有的本領(lǐng),給出原因,我們能夠通過邏輯推理得到結(jié)果。在過去,我們一直非常強(qiáng)調(diào)因果關(guān)系,一方面是因?yàn)槲覀兂3J窍扔性?,再有結(jié)果,另一方面是因?yàn)槿绻覀冋也怀鲈?,常常會覺得結(jié)果不是非常可信。而大數(shù)據(jù)時代,大數(shù)據(jù)思維要求我們從探求因果聯(lián)系到探索強(qiáng)相關(guān)關(guān)系。

  以下三個案例分別來自藥品研發(fā)、司法判決與廣告投放,從三個不同的角度了解大數(shù)據(jù)思維的核心。

  大數(shù)據(jù)與藥品研發(fā):

  尋找特效藥的方法

  比如在過去,現(xiàn)代醫(yī)學(xué)里新藥的研制,就是典型的利用因果關(guān)系解決問題的例子。

  青霉素的發(fā)明過程就非常具有代表性。首先,在19世紀(jì)中期,奧匈帝國的塞麥爾維斯(Ignaz Philipp Semmelweis,1818—1865)a、法國的巴斯德等人發(fā)現(xiàn)微生物細(xì)菌會導(dǎo)致很多疾病,因此人們很容易想到殺死細(xì)菌就能治好疾病,這就是因果關(guān)系。不過,后來弗萊明等人發(fā)現(xiàn),把消毒劑涂抹在傷員傷口上并不管用,因此就要尋找能夠從人體內(nèi)殺菌的物質(zhì)。最終在1928年弗萊明發(fā)現(xiàn)了青霉素,但是他不知道青霉素殺菌的原理。而牛津大學(xué)的科學(xué)家錢恩和亞伯拉罕搞清楚了青霉素中的一種物質(zhì)—青霉烷—能夠破壞細(xì)菌的細(xì)胞壁,才算搞清楚青霉素有效性的原因,到這時青霉素治療疾病的因果關(guān)系才算完全找到,這時已經(jīng)是1943年,離賽麥爾維斯發(fā)現(xiàn)細(xì)菌致病已經(jīng)過去近一個世紀(jì)。兩年之后,女科學(xué)家多蘿西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子結(jié)構(gòu),并因此獲得了諾貝爾獎,這樣到了1957年終于可以人工合成青霉素。當(dāng)然,搞清楚青霉烷的分子結(jié)構(gòu),有利于人類通過改進(jìn)它來發(fā)明新的抗生素,亞伯拉罕就因此而發(fā)明了頭孢類抗生素。

  在整個青霉素和其他抗生素的發(fā)明過程中,人類就是不斷地分析原因,然后尋找答案(結(jié)果)。當(dāng)然,通過這種因果關(guān)系找到的答案非常讓人信服。

  其他新藥的研制過程和青霉素很類似,科學(xué)家們通常需要分析疾病產(chǎn)生的原因,尋找能夠消除這些原因的物質(zhì),然后合成新藥。這是一個非常漫長的過程,而且費(fèi)用非常高。在七八年前,研制一種處方藥已經(jīng)需要花費(fèi)10年以上的時間,投入10億美元的科研經(jīng)費(fèi),如今,時間和費(fèi)用成本都進(jìn)一步提高;一些專家,比如斯坦福醫(yī)學(xué)院院長米納(Lloyd Minor)教授則估計需要20年的時間,20億美元的投入。這也就不奇怪為什么有效的新藥價格都非常昂貴,因?yàn)槿绻荒茉趯@行趦?nèi)a賺回20億美元的成本,就不可能有公司愿意投錢研制新藥了。

  按照因果關(guān)系,研制一種新藥就需要如此長的時間、如此高的成本。這顯然不是患者可以等待和負(fù)擔(dān)的,也不是醫(yī)生、科學(xué)家、制藥公司想要的,但是過去沒有辦法,大家只能這么做。

  如今,有了大數(shù)據(jù),尋找特效藥的方法就和過去有所不同了。美國一共只有5 000多種處方藥,人類會得的疾病大約有一萬種。如果將每一種藥和每一種疾病進(jìn)行配對,就會發(fā)現(xiàn)一些意外的驚喜。比如斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn),原來用于治療心臟病的某種藥物對治療某種胃病特別有效。當(dāng)然,為了證實(shí)這一點(diǎn)需要做相應(yīng)的臨床試驗(yàn),但是這樣找到治療胃病的藥只需要花費(fèi)3年時間,成本也只有1億美元。這種方法,實(shí)際上依靠的并非因果關(guān)系,而是一種強(qiáng)關(guān)聯(lián)關(guān)系,即A藥對B病有效。至于為什么有效,接下來3年的研究工作實(shí)際上就是在反過來尋找原因。這種先有結(jié)果再反推原因的做法,和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反。無疑,這樣的做法會比較快,當(dāng)然,前提是有足夠多的數(shù)據(jù)支持。

  大數(shù)據(jù)思維與司法:

  為香煙定罪

  在過去,由于數(shù)據(jù)量有限,而且常常不是多維度的,這樣的相關(guān)性很難找得到,即使偶爾找到了,人們也未必接受,因?yàn)檫@和傳統(tǒng)的觀念不一樣。20世紀(jì)90年代中期,在美國和加拿大圍繞香煙是否對人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關(guān)鍵,是采用因果關(guān)系判定,還是采用相關(guān)性判定,決定了那些訴訟案判決結(jié)果。

  在今天一般的人看來,吸煙對人體有害,這是板上釘釘?shù)氖聦?shí)。比如美國外科協(xié)會的一份研究報告顯示,吸煙男性肺癌的發(fā)病率是不吸煙男性的23倍,女性則是相應(yīng)的13倍a,這從統(tǒng)計學(xué)上講早已經(jīng)不是隨機(jī)事件的偶然性了,而是存在必然的聯(lián)系。但是,就是這樣看似如山的鐵證,依然“不足夠”以此判定煙草公司就是有罪,因?yàn)樗鼈冋J(rèn)為吸煙和肺癌沒有因果關(guān)系。煙草公司可以找出很多理由來辯解,比如說一些人之所以要吸煙,是因?yàn)樯眢w里有某部分基因缺陷或者身體缺乏某種物質(zhì);而導(dǎo)致肺癌的,是這種基因缺陷或者某種物質(zhì)的缺乏,而非煙草中的某些物質(zhì)。從法律上講,煙草公司的解釋很站得住腳,美國的法律又是采用無罪推定原則a,因此,單純靠發(fā)病率高這一件事是無法判定煙草公司有罪的。這就導(dǎo)致了在歷史上很長的時間里,美國各個州政府的檢察官在對煙草公司提起訴訟后,經(jīng)過很長時間的法庭調(diào)查和雙方的交鋒,最后結(jié)果都是不了了之。其根本原因是提起訴訟的原告一方(州檢察官和受害人)拿不出足夠充分的證據(jù),而煙草公司又有足夠的錢請到很好的律師為它們進(jìn)行辯護(hù)。

  這種情況直到20世紀(jì)90年代中期美國歷史上的那次世紀(jì)大訴訟才得到改變。1994年,密西西比州的總檢察長麥克·摩爾(Michael Moore)又一次提起了對菲利普·莫里斯等煙草公司的集體訴訟,隨后,美國40多個州加入了這場有史以來最大的訴訟行動。在訴訟開始以前,雙方都清楚官司的勝負(fù)其實(shí)取決于各州的檢察官們能否收集到讓人信服的證據(jù)來證明是吸煙而不是其他原因?qū)е铝撕芏嗉膊?比如肺癌)更高的發(fā)病率。

  我們在前面講了,單純講吸煙者比不吸煙者肺癌的發(fā)病率高是沒有用的,因?yàn)榈梅伟┛赡苁怯善渌苯拥囊蛩匾鸬?。要說明吸煙的危害,最好能找到吸煙和得病的因果關(guān)系,但是這件事情短時間內(nèi)又做不到。因此,訴訟方只能退而求其次,他們必須能夠提供在(煙草公司所說的)其他因素都被排除的情況下,吸煙者發(fā)病的比例依然比不吸煙者要高很多的證據(jù),這件事做起來遠(yuǎn)比想象的困難。雖然當(dāng)時全世界的人口多達(dá)60億,吸煙者的人數(shù)也很多,得各種與吸煙有關(guān)疾病的人也不少,但是在以移民為主的美國,尤其是大城市里,人們彼此之間基因的差異相對較大,生活習(xí)慣和收入狀況也千差萬別,即使調(diào)查了大量吸煙和不吸煙的樣本,能夠進(jìn)行比對的、各方面條件都很相似的樣本并不多。不過在20世紀(jì)90年代的那次世紀(jì)大訴訟中,各州的檢察長下定決心要打贏官司,而不再是不了了之,為此他們聘請了包括約翰·霍普金斯大學(xué)在內(nèi)的很多大學(xué)的頂級專家作為訴訟方的顧問,其中既包括醫(yī)學(xué)家,也包括公共衛(wèi)生專家。這些專家們?yōu)榱耸占C據(jù),派下面的工作人員到世界各地,尤其是第三世界國家的農(nóng)村地區(qū)(包括中國的西南地區(qū)),去收集對比數(shù)據(jù)。在這樣的地區(qū),由于族群相對單一(可以排除基因等先天的因素),收入和生活習(xí)慣相差較小(可以排除后天的因素),有可能找到足夠多的可對比的樣本,來說明吸煙的危害。

  各州檢察官們和專家們經(jīng)過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達(dá)成和解,同意賠償3 655億美元。在這場歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對人體有害的因果關(guān)系的證據(jù),而依然是采用了統(tǒng)計上強(qiáng)相關(guān)性的證據(jù),只是這一次的證據(jù)能夠讓陪審團(tuán)和法官信服。在這場馬拉松式的訴訟過程中,其實(shí)人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強(qiáng)相關(guān)性上來了。

  如果在法律上都能夠被作為證據(jù)接受,那么把相關(guān)性的結(jié)果應(yīng)用到其他領(lǐng)域更是順理成章的事情。

  大數(shù)據(jù)思維與廣告:

  咖啡與信用卡廣告更配哦

  2003年Google推出了根據(jù)網(wǎng)頁內(nèi)容安插廣告的AdSense服務(wù),以與那些在網(wǎng)頁中隨機(jī)投放廣告的產(chǎn)品競爭。根據(jù)我們的直覺,如果在一個和照相機(jī)有關(guān)的網(wǎng)站(或者)網(wǎng)頁中放上照相機(jī)的廣告,效果應(yīng)該最好。這其實(shí)就是用到了相關(guān)性的特點(diǎn),但是大部分時候,相關(guān)性并不是那么直接,不能一眼就看出來。根據(jù)大量數(shù)據(jù)的統(tǒng)計結(jié)果,我們發(fā)現(xiàn)這樣一些廣告和內(nèi)容的搭配效果非常好,很多和我們的想象不大相同,比如:

  在電影租賃和收看視頻的網(wǎng)站上,放上零食的廣告;

  在女裝網(wǎng)站上,放男裝的廣告;

  在咖啡評論和銷售網(wǎng)站上,放信用卡和房貸的廣告;

  在工具(Hardware)評論網(wǎng)站上,放上快餐的廣告;

  ......

  這些搭配,如果沒有大量的數(shù)據(jù)統(tǒng)計作為基礎(chǔ),一般人是想不到的。當(dāng)然,如果仔細(xì)分析有些看似不太相關(guān)的搭配,還是能夠找到合理的解釋,比如電影租賃和視頻播放網(wǎng)站與零食廣告的搭配,符合人在看視頻時喜歡吃零食的習(xí)慣。

  但是,有些搭配會讓人完全摸不到頭腦,比如把咖啡和信用卡或者房貸聯(lián)系起來。不管是能夠找到原因的,還是想不出原因的(可能背后存在著我們一時想不到的原因),只要使用了這些相關(guān)性,廣告的效果就好。當(dāng)然,在利用相關(guān)性時,我們希望是那種可信度比較高的,即數(shù)學(xué)上所謂的強(qiáng)相關(guān)性,而不是隨便把一些看似相關(guān)的東西扯到一起。

  我們在前面提到,能通過因果關(guān)系找到答案,根據(jù)因果關(guān)系知道原因固然好,但是對于復(fù)雜的問題,其難度非常大,除了靠物質(zhì)條件、人們的努力,還要靠運(yùn)氣。

  牛頓和愛因斯坦都是運(yùn)氣很好的人。遺憾的是,大部分時候我們并沒有靈感和運(yùn)氣,因此很多問題得不到解決。在大數(shù)據(jù)時代,我們能夠得益于一種新的思維方法—從大量的數(shù)據(jù)中直接找到答案,即使不知道原因。

人物訪談