物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

百度人工智能與癌癥醫(yī)療結(jié)合會(huì)有什么想象力?

作者:承哲
來源:搜狐
日期:2015-12-25 11:48:42
摘要:近日,李彥宏宣布個(gè)人捐款3000元萬,支持中國的癌癥事業(yè),而在今年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上李彥宏也提及了大數(shù)據(jù)醫(yī)療。馬不停蹄,12月22日百度方面也正式宣布與協(xié)和醫(yī)院一起發(fā)布了“百度與協(xié)和醫(yī)學(xué)院合作開展癌癥研究”協(xié)議,將百度的人工智能技術(shù)與協(xié)和醫(yī)院的食癌數(shù)據(jù)進(jìn)行對(duì)接,共同推進(jìn)食癌項(xiàng)目,這也是繼百度與中國交通部、中國疾病預(yù)防控制中心合作后的第三次參與到民生工程的建設(shè)中。

百度人工智能與癌癥醫(yī)療結(jié)合會(huì)有什么想象力?

  近日,李彥宏宣布個(gè)人捐款3000元萬,支持中國的癌癥事業(yè),而在今年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上李彥宏也提及了大數(shù)據(jù)醫(yī)療。馬不停蹄,12月22日百度方面也正式宣布與協(xié)和醫(yī)院一起發(fā)布了“百度與協(xié)和醫(yī)學(xué)院合作開展癌癥研究”協(xié)議,將百度的人工智能技術(shù)與協(xié)和醫(yī)院的食癌數(shù)據(jù)進(jìn)行對(duì)接,共同推進(jìn)食癌項(xiàng)目,這也是繼百度與中國交通部、中國疾病預(yù)防控制中心合作后的第三次參與到民生工程的建設(shè)中。

  一,為何癌癥大數(shù)據(jù)處于“沉睡”狀態(tài)?

  《中國科學(xué)報(bào)》曾經(jīng)做過一個(gè)采訪,專家們對(duì)癌癥大數(shù)據(jù)總結(jié)下來屬于這么一個(gè)情況,中國擁有13億的人口,其產(chǎn)生的海量數(shù)據(jù)有著極大的研發(fā)價(jià)值,但是困境有以下幾點(diǎn)。

  由于數(shù)據(jù)的過于龐大,首先面臨的是數(shù)據(jù)的存儲(chǔ)與計(jì)算問題。一個(gè)標(biāo)準(zhǔn)的病理圖則接近5GB,僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多,加之每天患者數(shù)目的增加,醫(yī)療大數(shù)據(jù)也有著增長過快的特點(diǎn)。這就導(dǎo)致了有些普通醫(yī)院甚至連存儲(chǔ)這些海量數(shù)據(jù)的能力都沒有。而與此同時(shí),龐大的數(shù)據(jù)也導(dǎo)致需要極為強(qiáng)大的計(jì)算能力,要在短時(shí)間內(nèi)處理上TB的數(shù)據(jù),只有是大型IT科技公司或者是國家級(jí)計(jì)算機(jī)科研機(jī)構(gòu)才能做到,醫(yī)院方面也只能望洋興嘆。

  其次,醫(yī)療大數(shù)據(jù)的結(jié)構(gòu)缺乏標(biāo)準(zhǔn)化,每家醫(yī)院的信息化工作都涉及幾十個(gè)廠家,每個(gè)廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲(chǔ)都不一樣。因此,即便是在一家醫(yī)院,都會(huì)出現(xiàn)很多孤島。

  以上,中國的癌癥大數(shù)據(jù)處于蜂窩煤的狀態(tài),數(shù)據(jù)雖大,但是亂,質(zhì)量差,缺乏對(duì)數(shù)據(jù)利用的能力。醫(yī)院的尷尬在于,有著海量的重要病患的大數(shù)據(jù)資源,但是卻沒有對(duì)應(yīng)處理的工具,處于巧婦難為無米之炊的狀態(tài)。

  二,百度將如何激活“醫(yī)療大數(shù)據(jù)”?

  先從存儲(chǔ)空間與運(yùn)算能力來說,先說存儲(chǔ)空間,雖然百度從未公布過自己的存儲(chǔ)能力,但是從另一個(gè)側(cè)面,2013年開啟的百度云盤免費(fèi)2T容量,而當(dāng)時(shí)中國的網(wǎng)民有6億,假如保守估計(jì)有1億用戶使用百度的產(chǎn)品,那百度所需要存儲(chǔ)的數(shù)據(jù)也是一個(gè)天文數(shù)字。其次是高運(yùn)算能力,這點(diǎn)百度也是百度強(qiáng)項(xiàng),根據(jù)2014年的數(shù)據(jù),百度一天可以掃描高達(dá)10PB的數(shù)據(jù),而百度也在準(zhǔn)備推出Minawa超級(jí)計(jì)算機(jī),能夠進(jìn)行每秒7千萬億次的計(jì)算,將進(jìn)入全球前十的超級(jí)計(jì)算機(jī)。

  百度做搜索起家,其大規(guī)模分布式內(nèi)存存儲(chǔ)以及分布式集群計(jì)算的能力早已成熟,因此幫助協(xié)和醫(yī)院進(jìn)行數(shù)據(jù)的存儲(chǔ)與處理也自然不成問題。

  其次是要解決數(shù)據(jù)的標(biāo)準(zhǔn)化問題,大數(shù)據(jù)醫(yī)療最痛苦的事情不在于數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性對(duì)比,最為痛苦的事情在于數(shù)據(jù)的無法標(biāo)準(zhǔn)化。以谷歌1.3億美金投資的Flatiron Health公司為例,該公司在做的主要任務(wù)不是大數(shù)據(jù)的挖掘,而是大數(shù)據(jù)格式的統(tǒng)一化,該公司通過還完善“NLP自然語言處理”的技術(shù),讓計(jì)算機(jī)“閱讀”文件,并且從中提取數(shù)據(jù),并再聘請50人護(hù)士團(tuán)隊(duì)手動(dòng)錄入數(shù)據(jù),這在國內(nèi)也同樣是無法繞過的事情。

  幸運(yùn)的“NLP”技術(shù)是百度建立公司的技術(shù)基石,搜索引擎理解用戶的請求、理解文本內(nèi)容、理解內(nèi)容的價(jià)值高低,等等所有環(huán)節(jié)都需要用到NLP技術(shù)。百度的“NLP”技術(shù),百度在“NLP”將會(huì)是將醫(yī)療大數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的最大福音。

  綜上,百度通過自身優(yōu)勢與醫(yī)院的癌癥大數(shù)據(jù)結(jié)合,將會(huì)一點(diǎn)點(diǎn)喚醒原本沉睡的數(shù)據(jù),發(fā)現(xiàn)地下的金礦。

  三,人工智能與生命科學(xué)還能碰撞出什么?

  在12月22日下午召開的北京協(xié)和醫(yī)學(xué)院與百度合作開展癌癥研究發(fā)布會(huì)上,李彥宏這表示,早在20年前,就對(duì)生命科學(xué)很感興趣,并差點(diǎn)投身于生命科學(xué)領(lǐng)域。而當(dāng)下的大數(shù)據(jù)+人工智能+生命科學(xué)正在爆發(fā)著前所未有的潛力,正在曲線實(shí)現(xiàn)李彥宏當(dāng)初的愿望。

  人工智能與生命科學(xué)還能碰撞出什么?我們探討一下可能性。

  1)基因測序:整個(gè)生命科學(xué)的第一步也是最大的困難之處就是在于基因測序,雖然說“人類基因組計(jì)劃”已于2011年宣告結(jié)束,但是依然還有1%的基因無法被檢測出結(jié)果,需要更為先進(jìn)的技術(shù)作為支撐才能檢測出來。

  而這里所在等待的先進(jìn)技術(shù),其實(shí)就是人工智能。以癌癥基因檢測項(xiàng)目為例,其所做的就是要在大量的基因突變中,找到與某個(gè)具體癌密切相關(guān)的突變的位置,這其實(shí)和百度的搜索技術(shù)其實(shí)一致,百度能夠通過百億的用戶關(guān)鍵詞搜索的點(diǎn)擊中找到用戶最想要的高相關(guān)的一系列網(wǎng)頁,將其進(jìn)行先后排序,而從海量用戶的海量突變基因中找到與食管癌的最大相關(guān)的基因,就能最大幾率的找到食管癌發(fā)病是哪些關(guān)鍵基因?qū)е隆?/p>

  并且百度尋找的不是單向相關(guān)性而是多項(xiàng)的,其要找到哪些基因突變疊加在一起就會(huì)增加患食管癌的概率,也就是要在無數(shù)的基因中突變中尋找組合的相關(guān)性,這對(duì)計(jì)算的要求其實(shí)是指數(shù)級(jí)的。

  但這卻正是人工智能的強(qiáng)項(xiàng)所在。

  2)基因藥物研發(fā):目前學(xué)界有一個(gè)共識(shí),當(dāng)前的藥物都是屬于化合藥物,但是在不久的將來,藥物將不僅僅只是化合物,藥物也可以是人工合成的蛋白質(zhì),合成的細(xì)胞,甚至某些組織和器官等等。但與此同時(shí)也伴隨著更大的風(fēng)險(xiǎn),因而人們在未來使用這些藥物時(shí)需要更為格外的小心謹(jǐn)慎。

  人工智能則可以利用大數(shù)據(jù)醫(yī)療幫助醫(yī)生研發(fā),將各個(gè)患者的用藥情況統(tǒng)統(tǒng)聯(lián)網(wǎng),建立統(tǒng)一的藥物治療大數(shù)據(jù)網(wǎng),通過使用到反饋的信息收集,讓基因藥物研發(fā)配比更為可靠,進(jìn)而加速整個(gè)基因藥物研發(fā)進(jìn)程。

  3)量化自我:凱文?凱利在預(yù)測未來20年科技的發(fā)展趨勢時(shí),第一個(gè)提到的就是“量化的自我”。所謂“量化自我”就是通過利用各種可穿戴設(shè)備,諸如智能手環(huán)、智能血壓儀、智能體脂秤等等設(shè)備,將自己一切身體數(shù)據(jù)諸如心跳記錄、血壓記錄、體重記錄、BMI記錄、等等都記錄在案。

  人工智能通過對(duì)這些大數(shù)據(jù)進(jìn)行監(jiān)控,并再輔以病人病歷數(shù)據(jù)監(jiān)控,可以為生命科學(xué)提供有利的學(xué)術(shù)研究支持,可以極為有效的加大對(duì)癌癥基因判斷的準(zhǔn)確性。

  結(jié)語:對(duì)于醫(yī)院來說病患的數(shù)據(jù)具有極大的科研意義,但是由于自身技術(shù)水平有限,也導(dǎo)致了巧婦難為無米之炊,而百度的人工智能技術(shù)支持正是雪中送炭,并且百度的大數(shù)據(jù)技術(shù)將在未來給大數(shù)據(jù)醫(yī)療帶來更大的價(jià)值,這體現(xiàn)了科技公司高度的社會(huì)責(zé)任。

  我們看到BAT正在全面進(jìn)入經(jīng)濟(jì)、娛樂、民生等多項(xiàng)領(lǐng)域,進(jìn)入方式各有不同,但是在醫(yī)療領(lǐng)域,技術(shù)一定是關(guān)鍵,百度的想象力很大。

人物訪談