物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

用圖像識別做基因預(yù)測 谷歌拿到了FDA挑戰(zhàn)賽最高分

作者:本站收錄
來源:CNET科技行者
日期:2017-12-12 15:48:51
摘要:去年,谷歌宣布從Mobile First(移動先行)轉(zhuǎn)向AI First(人工智能先行)。在過去的幾年內(nèi),其不僅收購了多家AI公司(包括主攻語義理解、語義網(wǎng)絡(luò)的Metaweb;深度學(xué)習(xí)公司DNNresearch;專注于機器學(xué)習(xí)跟神經(jīng)網(wǎng)絡(luò)研究的DeepMind;聊天機器人API.AI等),由谷歌旗下DeepMind公司團隊開發(fā)的阿爾法狗(AlphaGo)也在近期成為了“網(wǎng)紅”,其在去年與圍棋世界冠軍、職業(yè)九段選手李世石進行了扣人心弦的人機大戰(zhàn),并且以4:1的總比分獲勝。谷歌推出的Tensor Flow深度學(xué)習(xí)框架也得到了廣泛的好評。

  去年,谷歌宣布從Mobile First(移動先行)轉(zhuǎn)向AI First(人工智能先行)。在過去的幾年內(nèi),其不僅收購了多家AI公司(包括主攻語義理解、語義網(wǎng)絡(luò)的Metaweb;深度學(xué)習(xí)公司DNNresearch;專注于機器學(xué)習(xí)跟神經(jīng)網(wǎng)絡(luò)研究的DeepMind;聊天機器人API.AI等),由谷歌旗下DeepMind公司團隊開發(fā)的阿爾法狗(AlphaGo)也在近期成為了“網(wǎng)紅”,其在去年與圍棋世界冠軍、職業(yè)九段選手李世石進行了扣人心弦的人機大戰(zhàn),并且以4:1的總比分獲勝。谷歌推出的Tensor Flow深度學(xué)習(xí)框架也得到了廣泛的好評。

  當(dāng)然,谷歌還得繼續(xù)在人工智能領(lǐng)域“搞事情”。

  制定目標(biāo) 超越GATK

用圖像識別做基因預(yù)測 谷歌拿到了FDA挑戰(zhàn)賽最高分

  GATK(The Genome Analysis Toolkit)是目前使用最廣泛的二代測序數(shù)據(jù)分析軟件,主要注重于變異的查找、基因分析且高度重視數(shù)據(jù)質(zhì)量。GATK使用了一種人工編碼算法,可以將統(tǒng)計數(shù)據(jù)應(yīng)用到測序機器最常出錯的地方。

  2015年6月份,Google Genomics(谷歌基因組)宣布與博德研究所(Broad Institute)進行合作,兩者聯(lián)手推出基因組分析軟件GATK(The Genome Analysis Toolkit)的云端版。谷歌基因組是谷歌公司為幫助科學(xué)界存儲、處理和管理海量基因組數(shù)據(jù)而搭建的云端平臺,于2013年3月份推出。科學(xué)家可利用谷歌云端提供的API接口,儲存、處理、分析以及分享DNA序列。

  不過,谷歌并不滿足于此,想自己開發(fā)一套能超越GATK的基于人工智能的工具。此前,谷歌的人工智能對遺傳學(xué)一無所知。事實上,這些人工智能工具只用來識別圖像,正如識別上傳到谷歌貓狗照片的神經(jīng)網(wǎng)絡(luò)一樣,要學(xué)習(xí)的地方還有很多。

  Mark DePristo和Ryan Poplin接手了這項工作,他們也曾是GATK創(chuàng)建小組的成員。

  DePristo表示:“(GATK)不可能再有進展了,我們建立了許多不同的模型,但毫無成效。”然后,人工智能技術(shù)出現(xiàn)了。

  僅僅過去了八個月,(Mark DePristo和Ryan Poplin牽頭開發(fā)的)這個神經(jīng)網(wǎng)絡(luò)準(zhǔn)確判斷了DNA序列中的突變點,贏得了“FDA”(美國食品藥品管理局Food and Drug Admistraton)挑戰(zhàn)賽的最高分。短短一年,該人工智能已超越了標(biāo)準(zhǔn)的人工編碼算法GATK,它就是谷歌DeepVariant。

  DeepVariant強在哪里?

  DeepVariant可實現(xiàn)將高通量測序所測區(qū)的數(shù)據(jù),轉(zhuǎn)換成完整的基因組圖像。其可以自動識別測序數(shù)據(jù)中的插入基因、缺失突變以及單堿基對變異。

  和GATK一樣,DeepVariant解決了“變異檢測”(variant calling)這個重要的技術(shù)性問題。分析DNA時,現(xiàn)代測序儀不會返回一條長鏈,而是可能返回長達100個堿基且相互重疊的短DNA片段。這些片段排列成一條直線,與已知序列的參考基因組進行對比。真正的突變可能出現(xiàn)在不同于參考基因組的片段上,當(dāng)現(xiàn)在片段與參考基因組和其余片段有差異時,問題就出現(xiàn)了。

  GATK試圖通過大量數(shù)據(jù)解決這一問題。DNA測序器運行時偶爾會出錯,GATK團隊著重研究其易出錯的地方(比如堿基GTG)。他們長期思索著像“隱馬爾可夫模型的統(tǒng)計模型”這樣的事情,然后試圖預(yù)測DNA某一具體位置的實際堿基。

  與GATK不同,DeepVariant雖然對DNA測序器一無所知,但已經(jīng)吸收了大量數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)通常被類比為處理逐漸復(fù)雜化概念的“神經(jīng)元”層——第一層感應(yīng)光,第二層感應(yīng)形狀,第三層則感應(yīng)實際物體。通過數(shù)據(jù)訓(xùn)練,DeepVariant可以判斷哪些“神經(jīng)元”更重要,哪些可以忽略。最后,從誤判中分辨出實際的突變點。

  為了使用圖像識別AI處理DNA測序數(shù)據(jù),谷歌決定將數(shù)據(jù)轉(zhuǎn)化為圖像??茖W(xué)家在識別變異點時,經(jīng)常將排列整齊的基因片段提取出來進行研究。

用圖像識別做基因預(yù)測 谷歌拿到了FDA挑戰(zhàn)賽最高分

  對此,Poplin表示,“如果將DNA識別當(dāng)作一個視覺任務(wù),為什么不直接以視覺形式呈現(xiàn)呢?”秉持這種觀念,谷歌將圖像概念嵌入到識別任務(wù)中。將數(shù)據(jù)轉(zhuǎn)化為RGB(紅、綠、藍)圖像,其中紅色標(biāo)記ATCG四種堿基,綠色標(biāo)記序列質(zhì)量,藍色用來表示DNA的正反向鏈。

用圖像識別做基因預(yù)測 谷歌拿到了FDA挑戰(zhàn)賽最高分

  之后只需要輸入神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)。根據(jù)Depristo的說法,“很大程度上改變了我們處理問題的角度,從開始努力研究現(xiàn)有數(shù)據(jù)到現(xiàn)在致力于尋找更多數(shù)據(jù)。”

  DeepVariant將人工智能引入了未來基因研究領(lǐng)域

  去年十二月,團隊發(fā)表了關(guān)于DeepVariant的預(yù)印本(Preprint)。上周,谷歌正式發(fā)布該工具。這期間,團隊不斷改進修正DeepVariant。

  在之前采用紅黃藍三色的基礎(chǔ)上,團隊正考慮為其新增兩個數(shù)據(jù)層。在人們眼中這些數(shù)據(jù)是無法構(gòu)成圖像的,增加幾層數(shù)字對于機器來說并不意味著什么。

  DeepVariant自身無法改變現(xiàn)有遺傳學(xué)研究。與GATK相比,該工具只顯示出了微弱優(yōu)勢。一定條件下,速度只能達到GATK的一半。然而,DeepVariant逐漸將AI技術(shù)引入了未來基因研究領(lǐng)域。

  目前,Oxford Nanopore等新型測序技術(shù)愈發(fā)流行,在這些技術(shù)的幫助下,如果DeepVariant能夠趕超GATK(GATK花費了五年時間最終成型),更快地學(xué)會識別變異點,可以加速測序技術(shù)的投入使用。

  Depristo表示,將數(shù)據(jù)層放置于基因組中能夠解決比預(yù)測變異更加重要的問題。比如用數(shù)據(jù)層表示基因是否具備活性。DeepVariant以三個數(shù)據(jù)層為出發(fā)點,現(xiàn)在已經(jīng)發(fā)展為七個,最終可能會達到幾十個。毫無疑問,人工智能可以讓在人腦中毫無意義的數(shù)據(jù)變得更有價值。

人物訪談