物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

阿里巴巴使用AI分配數(shù)據(jù)中心資源,最多省出一半服務(wù)器

作者:媒體供稿
來源:來源網(wǎng)絡(luò)(侵權(quán)刪)
日期:2017-11-06 16:20:30
摘要:11月6日,阿里巴巴數(shù)據(jù)中心AI調(diào)度官“達(dá)靈”正式上任。在實(shí)習(xí)期間,達(dá)靈打破了人類工程師的多項(xiàng)紀(jì)錄:將數(shù)據(jù)中心資源分配率拉升到了90%以上,在部分業(yè)務(wù)中節(jié)省了一半服務(wù)器,并且可以2秒鐘鎖定異常機(jī)器,命中率94%。

  為了能有更多時間在雙11期間買買買,阿里巴巴的工程師研發(fā)出了一款A(yù)I來解放自己。

  11月6日,阿里巴巴數(shù)據(jù)中心AI調(diào)度官“達(dá)靈”正式上任。在實(shí)習(xí)期間,達(dá)靈打破了人類工程師的多項(xiàng)紀(jì)錄:將數(shù)據(jù)中心資源分配率拉升到了90%以上,在部分業(yè)務(wù)中節(jié)省了一半服務(wù)器,并且可以2秒鐘鎖定異常機(jī)器,命中率94%。

  “伴隨雙11規(guī)模的逐年暴漲,管理、調(diào)度上萬臺服務(wù)器這樣的工作已經(jīng)不適合人來做了。” 阿里巴巴資深搜索研發(fā)專家鄭南說,達(dá)靈這套算法能夠快速給出最優(yōu)的計(jì)算資源部署方案,并且根據(jù)訪問量不斷搬運(yùn)應(yīng)用和數(shù)據(jù),確保沒有一臺機(jī)器偷懶。

  今年工程師的職責(zé)變成如何用數(shù)據(jù)去喂養(yǎng)“達(dá)靈”。鄭南說,我們要做的就是提供表格數(shù)據(jù)大小、應(yīng)用歷史訪問量以及目前的部署方案等信息,省下的就是喝著茶看她的表演。“她甚至可以在線上克隆一個真實(shí)的服務(wù),自己進(jìn)行壓力測試,以判斷方案是否最優(yōu)。”

  除了對計(jì)算資源的不斷調(diào)度、應(yīng)用的不斷搬運(yùn)外,達(dá)靈還有一個職責(zé)是及時發(fā)現(xiàn)異常機(jī)器,快速隔離。要知道,雙11期間一臺機(jī)器的異常,可能帶來百萬級用戶的下單失敗。

  但對工程師來說,從機(jī)器出現(xiàn)異常、被發(fā)現(xiàn)到處理完成,整個過程有時會長達(dá)數(shù)分鐘。而這已經(jīng)是人類能做到的極限。達(dá)靈能夠把時間、負(fù)載、服務(wù)狀態(tài)等不確定因素通過數(shù)據(jù)算法關(guān)聯(lián),最終快速鎖定異常機(jī)器。

  日常工作中,達(dá)靈每天會采集29億條機(jī)器運(yùn)營狀態(tài),日均隔離異常機(jī)器1000次左右,在大促期間調(diào)度準(zhǔn)確率達(dá)到94%,時間只需要2秒鐘。

  阿里巴巴iDST團(tuán)隊(duì)是達(dá)靈的創(chuàng)造者。項(xiàng)目負(fù)責(zé)人朱勝火博士說,達(dá)靈的工作首先是在集群監(jiān)控?cái)?shù)據(jù)之上,建立起很多個深度學(xué)習(xí)、在線學(xué)習(xí)的模型,由此對集群內(nèi)每一臺機(jī)器、每一個應(yīng)用,當(dāng)前和未來的狀態(tài)都了然于胸。在此基礎(chǔ)上,達(dá)靈通過應(yīng)用強(qiáng)化學(xué)習(xí)、組合優(yōu)化等技術(shù),可以在復(fù)雜環(huán)境中自行學(xué)習(xí)判斷,作出一系列比如錯峰排布、碎片規(guī)整等聰明的決策,從而全局最優(yōu)化集群的資源分配率以及穩(wěn)定性。

  除了“達(dá)靈”以外,機(jī)器運(yùn)營小二、機(jī)器導(dǎo)購員、智能客服、AI設(shè)計(jì)師、機(jī)器揀貨員、機(jī)房巡邏員等一系列新物種已在天貓雙11前夕集中上崗。

人物訪談