物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

開年第一單!阿里花7億收購了一家怎樣的公司?

作者:本站收錄
來源:IDC圈
日期:2019-01-09 10:48:30
摘要:由此可見,此次收購并非突然,是基于阿里巴巴長期戰(zhàn)略發(fā)展的需要而為之。

1月8日,彭博社消息稱,阿里巴巴收購了位于德國柏林的數(shù)據(jù)處理公司Data Artisans。另據(jù)外媒報道,此次交易金額為1.033億美元(9000萬歐元),Data Artisans未就此事置評。

阿里巴巴官確認確有此項投資,并表示,“過去兩年,阿里巴巴一直是Apache Flink最大貢獻者之一。阿里巴巴將和Data Artisans一起持續(xù)為所有Flink社區(qū)用戶、合作伙伴和開發(fā)者提供更多支持,致力于不斷投資技術和未來”,但對具體金額不作評論。

Data Artisan 成立于2014年,專門提供為公司企業(yè)部署大規(guī)模數(shù)據(jù)處理解決方案的服務。該公司的解決方案可以實時管理和部署這類數(shù)據(jù),以便客戶更合理更快速地做出決策。Data Artisans由開源數(shù)據(jù)流處理技術Apache Fink的幾位開發(fā)者創(chuàng)辦。

阿里巴巴為什么選擇Apache Flink?

此次收購,其實可從阿里巴巴與Apache Flink的不解之緣看出端倪。阿里巴巴計算平臺事業(yè)部資深技術專家莫問曾在云棲大會上發(fā)表演講《阿里巴巴為什么選擇Apache Flink?》,或為此次收購埋下了伏筆。

阿里選擇Flink的背景和初衷

隨著人工智能時代的降臨,數(shù)據(jù)量的爆發(fā),在典型的大數(shù)據(jù)的業(yè)務場景下數(shù)據(jù)業(yè)務最通用的做法是:選用批處理的技術處理全量數(shù)據(jù),采用流式計算處理實時增量數(shù)據(jù)。在絕大多數(shù)的業(yè)務場景之下,用戶的業(yè)務邏輯在批處理和流處理之中往往是相同的。但是,用戶用于批處理和流處理的兩套計算引擎是不同的。

因此,用戶通常需要寫兩套代碼。毫無疑問,這帶來了一些額外的負擔和成本。阿里巴巴的商品數(shù)據(jù)處理就經(jīng)常需要面對增量和全量兩套不同的業(yè)務流程問題,所以阿里就在想,我們能不能有一套統(tǒng)一的大數(shù)據(jù)引擎技術,用戶只需要根據(jù)自己的業(yè)務邏輯開發(fā)一套代碼。這樣在各種不同的場景下,不管是全量數(shù)據(jù)還是增量數(shù)據(jù),亦或者實時處理,一套方案即可全部支持,這就是阿里選擇Flink的背景和初衷。

Flink的誕生

Flink誕生于歐洲的一個大數(shù)據(jù)研究項目StratoSphere。該項目是柏林工業(yè)大學的一個研究性項目。早期,F(xiàn)link是做Batch計算的,但是在2014年,StratoSphere里面的核心成員孵化出Flink,同年將Flink捐贈Apache,并在后來成為Apache的頂級大數(shù)據(jù)項目,同時Flink計算的主流方向被定位為Streaming,即用流式計算來做所有大數(shù)據(jù)的計算,這就是Flink技術誕生的背景。

2014年Flink作為主攻流計算的大數(shù)據(jù)引擎開始在開源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。區(qū)別于Storm、Spark Streaming以及其他流式計算引擎的是:它不僅是一個高吞吐、低延遲的計算引擎,同時還提供很多高級的功能。比如它提供了有狀態(tài)的計算,支持狀態(tài)管理,支持強一致性的數(shù)據(jù)語義以及支持Event Time,WaterMark對消息亂序的處理。

Flink在阿里的現(xiàn)狀

Flink是一個低延遲、高吞吐、統(tǒng)一的大數(shù)據(jù)計算引擎。在阿里巴巴的生產(chǎn)環(huán)境中,F(xiàn)link的計算平臺可以實現(xiàn)毫秒級的延遲情況下,每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數(shù)據(jù)的正確性。這樣就使得Flink大數(shù)據(jù)引擎可以提供金融級的數(shù)據(jù)處理能力。

基于Apache Flink在阿里巴巴搭建的平臺于2016年正式上線,并從阿里巴巴的搜索和推薦這兩大場景開始實現(xiàn)。目前阿里巴巴所有的業(yè)務,包括阿里巴巴所有子公司都采用了基于Flink搭建的實時計算平臺。同時Flink計算平臺運行在開源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調(diào)度,以 HDFS作為數(shù)據(jù)存儲。因此,F(xiàn)link可以和開源大數(shù)據(jù)軟件Hadoop無縫對接。

目前,這套基于Flink搭建的實時計算平臺不僅服務于阿里巴巴集團內(nèi)部,而且通過阿里云的云產(chǎn)品API向整個開發(fā)者生態(tài)提供基于Flink的云產(chǎn)品支持。

阿里巴巴自2015 年開始改進Flink,并創(chuàng)建了內(nèi)部分支Blink,目前服務于阿里集團內(nèi)部搜索、推薦、廣告和螞蟻等大量核心實時業(yè)務。12 月20 日,由阿里巴巴承辦的Flink Forward China 峰會在北京國家會議中心召開,來自阿里、華為、騰訊、美團點評、滴滴、字節(jié)跳動等公司的技術專家與參會者分享了各公司基于Flink 的應用和實踐經(jīng)驗。在大會的主題演講上,阿里巴巴集團副總裁周靖人宣布,阿里巴巴內(nèi)部Flink 版本Blink 將于2019 年1 月正式開源,之后會經(jīng)過社區(qū)討論合并回Flink。

由此可見,此次收購并非突然,是基于阿里巴巴長期戰(zhàn)略發(fā)展的需要而為之。


人物訪談