物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

大數(shù)據(jù)要“落地” 還缺些什么?

作者:RFID世界網(wǎng)收錄
來源:PingWest
日期:2013-12-31 10:15:41
摘要:“大數(shù)據(jù)”是在2013年被用濫了的詞匯,但實際上,由于數(shù)據(jù)量缺失、大數(shù)據(jù)清洗和分析能力不足,以及數(shù)據(jù)可視化瓶頸等問題,“大數(shù)據(jù)”一直未能遲遲落地。而在最近,隨著基礎(chǔ)設(shè)施的發(fā)展,意味著大數(shù)據(jù)的發(fā)展又走到新的一個臨界點。

  “大數(shù)據(jù)”是在2013年被用濫了的詞匯,但實際上,由于數(shù)據(jù)量缺失、大數(shù)據(jù)清洗和分析能力不足,以及數(shù)據(jù)可視化瓶頸等問題,“大數(shù)據(jù)”一直未能遲遲落地。而在最近,隨著基礎(chǔ)設(shè)施的發(fā)展,意味著大數(shù)據(jù)的發(fā)展又走到新的一個臨界點。系統(tǒng)軟件供應(yīng)商Software AG的Gagan Mehra,在 Venturebeat 網(wǎng)站闡述了他對于大數(shù)據(jù)接下來發(fā)展的認(rèn)識,他認(rèn)為更快地數(shù)據(jù)處理、更可靠地數(shù)據(jù)質(zhì)量,以及給更加細(xì)分的應(yīng)用市場,是大數(shù)據(jù)2.0時代的重要特征。

  更快的數(shù)據(jù)處理速度

  由于數(shù)據(jù)量指數(shù)型增長,使得對于數(shù)據(jù)的快速分析的需要已經(jīng)變得比以往任何時候都要迫切。幾乎每家大數(shù)據(jù)廠商,都想要兜售比別家處理速度更快的產(chǎn)品。Hadoop發(fā)布的新品Hadoop 2.0 / YARN,幾乎能實時分析數(shù)據(jù)。而下一代大數(shù)據(jù)的計算牽引框架Apache Spark,它的速度比Hadoop快100倍。硅谷風(fēng)險投資機構(gòu)Andreessen Horowitz,已經(jīng)以1400萬美元的價格,領(lǐng)投了一家以Apache Spark為業(yè)務(wù)核心的初創(chuàng)企業(yè)Databricks。不久前,亞馬遜也 上線了實時流數(shù)據(jù)服務(wù)Kinesis ,來幫助沒有數(shù)據(jù)處理能力的公司解決這一問題。

  許多分析供應(yīng)商都已經(jīng)認(rèn)識到了數(shù)據(jù)處理速度的重要性,并建立了能夠每秒處理TB數(shù)據(jù)的產(chǎn)品。傳感器數(shù)據(jù)分析、物聯(lián)網(wǎng)在工業(yè)和消費級市場快速發(fā)展的勢頭,驅(qū)動了這次變革。比如一家企業(yè)的傳感器,能夠每秒產(chǎn)生出數(shù)百次的事件,實時處理這些數(shù)據(jù)難度很高。特別是當(dāng)實時處理的傳感器數(shù)據(jù),激增到一天5TB的時候,速度,就成了尤為關(guān)鍵的指標(biāo)。

  同時,盡管數(shù)據(jù)存儲成本已經(jīng)累年下降,但數(shù)據(jù)存儲的費用還是不小的一筆支出。部分商家相比存儲完整數(shù)據(jù)流而言,更傾向于保存過濾掉噪音的數(shù)據(jù)。

  智能清洗“垃圾數(shù)據(jù)”

  在本就難以計數(shù)的數(shù)據(jù)量繼續(xù)以指數(shù)模型激增時,對于數(shù)據(jù)質(zhì)量的強化,便擺上了許多數(shù)據(jù)供應(yīng)商的議程。換句話說,在龐大數(shù)據(jù)面前,即使計算機能夠高效的處理它們,但大量無用的“垃圾”數(shù)據(jù),只會給系統(tǒng)帶來負(fù)擔(dān),并增添存儲、主機等設(shè)備成本。這就需要數(shù)據(jù)處理過程中,根據(jù)特定的規(guī)則和參數(shù),對涌進(jìn)數(shù)據(jù)流進(jìn)行“清洗”和分析,并自動決策該去處理哪些數(shù)據(jù),這一切不再需要人工去干預(yù)。

  在這樣的環(huán)境下,如果選擇了一個壞的數(shù)據(jù),就會像病毒一樣,可能引發(fā)連續(xù)的錯誤決策,甚至讓企業(yè)蒙受經(jīng)濟損失。一個例子就是利用算法去進(jìn)行股票交易,以毫秒計數(shù)股票市場中,任何一點小的差錯,都有可能引發(fā)無法巨大的損失。

  所以,數(shù)據(jù)質(zhì)量已成為服務(wù)級別協(xié)議(service level agreements)最重要的參數(shù)之一。無法屏蔽劣質(zhì)的數(shù)據(jù)的供應(yīng)商,會因此被列入行業(yè)的黑名單,以及面臨嚴(yán)重的經(jīng)濟處罰。B2B行業(yè)為早期數(shù)據(jù)質(zhì)量的入局者,他們非常重視數(shù)據(jù)的質(zhì)量,來保持商業(yè)運作時的穩(wěn)定性。甚至,許多企業(yè)計劃為數(shù)據(jù)質(zhì)量部署實時的警告系統(tǒng),這些警告會被發(fā)送于負(fù)責(zé)相應(yīng)問題的專員,由他們提供問題的解決方案。

  機器學(xué)習(xí)是另一項需要保證數(shù)據(jù)質(zhì)量的領(lǐng)域。機器學(xué)習(xí)系統(tǒng)部署在一個閉環(huán)的生態(tài)中,通過模式分析與其他的數(shù)據(jù)分析技術(shù),細(xì)化原來的數(shù)據(jù)質(zhì)量規(guī)則。而高質(zhì)量的數(shù)據(jù),能夠保證機器進(jìn)行正確的行為模式分析。

  越來越多的基礎(chǔ)應(yīng)用

  大數(shù)據(jù)帶來的變革,使得每一個人都想要利用它,但技術(shù)上門檻又讓許多人不得已只能充當(dāng)一個看客。而應(yīng)用將有助于人們?nèi)タ朔@一困難。在接下來的幾年中,我們將會看到成千上萬的解決某一垂直領(lǐng)域的專業(yè)應(yīng)用,以應(yīng)對來自各行各業(yè)的大數(shù)據(jù)挑戰(zhàn)。

  目前,已經(jīng)小有成就的數(shù)據(jù)分析公司包括eHarmony、 Roambi、 Climate Corporation等等。未來,甚至許多小企業(yè),既不用依賴特定基礎(chǔ)設(shè)備,也不要雇傭?qū)I(yè)的數(shù)據(jù)科學(xué)家,就能受益于對大數(shù)據(jù)分析利用。

  比如,一些應(yīng)用將從各種渠道,收集關(guān)聯(lián)的客戶數(shù)據(jù),以更好地了解客戶的需求。從而企業(yè)能夠為特定的目標(biāo)客戶,提供特定需求的產(chǎn)品,更有針對性地賺到錢。當(dāng)這些應(yīng)用走進(jìn)人們?nèi)粘5某院韧鏄?、醫(yī)療保健等領(lǐng)域,生活也會因此而更美好。

人物訪談