物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

大數(shù)據(jù)熱涌背后的冷思考

作者:《物聯(lián)網(wǎng)世界》
來(lái)源:來(lái)源網(wǎng)絡(luò)(侵權(quán)刪)
日期:2013-04-02 09:26:01
摘要:何為大數(shù)據(jù)呢?根據(jù)IDC的定義,大數(shù)據(jù)是指為了更經(jīng)濟(jì)更有效地從高頻率、大容量、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù),人們并用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。

  大數(shù)據(jù)風(fēng)起云涌,走紅IT界

  IT業(yè)從來(lái)不缺乏新概念、新名詞、新技術(shù),更新之快、推出之猛,令人目不暇接。

  繼云計(jì)算、社交網(wǎng)絡(luò)之后,如今大數(shù)據(jù)(Big Data)再度走火,風(fēng)起云涌,似乎成為2012 年信息技術(shù)領(lǐng)域最時(shí)髦的詞匯。

  Oracle、SAP、IBM 、微軟等IT巨鱷,像是尋找到了新的金礦,開(kāi)始全力挖掘大數(shù)據(jù),多方位推廣大數(shù)據(jù)理念,尤其是SAP的HANA和Oracle的Exalytics更是賣(mài)力,爭(zhēng)搶“頭燙湯”。而眾多中小IT廠商也跟著蜂擁而至,以分得大數(shù)據(jù)市場(chǎng)一杯羹。

  何為大數(shù)據(jù)呢?根據(jù)IDC的定義,大數(shù)據(jù)是指為了更經(jīng)濟(jì)更有效地從高頻率、大容量、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù),人們并用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。

  而相比大數(shù)據(jù)的突然興起,以前以商業(yè)智能分析而著稱(chēng)的BI開(kāi)發(fā)商卻是難掩尷尬和失落的境況,甚至被逼退到邊角。近年來(lái),大數(shù)據(jù)給BI(商業(yè)智能分析系統(tǒng))帶來(lái)了重大的沖擊,發(fā)展步伐受到較大拖累。有人大膽預(yù)測(cè),未來(lái)十年,有關(guān)大數(shù)據(jù)的商務(wù)智能分析將引領(lǐng)管理信息化的發(fā)展。

  從各種專(zhuān)業(yè)報(bào)道、分析,我們可以看出,大數(shù)據(jù)呈現(xiàn)3種特性:Volume(數(shù)據(jù)量)、Velocity(處理速度)、Variety(數(shù)據(jù)種類(lèi))。Volume指的是數(shù)據(jù)量龐大,如今有許多企業(yè)已經(jīng)面臨單日數(shù)據(jù)量以數(shù)十、數(shù)百TB(萬(wàn)億字節(jié),1TB=1024GB)的速度增加,而總數(shù)據(jù)量也達(dá)到了PB(Petabyte)等級(jí),這樣的數(shù)據(jù)量已讓傳統(tǒng)的數(shù)據(jù)庫(kù)難以處理;Velocity是指企業(yè)數(shù)據(jù)增加的速度越來(lái)越快,諸如移動(dòng)化、社交網(wǎng)絡(luò)的廣泛應(yīng)用,使得數(shù)據(jù)增加的速度比傳統(tǒng)的企業(yè)應(yīng)用程式來(lái)得快很多,一旦數(shù)據(jù)增生速度越快,數(shù)據(jù)處理、分析的速度也就得跟上;而Variety則是指數(shù)據(jù)的多樣性,時(shí)下上互聯(lián)網(wǎng)不是只看看資訊,同時(shí)也不斷在產(chǎn)出數(shù)據(jù):上傳照片、上傳視頻、發(fā)微博,另一方面,IT遍及工作生活中的各個(gè)角落,各種各樣的傳感器、監(jiān)控器也時(shí)刻不斷產(chǎn)生各種機(jī)器資訊,數(shù)據(jù)的型式已日趨復(fù)雜、多樣了。這就催生了大數(shù)據(jù)技術(shù)的強(qiáng)烈需求。

  從一些主流廠家的產(chǎn)品介紹,我們可以發(fā)現(xiàn)大數(shù)據(jù)與BI一個(gè)主要區(qū)別在于:與傳統(tǒng)基于事務(wù)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)相比較,其能在BI的基礎(chǔ)上進(jìn)行更大容量數(shù)據(jù)和非機(jī)構(gòu)化數(shù)據(jù)處理,大數(shù)據(jù)分析不僅關(guān)注結(jié)構(gòu)化的歷史數(shù)據(jù),它們更傾向去對(duì)Web、社交網(wǎng)絡(luò)、RFID傳感器等非結(jié)構(gòu)化海量數(shù)據(jù)進(jìn)行更好地分析,整體相比BI而言,大數(shù)據(jù)是一個(gè)完美的大提升。像Facebook、Twitter這樣面臨數(shù)據(jù)量大爆炸的網(wǎng)路公司,已開(kāi)始用Hadoop、NoSQL等新興技術(shù)來(lái)解決海量信息問(wèn)題,并取得了一定成效。

  大數(shù)據(jù)當(dāng)立,BI當(dāng)下?

  可見(jiàn),如何解決日漸緊迫的大數(shù)據(jù)處理成了企業(yè)管理信息化、現(xiàn)代化的必然需求。不過(guò),國(guó)內(nèi)的大數(shù)據(jù)領(lǐng)域到底有多少活躍跡象?大數(shù)據(jù)真的有如一些廠商所描繪中的那么強(qiáng)大、好用,成為每個(gè)企業(yè)所必須的嗎?

  在一片叫好聲中,部分專(zhuān)家和業(yè)內(nèi)人士則顯得小心謹(jǐn)慎,甚至有不乏非議。一些專(zhuān)家認(rèn)為,除了大量的研討會(huì),還有各類(lèi)公司宣稱(chēng)進(jìn)軍大數(shù)據(jù)領(lǐng)域的雄心,其實(shí)際進(jìn)展至今難見(jiàn)成效。許多企業(yè)CIO認(rèn)為,國(guó)內(nèi)能利用大數(shù)據(jù)背后產(chǎn)業(yè)價(jià)值的行業(yè)主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業(yè),其他行業(yè)談大數(shù)據(jù)價(jià)值為時(shí)尚早,大數(shù)據(jù)在企業(yè)的運(yùn)用并不是說(shuō)只要開(kāi)放了數(shù)據(jù)、運(yùn)用一些技術(shù)就可以輕易地發(fā)現(xiàn)“金礦”。目前國(guó)內(nèi)大數(shù)據(jù)應(yīng)用似乎正在呈現(xiàn)這樣的狀態(tài):投資人活躍,技術(shù)和服務(wù)供應(yīng)商熱心,數(shù)字媒體高調(diào),而大量應(yīng)用企業(yè)迷惑。

  一些專(zhuān)家認(rèn)為,從結(jié)果來(lái)看,對(duì)于大數(shù)據(jù)的質(zhì)疑并沒(méi)有比BI少,同樣遭遇了“還差一公里”的尷尬。有人評(píng)價(jià)“大數(shù)據(jù)是個(gè)相對(duì)的概念,是在既有的方案上包裝了一下,其處理方式是新瓶裝舊酒,只不過(guò)更時(shí)髦?!焙A繑?shù)據(jù)時(shí)代的數(shù)據(jù)應(yīng)用并沒(méi)有給多少企業(yè)數(shù)字運(yùn)算帶來(lái)革命性的變化,在 MapReduce 、Hadoop(兩者都是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算)出現(xiàn)之前,也有企業(yè)能夠輕松的對(duì)數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算了,而 NoSQL 的出現(xiàn)也只是為處理數(shù)據(jù)的方式帶來(lái)了更多可能性罷了,也并沒(méi)有革命性的質(zhì)的飛躍。

  從現(xiàn)在業(yè)界一些公司拿出來(lái)的大數(shù)據(jù)應(yīng)用實(shí)例來(lái)看,依然只是在利用傳統(tǒng)意義上的數(shù)據(jù)分析與BI,只是巧妙地把這筆帳都記在了大數(shù)據(jù)上了。一家開(kāi)發(fā)商說(shuō)利用其大數(shù)據(jù)技術(shù),一個(gè)電子商務(wù)網(wǎng)站能知道“什么地方的人買(mǎi)東西最瘋狂”或是“什么型號(hào)手機(jī)最好賣(mài)”,這就是大數(shù)據(jù)分析的結(jié)果。對(duì)此有專(zhuān)家反駁道“難道同樣基于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的BI分析出來(lái)的結(jié)果和這個(gè)大數(shù)據(jù)出來(lái)的結(jié)果會(huì)有不同么?的確從某些大數(shù)據(jù)應(yīng)用中會(huì)挖掘出新的價(jià)值,但這個(gè)價(jià)值只是附加價(jià)值,沒(méi)有理由去夸大它,更沒(méi)有理由去無(wú)端的想象。大數(shù)據(jù)是機(jī)會(huì),但只是少數(shù)人的機(jī)會(huì),更多是巨頭們的商業(yè)謀略。”廈門(mén)一位電子公司CIO也認(rèn)為,“一些企業(yè)所需要的數(shù)據(jù)內(nèi)容和運(yùn)用,其實(shí)都可通過(guò)開(kāi)源社區(qū)就能獲取,傳統(tǒng)列式數(shù)據(jù)也能能很好地處理大數(shù)據(jù)。參加各種大佬們口沫橫飛的會(huì)議,還不如和工程師聊聊可以運(yùn)用什么更實(shí)用的工具來(lái)具體操練、發(fā)揮一下?!?/P>

  以推廣大數(shù)據(jù)頗為賣(mài)力的EMC公司為例,其 Greenplum核心產(chǎn)品線本身而言并沒(méi)有太多的變化——仍然分為Greenplum Database(數(shù)據(jù)倉(cāng)庫(kù))、Greenplum HD(Hadoop分析)和Greenplum DCA(數(shù)據(jù)計(jì)算設(shè)備),后者還是基于高性?xún)r(jià)比的工業(yè)標(biāo)準(zhǔn)x86服務(wù)器的MPP(大規(guī)模并行處理)分布式可擴(kuò)展架構(gòu)。因此站在廠商的角度,如果沒(méi)有更多的新穎有意義的東西,過(guò)多地投入資源來(lái)大量宣傳推廣顯然不劃算,防止最后客戶(hù)不買(mǎi)賬。確實(shí),海量增長(zhǎng)的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中確實(shí)有值得更深挖掘的價(jià)值,但這并不等于人們就要一下子更換全新的方法、工具來(lái)處理它們。就像需求是漸進(jìn)式的增長(zhǎng)一樣,業(yè)務(wù)的變革也要以漸進(jìn)式為主,比較穩(wěn)妥。

  什么惹眼就掛什么標(biāo)簽,什么有好處就往哪鉆,這就是如今商家通行的招數(shù)。而面對(duì)“大數(shù)據(jù)”的流行,不少傳統(tǒng)BI廠商最后也禁不住“誘惑”,紛紛搖頭一變,都套上了“大數(shù)據(jù)”的外套,令人感嘆。

  可以說(shuō),當(dāng)前IT廠商心態(tài)日趨浮躁,急功近利,沒(méi)有真正去認(rèn)真研究客戶(hù)需求、認(rèn)真研究企業(yè)管理,而是還停留在炒作概念甚至撈一把就走的階段。今天你一個(gè)SOA,明天我一個(gè)EAI,今天你來(lái)網(wǎng)格計(jì)算,我明天來(lái)個(gè)云計(jì)算,你一個(gè)BI,我來(lái)個(gè)大數(shù)據(jù),等等,都是各自從各自的技術(shù)特點(diǎn)去闡述各自軟件的概念與應(yīng)用,引導(dǎo)用戶(hù)投懷送抱,但沒(méi)有幾家能說(shuō)清楚自己軟件服務(wù)到底是個(gè)什么好東西,能給企業(yè)帶來(lái)什么簡(jiǎn)捷實(shí)用的好處?性?xún)r(jià)比是否最優(yōu)?反而五花八門(mén)的概念、定義,令客戶(hù)單位眼花繚亂,不知所措。在選擇的時(shí)候看看這個(gè)也有點(diǎn)道理,那個(gè)講的也好象對(duì),但沒(méi)有哪個(gè)廠商的系統(tǒng)真正令客戶(hù)深感滿意。

  再回來(lái)說(shuō)說(shuō)大數(shù)據(jù)與BI??梢哉f(shuō),大數(shù)據(jù)與BI二者之間存在著深厚的天然聯(lián)系,一對(duì)孿生兄弟,它們辦公決策工作本身都是一種團(tuán)隊(duì)協(xié)作和協(xié)調(diào),尤其是在數(shù)據(jù)挖掘和數(shù)據(jù)分析層面,并沒(méi)多大的差別。同時(shí),傳統(tǒng)BI與大數(shù)據(jù)的關(guān)系,并不是互相替代、排斥的關(guān)系,它們猶如人的左腦和右腦,分工不同,傳統(tǒng)BI以處理結(jié)構(gòu)化信息為主,大數(shù)據(jù)以處理非結(jié)構(gòu)化、半結(jié)構(gòu)化信息為重,它們相互依存、相互補(bǔ)充、共為一體,組成企業(yè)完整的信息化大腦。

  大數(shù)據(jù)的創(chuàng)新性、先進(jìn)性與前瞻性,不容否定,值得肯定,但當(dāng)有人提出“大數(shù)據(jù)當(dāng)立,BI當(dāng)下”之論,就顯得過(guò)分武斷、偏激了。在如今細(xì)分制勝的時(shí)代,功能并不是越多越好,功能過(guò)多反而顯得累贅,增加無(wú)謂費(fèi)用,因而故弄玄虛、故作高深地過(guò)分炒作概念,反而有失本質(zhì)、主次。Gartner研究公司的BI分析師RitaSallam表示,“大數(shù)據(jù)將讓BI更有價(jià)值和更有利于業(yè)務(wù)發(fā)展。我們總是會(huì)需要看看過(guò)去的數(shù)據(jù),當(dāng)你擁有大數(shù)據(jù)時(shí),你更應(yīng)該這樣做。BI并不會(huì)消失,它通過(guò)大數(shù)據(jù)被加強(qiáng)了。在一定時(shí)期內(nèi),大數(shù)據(jù)還難于取代傳統(tǒng)BI工具。”

  如今各種關(guān)于大數(shù)據(jù)與BI軟件誰(shuí)優(yōu)誰(shuí)劣觀點(diǎn)的交鋒仍不斷泛起,但不管如何,應(yīng)明白的是,客戶(hù)單位、消費(fèi)者真正需要的不是概念,需要不是優(yōu)劣是非的爭(zhēng)論,他們需要的是實(shí)實(shí)在在的應(yīng)用軟件,需要的是解決問(wèn)題的有效方法,需要的是軟件恰到好處的功能。

  而對(duì)應(yīng)用企業(yè)而言,它們必須認(rèn)真權(quán)衡,到底企業(yè)利用大數(shù)據(jù)后能給企業(yè)帶來(lái)了多少額外增加的價(jià)值?這種增加的價(jià)值是否能讓企業(yè)的投入有一個(gè)較好的收獲?而且更為重要的一點(diǎn)是,是否只要使用大數(shù)據(jù)就一定能夠給企業(yè)帶來(lái)以前不可能實(shí)現(xiàn)的價(jià)值?這些都需要應(yīng)用企業(yè)好好重點(diǎn)考慮了。( 文/ 廈門(mén)智者恒通 吳勇毅)

人物訪談