物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

大數(shù)據(jù)行業(yè)必須掌握的25個(gè)大數(shù)據(jù)術(shù)語(yǔ)

作者:本站收錄
來(lái)源:大數(shù)據(jù)頭條
日期:2017-07-11 14:46:56
摘要:與大數(shù)據(jù)有關(guān)的行業(yè)術(shù)語(yǔ),了解它們,可是至關(guān)重要的。

  提到大數(shù)據(jù)可能有些令人生畏。在了解一定基本概念的基礎(chǔ)上,掌握其中一些關(guān)鍵術(shù)語(yǔ)也是至關(guān)重要的。

  在本文中,我列出了 25 個(gè)必須掌握的大數(shù)據(jù)術(shù)語(yǔ)。

  算法(Algorithm)

  指用于執(zhí)行數(shù)據(jù)分析的數(shù)學(xué)公式或統(tǒng)計(jì)過(guò)程。那么算法與大數(shù)據(jù)有什么關(guān)系呢?雖然算法是一個(gè)通用術(shù)語(yǔ),但大數(shù)據(jù)分析使得這個(gè)詞變得更具時(shí)代性,更受歡迎。

  分析(Analytics)

  你的信用卡公司會(huì)將附有你全年交易情況的年終報(bào)表寄給你。如果具體看在食物,衣服,娛樂(lè)等方面花了多少錢呢?那么你就在進(jìn)行“分析”。你正在從原始數(shù)據(jù)中獲得一些見(jiàn)解,這可以幫助你決定來(lái)年的支出。

  如果你對(duì)朋友、網(wǎng)絡(luò)或者自己的公司發(fā)的推文以及 facebook 帖子進(jìn)行同樣的操作,那我們現(xiàn)在就涉及的就是大數(shù)據(jù)分析了。它是通過(guò)使用大量數(shù)據(jù)進(jìn)行推論并得出結(jié)論。共有三種不同類型的分析。

  1. 描述性分析(Descriptive Analytics)

  如果你告訴我,去年你的信用卡消費(fèi)中 25% 用于食物,35% 用于服裝,20% 用于娛樂(lè)活動(dòng),其他的用于雜物,這就是描述性的分析。當(dāng)然,你也可以進(jìn)行更詳細(xì)的了解。

  2. 預(yù)測(cè)分析(Predictive Analytics)

  如果你分析了過(guò)去5年的信用卡記錄,發(fā)現(xiàn)當(dāng)中有一定的一致性,那么你可以較有把握地預(yù)測(cè),明年的情況將與過(guò)去幾年類似。值得注意的是,這并不是“預(yù)測(cè)未來(lái)”,而是“預(yù)測(cè)事情發(fā)生的可能性”。在大數(shù)據(jù)預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家會(huì)使用數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和高級(jí)統(tǒng)計(jì)過(guò)程等先進(jìn)技術(shù),進(jìn)行天氣,經(jīng)濟(jì)等方面的預(yù)測(cè)。

  3.規(guī)范分析(Prescriptive Analytics)

  還是用信用卡的例子,你可能會(huì)想知道哪些消費(fèi)目標(biāo)(例如食品、娛樂(lè)、服裝等)會(huì)對(duì)你的整體消費(fèi)產(chǎn)生巨大的影響。規(guī)范分析通過(guò)包括“行為”(即減少購(gòu)買食物、衣服或娛樂(lè))和對(duì)結(jié)果進(jìn)行分析,從而預(yù)測(cè)規(guī)范相應(yīng)目標(biāo),從而減少你的總開銷。將此擴(kuò)展到大數(shù)據(jù),你可以想象管理人員如何通過(guò)研究各種行為影響,從而做出數(shù)據(jù)驅(qū)動(dòng)的決策。

  批量處理(Batch processing)

  盡管從大型計(jì)算機(jī)時(shí)代開始,批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集,批量處理對(duì)大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時(shí)間內(nèi)收集的大量數(shù)據(jù)的有效方式。稍后我將介紹的 Hadoop 就是專注于批量數(shù)據(jù)處理。

  Cassandra

  是由 Apache 軟件基金會(huì)管理的一個(gè)流行的開源數(shù)據(jù)庫(kù)管理系統(tǒng)。Apache 屬于大數(shù)據(jù)技術(shù),Cassandra 旨在處理跨分布式服務(wù)器的大量數(shù)據(jù)。

  云計(jì)算(Cloud computing)

  云計(jì)算已經(jīng)變得無(wú)所不在,所以在這里僅處于完整性的考慮將其歸納在內(nèi)。它本質(zhì)上是在遠(yuǎn)程服務(wù)器上托管和運(yùn)行的軟件及數(shù)據(jù),并可從互聯(lián)網(wǎng)的任何地方進(jìn)行訪問(wèn)。

  集群計(jì)算(Cluster computing)

  這是一個(gè)使用多個(gè)服務(wù)器集合資源的“集群”的計(jì)算術(shù)語(yǔ)。要想更技術(shù)性的話,就會(huì)涉及到節(jié)點(diǎn),集群管理層,負(fù)載平衡和并行處理等概念。

  暗數(shù)據(jù)(Dark Data)

  基本上指的是,由企業(yè)收集和處理的,但并不用于任何意義性目的的數(shù)據(jù),因此它是“暗”的,可能永遠(yuǎn)不會(huì)被分析。它可以是社交網(wǎng)絡(luò)反饋,呼叫中心日志,會(huì)議筆記等等。有很多人估計(jì),所有企業(yè)數(shù)據(jù)中的 60-90% 可能是“暗數(shù)據(jù)”,但誰(shuí)又真正知道呢?

  數(shù)據(jù)湖(Data lake)

  當(dāng)?shù)谝淮温?tīng)到這個(gè)概念,我還以為是在開玩笑。但這真是一個(gè)術(shù)語(yǔ)。數(shù)據(jù)湖是原始格式的企業(yè)級(jí)數(shù)據(jù)的大型存儲(chǔ)庫(kù)。與此同時(shí)我們可以涉及數(shù)據(jù)倉(cāng)庫(kù),它在概念上是相似的,也是企業(yè)級(jí)數(shù)據(jù)的存儲(chǔ)庫(kù),但在清理、與其他來(lái)源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉(cāng)庫(kù)通常用于常規(guī)數(shù)據(jù)(但不是專有的)。數(shù)據(jù)湖使得訪問(wèn)企業(yè)級(jí)數(shù)據(jù)更加容易,你需要明確你要尋找什么,以及如何處理它并明智地試用它。

  數(shù)據(jù)挖掘(Data mining)

  數(shù)據(jù)挖掘是通過(guò)使用復(fù)雜的模式識(shí)別技術(shù),從而找到有意義的模式,并得出大量數(shù)據(jù)的見(jiàn)解。這與我們之前討論的“數(shù)據(jù)分析”術(shù)語(yǔ)密切相關(guān),因?yàn)槟銓⑼ㄟ^(guò)挖掘數(shù)據(jù)進(jìn)行分析。為了獲得有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計(jì),機(jī)器學(xué)習(xí)算法和人工智能。

  數(shù)據(jù)科學(xué)家(Data Scientist)

  一個(gè)熱門的職業(yè)。指的是通過(guò)提取原始數(shù)據(jù),對(duì)其進(jìn)行處理,并提出自己的見(jiàn)解的人。數(shù)據(jù)科學(xué)家需要具備超人般的技能:分析,統(tǒng)計(jì),計(jì)算機(jī)科學(xué),創(chuàng)造力,故事講述和理解環(huán)境的能力。難怪他們薪水這么高。

  分布式文件系統(tǒng)(Distributed File System)

  由于大數(shù)據(jù)太大而無(wú)法存儲(chǔ)在單個(gè)系統(tǒng)上,分布式文件系統(tǒng)是一種數(shù)據(jù)存儲(chǔ)系統(tǒng)用于存儲(chǔ)跨多個(gè)存儲(chǔ)設(shè)備的大量數(shù)據(jù),并有助于降低存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜性。

  ETL

  ETL 指的是提取,轉(zhuǎn)換和加載。具體指的是“提取”原始數(shù)據(jù)的過(guò)程,通過(guò)清理、豐富數(shù)據(jù)將其“轉(zhuǎn)換”成適合使用的,并“加載”到適當(dāng)?shù)拇鎯?chǔ)庫(kù)中以供系統(tǒng)使用。雖然它源于數(shù)據(jù)倉(cāng)庫(kù),但ETL過(guò)程也被用來(lái)從大數(shù)據(jù)系統(tǒng)的外部資源中獲取和吸收數(shù)據(jù)。

  Hadoop

  當(dāng)想到大數(shù)據(jù)時(shí),人們立即會(huì)想到 Hadoop 。Hadoop(具有可愛(ài)的大象標(biāo)志)是一個(gè)開源軟件框架,由所謂的 Hadoop 分布式文件系統(tǒng)(HDFS)組成,并允許使用分布式硬件對(duì)非常大的數(shù)據(jù)集進(jìn)行存儲(chǔ),檢索和分析。如果你真的想給別人留下深刻的印象,還可以談?wù)?YARN,顧名思義,這是一種資源調(diào)度程序。取名字的人真太有才了。Apache 基金會(huì)還推出了 Hadoop,Pig,Hive 以及 Spark(是的,這些都是各種軟件的名稱)。真是服了這些名字。

  內(nèi)存計(jì)算(In-memory computing)

  一般來(lái)說(shuō),任何可以在不訪問(wèn) I / O 的情況下完成的計(jì)算都是很快的。內(nèi)存計(jì)算是一種將工作數(shù)據(jù)集完全放在集群的集體內(nèi)存中,避免將中間計(jì)算寫入磁盤的技術(shù)。Apache Spark 是一個(gè)內(nèi)存計(jì)算系統(tǒng),它在速度超過(guò) I / O 綁定系統(tǒng)(如 Hadoop 的MapReduce)方面擁有巨大的優(yōu)勢(shì)。

  物聯(lián)網(wǎng)(IoT)

  最新的流行語(yǔ)是物聯(lián)網(wǎng)(IOT)。IOT 通過(guò)互聯(lián)網(wǎng)將嵌入式對(duì)象(傳感器,可穿戴設(shè)備,汽車,冰箱等)中的計(jì)算設(shè)備進(jìn)行互連,并且能夠發(fā)送以及接收數(shù)據(jù)。IOT 生成大量數(shù)據(jù),提供了大量大數(shù)據(jù)分析的機(jī)會(huì)。

  機(jī)器學(xué)習(xí)(Machine learning)

  機(jī)器學(xué)習(xí)是指通過(guò)提供的數(shù)據(jù),使系統(tǒng)能夠?qū)W習(xí),調(diào)整和改進(jìn)。通過(guò)預(yù)測(cè)和統(tǒng)計(jì)算法,他們不斷學(xué)習(xí)“正確”的行為和洞察力,隨著更多的數(shù)據(jù)流通過(guò)該系統(tǒng),得以不斷地改進(jìn)。

  MapReduce

  MapReduce 可能會(huì)有點(diǎn)難懂。MapReduce 是一個(gè)編程模型,為了更好的理解,需注意 Map 和 Reduce 其實(shí)是兩個(gè)獨(dú)立的部分。在這種情況下,編程模型首先將大數(shù)據(jù)數(shù)據(jù)集分解成多個(gè)部分(在技術(shù)術(shù)語(yǔ)中稱為“元組”),因此可以分布在不同位置的不同計(jì)算機(jī)上(即前面所述的集群計(jì)算),這基本上就是 Map 部分。然后,該模型收集結(jié)果并將其“減少”為一個(gè)報(bào)告。MapReduce 的數(shù)據(jù)處理模式與Hadoop 的分布式文件系統(tǒng)緊密相關(guān)。

  NoSQL

  聽(tīng)起來(lái)像是 SQL (結(jié)構(gòu)化查詢語(yǔ)言)的反面,SQL 是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的主要內(nèi)容。但 NOSQL 實(shí)際上意味著不僅僅是 SQL (Not ONLY SQL)。NoSQL 實(shí)際上是指的是用于處理大量數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng),它們不具有結(jié)構(gòu),或被稱為“架構(gòu)”(類似關(guān)系數(shù)據(jù)庫(kù))。NoSQL 數(shù)據(jù)庫(kù)通常適合大型數(shù)據(jù)系統(tǒng),因?yàn)樗鼈兙哂写笮头墙Y(jié)構(gòu)化數(shù)據(jù)庫(kù)所需的靈活性和分布式的優(yōu)先體系結(jié)構(gòu)。

  R

  R 是一種編程語(yǔ)言,在統(tǒng)計(jì)計(jì)算方面很出色。如果你不知道 R,你就稱不上是數(shù)據(jù)科學(xué)家。R 是數(shù)據(jù)科學(xué)中最受歡迎的語(yǔ)言之一。

  Spark(Apache Spark)

  Apache Spark 是一種快速的內(nèi)存數(shù)據(jù)處理引擎,用于高效執(zhí)行流,機(jī)器學(xué)習(xí)或需要快速迭代訪問(wèn)數(shù)據(jù)集的 SQL 工作負(fù)載。Spark 通常比我們前面提及的 MapReduce 快很多。

  流處理(Stream processing)

  流處理旨在對(duì)有“連續(xù)”要求的實(shí)時(shí)和流數(shù)據(jù)進(jìn)行處理。結(jié)合流分析,即在流內(nèi)不間斷地計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力。流處理解決方案旨在對(duì)高流量進(jìn)行實(shí)時(shí)處理。

  結(jié)構(gòu)化 v 非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data)

  這是大數(shù)據(jù)中的“V”之一,即多樣性。結(jié)構(gòu)化數(shù)據(jù)基本上指任何可以放在關(guān)系數(shù)據(jù)庫(kù)中,并以該方式組織起來(lái),通過(guò)表與其他數(shù)據(jù)相關(guān)。非結(jié)構(gòu)化數(shù)據(jù)則反之,如無(wú)法發(fā)電子郵件,發(fā)社交媒體帖子和錄制的人類語(yǔ)音等。

人物訪談