物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

吃瓜群眾也該知道的大數(shù)據(jù)專業(yè)詞匯

作者:本站收錄
來(lái)源:泰一數(shù)據(jù)
日期:2017-08-01 15:56:50
摘要:本文整理了以數(shù)據(jù)處理為中心的14個(gè)大數(shù)據(jù)專業(yè)詞匯,一起來(lái)看看吧。

  隨著大數(shù)據(jù)技術(shù)的不斷提高,大數(shù)據(jù)應(yīng)用的不斷普及,大數(shù)據(jù)與各行各業(yè)的關(guān)系越來(lái)越緊密。大數(shù)據(jù)行業(yè)充斥著大量的專業(yè)詞匯,準(zhǔn)確掌握和了解這些詞匯的含義,有助于更好的理解大數(shù)據(jù),更好地利用大數(shù)據(jù)技術(shù)。本文整理了以數(shù)據(jù)處理為中心的14個(gè)大數(shù)據(jù)專業(yè)詞匯,一起來(lái)看看吧。

  本地?cái)?shù)據(jù)庫(kù)(LDB/Local Data Base)

  本地?cái)?shù)據(jù)庫(kù)是指駐留于運(yùn)行客戶應(yīng)用程序的機(jī)器的數(shù)據(jù)庫(kù)。本地?cái)?shù)據(jù)庫(kù)位于本地磁盤或局域網(wǎng)。典型的本地?cái)?shù)據(jù)庫(kù)有Paradox、dBASE、FoxPro和ACCCSS。

  數(shù)據(jù)采集(Data Acquisition,DAQ)

  數(shù)據(jù)采集又稱數(shù)據(jù)獲取,將被測(cè)試對(duì)象的各種參量通過(guò)各種傳感器做適當(dāng)轉(zhuǎn)換后,再經(jīng)過(guò)信號(hào)調(diào)理、采樣、量化、編碼、傳輸?shù)炔襟E傳遞到控制器的過(guò)程。

  數(shù)據(jù)采集的一般步驟:①用傳感器感受各種物理量,并把它們轉(zhuǎn)換成電信號(hào);②通過(guò)A/D轉(zhuǎn)換,模擬量的數(shù)據(jù)轉(zhuǎn)變成數(shù)字量的數(shù)據(jù);③數(shù)據(jù)的記錄,打印輸出或存入磁盤文件。④生產(chǎn)廠商為該采集系統(tǒng)編制的專用程序,常用于大型專用系統(tǒng);⑤固化的采集程序,常用于小型專用系統(tǒng);⑥利用生產(chǎn)廠商提供的軟件工具,用戶自行編制的采集程序,主要用于組合式系統(tǒng)。

  數(shù)據(jù)模型(Data model)

  數(shù)據(jù)模型是現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,用于描述一組數(shù)據(jù)的概念和定義。數(shù)據(jù)模型是數(shù)據(jù)庫(kù)中數(shù)據(jù)的存儲(chǔ)方式,是數(shù)據(jù)庫(kù)系統(tǒng)的基礎(chǔ)。在數(shù)據(jù)庫(kù)中,數(shù)據(jù)的物理結(jié)構(gòu)又稱數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),就是數(shù)據(jù)元素在計(jì)算機(jī)存儲(chǔ)器中的表示及其配置;數(shù)據(jù)的邏輯結(jié)構(gòu)則是指數(shù)據(jù)元素之間的邏輯關(guān)系,它是數(shù)據(jù)在用戶或程序員面前的表現(xiàn)形式,數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)不一定與邏輯結(jié)構(gòu)一致。

  數(shù)據(jù)整理(Data Cleansing)

  數(shù)據(jù)整理是對(duì)調(diào)查、觀察、實(shí)驗(yàn)等研究活動(dòng)中所搜集到的資料進(jìn)行檢驗(yàn)、歸類編碼和數(shù)字編碼的過(guò)程,是數(shù)據(jù)統(tǒng)計(jì)分析的基礎(chǔ)。

  數(shù)據(jù)處理(Data Handling)

  數(shù)據(jù)處理是指對(duì)數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進(jìn)行分析和加工的技術(shù)過(guò)程。也就是對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸,將數(shù)據(jù)轉(zhuǎn)換為信息的過(guò)程。

  數(shù)據(jù)壓縮(Data Compression)

  數(shù)據(jù)壓縮是指在不丟失有用信息的前提下,縮減數(shù)據(jù)量以減少數(shù)據(jù)的存儲(chǔ)空間,提高其傳輸、存儲(chǔ)和處理效率,或按照一定的算法對(duì)數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲(chǔ)的空間的一種技術(shù)方法。

  數(shù)據(jù)恢復(fù)(Data Recovery)

  數(shù)據(jù)恢復(fù)是指通過(guò)技術(shù)手段,將保存在臺(tái)式機(jī)硬盤、筆記本硬盤、服務(wù)器硬盤、移動(dòng)硬盤、U盤等等設(shè)備上由于各種原因?qū)е聯(lián)p傷或丟失的數(shù)據(jù)進(jìn)行搶救和恢復(fù)的技術(shù)。

  數(shù)據(jù)集成(Data Integration)

  數(shù)據(jù)集成是把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。數(shù)據(jù)集成維護(hù)了數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率。

  數(shù)據(jù)遷移(Data Migration)

  數(shù)據(jù)遷移又稱分級(jí)存儲(chǔ)管理,是一種將離線存儲(chǔ)與在線存儲(chǔ)融合的技術(shù)。將高速、高容量的非在線存儲(chǔ)設(shè)備作為磁盤設(shè)備的下一級(jí)設(shè)備,將磁盤中常用的數(shù)據(jù)按指定策略自動(dòng)遷移到磁帶庫(kù)等二級(jí)容量存儲(chǔ)設(shè)備上。

  當(dāng)需要使用這些數(shù)據(jù)時(shí),分級(jí)存儲(chǔ)系統(tǒng)會(huì)自動(dòng)將這些數(shù)據(jù)從下一級(jí)存儲(chǔ)設(shè)備調(diào)回到上一級(jí)磁盤上。

  數(shù)據(jù)冗余(Data Redundancy/Redundant Data)

  數(shù)據(jù)冗余是指同一個(gè)數(shù)據(jù)在系統(tǒng)中多次重復(fù)出現(xiàn)。消除數(shù)據(jù)冗余的目的是為了避免更新時(shí)可能出現(xiàn)的問(wèn)題,以便保持?jǐn)?shù)據(jù)的一致性。

  數(shù)據(jù)抽取(Data mining)

  數(shù)據(jù)抽取是指從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)的過(guò)程。

  網(wǎng)絡(luò)數(shù)據(jù)抽取 (Web data mining)

  網(wǎng)絡(luò)數(shù)據(jù)抽取(Web data mining),是指從網(wǎng)絡(luò)中取得大量的又利用價(jià)值的數(shù)字化信息。主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點(diǎn)挖掘(Opinion mining)等。

  結(jié)構(gòu)化數(shù)據(jù)抽取的目標(biāo)是從Web頁(yè)面中抽取結(jié)構(gòu)化數(shù)據(jù)。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中,由網(wǎng)頁(yè)按一定格式承載著展示給用戶。例如論壇列表頁(yè)面、Blog頁(yè)面、搜索引擎結(jié)果頁(yè)面等。信息集成是針對(duì)結(jié)構(gòu)化數(shù)據(jù)而言,其目標(biāo)是將從不同網(wǎng)站中抽取出的數(shù)據(jù)統(tǒng)一化后集成入庫(kù)。其關(guān)鍵問(wèn)題是如何從不同網(wǎng)站的數(shù)據(jù)表中識(shí)別出意義相同的數(shù)據(jù)并統(tǒng)一存儲(chǔ)。

  數(shù)據(jù)標(biāo)準(zhǔn)化(data standardization)

  數(shù)據(jù)標(biāo)準(zhǔn)化是指研究、制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級(jí)、記錄格式及轉(zhuǎn)換、編碼等技術(shù)標(biāo)準(zhǔn)的過(guò)程。

  數(shù)據(jù)備份(Data Backup)

  數(shù)據(jù)備份是容災(zāi)的基礎(chǔ),為防著系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全部或部分?jǐn)?shù)據(jù)集合從原來(lái)存儲(chǔ)的地方復(fù)制到其他地方的活動(dòng),將數(shù)據(jù)遭受破壞的程度減到最小。傳統(tǒng)的數(shù)據(jù)備份主要采用內(nèi)置或外置的磁帶機(jī)進(jìn)行冷備份。這種方式只能防止操作失誤等認(rèn)為故障,其恢復(fù)時(shí)間也很長(zhǎng)。現(xiàn)代企業(yè)采用網(wǎng)絡(luò)備份,通過(guò)專業(yè)的數(shù)據(jù)存儲(chǔ)管理軟件結(jié)合相應(yīng)硬件和存儲(chǔ)設(shè)備來(lái)實(shí)現(xiàn)備份。

  1.完全備份(Full Backup)。優(yōu)點(diǎn)是當(dāng)發(fā)生數(shù)據(jù)丟失的災(zāi)難時(shí),可以迅速恢復(fù)丟失的數(shù)據(jù)。不足之處是每天都對(duì)整個(gè)系統(tǒng)進(jìn)行完全備份,造成備份的數(shù)據(jù)大量重復(fù)。

  2.增量備份(Incremental Backup)。先實(shí)施一次完全備份,后續(xù)時(shí)間里只要對(duì)當(dāng)天的或修改過(guò)的數(shù)據(jù)進(jìn)行備份。優(yōu)點(diǎn):節(jié)省了磁盤空間,縮短了備份時(shí)間;缺點(diǎn)是數(shù)據(jù)恢復(fù)比較麻煩,備份的可靠性很差。

  3.差分備份(Differential Backup)。先實(shí)施一次完全備份,再將當(dāng)天所有與備份不同的數(shù)據(jù)(新的或修改過(guò)的)備份到磁盤上。該策略避免了以上兩種策略缺陷的同時(shí),具備其所有優(yōu)點(diǎn)。首先,它無(wú)須每天都對(duì)系統(tǒng)做完全備份,所需的備份時(shí)間短,節(jié)省磁盤空間。其次,數(shù)據(jù)恢復(fù)方便.一旦發(fā)生問(wèn)題,用戶只需使用完全備份和發(fā)生問(wèn)題前一天的備份就可以將系統(tǒng)恢復(fù)。

人物訪談