物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

淺議數(shù)據(jù)倉庫技術(shù)對RFID數(shù)據(jù)的應(yīng)用

作者:楊澤如,康樂樂 ,姚冬蓓
來源:百度文庫
日期:2017-11-17 14:07:37
摘要:對于RFID數(shù)據(jù)倉庫有學(xué)者提出了Path Cube模型和Workflow Cube模型來構(gòu)建數(shù)據(jù)倉庫。這兩個模型既減少了數(shù)據(jù)量,加快了在高層次上數(shù)據(jù)處理的速度,同時又能將RFID數(shù)據(jù)所包含的信息保存下來。文章對這兩種方法做了介紹,并指出RFID數(shù)據(jù)的建倉技術(shù)將會得到進(jìn)一步的發(fā)展。

  1 無線射頻識別RFID

  RFID是Radio Frequency Identification的縮寫,中文翻譯為無線射頻識別。RFID作為一種自動識別標(biāo)簽,是通過射頻信號來自動識別目標(biāo)對象從而獲取相應(yīng)的數(shù)據(jù)。RFID標(biāo)簽有很多種的識別方式,但最為常見的是存儲一個唯一的序列號來標(biāo)識一個人或者物品的信息。它是通過一個帶有天線的微芯片來傳輸信息,芯片借助天線將識別信息傳輸給一個RFID閱讀器。這種技術(shù)讓用戶能通過一個RFID閱讀器遠(yuǎn)距離、非接觸地讀取數(shù)據(jù),在這個過程中閱讀器和芯片之間不需要有機(jī)械或光學(xué)的接觸,并且這個過程不需要人工干預(yù),在任何環(huán)境當(dāng)中均可自發(fā)完成。

  RFID會使得原來的供應(yīng)鏈管理系統(tǒng)變得更為智能,它改進(jìn)了原始的二維條形碼,使得相應(yīng)的貨物跟蹤和訂單管理的過程變得簡易。近幾年沃爾瑪開始在它們的供應(yīng)鏈系統(tǒng)中使用這種技術(shù),RFID還被廣泛應(yīng)用于軍事、郵政、航空、醫(yī)療等領(lǐng)域。由RFID的廣泛應(yīng)用而帶來的新事物就是“物聯(lián)網(wǎng)”,它意味著人們能通過無線網(wǎng)絡(luò)隨時獲取數(shù)以億計物品的位置及相關(guān)信息。

  Jiawei Han(2006)認(rèn)為在數(shù)據(jù)倉庫領(lǐng)域?qū)FID數(shù)據(jù)的研究主要分為三個方向:第一個方向在于安全地收集和管理RFID標(biāo)簽攜帶的信息;第二個方向是清理RFID數(shù)據(jù)中的誤差數(shù)據(jù);第三個方向是創(chuàng)建一個多維度的數(shù)據(jù)倉庫,以提供對大量RFID數(shù)據(jù)集的OLAP操作。這也是本文的討論內(nèi)容。

  2 RFID數(shù)據(jù)特性

  RFID數(shù)據(jù)完全不同于傳統(tǒng)的關(guān)聯(lián)技術(shù)或者數(shù)據(jù)倉庫技術(shù)中的數(shù)據(jù),對這些不同之處的研究正是對RFID數(shù)據(jù)進(jìn)行數(shù)據(jù)建倉工作的起點(diǎn),RFID數(shù)據(jù)主要有如下一些特性:

  數(shù)據(jù)簡單:RFID所產(chǎn)生的數(shù)據(jù)可視為一個RFID元數(shù)據(jù)的流,元數(shù)據(jù)的結(jié)構(gòu)主要是EPC、Location、Time,EPC是Electronic Product Code的縮寫,即電子產(chǎn)品代碼,它用來唯一識別一個物品。Location是RFID閱讀器讀取該物品時的所在位置,time就是讀取時的時間。這種數(shù)據(jù)格式并沒有攜帶太復(fù)雜的信息,簡單易讀。

  數(shù)據(jù)海量:RFID應(yīng)用的重要挑戰(zhàn)就是由此產(chǎn)生的海量數(shù)據(jù)。

  數(shù)據(jù)誤差:RFID數(shù)據(jù)的另一個重要問題是RFID閱讀器在產(chǎn)生數(shù)據(jù)流時會有誤差。在實際應(yīng)用當(dāng)中RFID閱讀率大概在60%~70%之間。

  允許冗余:RFID閱讀器每隔固定一段時間就會產(chǎn)生一個(EPC,location,time)格式的元數(shù)據(jù),當(dāng)一個物體停留在相同的地點(diǎn)一段時間就會有很多元數(shù)據(jù)產(chǎn)生,這就形成的數(shù)據(jù)的冗余,我們同樣需要對這些冗余進(jìn)行處理。

  3 RFID數(shù)據(jù)清理

  數(shù)據(jù)清洗是在數(shù)據(jù)處理過程中最常見的問題之一,比如在數(shù)據(jù)倉庫當(dāng)中進(jìn)行各種預(yù)定義的成熟操作當(dāng)中都涉及到這一過程。在RFID當(dāng)中的數(shù)據(jù)主要存在以下三種問題:缺失值,數(shù)據(jù)錯誤,數(shù)據(jù)冗余。

  3.1 缺失值和數(shù)據(jù)錯誤的處理

  缺失值和數(shù)據(jù)錯誤這類問題在RFID應(yīng)用當(dāng)中非常常見,因為一些簡陋的無線閱讀器在無線通信過程中會出錯。很多學(xué)者針對這類問題提出了若干解決方案,Yijian Bai(2007)提出的有效的RFID數(shù)據(jù)流過濾技術(shù)、Shawn(2007)提出的ESP(Extensible Sensor Stream Processing,在線清洗多層框架系統(tǒng)),付菡提出的基于定長滑動窗口的清洗技術(shù)等等。其中ESP作為主要的數(shù)據(jù)流清洗方法分為五個階段,每個階段都對應(yīng)一個不同數(shù)據(jù)處理的邏輯過程。ESP系統(tǒng)針對數(shù)據(jù)的時間粒度和空間粒度,通過說明性的查詢語言來解決用戶定義的功能,并通過實驗證明ESP也適合于RFID數(shù)據(jù)流。

  針對RFID數(shù)據(jù)流固有的不可靠性,以及定長滑動窗口的窗口大小不容易確定,Shawn還提出了一種自適應(yīng)的改變滑動窗口大小的RFID數(shù)據(jù)清洗方法——SMURF。

  3.2 數(shù)據(jù)冗余

  數(shù)據(jù)冗余的問題在RFID應(yīng)用當(dāng)中也非常嚴(yán)重。數(shù)據(jù)的冗余主要有兩個層面:在閱讀層面的冗余以及數(shù)據(jù)層面的冗余。

 ?、匍喿x層面的冗余:這種冗余是指一個RFID標(biāo)簽在同一個地點(diǎn)被不同的RFID閱讀器重復(fù)讀取。解決這種問題的一個辦法是,當(dāng)一個RFID閱讀器打開時其它有交叉部分的閱讀器暫時關(guān)閉;其次,每個RFID閱讀器計算出它所覆蓋的RFID標(biāo)簽的數(shù)目,然后將這個數(shù)據(jù)向它所覆蓋的每個RFID標(biāo)簽中書寫。如果一個閱讀器一個標(biāo)簽都沒有鎖定,則這個閱讀器為多余的。

  但是這個算法當(dāng)中有一個假定,就是每個閱讀器會在同一位置持續(xù)很長時間,然而在實際中很多閱讀器是隨時移動的。

  ②數(shù)據(jù)層面的冗余:Han JW提出了一種簡化RFID數(shù)據(jù)源的方式。每一個閱讀器產(chǎn)生RFID元數(shù)據(jù)(EPC,location,time),當(dāng)一個物品停留在一個地方一段時間后會持續(xù)產(chǎn)生這樣的元數(shù)據(jù),解決方法將元數(shù)據(jù)處理成(EPC,location,time_in,time_out)這樣的數(shù)據(jù)格式。在多數(shù)時候許多物品都是一起移動的,比如一整集裝箱的洗發(fā)水從工廠出來后,在各物流中心中轉(zhuǎn),直至被擺放到貨架上。因此,我們用(EPC list,location,time_in,time_out)格式來進(jìn)行儲存有助于減少冗余。

  4 RFID數(shù)據(jù)倉庫的構(gòu)建

  因為RFID數(shù)據(jù)的諸多特性,RFID數(shù)據(jù)倉庫的建立也不同于傳統(tǒng)的數(shù)據(jù)倉庫。假設(shè)我們已經(jīng)將數(shù)據(jù)進(jìn)行了清洗,得到了以(EPC,location,time_in,time_out)格式的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理技術(shù)也許能夠找出在指定地點(diǎn),指定時間的相應(yīng)信息,但是對這些數(shù)據(jù)之間的聯(lián)系則缺少相應(yīng)的研究方法,比如如何尋找某些類別的商品從A地到B地的相關(guān)信息方面,并沒有很好的處理技術(shù)。為了滿足用戶對信息的需求,并結(jié)合RFID數(shù)據(jù)本身的特點(diǎn),Hector Gonzalez,Xiaolei Li(2006)提出了構(gòu)建RFID數(shù)據(jù)倉庫并進(jìn)行數(shù)據(jù)處理的一些相關(guān)技術(shù)。建立RFID數(shù)據(jù)倉庫,Han等提出了兩類模型:一類是Path Cube,另外一類是Workflow Cube。

  4.1 Path Cube模型

  Path cube 壓縮并整合了一些物體移動的過程中的地點(diǎn)時間等信息,它是在物體的維度上建立起來的。這種cube能夠有效率的處理一些OLAP的請求。在建立這種RFID的數(shù)據(jù)倉庫時使用清洗過的數(shù)據(jù)按照RFID-Cuboid的形式組合數(shù)據(jù)。RFID-Cuboid包含三種類型的表:信息表(Information Table),保存每個RFID標(biāo)簽的物體信息;停留表(Stay Table),存儲在同一個地點(diǎn)停留的物體信息;地圖表(Map Table),存儲多個相互關(guān)聯(lián)的停留記錄的路徑信息。

  信息表(Information Table):該表存儲的是例如物品名稱,制造商,物品價格,物品類別等和物品所經(jīng)過路徑無關(guān)的信息。這類信息的每個維度有一個相互關(guān)聯(lián)的概念層次。在這張表里,所有傳統(tǒng)的OLAP操作都可以進(jìn)行使用,和一般常見的數(shù)據(jù)倉庫類似。

  停留表(Stay Table):在RFID數(shù)據(jù)處理時有一個常見場景就是大批量物品一起移動的。根據(jù)上文數(shù)據(jù)清理部分所述,每個記錄可以調(diào)整為這樣的形式<(gids,location,time_in,time_out):(m1,…,mk)>,gids是一個標(biāo)記,它指向更低級的gids,最后一個層次的gids指向一組RFID標(biāo)簽的EPC。time_in是物品進(jìn)入一個地點(diǎn)的時間,time_out是物品離開一個地點(diǎn)的時間。如果物品還沒有離開,這個值為空(NULL)。m1,…,mk是物品停留在此地測量的一些記錄,例如物品的數(shù)目,在此地平均的時間,最大的時間等量等等。

  地圖表(Map Table):該表是RFID數(shù)據(jù)當(dāng)中特有的一張表,它不同于傳統(tǒng)意義上數(shù)據(jù)倉庫中的表。這張表中的數(shù)據(jù)使得處理有聯(lián)系的、同一條路徑上的信息變得容易。在每個階段使用這張表可以壓縮數(shù)據(jù)、減少數(shù)據(jù)量,同時讓信息的查詢過程變得更有效。

  Hector指出通過使用Path cube形式的表之后,數(shù)據(jù)倉庫所占空間大大降低,同時I/O處理的速度有效降低,這使得處理RFID數(shù)據(jù)變得更為容易。

  4.2 Workflow Cube模型

  Workflow cube是一個data cube的模型,在這個模型在多維的抽象層次上涵蓋了物體的移動流中的信息。它主要從兩個角度來觀察這些數(shù)據(jù),一個是從物品的角度,另一個是從路徑的角度。

  所謂物品的角度就是物品可以有多個抽象層次,物品可以是單個物品層次,也可以是一個小類或者一個大類。如鞋類包括運(yùn)動鞋、皮鞋等,運(yùn)動鞋下面又有品牌分類。所謂路徑的角度就是物品存儲可以有多個抽象層次,作為一個賣場不需要關(guān)心運(yùn)來的貨物經(jīng)過了哪些中轉(zhuǎn)站,而作為中轉(zhuǎn)站也不需要關(guān)心貨物進(jìn)入賣場后會放在哪個貨架上。

  Workflow cube使用流向圖計算每個工作流的概率,流向圖就是一個樹形結(jié)構(gòu)圖,樹的每個節(jié)點(diǎn)是一個地點(diǎn),樹的連線表示物品在兩個地點(diǎn)間的移動。

  Path Cube和Workflow Cube與傳統(tǒng)的data cube有很多共同之處,如每個維度都有一個概念層次,因此它們都可以用星形模式來模擬。Path Cube的不同之處就在于它在多維空間內(nèi)對物體的移動進(jìn)行了建模。Workflow Cube則是使用了復(fù)雜的概率模型,同時它還從物品和路徑兩個角度來建模。

  5 討論與展望

  RFID數(shù)據(jù)有很多自己的特性,需要進(jìn)行復(fù)雜的數(shù)據(jù)清洗工作,這就需要在處理過程中對數(shù)據(jù)進(jìn)行壓縮,并創(chuàng)建有效的數(shù)據(jù)倉庫結(jié)構(gòu)來存儲這些數(shù)據(jù),在減少RFID數(shù)據(jù)量的同時保留數(shù)據(jù)本身攜帶的相關(guān)信息。這在數(shù)據(jù)壓縮算法、數(shù)據(jù)倉庫模型等方面都提供了可供繼續(xù)研究的內(nèi)容。

  參考文獻(xiàn):

  [1] 付菡,秦鵬飛,孫宇,等.一種基于滑動窗口的RFID 數(shù)據(jù)流清洗方法.小型微型計算機(jī)系統(tǒng),2008,(z1).

  [2] 孔曉波.物聯(lián)網(wǎng)概念和演進(jìn)路徑.電信工程技術(shù)與標(biāo)準(zhǔn)化,2009,(12).