物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

當(dāng)城市數(shù)據(jù)和社會(huì)關(guān)系被可視化,每個(gè)人都可能是福爾摩斯

作者:本站收錄
來(lái)源:網(wǎng)絡(luò)大數(shù)據(jù)
日期:2017-10-26 17:17:15
摘要:本文浙江大學(xué)陳為教授分享的是我們浙江大學(xué)可視化與可視分析小組最近兩年的研究工作。本文為其演講實(shí)錄,并略經(jīng)編輯、刪減。

  現(xiàn)代城市是由人、機(jī)、物等組成的繁復(fù)的生活系統(tǒng),其間產(chǎn)生的數(shù)據(jù)可用巨量來(lái)形容。要對(duì)這些宏大的數(shù)據(jù)進(jìn)行收集、梳理并作分析,難度有之。在日前舉辦的杭州云棲大會(huì)上,浙江大學(xué)陳為教授為我們分享了其團(tuán)隊(duì)近幾年在城市大數(shù)據(jù)可視化方面的部分科研成果,并探討了機(jī)器學(xué)習(xí)等在城市數(shù)據(jù)研究中的重要性。本文為其演講實(shí)錄,并略經(jīng)編輯、刪減。

  可視分析研究的興起

  今天我向各位分享的是我們浙江大學(xué)可視化與可視分析小組最近兩年的研究工作。

  首先簡(jiǎn)單給大家兩個(gè)定義。

  第一個(gè),可視化是什么?可視化實(shí)際上是把數(shù)據(jù)信息轉(zhuǎn)化為人眼能識(shí)別的可視符號(hào),通過(guò)眼睛來(lái)增強(qiáng)人類大腦認(rèn)知的一種方法??梢暬鋵?shí)是人機(jī)交互、虛擬現(xiàn)實(shí)應(yīng)用里面的關(guān)鍵技術(shù)。

  第二個(gè),可視分析是什么?2004年美國(guó)在對(duì)反恐情報(bào)的分析中,出現(xiàn)了一些核心問(wèn)題(DT君注:美國(guó)國(guó)土安全局之后成立國(guó)家可視化與分析中心),后來(lái)就演化出了一個(gè)新的學(xué)科,叫做可視分析學(xué)。這門學(xué)科是把可視化、人機(jī)交互、數(shù)據(jù)挖掘結(jié)合起來(lái),形成的一種新的解決問(wèn)題的綜合性的思維方式。

  我從2004年開(kāi)始就轉(zhuǎn)向了可視化分析方面的研究。尤其最近幾年,人工智能的興起使得我們能夠更好地考慮去做智能可視化,來(lái)分析一些問(wèn)題。

  今天要向大家展示的,是圍繞最近幾年我們拿到的一些真實(shí)、少量的數(shù)據(jù),以及我們所做的部分研究工作。

  對(duì)人群位置和手機(jī)通話關(guān)系做可視化

  第一項(xiàng)研究,是基于手機(jī)基站數(shù)據(jù)。簡(jiǎn)單來(lái)講,每一個(gè)手機(jī)用戶,他每分鐘在什么位置,這個(gè)位置是不精確的,而是一個(gè)基站的ID。

  用戶在某些基站可能會(huì)停留,也可能會(huì)移動(dòng),這其實(shí)反映了城市人群的流動(dòng)。同時(shí)我們也獲得了這些用戶互相之間的通話數(shù)據(jù)。有了這些數(shù)據(jù)后,我們自然而然想:這個(gè)城市的人群到底是怎么流動(dòng)的呢?當(dāng)然這是基于基站的流動(dòng),不是基于車輛,也不是基于GPS。

  上圖是我們?cè)O(shè)計(jì)的4個(gè)視圖。左上角是以手機(jī)基站為中心的人群流動(dòng)的規(guī)模分析,以及隨著時(shí)間演變,它的變化趨勢(shì)。

  左下角是一個(gè)熱力圖,它展現(xiàn)了在不同的區(qū)域,人群的密度、分布情況。

  右上角是一個(gè)傳統(tǒng)的統(tǒng)計(jì)可視化,通過(guò)統(tǒng)計(jì)的報(bào)表來(lái)分析。

  右下角是結(jié)合了聚類,用數(shù)據(jù)挖掘的傳統(tǒng)方法,來(lái)研究社交關(guān)系和人群流動(dòng)之間有沒(méi)有一些沒(méi)法用統(tǒng)計(jì)方法來(lái)表現(xiàn)的規(guī)律。

  在整個(gè)界面上,我們分成了幾個(gè)視圖,視圖本身是用WebGL進(jìn)行加速,它的背后是整個(gè)城市數(shù)百萬(wàn)人的手機(jī)每分鐘的位置數(shù)據(jù),以及不定時(shí)的發(fā)短信和電話的記錄等數(shù)據(jù)的支撐。

  在我們看來(lái),可視化一個(gè)非常重要的功能是給人一個(gè)提示、給人一個(gè)直覺(jué)、給人一個(gè)恍然大悟的感覺(jué)。

  需要注意的是,我們今天給大家提供的例子,都是以二維為背景的,因?yàn)槲覀冇X(jué)得雖然三維的背景在某些應(yīng)急指揮或者城市規(guī)劃中應(yīng)用很廣泛,但在一些非結(jié)構(gòu)化、時(shí)空和非時(shí)空的信息分析當(dāng)中,二維和高維的空間數(shù)據(jù)分析更加適合。

  在這個(gè)視圖中,我們使用了開(kāi)源的OpenStreetMap作為底圖,在此基礎(chǔ)上做了疊加和WebGL加速,從而能夠做到實(shí)時(shí)呈現(xiàn)。

  基于手機(jī)信令數(shù)據(jù)做人群流動(dòng)的可視化

  接著我們來(lái)看看,我們?cè)趯?duì)手機(jī)信令數(shù)據(jù)的進(jìn)一步挖掘中,如何觀察人群的流動(dòng)。

  如何來(lái)衡量人群流動(dòng)呢?我們發(fā)現(xiàn),20世紀(jì)80年代,國(guó)內(nèi)已經(jīng)有人在研究張量場(chǎng)和流場(chǎng)這樣的理論,我們認(rèn)為,在城市人口密集區(qū)域研究人群流動(dòng),也可以通過(guò)流場(chǎng)來(lái)表達(dá)和刻畫,然后再采取一些擴(kuò)散對(duì)流的方法,來(lái)進(jìn)行表達(dá)。

  獲得了手機(jī)信令相關(guān)的原始數(shù)據(jù)后,要進(jìn)行梳理和清洗,再轉(zhuǎn)化為向量場(chǎng)。什么是向量場(chǎng)呢?就比如風(fēng)朝某個(gè)方向吹,其實(shí)就是一種向量場(chǎng)。

  將向量場(chǎng)應(yīng)用到人群流動(dòng)分析中,可以用來(lái)刻畫人群在大范圍內(nèi)的宏觀的流動(dòng)。下面這張圖是我們和阿里合作的人群實(shí)時(shí)流動(dòng)的可視化分析的截圖:

  在圖中,人群的流動(dòng)是發(fā)生在道路上的。在早晚高峰,它具有某種大范圍的宏觀流場(chǎng)特征。通過(guò)可視化的方法,我們能讓用戶看到人群移動(dòng)的方向,以及分叉和融合、聚集和擴(kuò)散的情況。

  我們目前的數(shù)據(jù)可能還不是那么精確,因?yàn)槲覀兪菍⒛硞€(gè)區(qū)域劃分為若干個(gè)小方格來(lái)進(jìn)行計(jì)算、統(tǒng)計(jì)人群的流動(dòng),如果我們有GPS之類數(shù)據(jù)的話,可以更好地采取類似的計(jì)算機(jī)視覺(jué)的技術(shù),來(lái)監(jiān)測(cè)人群中可能發(fā)生的踩踏情況。

  理論上來(lái)說(shuō),如果我們的數(shù)據(jù)匯聚得比較好,是可以提前預(yù)防踩踏事件的。

  從出租車軌跡來(lái)對(duì)路況進(jìn)行可視化查詢

  第三個(gè)例子是基于出租車軌跡的相關(guān)數(shù)據(jù)對(duì)路況進(jìn)行可視化查詢。

  2012年時(shí),杭州市有8300多輛出租車,這些出租車的車流占整個(gè)城市車流的7%左右,因此出租車的軌跡能夠反映城市交通的某種狀態(tài)。

  要通過(guò)出租車的數(shù)據(jù)來(lái)查詢哪個(gè)地方堵車,哪個(gè)路口的人群往哪里走等等,我們需要有一個(gè)能夠即時(shí)反饋的查詢工具。

  雖然我們也可以寫一個(gè)程序,用Excel打開(kāi)進(jìn)行查詢,但是要做到隨時(shí)隨地查詢、對(duì)不同區(qū)域進(jìn)行對(duì)比等,這樣我們就需要一個(gè)可視化分析的界面,因?yàn)檫@才是一個(gè)即時(shí)的分析工具。

  我們的課題組主要做的就是將空間的數(shù)據(jù)轉(zhuǎn)化為可視化的交互界面查詢,向用戶提供一個(gè)更簡(jiǎn)單、敏捷地的數(shù)據(jù)工具。這背后當(dāng)然需要一些數(shù)據(jù)挖掘算法。

  這里來(lái)看下一我們的原始數(shù)據(jù)的情況:

  我們拿到的原始數(shù)據(jù),打開(kāi)一個(gè)文件需要10分鐘,但在我們對(duì)數(shù)據(jù)進(jìn)行處理和建立索引后,用戶的查詢同樣也做到了實(shí)時(shí)。

  基于這些數(shù)據(jù),我們能做到什么呢?

  我們可以做雙向車道、潮汐車道的對(duì)比,還可以分析交叉路口、堵車等各種交通方面的問(wèn)題。

  比如,下圖展示的是杭州天目山路和曙光路的情況。這是兩條平行道路,但是由于曙光路施行了潮汐車道,所以,從圖中可以看出,曙光路的擁塞情況較輕,從右側(cè)的散點(diǎn)圖能看出曙光路的車流量要比天目山路(主干道)更大。

  下面的視頻,展示了杭州8300輛出租車的軌跡的情況,以及我們基于這些數(shù)據(jù)對(duì)車流和交通狀況的一些分析:

  將機(jī)器學(xué)習(xí)引入城市空間位置的可視表達(dá)與分析

  在對(duì)數(shù)據(jù)實(shí)現(xiàn)可視查詢后,我們認(rèn)為,要對(duì)深層次的信息進(jìn)行刻畫,我們還可以采用一些機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行表達(dá)。

  比如說(shuō),我們最近就進(jìn)行了一個(gè)簡(jiǎn)單的嘗試。大家知道,最近有一種最新的word2vec方法,它實(shí)際是一種深度學(xué)習(xí)的數(shù)據(jù)表達(dá)。我們也把這個(gè)方法擴(kuò)展到了非結(jié)構(gòu)化數(shù)據(jù)的處理上。用于對(duì)時(shí)空、人群和出租車軌跡的數(shù)據(jù)分析。從而能夠幫助我們更好地來(lái)觀察人群位置移動(dòng)等。

  通過(guò)把粗糙的信息進(jìn)行過(guò)濾后,用戶還能夠從中找到一些很有趣的信息。

  下面是我們的一些可視化界面截圖:

  通過(guò)引入機(jī)器學(xué)習(xí),我們可以探索手機(jī)基站的相似性關(guān)系、城市道路的相似性、手機(jī)基站各向異性屬性與道路的相關(guān)性分析等等??梢愿玫奶剿魅巳汉统鞘械攸c(diǎn)之間的交互過(guò)程。

  我們認(rèn)為,對(duì)這些信息進(jìn)行可視化不僅是為了讓用戶看,更重要的是了解在三元空間中的人、機(jī)、物之間發(fā)生了什么事。

  人的社會(huì)關(guān)系的可視推理和異構(gòu)數(shù)據(jù)的關(guān)聯(lián)分析

  最后再來(lái)談?wù)勎覀內(nèi)绾螌?duì)個(gè)人的社會(huì)關(guān)系進(jìn)行可視推理,以及不同結(jié)構(gòu)類型的數(shù)據(jù)如何進(jìn)行關(guān)聯(lián)分析。

  我們希望基于三元空間里的諸如微博數(shù)據(jù)、手機(jī)的基站相關(guān)的位置數(shù)據(jù)、出租車數(shù)據(jù),來(lái)推測(cè)某一個(gè)不明身份者的社會(huì)關(guān)系。

  先來(lái)舉個(gè)例子。有一個(gè)孕婦,在生小孩前后通過(guò)手機(jī)在車上連續(xù)發(fā)了7條帶有位置的微博,但是微博里面的地理信息位置不夠精確,而我們恰好有這個(gè)時(shí)間段里的手機(jī)基站和出租車軌跡的相關(guān)數(shù)據(jù),通過(guò)簡(jiǎn)單的方法,我們可以在1-2分鐘內(nèi),快速把這個(gè)孕婦住在哪、她的丈夫是誰(shuí)、她的手機(jī)是哪一個(gè)ID等等,都能找出來(lái)。

  對(duì)于這類關(guān)系的分析,我們需要借助于人和機(jī)器的智能融合,來(lái)讓用戶通過(guò)時(shí)間線的表達(dá),通過(guò)地理、時(shí)間,來(lái)快速迭代地把四元空間中可能會(huì)發(fā)生信息碰撞(公安相關(guān)領(lǐng)域一個(gè)術(shù)語(yǔ))的人物關(guān)系找出來(lái)。

  另外,通過(guò)此類分析,我們還可以找到交班的出租車位置信息,人群的通勤規(guī)律等等。

  做這樣的分析,我們當(dāng)然不是為了破壞隱私,反過(guò)來(lái)理解,我們其實(shí)也在做關(guān)于隱私保護(hù)的可視化分析。我們希望能給我們的用戶一種一針見(jiàn)血、快速而敏捷地找到某個(gè)人的社會(huì)關(guān)系的一種方法。注意這些目前還不是自動(dòng)做到,而是需要把人的常識(shí),經(jīng)驗(yàn)融入到機(jī)器,通過(guò)可視化的交互方式去迭代地融入,這樣才能找到一些蛛絲馬跡。

  接著再來(lái)看看如何對(duì)異構(gòu)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。

  通過(guò)把不同的線索快速匯聚在一起,能讓大家快速成為福爾摩斯。通過(guò)對(duì)不同線索的匯聚,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)推理分析,這里我還是舉兩個(gè)例子。

  第一個(gè)例子,某個(gè)人在微博中稱其在某個(gè)時(shí)間打車時(shí)丟了一部手機(jī),半小時(shí)后用電話打過(guò)去發(fā)現(xiàn)手機(jī)關(guān)機(jī)。誰(shuí)會(huì)拿走他的手機(jī)呢?我們通過(guò)數(shù)據(jù),兩分鐘之內(nèi)能夠查出來(lái)??梢詮膸浊l出租車軌跡中,快速匹配出來(lái)。最后還原出來(lái)整個(gè)事件:原來(lái)是出租車司機(jī)把這個(gè)手機(jī)拿走了。

  下面這張圖展示了從某條微博,到最終定位到某位出租車司機(jī)的推理過(guò)程:

  (圖片說(shuō)明:城市數(shù)據(jù)的多樣化導(dǎo)致了多源異構(gòu)的數(shù)據(jù),它們?cè)趲?lái)信息量的同時(shí)帶來(lái)了很大的數(shù)據(jù)學(xué)習(xí)成本和數(shù)據(jù)查詢成本。本文作者團(tuán)隊(duì)建立的一套模型,可以提高數(shù)據(jù)查詢效率,利用可視化的方法,用戶能夠簡(jiǎn)捷直觀地自定義數(shù)據(jù)查詢目標(biāo),并利用不同視圖展示查詢結(jié)果,有效提高了城市數(shù)據(jù)的分析效率。這個(gè)圖展示了某個(gè)事件的分析推理過(guò)程。)

  第二個(gè)例子,是關(guān)于某一起車禍。車禍發(fā)生前,所有的天氣情況、道路情況以及它引起的交通擁堵等情況,都可以快速進(jìn)行分析。此外,我們的平臺(tái)上還匯集了手機(jī)信令、出租車軌跡、微博數(shù)據(jù)、谷歌視頻、地圖、街道等各種網(wǎng)上信息??梢詫⒉煌臄?shù)據(jù)關(guān)聯(lián)起來(lái)。

  我們認(rèn)為,對(duì)于大數(shù)據(jù),第一步是要“存”(存儲(chǔ)),第二步是“通”(關(guān)聯(lián)),第三步是能做一些分析。

  再進(jìn)一步,可能還需要進(jìn)行更多的數(shù)據(jù)挖掘,引入機(jī)器學(xué)習(xí)、人工智能等算法,才能夠讓我們智慧城市建設(shè)走得更遠(yuǎn),形成一個(gè)以數(shù)據(jù)為中心的城市大腦。

人物訪談