亚洲乱码日产精品一二三,亚洲乱亚洲乱少妇无码,色无码av在线播放,国产丝袜在线精品丝袜不卡

交通知識(shí)圖譜應(yīng)用 —— 公交出行場(chǎng)景挖掘

引言
 

知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系,將海量復(fù)雜的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識(shí)圖譜以圖(Graph)的方式來展現(xiàn)實(shí)體、事件及其之間的關(guān)系。知識(shí)圖譜存儲(chǔ)和查詢研究如何設(shè)計(jì)有效的存儲(chǔ)模式支持對(duì)大規(guī)模圖數(shù)據(jù)的有效管理,實(shí)現(xiàn)對(duì)知識(shí)圖譜中知識(shí)高效查詢。

 

交通作為海量個(gè)體在時(shí)間與空間維度上的移動(dòng)現(xiàn)象,本質(zhì)上是復(fù)雜的知識(shí)圖譜,深度交叉挖掘每個(gè)交通個(gè)體在城市空間下的完整出行鏈路與人車路環(huán)境及事件建的交叉關(guān)系,是精細(xì)化開展城市交通治理的前提。人-車-路-空間單元之的關(guān)系從一階向多階轉(zhuǎn)變,關(guān)系規(guī)模超過百萬億級(jí)別,檢索、計(jì)算的時(shí)空復(fù)雜度超過關(guān)系數(shù)據(jù)庫的應(yīng)對(duì)極限。以建立大規(guī)模城市交通知識(shí)圖譜為例,針對(duì)城市人口規(guī)模在千萬級(jí)別的城市,人與人之間、人與車之間、人與空間單元之間、車與路之間的將超過百萬億級(jí)別。

 

 
圖1 交通知識(shí)圖譜示意

 

 

當(dāng)前階段知識(shí)圖譜技術(shù)已經(jīng)在社交網(wǎng)絡(luò)、人力資源與招聘、金融、保險(xiǎn)、零售、廣告、物流、通信、IT、制造業(yè)、傳媒、醫(yī)療、電子商務(wù)和物流等各領(lǐng)域廣泛應(yīng)用。知識(shí)圖譜在交通領(lǐng)域的應(yīng)用也在同步開展,本文利用圖數(shù)據(jù)庫Neo4j對(duì)深圳市約1000條公交線路,一天工作日的公交刷卡數(shù)據(jù)進(jìn)行建模分析,建模規(guī)模達(dá)到500萬節(jié)點(diǎn),1000萬條邊。研究了交通知識(shí)圖譜的建立、挖掘分析、性能參數(shù)對(duì)比等多方面應(yīng)用,分析了同乘人員、站點(diǎn)最大客流提取、關(guān)聯(lián)查詢識(shí)別、站點(diǎn)群公交出行量識(shí)別等公交出行行為。并在不同的公交出行行為場(chǎng)景分析中對(duì)比分析了ORACLE數(shù)據(jù)庫與Neo4j的查詢分析性能,探索交通知識(shí)圖譜的應(yīng)用。

 

 

01 知識(shí)圖譜概述

 
1.1 知識(shí)圖譜載體圖數(shù)據(jù)庫概述
 

知識(shí)圖譜是以圖數(shù)據(jù)庫為載體進(jìn)行數(shù)據(jù)模型建立與提取分析,圖數(shù)據(jù)庫是基于圖形理論實(shí)現(xiàn)的一種非關(guān)系型數(shù)據(jù)庫,它的底層數(shù)據(jù)存儲(chǔ)和與查詢方式都是以圖論為基礎(chǔ),其中圖論中的基礎(chǔ)元素為節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊,在圖數(shù)據(jù)庫中對(duì)應(yīng)的就是節(jié)點(diǎn)和關(guān)系。圖形數(shù)據(jù)庫作為一種非關(guān)系型數(shù)據(jù)庫,將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)(圖)上而不是關(guān)系型數(shù)據(jù)庫中的表,常見的有Neo4j、FlockDB、AllegroGraph、GraphDB、InfiniteGraph、TigerGraph、騰訊星圖等。Neo4j是由Java實(shí)現(xiàn)的開源圖數(shù)據(jù)庫,實(shí)現(xiàn)了專業(yè)數(shù)據(jù)庫界別的圖數(shù)據(jù)模型存儲(chǔ),并提供完整的數(shù)據(jù)庫特性,是目前是生產(chǎn)環(huán)境中主流的圖數(shù)據(jù)庫引擎。Neo4j作為高性能的圖引擎,該引擎具有成熟和健壯的數(shù)據(jù)庫的所有特性。由于開源特性及其豐富的文檔,本文將使用Neo4j構(gòu)建公交出行圖數(shù)據(jù)庫場(chǎng)景。

 

 

圖2 Neo4j圖數(shù)據(jù)庫

 

 
1.2 圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫

 

關(guān)系型數(shù)據(jù)庫通過外鍵記錄兩個(gè)表或者多個(gè)表之間的引用關(guān)系,在進(jìn)行關(guān)聯(lián)查詢時(shí)通過外鍵在主表中尋找對(duì)應(yīng)的主鍵記錄進(jìn)行數(shù)據(jù)搜索與匹配計(jì)算操作,關(guān)聯(lián)查詢時(shí)將會(huì)耗費(fèi)大量系統(tǒng)計(jì)算資源,尤其是在多表關(guān)聯(lián)查詢場(chǎng)景下查詢效率極低。關(guān)系型數(shù)據(jù)庫中多對(duì)多關(guān)系需要使用中間表,查詢效率進(jìn)一步下降。圖數(shù)據(jù)庫使用圖論存儲(chǔ)節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系,而每個(gè)節(jié)點(diǎn)的都包含對(duì)應(yīng)的關(guān)系列表,用于存放該節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)系,節(jié)點(diǎn)之間的關(guān)聯(lián)挖掘分析直接基于圖論進(jìn)行搜索分析,在復(fù)雜數(shù)據(jù)挖掘分析效率上遠(yuǎn)高于關(guān)系型數(shù)據(jù)庫。

 

 
圖3 關(guān)系型數(shù)據(jù)庫與Neo4j建庫示意

 

知識(shí)圖譜的構(gòu)建過程就是從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識(shí)提取,形成知識(shí)存入到知識(shí)圖譜,主要針對(duì)純文本、結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行信息抽取。

 

 
圖4 知識(shí)圖譜信息抽取

 

 

02 公交出行場(chǎng)景知識(shí)圖譜建立

 
2.1 基礎(chǔ)數(shù)據(jù)
 

基礎(chǔ)數(shù)據(jù)為公交線路信息表和公交刷卡記錄表,其中公交線路信息表包含了深圳市約1000條公交線路對(duì)應(yīng)站點(diǎn)數(shù)據(jù),字段包括了線路編號(hào)、線路方向、線路名稱和站點(diǎn)序號(hào)等信息,公交刷卡記錄表記錄了深圳市某個(gè)工作日約300萬條刷卡記錄,其中刷卡記錄已經(jīng)匹配下車站點(diǎn)信息。詳細(xì)字段包括了IC卡編號(hào)、車輛編號(hào)、公交線路編號(hào)、上車站點(diǎn)序號(hào)、上車站點(diǎn)序號(hào)等信息。

 

2.2 建模框架

 

根據(jù)公交人、車、站點(diǎn)之間的關(guān)聯(lián)關(guān)系,建立如下的公交知識(shí)圖譜的框架。

 

 
圖5 公交出行行為場(chǎng)景建??蚣?/h6>

 

其中實(shí)體包含:公交車輛、公交站點(diǎn)、公交線路、IC卡(公交出行者)、刷卡記錄;關(guān)系包含:公交車輛—公交線路(屬于)、公交線路-公交站點(diǎn)(經(jīng)過)、IC卡-刷卡出行(出行)、公交站點(diǎn)-刷卡出行(上車)、公交站點(diǎn)-公交站點(diǎn)(相鄰)、刷卡出行-公交站點(diǎn)(下車),場(chǎng)景建模規(guī)模達(dá)到500萬節(jié)點(diǎn),1000萬條邊。

 

2.3 節(jié)點(diǎn)建模

 

將原始數(shù)據(jù)兩張表轉(zhuǎn)為圖數(shù)據(jù)庫對(duì)應(yīng)的節(jié)點(diǎn),其中數(shù)據(jù)表中的一條記錄對(duì)應(yīng)圖數(shù)據(jù)庫中的一個(gè)節(jié)點(diǎn),整個(gè)數(shù)據(jù)表對(duì)應(yīng)圖數(shù)據(jù)庫中某一節(jié)點(diǎn)集合(標(biāo)簽)。

 

公交車輛實(shí)體:從刷卡記錄表中提取vehicle標(biāo)簽(去重),單個(gè)節(jié)點(diǎn)僅包含車輛編號(hào)屬性。

 

公交線路實(shí)體:從公交線路信息表中提取車輛線路標(biāo)簽,單個(gè)節(jié)點(diǎn)包含線路編號(hào)、線路名稱、線路方向等屬性。

 

公交站點(diǎn)實(shí)體:從公交線路信息表中提取站點(diǎn)標(biāo)簽,單個(gè)節(jié)點(diǎn)包含站點(diǎn)編號(hào)、站點(diǎn)名稱、站點(diǎn)經(jīng)緯度等屬性。

 

刷卡記錄實(shí)體:從刷卡記錄表中提取刷卡標(biāo)簽,單個(gè)節(jié)點(diǎn)包含:刷卡記錄編號(hào)、公交IC卡編號(hào)兩個(gè)屬性。

 

IC卡標(biāo)簽實(shí)體:從公交刷卡記錄表中提取IC卡標(biāo)簽(去重),單個(gè)節(jié)點(diǎn)僅包含IC卡編號(hào)屬性。

 

2.4 關(guān)系建模

 

根據(jù)基礎(chǔ)數(shù)據(jù)中的兩張表處理節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系。

 

公交車輛—>公交線路(屬于關(guān)系):從刷卡記錄表中提取公交車輛與公交線路的屬于關(guān)系(去重),關(guān)系匹配字段為車輛編號(hào)—>線路。

 

公交線路—>公交站點(diǎn)(經(jīng)過關(guān)系):從公交線路信息表中描述了每條公交線路經(jīng)過公交站點(diǎn)的關(guān)系,關(guān)系匹配字段為線路編號(hào)—>站點(diǎn)編號(hào),關(guān)系屬性包含站點(diǎn)序號(hào)。

 

公交站點(diǎn)—>刷卡記錄(上車關(guān)系):從刷卡記錄表中提取公交站點(diǎn)與刷卡記錄的上車關(guān)系,匹配字段為站點(diǎn)編號(hào)—>乘車記錄編號(hào),關(guān)系屬性包含線路編號(hào),上車站點(diǎn)編號(hào),上車時(shí)間。

 

刷卡記錄—>公交站點(diǎn)(下車關(guān)系):從刷卡記錄表中提取刷卡記錄與公交站點(diǎn)的下車關(guān)系,匹配字段為乘車記錄編號(hào)—> 站點(diǎn)編號(hào),關(guān)系屬性包含線路編號(hào)、下車站點(diǎn)序號(hào)、下車站點(diǎn)時(shí)間。

 

IC卡—>刷卡記錄(出行關(guān)系):從刷卡記錄表中提取IC卡與刷卡記錄出行關(guān)系,匹配字段為IC卡編號(hào)—>IC卡編號(hào)。

 

公交站點(diǎn)-公交站點(diǎn)(相鄰):從公交線路信息表中根據(jù)經(jīng)緯度坐標(biāo)記錄公交站點(diǎn)的之間的相鄰關(guān)系,匹配字段為公交站點(diǎn)編號(hào)—公交站點(diǎn)編號(hào)。

 

 

圖6 公交出行場(chǎng)景知識(shí)圖譜搭建

 

 

03 公交出行場(chǎng)景挖掘

 

公交出行場(chǎng)景挖掘涵蓋了同乘人員識(shí)別提取、最大公交客流提取識(shí)別、線路站點(diǎn)上下車客流提取、公交站點(diǎn)群公交運(yùn)力挖掘、公交站點(diǎn)群客流挖掘。其中同乘人員識(shí)別提取、最大公交客流提取識(shí)別、線路站點(diǎn)上下車客流提取為基礎(chǔ)統(tǒng)計(jì)挖掘分析,介紹Neo4j圖數(shù)據(jù)庫在一維數(shù)據(jù)挖掘分析。公交站點(diǎn)群公交運(yùn)力挖掘、公交站點(diǎn)群客流挖掘?yàn)槎嗑S關(guān)聯(lián)挖掘。

 

 
圖7 公交出行場(chǎng)景挖掘

 

 

3.1 同乘人員識(shí)別提取
 

高峰期間的長距離同乘人員識(shí)別是常規(guī)公交線路優(yōu)化、定制公交線路開通的重要參考依據(jù)。在Neo4j中提取早高峰(7:30-9:00)、長距離(大于10個(gè)站)的同乘人員(同一站點(diǎn)上車、同一站點(diǎn)下車)情況,挖掘分析結(jié)果如下:

 

 
圖8 同乘人員識(shí)別分析結(jié)果

 

分析結(jié)果表明早高峰乘坐公交長距離出行到科技園站的人較多,同乘達(dá)到科技園公交站的公交客流來自西鄉(xiāng)步行街、同仁婦科醫(yī)院、龍輝花園、五和中路等公交站點(diǎn)。圖數(shù)據(jù)庫與傳統(tǒng)關(guān)系型數(shù)據(jù)庫最大差別在于,在同乘識(shí)別分析的出行量基礎(chǔ)上可快速定位到每個(gè)IC卡出行鏈。

 

3.2 站點(diǎn)間最大公交客流提取

 

站點(diǎn)間最大公交客流提取識(shí)別對(duì)于挖掘全市公交站點(diǎn)與站點(diǎn)之間的公交客流,對(duì)于識(shí)別全市公交出行走廊,最大公交站點(diǎn)出行OD挖掘。在Neo4j查詢分析如下。

 

 

 

表1 最大站點(diǎn)客流提取

 

分析結(jié)果表明全天大的公交站點(diǎn)間客流主要有上水徑至茵悅之生公交站、東邊至沙元埔公交站、福保派出所至益田村公交站、沙元埔至東邊公交站。

 

3.3 線路站點(diǎn)上下車客流提取

 

線路站點(diǎn)上下車客流提取用于提取分析單條公交線路在途徑各公交站點(diǎn)處的上下車客流,可快速挖挖掘提取公交線路的斷面客流與滿載率識(shí)別。在Neo4j中統(tǒng)計(jì)單條公交線路沿線公交站點(diǎn)上下車客流分析結(jié)果如下。

 

 
圖9 公交線路站點(diǎn)上下車客流提取
 

 

3.4 站點(diǎn)群出行量挖掘

 

面向公交優(yōu)化分析,公交站點(diǎn)群之間的公交出行量是支撐預(yù)約巴士開通與線路優(yōu)化的重要分析依據(jù)。其中公交站點(diǎn)群是指500米范圍內(nèi)的公交站點(diǎn)間的出行量,其中公交站點(diǎn)群A與B之間的公交線路關(guān)聯(lián)示意如下,分析站點(diǎn)A與B互相鄰近站點(diǎn)之間的公交出行量是片區(qū)公交優(yōu)化的關(guān)鍵。

 

 
圖10 公交站點(diǎn)群出行量分析

 

根據(jù)站點(diǎn)之間的鄰近關(guān)系,識(shí)別提取公交站點(diǎn)群之間的公交出行量,在Neo4j中可直觀快速得到分析結(jié)果,以最大公交站點(diǎn)間客流科技園公交站至同仁婦科醫(yī)院公交站點(diǎn)分析為例,相互鄰近站點(diǎn)間的公交出行量識(shí)別結(jié)果如下。

 

 
圖11 公交站點(diǎn)群之間的出行量識(shí)別結(jié)論

 

3.5 站點(diǎn)群運(yùn)力挖掘

公交站點(diǎn)群運(yùn)力挖掘用于統(tǒng)計(jì)公交站周邊鄰近站點(diǎn)經(jīng)過的各條公交線路擁有的車輛數(shù)。其中公交站的鄰近是指500米范圍內(nèi)的公交站點(diǎn),通過統(tǒng)計(jì)公交站點(diǎn)群經(jīng)過的公交車輛,對(duì)于評(píng)估以目標(biāo)公交站點(diǎn)為中心的500米范圍公交站群的運(yùn)力評(píng)估,是片區(qū)級(jí)公交運(yùn)力匹配計(jì)算的核心。

 

 
圖12 公交站點(diǎn)群公交運(yùn)力挖掘框架

 

查詢科技園公交站群的公交車輛運(yùn)力如下。

 

 
圖13 公交站點(diǎn)群公交運(yùn)力挖掘

 

 

04 圖數(shù)據(jù)庫查詢性能對(duì)比

 

在同樣的計(jì)算機(jī)硬件環(huán)境下對(duì)Neo4j和ORACLE數(shù)據(jù)庫對(duì)同樣的數(shù)據(jù)查詢性能進(jìn)行對(duì)比分析。其中針對(duì)簡單一維的數(shù)據(jù)統(tǒng)計(jì)分析,ORACLE查詢性能明顯高于Neo4j圖數(shù)據(jù)庫,如最大公交站點(diǎn)客流查詢,ORACLE查詢時(shí)間為3.21秒,Neo4j查詢時(shí)間為25.64秒。針對(duì)二維關(guān)聯(lián)的數(shù)據(jù)查詢場(chǎng)景中,如站點(diǎn)群運(yùn)力挖掘場(chǎng)景,其中ORACLE查詢時(shí)間為2.41秒,Neo4j查詢時(shí)間為0.14 秒,多維關(guān)聯(lián)查詢中Neo4j性能為ORACLE數(shù)據(jù)庫的20倍。對(duì)Neo4j和ORACLE數(shù)據(jù)庫在不同關(guān)聯(lián)維度挖掘查詢性能對(duì)比分析如下:

 

 
表2 Neo4j和ORACLE查詢性能對(duì)比
 

 

05 結(jié)  語

 

本文利用Neo4j圖數(shù)據(jù)庫建立了公交出行場(chǎng)景的知識(shí)圖譜,場(chǎng)景建模規(guī)模達(dá)到500萬節(jié)點(diǎn),1000萬條邊。在搭建的知識(shí)圖譜上挖掘分析了公交典型出行場(chǎng)景中同乘人員識(shí)別提取、公交站點(diǎn)群出行量挖掘、公交站點(diǎn)運(yùn)力挖掘等分析場(chǎng)景。橫向?qū)Ρ攘薕RACLE數(shù)據(jù)庫和Neo4j查詢性能,表明Neo4j在多維關(guān)聯(lián)查詢中的性能要顯著高于ORACLE。本文通過知識(shí)圖譜的建立、場(chǎng)景挖掘、查詢性能對(duì)比3個(gè)角度探索了知識(shí)圖譜在交通數(shù)據(jù)挖掘應(yīng)用,后續(xù)我們將建立更為復(fù)雜維度的交通場(chǎng)景,持續(xù)開展知識(shí)圖譜分析應(yīng)用。

 

 

撰寫:劉雨婷、屈新明

審核:屈新明

審定:丘建棟

返回列表