時間:2013年01月11日 分類:推薦論文 次數(shù):
摘要:高速公路營運過程中產(chǎn)生巨大的收費數(shù)據(jù)量,這些數(shù)據(jù)無論是對交通管理部門,還是對高速公路營運企業(yè)都是一筆十分寶貴的數(shù)據(jù)財富。在這些營運數(shù)據(jù)中反映了很多的信息,如何對這些海量數(shù)據(jù)進(jìn)行科學(xué)的處理,找出規(guī)律,是道路管理部門亟待解決的問題。本文簡單介紹了有效處理海量收費數(shù)據(jù)的一般方法。
關(guān)鍵詞:高速公路 收費數(shù)據(jù) 處理方法
Abstract: highway operation process produce the huge charge data quantity, the data either to the transportation management department, or the highway operation enterprise is a very precious wealth of data. In these operations in a lot of data reflect information, how these mass data processing of science, and find out the law, is the way to the problems of the management department. This article simply introduces the effective process mass charge data of a general method.
Keywords: highway charge data processing method
一、引言
近年來我國高速公路發(fā)展迅速,江蘇高速公路通車總里程已突破4000公里,通車總里程居全國第二,密度居全國第一。江蘇省高速公路每月通行車輛數(shù)可達(dá)1000多萬輛,道路營運產(chǎn)生的收費數(shù)據(jù)量是巨大的,江蘇省高速公路聯(lián)網(wǎng)收費系統(tǒng)儲存了大量收費基礎(chǔ)數(shù)據(jù)。在營運數(shù)據(jù)中,僅僅收費數(shù)據(jù)和軸重數(shù)據(jù)的記錄,每月總量就可達(dá)到5000萬條之多。這些數(shù)據(jù)充滿了龐大的數(shù)據(jù)庫,形成了浩瀚無垠的信息海洋。
在這些營運數(shù)據(jù)中反映了很多的信息,例如:軸重狀況,車流量狀況,車流量比例狀況,每個路段車流負(fù)荷狀況和每個收費站的收費人員工作狀況等。這些信息對服務(wù)質(zhì)量的提高,資源的有效使用,路面的有效保養(yǎng)都具有重要的參考意義。這些數(shù)據(jù),無論是對交通管理部門來說,還是對高速公路營運企業(yè)來說,都是一筆十分寶貴的數(shù)據(jù)財富。如何對這些海量數(shù)據(jù)進(jìn)行科學(xué)的處理,找出規(guī)律,對交通行業(yè)主管進(jìn)行決策參考和管理公司指導(dǎo)營運管理,都具有很高的價值。在此本文就數(shù)據(jù)處理方法談點體會。
二、處理方法
收費數(shù)據(jù)分析
根據(jù)【江蘇省蘇南高速公路聯(lián)網(wǎng)收費暫行技術(shù)要求】、【江蘇省蘇北高速公路聯(lián)網(wǎng)收費暫行技術(shù)要求】和【江蘇省高速公路聯(lián)網(wǎng)收費系統(tǒng)計重收費(數(shù)據(jù)部分)技術(shù)要求】的規(guī)定,高速公路聯(lián)網(wǎng)收費原始數(shù)據(jù)分別存儲在"入口車道原始過車記錄表"、"出口車道原始過車記錄表"和"軸重原始數(shù)據(jù)表"中。這3個表主要包含:入口數(shù)據(jù)、出口數(shù)據(jù)、路徑數(shù)據(jù)、車輛數(shù)據(jù)、收費數(shù)據(jù)、管理數(shù)據(jù)、冗余數(shù)據(jù)。
在選用的關(guān)鍵數(shù)據(jù)中,除了可以直接看到的顯式數(shù)據(jù)外,這些數(shù)據(jù)還隱含了一些其它數(shù)據(jù)內(nèi)容。配合適當(dāng)?shù)姆椒ㄒ约跋嚓P(guān)數(shù)據(jù),可以提取出這些隱含內(nèi)容,主要包含:路段數(shù)據(jù)、地點數(shù)據(jù)、車型數(shù)據(jù)、超限數(shù)據(jù)、日期時間數(shù)據(jù)。
數(shù)據(jù)整理流程
數(shù)據(jù)整理流程從合并聯(lián)網(wǎng)收費數(shù)據(jù)開始,到將預(yù)處理過的數(shù)據(jù)導(dǎo)入數(shù)據(jù)應(yīng)用挖掘數(shù)據(jù)庫為止,大致包括以下幾個步驟:
1. 數(shù)據(jù)合并
海量的收費數(shù)據(jù)分散放置在大量的數(shù)據(jù)表中,既不便于篩選和查詢,也不便于統(tǒng)計和分析。在出口車道原始過車記錄表包含了入口車道原始過車記錄表中的入口數(shù)據(jù)和車輛分類數(shù)據(jù),所缺的恰巧是不需要考慮的管理數(shù)據(jù)和冗余數(shù)據(jù)。因此只需要合并和處理出口車道原始過車記錄表和軸重原始數(shù)據(jù)記錄表的相關(guān)內(nèi)容,即可滿足數(shù)據(jù)挖掘的實際需要。
2. 數(shù)據(jù)過濾
因為收費數(shù)據(jù)中不僅包括進(jìn)行數(shù)據(jù)應(yīng)用處理時所需要的各種數(shù)據(jù),例如:入口數(shù)據(jù)、出口數(shù)據(jù)、路徑數(shù)據(jù)和車輛數(shù)據(jù),而且還包括了不需要的其它數(shù)據(jù):收費數(shù)據(jù)、管理數(shù)據(jù)和冗余數(shù)據(jù)。所以必須對合并后的收費數(shù)據(jù)分別進(jìn)行多次過濾,逐步濾除不需要的數(shù)據(jù)。
3. 數(shù)據(jù)預(yù)處理
計算機(jī)在進(jìn)行數(shù)據(jù)處理時,速度最快的是進(jìn)行加減運算,其次是進(jìn)行乘除運算,而冪運算、字符串運算和邏輯運算則計算速度很慢。
由于在進(jìn)行數(shù)據(jù)應(yīng)用處理時,許多數(shù)據(jù)應(yīng)用處理都涉及到復(fù)雜的數(shù)學(xué)計算。在涉及到的計算方法中,不僅包括了四則運算,而且還包括了冪運算、字符串運算和邏輯運算。因此,不僅計算方法十分復(fù)雜,而且計算效率很難提高。
因為這些數(shù)學(xué)計算具有一定的共性,所以將其提取出來進(jìn)行預(yù)處理,不僅可以減少數(shù)據(jù)應(yīng)用處理的復(fù)雜程度,而且可以大大提高計算效率。
另外,從數(shù)據(jù)規(guī)定有效時段的角度來考慮,更應(yīng)該對數(shù)據(jù)進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)預(yù)處理時,應(yīng)該注意各個需要進(jìn)行預(yù)處理的數(shù)據(jù)之間的先后關(guān)系。有部分?jǐn)?shù)據(jù)是屬于獨立數(shù)據(jù),例如:行駛里程數(shù)據(jù)、當(dāng)量軸次數(shù)據(jù),不論先處理或者后處理均無關(guān)系。也有一部分?jǐn)?shù)據(jù)是屬于有依賴關(guān)系的數(shù)據(jù),例如:總軸限、超限限值、超限比例,必須按照特定的先后順序處理,才能夠保證得到正確的處理結(jié)果。否則,不僅可能得到錯誤的處理結(jié)果,甚至可能根本無法進(jìn)行處理。
4. 數(shù)據(jù)導(dǎo)出
數(shù)據(jù)導(dǎo)出的操作方法和數(shù)據(jù)合并的操作方法類似,只是不存在多表對單表操作,而是單表對單表操作,所以在這里就不再冗述了。
數(shù)據(jù)整理注意要點
1. 批次大小
每期數(shù)據(jù)可以是一個月的數(shù)據(jù),也可以是一年的數(shù)據(jù),但是不能更多;每期數(shù)據(jù)的相關(guān)數(shù)據(jù)規(guī)定的有效時段必須相同,例如:2009年和2010年的數(shù)據(jù)不能同期處理;
當(dāng)南北網(wǎng)數(shù)據(jù)分開處理并且每一次處理一個網(wǎng)一年的數(shù)據(jù)時,某些處理過程需要高達(dá)幾十個小時,完成全部處理過程需要近二百個小時;但是,當(dāng)每次處理一個月數(shù)據(jù)時,南北網(wǎng)數(shù)據(jù)在一天內(nèi)即可全部完成處理;
這中間的差別是因為進(jìn)行某些數(shù)據(jù)處理時,隨著數(shù)據(jù)量的增長,數(shù)據(jù)處理量不是呈線性關(guān)系增長,而是呈指數(shù)關(guān)系增長;
出于保持?jǐn)?shù)據(jù)完整性考慮,應(yīng)該采用較大的數(shù)據(jù)處理批量;出于實際處理效率考慮,應(yīng)該采用較小的數(shù)據(jù)處理批量;
兼顧兩者,通盤考慮,建議南北網(wǎng)數(shù)據(jù)分別處理,每次處理一個季度的數(shù)據(jù)為宜。
2. 處理位置
在存放原始數(shù)據(jù)的數(shù)據(jù)庫中進(jìn)行處理,不僅可以得到最好的數(shù)據(jù)處理效果,因為不需要傳輸數(shù)據(jù),還可以節(jié)省大量數(shù)據(jù)傳輸時間;
具體操作時可以利用SQL腳本自動生成臨時數(shù)據(jù)表,完成數(shù)據(jù)整理和數(shù)據(jù)導(dǎo)出后,再刪除臨時數(shù)據(jù)表釋放存儲空間;
以每次處理一個季度的數(shù)據(jù)為例,占用存儲空間只有幾個GB,加上處理過程中占用的日志空間,也不會超過20個GB;為了減少日志占用的存儲空間,盡可能不要將處理腳本一次性全部提交,而是人為將其分割成幾個部分分次提交。
3. 處理效率
為了提高處理效率,除了必須按先后順序進(jìn)行的處理外,應(yīng)該盡可能將處理條件相同或者接近的數(shù)據(jù)處理放在一個處理過程中完成,例如:車輛軸型和總軸限處理過程;
在用到數(shù)據(jù)檢索、數(shù)據(jù)匹配操作時,應(yīng)該盡可能建立索引(不一定是建立主關(guān)鍵詞,有時雖然不能建立主關(guān)鍵詞,但是可以建立索引。)后,再進(jìn)行數(shù)據(jù)處理,例如:行駛里程數(shù)據(jù)預(yù)檢索過程;
應(yīng)該盡早檢查錯誤數(shù)據(jù),并且及時加以剔除,以防止數(shù)據(jù)處理過程中斷;因為數(shù)據(jù)處理過程中斷后,不僅前面的處理工作全部浪費,而且數(shù)據(jù)庫回滾恢復(fù)原狀還需要占用大量的時間;
只有通過各種方法配合,通盤綜合考慮,才可能有效的提高總處理效率。
三、結(jié)束語
高速公路聯(lián)網(wǎng)營運在我國日漸廣泛,軟件技術(shù)和硬件設(shè)施的發(fā)展也與世界先進(jìn)水平相距不遠(yuǎn)。和銀行、電信、地質(zhì)、保險、零售等數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛的行業(yè)相比,高速公路數(shù)據(jù)應(yīng)用處理的方法和深度還有一定的差距,這與高速公路信息技術(shù)高速發(fā)展不相匹配。高速公路行業(yè)的主管部門希望在行政決策和行業(yè)管理上得到更充分、更深入、更有針對性的相關(guān)數(shù)據(jù)支持;同樣高速公路管理公司和營運企業(yè),也希望在改善服務(wù)質(zhì)量、提高管理水平、優(yōu)化資源配置等方面,得到更有效的數(shù)據(jù)支持。利用合理有效的數(shù)據(jù)處理手段能夠總結(jié)提煉出對高速公路運營管理有益的規(guī)律和手段,能夠完善高速公路的管理,有效地提高高速公路的管理質(zhì)量和服務(wù)質(zhì)量,為高速公路建設(shè)進(jìn)一步向信息化、智能化方向發(fā)展打好基礎(chǔ)。
參考文獻(xiàn):
[1] 交通部.聯(lián)網(wǎng)收費技術(shù)要求[S]. 北京:人民交通出版社
[2] 江蘇省蘇南高速公路聯(lián)網(wǎng)收費暫行技術(shù)要求
[3] 江蘇省蘇北高速公路聯(lián)網(wǎng)收費暫行技術(shù)要求
[4] 江蘇省高速公路聯(lián)網(wǎng)收費系統(tǒng)計重收費(數(shù)據(jù)部分)技術(shù)要求
[5] 劉偉明等.高速公路收費系統(tǒng)理論與方法[M]. 北京:人民交通出版社