
按語:上周受邀參加了湖北省公安廳舉辦的公安大數(shù)據(jù)論壇,,之前并沒有把上臺演講當(dāng)回多大的事,,因?yàn)檫@些年講的也不算少了,說來說去也就那么回事了,,所以,,就準(zhǔn)備拿過去一篇公開發(fā)表的論文稍微改改,上臺糊著講講也就算了,。但是,,在臨講的前一天,獲知有很多基層具體干事的兄弟來聽(第二天都要參加一個全省的數(shù)據(jù)管理員培訓(xùn)班),,覺得講些大路貨給他們聽有點(diǎn)過意不去,,因此就謝絕了晚上的一些應(yīng)酬安排,一個人呆在房間好好的把公安行業(yè)大數(shù)據(jù)這些年的過往想了想,,本來按照套路應(yīng)該是先寫個講稿再畫個PPT的,,但是因?yàn)闀r間關(guān)系,也算是想有一個新的嘗試吧,,就直接做了史上最短的六頁P(yáng)PT(一頁封面,,一頁目錄,一頁封底,,真正的內(nèi)容只有三頁),,第二天講了二十多分鐘吧,反應(yīng)似乎還不錯,,近些日子已經(jīng)有幾個兄弟說能不能把講稿共享出來,,其實(shí)真沒有現(xiàn)成的講稿,只能靠回憶略微整理下,。當(dāng)日演講內(nèi)容大致如下:
……非常榮幸有機(jī)會參加這個論壇,,并上臺和大家分享我的一些做法和想法,。前面已經(jīng)有幾位專家都講了大數(shù)據(jù)的技術(shù),還有一些解決方案,,但我今天不想和大家談技術(shù),,因?yàn)楣泊髷?shù)據(jù)應(yīng)用,肯定是一些成熟技術(shù)在這一行業(yè)的應(yīng)用,,如果需要進(jìn)行底層技術(shù)的革新,,就公安行業(yè)目前現(xiàn)狀肯定是玩不了這個,剛剛小艾跟我聊天說了一句很經(jīng)典的話:每一次公安行業(yè)的革新都是起源于技術(shù),,寄希望單靠技術(shù)就能夠把工作翻個身,,但是,最后的結(jié)果往往也是死于技術(shù),,或者說被所謂的技術(shù)給玩死了,。因此,所以我們對此一定要很清醒,,很冷靜,。所以我為今天的演講定了一個題:大數(shù)據(jù)的“冷思考”?為何要說冷思考,因?yàn)榇髷?shù)據(jù)這段時間已經(jīng)熱到了極點(diǎn),,但是,,炒概念的要遠(yuǎn)遠(yuǎn)多于落地能發(fā)揮實(shí)際作用的,因此,,我們是不是要冷靜一點(diǎn),,看看大數(shù)據(jù)到底能給我們帶來什么?今天主要跟大家交流三個方面的內(nèi)容:
一是對近些年本人參與的所謂的“大數(shù)據(jù)”的實(shí)踐進(jìn)行一個簡要回顧;
二是談?wù)勎已劾锏拇髷?shù)據(jù)現(xiàn)狀;
三是針對公安行業(yè)交流一些發(fā)展方向的思考。
首先,,回顧一下自己這些年所謂的“大數(shù)據(jù)”歷程,。
為什么叫“所謂”,因?yàn)槲易约盒睦锖芮宄?,?011年開始從12億的車輛卡口數(shù)據(jù)中排查“套牌車”,,到目前在想用算法來計(jì)算某類犯罪的發(fā)展趨勢,所接觸的,,所使用的數(shù)據(jù)準(zhǔn)確點(diǎn)講應(yīng)該是“動態(tài)的海量結(jié)構(gòu)化數(shù)據(jù)”,。至少跟我心目中“大數(shù)據(jù)”還有很大的差距。為什么要做這樣一個回顧,,說白了,,怕大家認(rèn)為我是個光說不練的江湖騙子(此處有掌聲)。
第一個案例,,套牌車排查,。就是在12億的卡口數(shù)據(jù)中找出了三百四十五個車牌,這些車牌符合一個特征,五分鐘之內(nèi)在相距十公里以上的卡口被電子警察都拍到了,。這是我第一次用HADOOP來進(jìn)行數(shù)據(jù)預(yù)處理和分析,,是在2011年初。
第二個案例,,住宿登記,。是在2012年的夏天,我忽然想看一看,,壞人們登記住旅館有沒有規(guī)律,,因此我找來了在押人員數(shù)據(jù),匯聚了大約5個多億的旅館數(shù)據(jù),,同樣用了“HADOOP+ORCLE”的套路,發(fā)現(xiàn)有盜竊前科的壞人都喜歡在半夜2點(diǎn)和凌晨六七點(diǎn)去開房,,而且是19歲到23歲為主,,還更傾向于床位數(shù)在50個以下的中低檔旅館,等等,。
第三個案例,,是特殊人員的監(jiān)控。同樣是通過車輛軌跡,,判斷人員的相應(yīng)狀態(tài),,因?yàn)檫@個話題比較敏感,就不詳細(xì)跟大家闡述了,。
第四個案例,,我把它成為“流竄車”排查,簡單講就是基于存儲在異地的海量數(shù)據(jù),,進(jìn)行分布式的交叉比對,,目標(biāo)是找出發(fā)案前后1小時在A市活動的車輛,同時在4小時前后該車又在B,、C等市活動,,如果這些車輛的涉車人員為此類案件前科,那流竄犯罪的概率就相當(dāng)大了,。
以上就是前期做的一些工作,,其實(shí)回顧起來也沒有什么感到很特別值得驕傲的,如果說這些年我們參與大數(shù)據(jù)這項(xiàng)工作還有那么一點(diǎn)點(diǎn)驕傲的話,,那就是在這個過程中,,包括一些爭論中,我們逐步形成的一些行業(yè)大數(shù)據(jù)應(yīng)用的思路,、理念,,甚至一些看起來都有點(diǎn)不著邊際的想法。
其次,談?wù)勎已壑械默F(xiàn)狀
本人比較喜歡古詩,,最近經(jīng)常和我兒子一起背唐詩,,我就用四句古詩來形容一下我們所面臨的現(xiàn)狀:
第一句,天街小雨潤如酥,,草色遙看近卻無,。這是我用來形容目前的大數(shù)據(jù)的整個大環(huán)境的,“天街”是什么?是京城!京城的小雨非常滋潤對不對,,非常美麗,,國家出臺的大數(shù)據(jù)發(fā)展綱要,各個部委辦局都很積極,,昨天在飛機(jī)上還在拜讀環(huán)保部的大數(shù)據(jù)方案,,但是,這些只能遠(yuǎn)觀不能褻玩,,落到地面,,落到基層,卻只能是“近卻無”,,為什么?缺少具體的實(shí)施方案,,缺少具體的落地案例,應(yīng)用層沒有享受到大數(shù)據(jù)能帶來什么好處,,只是聽到一片關(guān)于大數(shù)據(jù)的呼聲,。最近微信圈了都在轉(zhuǎn)一篇文章,發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,,要“應(yīng)用為先”,,這是李國杰院士寫的,大家想一想,,只要是搞IT,,搞軟件的都知道,我們要以應(yīng)用需求為導(dǎo)向,,這是個搞軟件最基本常識,,但是這個常識現(xiàn)在需要一個院士來呼吁,可想我們的面臨的現(xiàn)狀有多么尷尬,。
第二句,。白發(fā)三千丈,緣愁似個長,。這是我用來形容公安行業(yè)的,,三千丈很長很長,詩人用了夸張的手法,,公安行業(yè)的數(shù)據(jù)也在用這個手法,,經(jīng)??吹揭粋€地市的匯報材料就在說,我們有兩百多億條數(shù)據(jù),,甚至可以精確到個位,,且不論到底有沒有這么多數(shù)據(jù),你先能不能告訴我這個Oracle 11g的OCP,,你是用什么方法把數(shù)據(jù)的條數(shù)最后累加到百億量級的,,還是過一段時間加一點(diǎn)來估算估算的(此處有笑聲)。所以,,公安行業(yè)的數(shù)據(jù)現(xiàn)狀并不是非常的樂觀,,所以我會看到一些有見識的領(lǐng)導(dǎo)在發(fā)愁,號稱是坐在數(shù)據(jù)金礦上,,但是心底還是緣愁似個長,。
第三句。我本將心向明月,,奈何明月照溝渠,。這是一句很有意思的詩,念到這首詩我就會想起《天下無賊》的那個橋段,。這句是用來形容目前公安行業(yè)的數(shù)據(jù)管理現(xiàn)狀的,,我們經(jīng)常講,,信息化是三分建設(shè),,七分應(yīng)用,十分管理,,十二分的數(shù)據(jù)質(zhì)量,。這句話就是跟后兩者有關(guān)系,上級管理部門的出發(fā)點(diǎn)肯定都是好的,,建系統(tǒng),,推應(yīng)用,推不動怎么辦?最有用的一招就是出臺考核辦法,,不考核大家不干,,但是一考核大家就開始亂干,目前公安機(jī)關(guān)的可信的數(shù)據(jù)有多少,,我經(jīng)常會舉起一只手,,非常夸張的說,,不超過一只手,,110報警是真的,這是老百姓打過來的,,在押人員是真的,,這個作假自己是也要被關(guān)進(jìn)去的,,還有多少數(shù)據(jù)時真實(shí)的,我們的巡邏盤查數(shù)據(jù)真實(shí)嗎?暫住人口數(shù)據(jù)能反應(yīng)真的暫口情況嗎?還有案件數(shù)據(jù)能說明社會面發(fā)案情況嗎?不能!所以說,,明月最后大部分都照到溝渠里去了,。
第四句,竹外桃花三兩枝,,春江水暖鴨先知,。前面三句把面臨的形勢說的都很悲觀,第四句要漲漲士氣,,在大數(shù)據(jù)應(yīng)用的方向,,我們很多地方已經(jīng)開始了積極探索的步伐,像部里的云搜索,,還有那個國家啥平臺,,包括一些省廳,市局,,都已經(jīng)在開始試水大數(shù)據(jù)應(yīng)用,,在所有的這些探索中,我最關(guān)心的就是打擊違法犯罪這一方向,,群眾看公安,,關(guān)鍵看破案,公安信息化,,公安大數(shù)據(jù),,首要是要解決破案問題,連壞人都不去搞,,都搞不定,,天天喊互聯(lián)網(wǎng)+有什么用,天天喊為民服務(wù)有什么用,,那是本末倒置,。所以,從前面我試水的幾個案例看,,也是在朝著打擊違法犯罪的方向去發(fā)展,,這一切都在表明,公安行業(yè)的大數(shù)據(jù)春天已經(jīng)來臨,。但是這個春天不是我們坐等能等來的,,需要一批人去思考,去探索,,就像劉禹錫那句詩,,千淘萬漉雖辛苦,吹盡狂沙始到金……
最后,,關(guān)于下一步發(fā)展方向的思考
第一,,以應(yīng)用為導(dǎo)向,。我們行業(yè)的大數(shù)據(jù)應(yīng)用不是搞底層研發(fā),是要解決實(shí)際問題,,大數(shù)據(jù)在公安行業(yè)現(xiàn)實(shí)的應(yīng)用場景到底有哪些,,這是我們要好好思考的問題。我結(jié)合前期實(shí)踐認(rèn)為,,至少目前三個方向是可行的,,一是規(guī)律總結(jié),二是人物刻畫,,三是趨勢預(yù)判,。這個分類可能不是很合理,可能是有交叉的地方,,但是,,這三個方面是具備實(shí)踐條件的(具體案例略)
第二,關(guān)于數(shù)據(jù)以及來源問題,。這個問題非常關(guān)鍵,,大數(shù)據(jù)沒有可信的數(shù)據(jù)支撐,就會精確誤導(dǎo),,靠考核,,靠層級壓迫,靠搞大規(guī)模會戰(zhàn)去搞數(shù)據(jù),,顯然是不能滿足大數(shù)據(jù)應(yīng)用的需要的,,目前我們具備大數(shù)據(jù)的特征的數(shù)據(jù)有:
1、“人車物”軌跡,,時間,、空間與實(shí)體形成動態(tài)軌跡,,是一項(xiàng)很好的大數(shù)據(jù)源頭;
2,、行為日志,這個與系統(tǒng)日志,,數(shù)據(jù)庫日志有相同之處,,但又不完全相同,舉個例子,,我最近做了個基于手機(jī)的考試系統(tǒng),,十道題,是可以自己在家做的,,因此所有人交上來都是滿分,,但是,我記錄了兩道題之間的時間,,結(jié)果我發(fā)現(xiàn)第三題有80%的人都等待了一分鐘以上,,而其余的題點(diǎn)的都很快,,雖然所有的人第三題結(jié)果都是對的,但是我告訴負(fù)責(zé)培訓(xùn)的同志,,第三題是薄弱環(huán)節(jié),,很多人需要強(qiáng)化這方面的知識培訓(xùn)。這就是行為日志的作用,。
3,、音視頻,這個就不用多說了,。
4,、傳感器,沒有傳感器的大規(guī)模應(yīng)用,,就不要談啥大數(shù)據(jù),,這是我很久以前就說的觀點(diǎn)。
5,、社會民眾參與,。這一點(diǎn)很多人都沒有覺醒過來,公安行業(yè)玩大數(shù)據(jù),,不能光靠自己的力量,,要學(xué)會打人民群眾的汪洋大海戰(zhàn)爭,找到社會公眾,、包括其他單位部門的利益驅(qū)動點(diǎn),,發(fā)動大家來參與,圍繞數(shù)據(jù)做文章,,特別是學(xué)會跨領(lǐng)域使用數(shù)據(jù),。(幾個案例略),關(guān)于大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源問題,,我還是用一句詩來形容吧,,大數(shù)據(jù)背景下的數(shù)據(jù),都是那種“隨風(fēng)潛入夜,,潤物細(xì)無聲”
第三,,關(guān)于智庫的共建與共享。找公眾過程中,,大家都會產(chǎn)生一些創(chuàng)意,,我們要把這些創(chuàng)意集中以來建庫管理,要進(jìn)行歸類,、分析,、優(yōu)化、整合,,最終形成大數(shù)據(jù)應(yīng)用的一個知識庫(智庫),,這個知識庫是開放式的,,是可以去共享,大家可以去評價,,去推薦的,。(案例略)
第四、關(guān)于工具手段支撐,。最關(guān)鍵的幾個,,簡單算法在公安行業(yè)的落地,所謂的大數(shù)據(jù)應(yīng)用一定是無數(shù)的數(shù)據(jù)加簡單的算法,,這是一個目前已經(jīng)證實(shí)的可行套路,,大數(shù)據(jù)應(yīng)用在業(yè)務(wù)邏輯層面不要去想的太復(fù)雜?;诖髷?shù)據(jù)的建模工具,,這個就不多說了,我也一直在搞這個事情,,其中重點(diǎn)包括數(shù)據(jù)資源組織與預(yù)處理,、分布式計(jì)算、流式計(jì)算等內(nèi)容,。還有就是模型的標(biāo)準(zhǔn)化,,這個也不是一句話兩句話能講清楚的,大致意思就是大數(shù)據(jù)的模型一定要做到可復(fù)制,,可擴(kuò)展,,可移植,這樣才有應(yīng)用的生命力,。
最后,,強(qiáng)調(diào)一下整體的數(shù)據(jù)管理架構(gòu)。由于時間關(guān)系,,也不展開說了,,我眼中的大數(shù)據(jù)應(yīng)用的整體架構(gòu),應(yīng)該是一個“混搭”型模式,,從最底層的,,數(shù)量最多的非結(jié)構(gòu)化數(shù)據(jù),,到中間層的半結(jié)構(gòu)化數(shù)據(jù),,再到頂層的結(jié)構(gòu)化數(shù)據(jù),分別有不同的工具,、不同的方式來處理,。但一條主線就是努力使更多的非結(jié)構(gòu)化數(shù)據(jù)往結(jié)構(gòu)化數(shù)據(jù)的方向走,這也是人類社會依托計(jì)算機(jī)這一工具來認(rèn)識世界,、理解世界的一條必由之途,。
最后,,用我和業(yè)界一位大哥級人物的對話結(jié)束今天的分享。這位大哥說:當(dāng)哪一天公安行業(yè)不談到大數(shù)據(jù)的“大”字時,,這個行業(yè)就真正理解了大數(shù)據(jù),。我說:現(xiàn)在我是個商人,當(dāng)商人不談錢的時候,,他就開始賺大錢了,。謝謝大家。