同方物聯(lián)網(wǎng)應(yīng)用產(chǎn)業(yè)本部大數(shù)據(jù)產(chǎn)業(yè)研發(fā)與工程中心數(shù)據(jù)資源應(yīng)用事業(yè)部總經(jīng)理孫哲

封閉系統(tǒng) 保證數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是企業(yè)和政府普遍關(guān)心的問(wèn)題,數(shù)據(jù)數(shù)量的高低決定數(shù)據(jù)的可信度。目前我國(guó)出現(xiàn)一種現(xiàn)象就是,我們總是被平均,被就業(yè),被住房。這導(dǎo)致很多人對(duì)國(guó)際統(tǒng)計(jì)出來(lái)的數(shù)據(jù)進(jìn)行懷疑,這種現(xiàn)象就是數(shù)據(jù)質(zhì)量造成的。數(shù)據(jù)為什么會(huì)存在偏差,當(dāng)然大量的數(shù)據(jù)里面肯定會(huì)有水分存在,但更多的是統(tǒng)計(jì)口徑和統(tǒng)計(jì)平臺(tái)的不同造成的。怎么解決數(shù)據(jù)質(zhì)量的問(wèn)題?有多年政府信息化工作專(zhuān)長(zhǎng)的同方提出了解決路徑,即元數(shù)據(jù)的收集和分析,用元數(shù)據(jù)這種技術(shù)架構(gòu)把數(shù)據(jù)從源頭質(zhì)量上進(jìn)行控制。具體做法是,盡可能的用技術(shù)手段去保證數(shù)據(jù)質(zhì)量。比如在數(shù)據(jù)填報(bào)的時(shí)候有一些審核工具,就用一些技術(shù)手段確保數(shù)據(jù)的填報(bào)過(guò)程,同時(shí)在描述數(shù)據(jù)的時(shí)候,盡可能的把一組數(shù)據(jù)脫離系統(tǒng)。由于數(shù)據(jù)本身很難作假,作假都是人為因素造成的,同方的數(shù)據(jù)統(tǒng)計(jì)平臺(tái)可以讓數(shù)據(jù)一進(jìn)到系統(tǒng)之后就不被人為干擾,這是統(tǒng)計(jì)平臺(tái)的一個(gè)優(yōu)勢(shì)和亮點(diǎn)。

重視知識(shí)產(chǎn)權(quán) 保護(hù)數(shù)據(jù)安全

數(shù)據(jù)安全的背后關(guān)系到國(guó)家的安全。“棱鏡門(mén)”事件引起各國(guó)對(duì)信息安全的重視。信息來(lái)源于數(shù)據(jù),數(shù)據(jù)安全怎么保證?根源上還是要用國(guó)家自主知識(shí)產(chǎn)權(quán)的產(chǎn)品。尤其是在涉及到數(shù)據(jù)中心等數(shù)據(jù)資源上,各行各業(yè)的數(shù)據(jù)都是如此,掌握在自己手里的數(shù)據(jù)才是最安全的。

技術(shù)上怎樣保證數(shù)據(jù)的安全?

對(duì)此,孫哲指出兩點(diǎn)措施:

第一是建立具有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)錄入交換體系。這就需要我國(guó)相關(guān)部門(mén)來(lái)設(shè)定體系標(biāo)準(zhǔn),建立自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)其實(shí)是造成數(shù)據(jù)孤島的罪魁禍?zhǔn)?,所以同方在進(jìn)行《北京市宏觀經(jīng)濟(jì)與社會(huì)發(fā)展基礎(chǔ)數(shù)據(jù)庫(kù)》的設(shè)計(jì)時(shí)采用了數(shù)據(jù)資源體系的方法,即“數(shù)據(jù)資源化,資源體系化”,體系更多的是應(yīng)用,即被使用、被調(diào)用、被共用,資源更多的是盤(pán)活、描述和相關(guān)性,就是讓數(shù)據(jù)本身在收集的時(shí)候就能自己解釋自己,帶有生命力的匯聚、整合過(guò)程,及自描述、自定義過(guò)程,讓數(shù)據(jù)能脫離倉(cāng)庫(kù)、報(bào)表自己存在,讓數(shù)據(jù)真實(shí)反應(yīng)業(yè)務(wù)的相關(guān)性,那么我們認(rèn)為這樣的數(shù)據(jù)就能成為一種資源。另外,數(shù)據(jù)在采集時(shí)還要有特定的主題,使主題更容易去支撐數(shù)據(jù)間的相關(guān)性。當(dāng)然,有些相關(guān)性并不能單純的依靠主題來(lái)支撐,但它一定比孤立的把數(shù)據(jù)匯集起來(lái),堆在數(shù)據(jù)倉(cāng)庫(kù)中會(huì)顯得更好一些,更靈活一些,更可擴(kuò)展一些。

第二是指標(biāo)體系的建立。指標(biāo)體系里很重要的一個(gè)數(shù)據(jù)描述就是時(shí)間,同方將其稱(chēng)為指標(biāo)時(shí)間序列?;谥笜?biāo)時(shí)間序列所對(duì)應(yīng)的數(shù)據(jù),按照這種分類(lèi)方式采集到的數(shù)據(jù)即便被拿走也不能被利用,因?yàn)樗幸惶转?dú)特的元數(shù)據(jù)規(guī)則,不明白這個(gè)規(guī)則的人是沒(méi)辦法讀取數(shù)據(jù)的。比如說(shuō)我們數(shù)據(jù)的編排方式和存放方式是按照國(guó)外廠商例如微軟數(shù)據(jù)庫(kù)的架構(gòu)進(jìn)行的,我們將數(shù)據(jù)提取出來(lái),然后按照甲骨文的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)方式存放進(jìn)去,任何一個(gè)熟悉甲骨文廠商的技術(shù)人員隨隨便便就可以使用和調(diào)取,但如果我們用自己獨(dú)有的指標(biāo)時(shí)間序列方式進(jìn)行存放,不懂我們指標(biāo)體系的人就無(wú)法使用。所以,要把整套系統(tǒng)全部用指標(biāo)時(shí)間序列的方式存放的話,在數(shù)據(jù)安全和可控性上就能夠得到保證,永遠(yuǎn)只服務(wù)于它的組織機(jī)構(gòu),而指標(biāo)時(shí)間序列只是指標(biāo)體系中的一種,不同的指標(biāo)序列可以將數(shù)據(jù)的安全性提升到更高水平。

去IOE 自主品牌崛起之愿景

無(wú)論是政府部門(mén)還是企業(yè),國(guó)內(nèi)在搭建數(shù)據(jù)中心的時(shí)候,軟件方面基本采用IBM、甲骨文的產(chǎn)品,自主品牌最多起輔助作用,根源上無(wú)法保證我國(guó)的數(shù)據(jù)安全。在諸多信息安全事件發(fā)生后,從政府至行業(yè)企業(yè),都越來(lái)越重視信息安全問(wèn)題。對(duì)于數(shù)據(jù)中心的選用尤為謹(jǐn)慎。對(duì)于主做政府信息化的同方來(lái)說(shuō),數(shù)據(jù)安全是一大挑戰(zhàn),也是尤為重視的問(wèn)題。在問(wèn)到同方在數(shù)據(jù)安全這一塊的發(fā)展上時(shí),孫哲舉例表示,從2009年開(kāi)始,同方在《北京市宏觀經(jīng)濟(jì)與社會(huì)發(fā)展基礎(chǔ)數(shù)據(jù)庫(kù)》項(xiàng)目進(jìn)行中就很注意安全問(wèn)題,為保證國(guó)產(chǎn)數(shù)據(jù)安全,到2011年項(xiàng)目截止,只有個(gè)別采用甲骨文的軟件,剩下的全部都是用同方自己的數(shù)據(jù)資源體系,沒(méi)有外采數(shù)據(jù)庫(kù),此外也包括后續(xù)很多項(xiàng)目,都是用自己的數(shù)據(jù)資源體系,很少去用國(guó)外廠商的產(chǎn)品。同方在自主知識(shí)產(chǎn)權(quán)這一塊的愿景是去IOE——去IBM、Oracle和EMC。雖然目前還沒(méi)有這樣的實(shí)例,但孫哲堅(jiān)信,這是我國(guó)企業(yè)的共同愿景。在問(wèn)及選用的標(biāo)準(zhǔn)時(shí),孫哲笑談,不用國(guó)外產(chǎn)品的初衷很簡(jiǎn)單,我們?yōu)楸WC國(guó)產(chǎn)數(shù)據(jù)安全,能不用就不用。

分享到

wangxueyang

相關(guān)推薦