圖 Informatica核心技術(shù)部資深產(chǎn)品管理總監(jiān)鄭瑋
那么,什么是大數(shù)據(jù)?鄭瑋則一針見血地指出:什么是大數(shù)據(jù):大交易數(shù)據(jù)、大交互數(shù)據(jù)和大數(shù)據(jù)處理的總稱。相對于業(yè)界提出大數(shù)據(jù)的規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實(shí)性(Veracity)的“4V理論”,鄭瑋更加推崇大數(shù)據(jù)的三個(gè)特征(3V:Volume、Variety、Velocity),除了數(shù)據(jù)總量之外,還有數(shù)據(jù)的速度和種類。
第三方市場調(diào)研IDC公司預(yù)測,未來10年,數(shù)據(jù)總量將增長44倍,達(dá)到35ZB(Zettabyte)。這些龐大的數(shù)據(jù)量、80%的混合結(jié)構(gòu)數(shù)據(jù),以及考驗(yàn)CIO神經(jīng)的數(shù)據(jù)分析處理能力,都對企業(yè)應(yīng)對大數(shù)據(jù)綜合實(shí)力提出了高質(zhì)量的要求。
Informatica鄭瑋定義大數(shù)據(jù)
當(dāng)然,我們看到有很多行業(yè)仍然顯得風(fēng)平浪靜,遠(yuǎn)不像互聯(lián)網(wǎng)、金融、制造業(yè)等競行業(yè)競爭那么激烈,但是從行業(yè)競爭的角度來說也是“暗流涌動(dòng)”。 Gartner研究表明,全球500強(qiáng)中85%的企業(yè)將無法利用他們的大數(shù)據(jù),而且,如果沒有得到正確的管理,大數(shù)據(jù)也可能代表了巨大的成本和法規(guī)遵從風(fēng)險(xiǎn)。
Informatica鄭瑋解讀大數(shù)據(jù)三大特征
對處理數(shù)據(jù)的平臺(tái)帶來新的壓力。采用昂貴的設(shè)備進(jìn)行數(shù)據(jù)處理當(dāng)然好,但巨大的成本壓力已成為很多企業(yè)難以承受的負(fù)重。用戶希望能夠以更經(jīng)濟(jì)的方式、更好的性能來處理數(shù)據(jù),從而能夠經(jīng)濟(jì)有效地利用快速增長的數(shù)據(jù)推動(dòng)業(yè)務(wù)創(chuàng)新。在這樣的背景下,Hadoop獲得了快速發(fā)展。
Hadoop的魅力在哪里?
2008年,作為Apache開源項(xiàng)目發(fā)布的Hadoop,自問世以來幾乎成為了大數(shù)據(jù)的救世主。Hadoop的兩個(gè)重要特性:經(jīng)濟(jì)性和可擴(kuò)展性,讓其一時(shí)間紅遍全球IT界。一些開路先鋒已經(jīng)投入很大精力來開發(fā)Hadoop,Hadoop取得的成功同時(shí)也促使主流市場對其穩(wěn)定性、成熟的管理等更高的需求。這個(gè)群體中有影響力的主要廠商包括Cloudera、亞馬遜、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微軟和甲骨文等。
Hadoop的魅力到底在哪里?鄭瑋指出其中原因,Hadoop結(jié)合了成本低、可擴(kuò)展性、無需構(gòu)建預(yù)定義模式(predefined schema),而且能夠靈活地處理任何數(shù)據(jù)等優(yōu)點(diǎn)。
當(dāng)然,能夠讓Hadoop幾乎一夜成名的原因還在于Hadoop能夠真正提高大數(shù)據(jù)的價(jià)值。精益原則在大數(shù)據(jù)時(shí)代比以往任何時(shí)候都有效,并且是使大數(shù)據(jù)不成為大債務(wù)的關(guān)鍵。Hadoop使企業(yè)能夠使用精益數(shù)據(jù)管理,以降低數(shù)據(jù)成本,這包括:業(yè)務(wù)成本、硬件成本、人工成本、軟件成本、存儲(chǔ)成本。此外,通過易訪問性、可操作性、權(quán)威性、整體性、相關(guān)性、安全性、及時(shí)性、可信性等特性,Hadoop還能幫助客戶增加數(shù)據(jù)的價(jià)值。
第2頁:Informatica釋放Hadoop的潛能
Informatica釋放Hadoop的潛能
“沒有數(shù)據(jù)集成,大數(shù)據(jù)就僅僅是許多海量數(shù)據(jù)的孤島” 鄭瑋表示。
在IT環(huán)境中,Hadoop不能作為一個(gè)孤島存在。為了讓Hadoop可以跨越不同平臺(tái)并成為一種主流技術(shù),用戶需要將Hadoop作為他們IT大環(huán)境中的一部分來管理,通過Hadoop重復(fù)使用他們的開發(fā)技巧、資產(chǎn)及數(shù)據(jù),并統(tǒng)籌管理全部數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,許多人寄希望于Hadoop廠商們能夠開發(fā)出成熟可靠的工具、功能和技術(shù)創(chuàng)新,以更經(jīng)濟(jì)的方式、更好的性能實(shí)現(xiàn)數(shù)據(jù)處理和分析。
一直以來,Informatica公司都立足于提供一款單一的平臺(tái),借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。特別是,Informatica 9.5的推出為企業(yè)用戶帶來了他們所需的交互性、生產(chǎn)力以及可管理性,以便快速采用Hadoop并最大化他們的大數(shù)據(jù)投資回報(bào)。
其實(shí),早在2011年6月份,Informatica就推出了Informatica 9.1 for Big Data,打造一個(gè)專門針對大數(shù)據(jù)分析而創(chuàng)建的統(tǒng)一數(shù)據(jù)集成平臺(tái)。如果說Informatica 9.1 for Big Data還是對大數(shù)據(jù)功能的一種嘗試,那么Informatica 9.5則完全以大數(shù)據(jù)為核心的新一代大數(shù)據(jù)平臺(tái)。
已經(jīng)擁有近20年數(shù)據(jù)集成創(chuàng)新經(jīng)驗(yàn)和領(lǐng)導(dǎo)才能的Informatica,擴(kuò)展了其數(shù)據(jù)集成平臺(tái)以支持Hadoop,最新發(fā)布的Informatica 9.5提供了全新及擴(kuò)展功能,極好的釋放了Hadoop潛能,幫助客戶實(shí)現(xiàn)大數(shù)據(jù)最大投資回報(bào)。
Informatica 9.5釋放Hadoop的強(qiáng)大潛能
那么,具體Informatica怎樣來釋放Hadoop的潛能的呢?鄭瑋通過數(shù)據(jù)處理的六大步驟給予說明。
第一步,是將數(shù)據(jù)攝入到Hadoop;
第二步,發(fā)現(xiàn)Hadoop數(shù)據(jù)的異常、關(guān)系和域類型;
第三步,在 Hadoop中解析和準(zhǔn)備數(shù)據(jù),這對于Informatica來講是非常獨(dú)特和重要的,現(xiàn)在數(shù)據(jù)類型非常多,要對其進(jìn)行分析,首先要解析,將其變成可以工作的結(jié)構(gòu)型數(shù)據(jù);
第四步,在Hadoop中轉(zhuǎn)換和清洗/標(biāo)準(zhǔn)化數(shù)據(jù),數(shù)據(jù)一旦格式化后就可以進(jìn)行轉(zhuǎn)換、過濾、集成、分類等等;
第五步,在Hadoop上調(diào)用自定義業(yè)務(wù)分析;
第六步,從Hadoop上讀取數(shù)據(jù),目前一些大的報(bào)告工具,還不能夠直接在很多平臺(tái)上運(yùn)行,因此需要把計(jì)算結(jié)果提取出來放到傳統(tǒng)數(shù)據(jù)庫中。當(dāng)然,在一到六步的實(shí)現(xiàn)過程中,企業(yè)還需要管理整個(gè)過程,需要監(jiān)督、監(jiān)視系統(tǒng)發(fā)生情況。
目前,Informatica 9.5已經(jīng)實(shí)現(xiàn)了上述提到的一、三、六步的功能,而二、四、五步功能則將在2012年底推出的Informatica 9.5.1版本中實(shí)現(xiàn)。
編者按:
當(dāng)前,IT巨頭都在通過自己獨(dú)立的方式化解“大數(shù)據(jù)”難題,雖然極力避免,但是受到某些IT廠商霸道“綁架”行徑卻是屢見不鮮。如果廠商提供公開的API還好,如果廠商有意封閉,那么最抓狂的還是企業(yè)用戶,就等著“一條道走到黑”吧。第三方大數(shù)據(jù)平臺(tái)的出現(xiàn),將在一定程度上打破企業(yè)用戶擔(dān)心的“捆綁”危機(jī)。