這是一個大數(shù)據(jù)的時代。我們被海量的信息所淹沒,而企業(yè)發(fā)現(xiàn)想要實現(xiàn)管理并從中提取價值已經(jīng)變成了一個巨大的挑戰(zhàn)。
今天的大數(shù)據(jù)流不僅包括了巨大的容量、多樣性和速度,還很復(fù)雜。正如SAS在《大數(shù)據(jù)的歷史和當(dāng)下的熱點》一文中所指出的那樣,大數(shù)據(jù)流的多樣性“使得跨系統(tǒng)的連接、匹配、清理和數(shù)據(jù)轉(zhuǎn)換變得很困難”。
找到有價值的見解不在于簡單地收集盡可能多的數(shù)據(jù),而在于能夠找到正確的數(shù)據(jù)問題。而使用手工流程完成所有工作是不可能的。這就是為什么越來越多的企業(yè)開始“轉(zhuǎn)向數(shù)據(jù)目錄,以便實現(xiàn)數(shù)據(jù)訪問的民主化,使組織的數(shù)據(jù)和知識能夠得到管理,然后應(yīng)用數(shù)據(jù)策略,并快速激活所有具有業(yè)務(wù)價值的數(shù)據(jù)”。

這就是數(shù)據(jù)目錄(有時也稱為信息目錄)的用途所在。正如這里所定義的,它們可用于授權(quán)“用戶探索所需的數(shù)據(jù)源并幫助其理解所探索的數(shù)據(jù),同時幫助組織從當(dāng)前的投資中實現(xiàn)更多的價值”。它實現(xiàn)這一目標(biāo)的一種方法是,在能夠使用或貢獻(xiàn)數(shù)據(jù)的不同類型的用戶之間,允許更大程度地訪問數(shù)據(jù)。
信息經(jīng)濟(jì)學(xué)勢在必行
在2017年底,數(shù)據(jù)目錄的需求急劇增長,Gartner將其稱為“一種新的潮流”。它被認(rèn)為是一種快速、經(jīng)濟(jì)的解決方案,可以“對組織中日益分散和無序的數(shù)據(jù)資產(chǎn)進(jìn)行盤點和分類,并映射其信息供應(yīng)鏈”。之所以需要這樣做,是因為“信息經(jīng)濟(jì)學(xué)”的興起,它要求像管理其他商業(yè)資產(chǎn)一樣,對信息進(jìn)行細(xì)致地跟蹤。
Gartner2018年第二季度的機器學(xué)習(xí)數(shù)據(jù)目錄報告:take jibes with The Forrester Wave顯示超過一半的調(diào)查參與者表示,他們已計劃建立自己的數(shù)據(jù)目錄??赡芩麄兊膭訖C主要在于他們中的每個組織都包括了至少七個數(shù)據(jù)湖。正如Gartner對數(shù)據(jù)目錄所解釋的那樣,數(shù)據(jù)目錄對于提取通常以非分類形式留在數(shù)據(jù)湖中的“數(shù)據(jù)的上下文、意義和價值”很有用。
Forrester的報告稱,在2017年,超過三分之一的數(shù)據(jù)和分析決策者正在處理1000 TB或更多的數(shù)據(jù),而前年這一數(shù)字僅為如今的10%至14%。管理如此規(guī)模的數(shù)據(jù)的確是一個日益嚴(yán)峻的挑戰(zhàn),具體來說,特別是下面的兩項挑戰(zhàn):
1)將現(xiàn)有業(yè)務(wù)流程合并到源數(shù)據(jù)中,以便分析和實現(xiàn)洞察力;2)隨著數(shù)據(jù)的增長,對其進(jìn)行尋源、收集、管理和治理。
數(shù)據(jù)目錄可以為企業(yè)做什么
Gartner指出了數(shù)據(jù)目錄改善組織信息流和生產(chǎn)力的具體方式:
•整理和傳達(dá)組織可用的信息資產(chǎn)清單。
•創(chuàng)建通用業(yè)務(wù)術(shù)語表,定義組織數(shù)據(jù)的語義解釋和含義,從而提供中介和解決定義不一致的方法。
•支持動態(tài)和敏捷的協(xié)作環(huán)境,使業(yè)務(wù)和IT同事能夠評論、記錄和共享數(shù)據(jù)。
•通過沿襲和影響分析來提供數(shù)據(jù)使用的透明度。
•監(jiān)控、審計和跟蹤數(shù)據(jù),以支持信息治理流程。
•捕獲元數(shù)據(jù)以增強數(shù)據(jù)使用和重用的內(nèi)部分析、查詢優(yōu)化和數(shù)據(jù)認(rèn)證。
•通過捕獲、溝通和分析數(shù)據(jù)的存在、來源、使用環(huán)境、需要它的原因、流程和系統(tǒng)之間的流動方式、誰對它負(fù)責(zé)、它的含義以及它的價值,并在業(yè)務(wù)的使用中對信息進(jìn)行上下文的關(guān)聯(lián)。
Gartner的報告說,正確識別數(shù)據(jù)并讓組織中的關(guān)鍵人物能夠訪問這些數(shù)據(jù)是很重要的,這不僅是為了找到“將數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為數(shù)字業(yè)務(wù)成果的貨幣化”方法,也是為了遵守相關(guān)法規(guī),無論這些法規(guī)是行業(yè)內(nèi)的--如健康保險可移植性和責(zé)任法案(HIPAA)或更一般的如通用數(shù)據(jù)保護(hù)法規(guī)(GDPR)。
加入機器學(xué)習(xí)
但是沒有什么是完美無缺的。對于數(shù)據(jù)目錄,問題在于手動構(gòu)建它們以及需要放置的所有元數(shù)據(jù)的過程是緩慢而乏味的。這就是機器學(xué)習(xí)組件的用武之地。
Forrester所評估的數(shù)據(jù)目錄被稱為MLDC,因為它們利用了人工智能的部分組成之一--機器學(xué)習(xí)的力量。正如一個平臺數(shù)據(jù)博客所解釋的那樣,這使得“構(gòu)建一個持久的元數(shù)據(jù)存儲庫,然后應(yīng)用ML/AI來找出并公開潛在有用的底層數(shù)據(jù)資產(chǎn)見解”成為了可能。
如何選擇
為了幫助組織評估應(yīng)該選擇哪一個企業(yè)的產(chǎn)品,F(xiàn)orrester對排名前12位的MLDC設(shè)置了29個評估點。它確定了這個市場的領(lǐng)導(dǎo)者為:IBM、Relito、Unifi Software、Alation和Collibra。表現(xiàn)好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“競爭者”排名中表現(xiàn)突出。
然而,也不應(yīng)該只看整體排名。這份報告確實列出了每一種方法的優(yōu)缺點。因此,如果一個特定的特性,如研究和開發(fā),對于一個組織來說很重要,它可以認(rèn)為Hortonworks與IBM和Colilbra的實力不相上下,因為這三家公司在這方面的得分最高,都是5分,比Alation和Coloudera高2分,比Cambridge Semantics高4分。
因此,F(xiàn)orrester報告也建議那些以其報告為指導(dǎo)的人不要想當(dāng)然地認(rèn)為排名好的公司就是每個人的好選擇。他們應(yīng)密切注意評估的細(xì)節(jié),找出最符合自己要求的產(chǎn)品。
