每到歲末年初,行業(yè)專家就會(huì)對(duì)未來一年的技術(shù)發(fā)展進(jìn)行預(yù)測,而如今,一切始于大數(shù)據(jù)問題關(guān)鍵的方面:數(shù)據(jù)本身。
不可否認(rèn),hadoop在2019年的發(fā)展經(jīng)歷了艱難的一年。但是它完全消亡了嗎? Alluxio公司創(chuàng)始人兼技術(shù)官Haoyuan Li為此表示,以Hadoop分布式文件系統(tǒng)(HDFS)形式存在的Hadoop存儲(chǔ)已失效,但以Apache Spark形式存在的Hadoop計(jì)算仍然存在。
Haoyuan Li說:“關(guān)于Hadoop消亡的說法很多。但是Hadoop生態(tài)系統(tǒng)還有后起之秀。諸如Spark和Presto之類的計(jì)算框架可從數(shù)據(jù)中獲取更多價(jià)值,并已被更廣泛的計(jì)算生態(tài)系統(tǒng)所采用。Hadoop存儲(chǔ)(HDFS)由于其復(fù)雜性和成本以及由于與HDFS保持聯(lián)系,而從根本上無法彈性擴(kuò)展因此導(dǎo)致消亡。為了獲得實(shí)時(shí)見解,用戶需要云中可用的即時(shí)和靈活的計(jì)算能力。HDFS中的數(shù)據(jù)將遷移到優(yōu)化和具成本效益的系統(tǒng),無論是云存儲(chǔ)還是本地對(duì)象存儲(chǔ)。HDFS將會(huì)消亡,但是Hadoop計(jì)算將持續(xù)存在并且越來越強(qiáng)大。”
Cloudian公司營銷官(CMO)Jon Toor表示,隨著HDFS數(shù)據(jù)湖部署的緩慢,Cloudian公司已經(jīng)準(zhǔn)備就緒,可以將數(shù)據(jù)捕獲并將其捕獲到其對(duì)象存儲(chǔ)中。
Toor說,“在2020年,我們將看到越來越多的組織利用對(duì)象存儲(chǔ)從非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建結(jié)構(gòu)化/標(biāo)記數(shù)據(jù),從而允許使用元數(shù)據(jù)來理解人工智能和機(jī)器工作負(fù)載生成的數(shù)據(jù)海嘯。”
ThoughtSpot公司執(zhí)行官Sudheesh Nair表示,像Hadoop這樣的事情的終結(jié)將引發(fā)另一件事的開始。
Nair說:“在過去的10年中,我們看到了Hadoop的興起、平穩(wěn)發(fā)展和終結(jié)的開始。這不是因?yàn)榇髷?shù)據(jù)已經(jīng)死亡。恰恰相反,幾乎每個(gè)組織都在致力于成為大數(shù)據(jù)公司。這是在當(dāng)今商業(yè)環(huán)境下運(yùn)作的要求。數(shù)據(jù)已經(jīng)變得如此龐大,而且對(duì)這種數(shù)據(jù)的靈活性需求如此之大,然而,很多企業(yè)或者正在構(gòu)建自己的數(shù)據(jù)池或數(shù)據(jù)倉庫,或者直接進(jìn)入云平臺(tái)。隨著2020年這一趨勢的加速,我們將看到Hadoop的應(yīng)用繼續(xù)下降。”
當(dāng)數(shù)據(jù)變得足夠大時(shí),就會(huì)施加類似引力的力,使其難以移動(dòng),同時(shí)還可以吸引更多數(shù)據(jù)。Digital Realty公司技術(shù)官Chris Sharp說,了解數(shù)據(jù)的引力將幫助企業(yè)克服數(shù)字化轉(zhuǎn)型的障礙。
Sharp說:“數(shù)據(jù)的生成速度是許多企業(yè)無法跟上的。這不僅增加了這種復(fù)雜性,企業(yè)還從難以移動(dòng)和有效利用的多個(gè)位置處理有用卻不實(shí)用的數(shù)據(jù)。這給企業(yè)帶來了一個(gè)‘數(shù)據(jù)引力’問題,這將阻止數(shù)字化轉(zhuǎn)型計(jì)劃向前推進(jìn)。在2020年,我們將看到企業(yè)通過將應(yīng)用程序更靠近數(shù)據(jù)源而不是將資源傳輸?shù)街醒胛恢脕斫鉀Q數(shù)據(jù)引力問題。通過本地化數(shù)據(jù)流量、分析和管理,企業(yè)將更有效地控制其數(shù)據(jù)并擴(kuò)展數(shù)字業(yè)務(wù)。”
在所有條件都相同的情況下,擁有更多數(shù)據(jù)總比擁有更少數(shù)據(jù)更好。TD Ameritrade公司的人工智能、數(shù)據(jù)科學(xué)和新興技術(shù)總監(jiān)Beaumont Vance認(rèn)為,但企業(yè)可以利用現(xiàn)有技術(shù)來更好地利用已有數(shù)據(jù),從而實(shí)現(xiàn)突破。
Vance說,“隨著企業(yè)創(chuàng)建新的數(shù)據(jù)池,開發(fā)更好的技術(shù)來理解研究結(jié)果,我們將看到人工智能前所未有的真正價(jià)值。目前,企業(yè)使用的內(nèi)部數(shù)據(jù)不到所有數(shù)據(jù)的20%,但通過新的人工智能功能,剩下的80%未開發(fā)的數(shù)據(jù)將是可用的,并且更容易理解。先前無法解決的問題將有顯著的改善,有助于推動(dòng)行業(yè)和社會(huì)的巨大變革。”
大數(shù)據(jù)很難管理,那么能用小數(shù)據(jù)采用人工智能技術(shù)嗎?Zinier公司執(zhí)行官Arka Dhar對(duì)此表示肯定。
Dhar說:“展望未來,我們將不再需要大量的大數(shù)據(jù)集來訓(xùn)練人工智能算法。在以往,數(shù)據(jù)科學(xué)家一直需要大量數(shù)據(jù)才能對(duì)人工智能模型進(jìn)行準(zhǔn)確的推斷。人工智能的進(jìn)步使我們能夠以更少的數(shù)據(jù)獲得類似的結(jié)果。”
數(shù)據(jù)的存儲(chǔ)方式?jīng)Q定了應(yīng)該如何處理。GridGain公司執(zhí)行官Abe Kleinfeld說,人們可以使用存儲(chǔ)在內(nèi)存中的數(shù)據(jù)而不是硬盤上做更多的事情。到2020年,人們將看到組織在基于內(nèi)存的系統(tǒng)上存儲(chǔ)更多數(shù)據(jù)。
Kleinfeld說:“到2020年,隨著數(shù)字轉(zhuǎn)型推動(dòng)企業(yè)大規(guī)模進(jìn)行實(shí)時(shí)數(shù)據(jù)分析和決策,內(nèi)存技術(shù)的采用將繼續(xù)飆升。假設(shè)從一架飛機(jī)上的傳感器收集實(shí)時(shí)數(shù)據(jù),以監(jiān)控性能,并且希望為單臺(tái)發(fā)動(dòng)機(jī)開發(fā)預(yù)測性維護(hù)功能。現(xiàn)在必須將實(shí)時(shí)數(shù)據(jù)流中的異常讀數(shù)與數(shù)據(jù)池中存儲(chǔ)的特定引擎的歷史數(shù)據(jù)進(jìn)行比較。目前,一種經(jīng)濟(jì)有效的方法是使用內(nèi)存中的數(shù)據(jù)集成中心,它基于一個(gè)內(nèi)存計(jì)算平臺(tái),比如集成了Apache Spark、Apache Kafka,而像Hadoop這樣的DataLake存儲(chǔ)……隨著數(shù)據(jù)集成中心在企業(yè)中的不斷擴(kuò)展,2020年有望成為采用內(nèi)存計(jì)算的關(guān)鍵一年。”
Information Builders公司副總裁Eric Raab和Kabir Choudry表示,大數(shù)據(jù)可以讓企業(yè)的業(yè)務(wù)夢想成真,或者也可能會(huì)變成一場噩夢。選擇權(quán)在于人們自己。
Raab和Choudry說:“那些投資于管理、分析和正確操作數(shù)據(jù)的解決方案的企業(yè),將比以往任何時(shí)候都更清楚地了解自己的業(yè)務(wù)和成功之路。那些還沒有得到信息的組織和人員,將會(huì)留下大量他們無法真正理解或負(fù)責(zé)任地采取行動(dòng)的信息,使他們做出錯(cuò)誤的決定或使數(shù)據(jù)癱瘓。”
面對(duì)現(xiàn)實(shí):管理大數(shù)據(jù)非常困難。SAS公司數(shù)據(jù)管理和數(shù)據(jù)隱私解決方案負(fù)責(zé)人Todd Wright表示,這一情況在2020年不會(huì)改變,這將使人們重新關(guān)注數(shù)據(jù)編排、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)準(zhǔn)備和模型管理。
Wright說,“根據(jù)世界經(jīng)濟(jì)論壇的預(yù)測,到2020年,人類產(chǎn)生的數(shù)據(jù)量將達(dá)到驚人的44ZB。大數(shù)據(jù)的前景絕不僅僅來自于擁有更多的數(shù)據(jù)以及更多的數(shù)據(jù)來源,而是通過開發(fā)分析模型來更好地洞察這些數(shù)據(jù)。所有的工作都是為了推進(jìn)分析、人工智能和建模語言的工作,如果企業(yè)沒有一個(gè)能夠訪問、集成、清理和管理所有這些數(shù)據(jù)的數(shù)據(jù)管理程序,這一切都是不可取的。”
企業(yè)正在盡可能快地填充NVMe驅(qū)動(dòng)器,以幫助加速數(shù)據(jù)的存儲(chǔ)和分析,尤其是涉及物聯(lián)網(wǎng)的數(shù)據(jù)。NGD Systems公司執(zhí)行官兼創(chuàng)始人Nader Salessi表示,僅憑這一點(diǎn)還不足以確保成功。
Salessi說,“NVMe提供了一種緩解措施,并證明可以消除現(xiàn)有平臺(tái)的存儲(chǔ)協(xié)議瓶頸,該平臺(tái)會(huì)定期輸出TB和PB規(guī)模的數(shù)據(jù),盡管NVMe的速度要快得多,但是當(dāng)需要對(duì)PB級(jí)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析和處理時(shí),它本身還不夠快。這就是計(jì)算存儲(chǔ)的來源,它解決了數(shù)據(jù)管理和移動(dòng)的問題。”
數(shù)據(jù)集成從未如此簡單。隨著持續(xù)不斷的數(shù)據(jù)爆炸以及人工智能和機(jī)器學(xué)習(xí)用例的擴(kuò)展,這變得更加困難。Denodo公司副總裁兼首席市場官Ravi Shankar表示,數(shù)據(jù)結(jié)構(gòu)是一個(gè)顯示前景的架構(gòu)概念。
Shankar說:“通過實(shí)時(shí)訪問來自結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集的新數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)將使組織在未來一年更加關(guān)注機(jī)器學(xué)習(xí)和人工智能。隨著智能技術(shù)和物聯(lián)網(wǎng)設(shè)備的發(fā)展,動(dòng)態(tài)數(shù)據(jù)結(jié)構(gòu)通過邏輯數(shù)據(jù)倉庫體系結(jié)構(gòu)提供了對(duì)大量數(shù)據(jù)的快速、安全和可靠的訪問。因此,將會(huì)推動(dòng)人工智能技術(shù)和商業(yè)革命。”
Principal Data公司的Saurav Chakravorty說,通過語義人工智能和企業(yè)知識(shí)圖(EKG)了解不同的數(shù)據(jù)集是如何連接的,這為解決數(shù)據(jù)倉庫問題提供了其他方法。
Chakravorty說:“組織的寶貴信息和知識(shí)通常散布在多個(gè)文檔和數(shù)據(jù)孤島中,給企業(yè)造成很大的麻煩。企業(yè)知識(shí)圖(EKG)將允許組織消除零散的知識(shí)格局中的語義不一致性。帶有企業(yè)知識(shí)圖(EKG)的語義人工智能相互補(bǔ)充,可以為企業(yè)在數(shù)據(jù)湖和大數(shù)據(jù)方面的投資帶來整體價(jià)值。”
MemVerge公司執(zhí)行官兼聯(lián)合創(chuàng)始人Charles Fan認(rèn)為,2020年可能是存儲(chǔ)級(jí)內(nèi)存突破的一年。
Fan說:“隨著數(shù)據(jù)中心應(yīng)用程序需求的增加以及處理速度的提高,將大力推動(dòng)以內(nèi)存為中心的數(shù)據(jù)中心。計(jì)算創(chuàng)新的發(fā)展日新月異,越來越多的計(jì)算技術(shù)從x86到GPU再到ARM。這將繼續(xù)在CPU和內(nèi)存單元之間開辟新的拓?fù)洹1M管當(dāng)前在計(jì)算層和存儲(chǔ)層之間架構(gòu)往往會(huì)更加分散,但我相信很快就會(huì)走向以內(nèi)存為中心的數(shù)據(jù)中心。”
機(jī)器數(shù)據(jù)智能平臺(tái)Circonus公司首席執(zhí)行官Bob Moul表示,人們正在迅速向邊緣部署的融合存儲(chǔ)和處理架構(gòu)邁進(jìn)。
Moul說,“Gartner公司預(yù)測,到2020年全球?qū)⒂写蠹s200億臺(tái)物聯(lián)網(wǎng)設(shè)備,隨著物聯(lián)網(wǎng)設(shè)備數(shù)量急劇增長并變得更加先進(jìn),管理它們的資源和工具也必須做到這一點(diǎn)。企業(yè)將需要采用可擴(kuò)展的存儲(chǔ)解決方案來適應(yīng)數(shù)據(jù)的爆炸式增長,這些數(shù)據(jù)有望超越當(dāng)前技術(shù)的包含、處理和提供有價(jià)值的見解的能力。”
ASG科技公司產(chǎn)品營銷副總裁Rob Perry表示,暗數(shù)據(jù)最終將在2020年成為現(xiàn)實(shí)。
Perry說:“每個(gè)組織都有數(shù)據(jù)孤島,這些數(shù)據(jù)被收集起來,但不再(或可能永遠(yuǎn)不會(huì))用于商業(yè)目的。雖然存儲(chǔ)數(shù)據(jù)的成本大幅下降,但存儲(chǔ)數(shù)據(jù)的風(fēng)險(xiǎn)溢價(jià)卻大幅上升。這些暗數(shù)據(jù)可能包含必須公開和保護(hù)的個(gè)人信息。它可能包括受數(shù)據(jù)主體訪問請(qǐng)求限制的信息和可能需要?jiǎng)h除的信息,但如果人們不知道它在哪里,則無法滿足法規(guī)的要求。盡管如此,這些數(shù)據(jù)也可以提供一些洞察力,為推動(dòng)業(yè)務(wù)增長開辟新的機(jī)遇。將其置于暗數(shù)據(jù)中會(huì)增加風(fēng)險(xiǎn),可能會(huì)掩蓋機(jī)會(huì)。各組織將把新的重點(diǎn)放在照亮其暗數(shù)據(jù)上。”
Yugabyte公司創(chuàng)始人兼首席技術(shù)官Karthik Ranganathan預(yù)測,開源數(shù)據(jù)庫在2020年將會(huì)面臨美好發(fā)展的一年。
Ranganathan說:“十年前,開源數(shù)據(jù)庫在市場上的份額為零,而現(xiàn)在已超過7%。很明顯,其市場正在發(fā)生變化,到2020年,對(duì)真正開源的承諾將會(huì)增加。這與數(shù)據(jù)庫和數(shù)據(jù)基礎(chǔ)設(shè)施公司放棄其部分或全部核心項(xiàng)目的開源許可證的最新趨勢背道而馳。但是,隨著技術(shù)的飛速發(fā)展,切換到100%開放源代碼模型將是數(shù)據(jù)庫提供商的大利益,因?yàn)槊赓M(fèi)增值模型需要花費(fèi)更長的時(shí)間才能使軟件成熟到與真正的開放源代碼相同的水平。”
但是在2019年,Confluent、Redis和MongoDB等公司從開源業(yè)務(wù)模型中退出。Rockset公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Dhruba Borthakur說,市場將對(duì)開放服務(wù)做出回應(yīng),而不是開源軟件。
Borthakur說,“由于公共云已經(jīng)完全改變了軟件交付和貨幣化的方式,我預(yù)測,到2020年,開放式采購新的破壞性數(shù)據(jù)技術(shù)的時(shí)間將結(jié)束。現(xiàn)有的開源軟件將繼續(xù)運(yùn)轉(zhuǎn),但是建設(shè)者或用戶沒有動(dòng)力選擇開源而不是開放服務(wù)來提供新的數(shù)據(jù)產(chǎn)品。具有諷刺意味的是,易用性推動(dòng)了開源浪潮,并且易于采用開放服務(wù),這將導(dǎo)致開放源代碼的消亡,尤其是在數(shù)據(jù)管理等領(lǐng)域。就像過去十年是開放源代碼基礎(chǔ)設(shè)施的時(shí)代一樣,未來十年屬于云中的開放服務(wù)。”
