創(chuàng )新中心觀(guān)點(diǎn)
數云原力大會(huì ) | Bill Inmon:數據湖倉,能更好地開(kāi)展業(yè)務(wù),讓客戶(hù)更滿(mǎn)意
2023-05-09

5月6日,由國家金融與發(fā)展實(shí)驗室金融科技研究中心學(xué)術(shù)指導,北京立言金融與發(fā)展研究院、神州控股、神州信息、神州數碼集團共同主辦的2023數云原力大會(huì )“數據資產(chǎn)•金融核心競爭力”主題論壇在京盛大舉辦。

作為全球金融科技大會(huì )系列論壇之一,本次活動(dòng)大咖云集。數據倉庫之父、Databricks獨立董事Bill Inmon線(xiàn)上帶來(lái)主旨演講:《Lakehouse技術(shù)展望》。

公司的數據一般有三種類(lèi)型:結構化數據、文本數據和模擬/物聯(lián)網(wǎng)數據。這些都是可用于做出商業(yè)決策的數據。

結構化數據大多數是業(yè)務(wù)運營(yíng)的基礎數據。文本數據則貫穿于公司的方方面面,可惜的是,幾乎沒(méi)人會(huì )利用它們。首先,文本數據可能以多種語(yǔ)言的書(shū)面或口頭形式存在,像英語(yǔ)、西班牙語(yǔ)、中文、葡萄牙語(yǔ)等等。其次,文本數據有不同的形式:有正式用語(yǔ),還有俚語(yǔ)、縮略詞以及其他形式的語(yǔ)言。此外,文本數據可能出現在很多場(chǎng)景,例如錄音中,書(shū)本上,還可以在互聯(lián)網(wǎng)和視頻中。各種地方都可以找到文本數據。文本 ETL技術(shù)能夠讀取文本數據后轉化為數據庫可識別的格式。不利用文本 ETL 技術(shù),就沒(méi)法對文本數據進(jìn)行分析。第三種類(lèi)型的數據就是機器生成的數據。

你會(huì )發(fā)現,只有一部分數據有意義。過(guò)去,把數據扔進(jìn)數據湖就好,結果它變成了沼澤。怎樣把沼澤變成有用的東西呢?我們首先需要具備分析型的基礎架構,其次需要給數據湖加載集成整合后的數據。為了幫助數據科學(xué)家產(chǎn)出效益,我們需要將數據湖轉換成數據湖倉。

分析型基礎架構有很多組件,比如元數據,對結構化數據很有用;對于文本數據,有本體論和分類(lèi)法;對于模擬/物聯(lián)網(wǎng)數據,有提煉算法等等。這些組件會(huì )使數據湖倉的管理運營(yíng)工作更加高效。

文本 ETL 能夠將文本轉換成能夠分析的格式,然后放入數據湖倉;模擬/物聯(lián)網(wǎng)數據通過(guò)提煉,從中挑出有用的也放進(jìn)數據湖倉;原始格式的文本無(wú)法進(jìn)行分析,必須將文本轉換為標準數據庫的格式;再把機器生成的數據分離成訪(fǎng)問(wèn)概率高的數據和訪(fǎng)問(wèn)概率低的數據,這樣整個(gè)分析過(guò)程就不會(huì )被沒(méi)必要的數據所淹沒(méi)。

一般來(lái)說(shuō),文本數據的數據量遠遠多于結構化數據,而機器生成的數據又遠遠多過(guò)文本數據。它們的商業(yè)價(jià)值也不相同,結構化數據大多有較高的商業(yè)價(jià)值,文本數據有一部分會(huì )有較高商業(yè)價(jià)值,而機器生成的數據只有極少數有商業(yè)價(jià)值。

將具有高可用性和訪(fǎng)問(wèn)概率高的數據存放到高性能存儲,而將訪(fǎng)問(wèn)概率不高的數據存放到大容量存儲。當發(fā)現大容量存儲中有想要用于分析處理的數據,只需要從大容量存儲中把數據取出存放到高性能存儲,以便分析。歸檔信息也是一樣,將這些數據從高性能系統環(huán)境中移出,存放到大容量存儲系統以便于歸檔。這樣也方便數據科學(xué)家訪(fǎng)問(wèn)、使用高性能存儲中的數據。

數據倉庫和數據湖倉不是一回事,就基礎架構而言,數據倉庫和數據湖倉有關(guān)系,但并非同一種東西。而有了數據湖倉,就能更好地開(kāi)展業(yè)務(wù),讓客戶(hù)更加滿(mǎn)意。

5月11日

“2023數云原力大會(huì )

——數字金融新征程論壇”

掃碼預約注冊

欧美老妇配种高清视频_亚洲色大成永久ww网站_久久受www免费人成_欧美乱码伦视频免费