中心動(dòng)態(tài)
神州信息亮相服貿會(huì )丨關(guān)于湖倉一體數據平臺的思考
2023-09-07

在主題為“科技賦能—金融業(yè)數字化轉型與發(fā)展”的中國金融科技論壇上,神州信息上地大數據研究院數據科學(xué)家卜仁海做了題為《關(guān)于湖倉一體數據平臺的思考》的演講。

以下為演講實(shí)錄:

首先,我們來(lái)看一下數據平臺的發(fā)展歷程。

大約20多年前,信息化程度較高的行業(yè)的頭部企業(yè),開(kāi)始建設數據倉庫。當時(shí)的數據主要是企業(yè)內部系統的結構化數據,數據應用主要是BI分析及報表。隨著(zhù)業(yè)務(wù)需求及數據形態(tài)的變化,開(kāi)始建設數據湖。原因是參與分析的非結構化數據逐漸增多,數據應用也有了新的擴展,實(shí)時(shí)計算、人工智能、機器學(xué)習等場(chǎng)景逐漸增多。

最近幾年,開(kāi)始流行起了湖倉一體的數據平臺概念。

需要說(shuō)明的是,這張圖來(lái)自國外,圖里沒(méi)有出現數據倉庫,這并不是說(shuō)數據倉庫消失了。當我們說(shuō)數據倉庫、數據湖的時(shí)候,其實(shí)有兩種說(shuō)法,一種說(shuō)法是指硬件平臺,一種說(shuō)法是指數據的組織結構。這張圖里說(shuō)的是硬件平臺,指的是用一個(gè)硬件平臺來(lái)實(shí)現湖和倉的建設,也被認為是真正的湖倉一體。

國內在規劃建設湖倉一體的時(shí)候,在方式上會(huì )相對靈活些。

國內建設湖倉一體的方式

接下來(lái),我們來(lái)看一下國內建設湖倉一體的幾種方式。方式一和方式二我們可以認為是邏輯上的一體,方式三是平臺級的一體。

方式一采用融合的方式,數倉平臺和數據湖平臺間存在實(shí)際上的數據復制,如果數據的管理、調度等自動(dòng)化程度較低,流程不完善,則不僅僅是數據冗余的問(wèn)題,還涉及到應用效率等方面的問(wèn)題

方式二采用編織的方式,數倉平臺和數據湖平臺間可以不用數據復制,業(yè)務(wù)人員的訪(fǎng)問(wèn)接口是Fabric組件,由此組件解析優(yōu)化訪(fǎng)問(wèn)語(yǔ)句,計算處可以是倉、湖以及Fabric組件,具體要看Fabric組件的優(yōu)化策略和能力。需要說(shuō)明的是,Fabric的訪(fǎng)問(wèn)語(yǔ)句通常不會(huì )完全覆蓋倉、湖數據庫的所有語(yǔ)句。

方式三是真正物理平臺上的一體,或者說(shuō)其上的各個(gè)數據庫可以直接訪(fǎng)問(wèn)彼此的文件系統和存儲結構,這也是最理想的情況。

湖倉一體數據平臺的優(yōu)勢

為什么說(shuō)湖倉一體大概率是數據平臺的趨勢呢,它有什么好處呢?

首先,它可以容納多模態(tài)的數據,比如音頻、視頻、圖片、文檔等。其次,豐富的計算引擎,簡(jiǎn)單的說(shuō),就是無(wú)論什么樣的數據,都可以相對容易的找到其對應的計算引擎并部署。并且是存算分離的,也就是說(shuō),存儲部件和計算部件是分離的,可以各自彈性擴展。流批計算一體。支持人工智能、機器學(xué)習。

數據平臺經(jīng)歷了分的過(guò)程,目的是為了滿(mǎn)足不同數據的不同計算需求,現如今正逐漸走向合的階段,目的是為了易管易用、簡(jiǎn)單高效。技術(shù)總是在不斷進(jìn)步的,湖倉一體尚在逐步發(fā)展階段。通過(guò)我們對不同湖倉產(chǎn)品平臺的了解,以及對未來(lái)湖倉一體的期待,這里簡(jiǎn)單提出一點(diǎn)想法,請大家批評指正。

對未來(lái)湖倉一體的期待

比如,我們是否可以將存算分離分地再徹底一些?

企業(yè)的數據是越來(lái)越多的,計算基于數據,同樣也不會(huì )是局限的。拿數據庫來(lái)說(shuō),關(guān)系型數據庫、圖數據庫、KV數據庫、時(shí)序數據庫、向量數據庫等等。另外,大模型又為我們提供了一個(gè)新的數據計算場(chǎng)景。也就是從邏輯上看,數據的存儲和數據的計算,天然的是可以分離的。只是因為一些非技術(shù)壁壘及其它原因,導致不同數據庫間難以實(shí)現直接的數據訪(fǎng)問(wèn)。

這里我們只從存技術(shù)角度,考慮將企業(yè)對數據的存和算建設成兩個(gè)分離的中心,也就是湖倉一體的兩個(gè)重要組件。

存儲中心需要考慮的是如何建設一個(gè)高效的存儲架構和網(wǎng)絡(luò )架構,如何實(shí)現一個(gè)高效的數據訪(fǎng)問(wèn)機制和接口,它應該有自己的文件系統、尋址機制、緩存機制等等。

計算中心需要考慮的是如何設計一個(gè)高效靈活的資源管理和調度策略,如何靈活配置接入其它計算引擎組件,如何實(shí)現一個(gè)高效的緩存機制減少與存儲中心的數據吞吐等等。對于像大模型這類(lèi)計算應用,我們當然也希望湖倉一體有這個(gè)能力承接。

當然,這些僅是對湖倉一體未來(lái)能力的暢想,未必就是各家企業(yè)的場(chǎng)景應用需求。各企業(yè)基于自身數據基礎、當前數據應用的痛點(diǎn)和需求以及未來(lái)數據架構布局及規劃,對湖倉一體的期待各有不同。

湖倉一體體系架構

我們先從湖倉一體體系架構的角度簡(jiǎn)單看下體系建設內容。

這里的體系架構是從功能層面闡述框架內容的。體系架構的意義不僅可以用來(lái)定義各框架的規范、邊界、接口、制度、流程等內容,還可以用來(lái)評估當前數據體系建設及運營(yíng)情況,指引接下來(lái)的建設內容等。

此圖僅作參考,各企業(yè)可按自身實(shí)際情況做相應改動(dòng),但需要注意的是不要把產(chǎn)品平臺當成框架本身。比如神州信息的數據開(kāi)發(fā)平臺“六合上甲”,平臺本身包含了需求管理、數據建模、數據開(kāi)發(fā)、采集交換、數據服務(wù)、數據治理等內容,它跨接了體系框架的多個(gè)組成部分,需要通過(guò)規范接口對接各框架組件,“六合上甲”產(chǎn)品本身不是體系框架。圖中的探索、標簽、指標其實(shí)是數據產(chǎn)品管理框架的實(shí)際組成產(chǎn)品,這里用產(chǎn)品平臺來(lái)說(shuō)明其為框架與產(chǎn)品的區別。

湖倉一體數據架構

接下來(lái)再看一下湖倉一體的數據架構情況

這里是采用方式三物理一體的實(shí)現方式設計的簡(jiǎn)單數據架構,僅供參考。對于數據量、業(yè)務(wù)量、復雜度不高的企業(yè)而言,數據倉庫可以基于應用建設,即數倉只要滿(mǎn)足企業(yè)級報表和部分數據分析的需求即可,需求相對固定且穩定。對于業(yè)務(wù)部門(mén)敏捷靈活的分析應用而言,其數據源可以來(lái)自標準化數據區。

標準化數據區對于那些對數據流向管控嚴格,要求凡是數據需求可由數倉提供的,不允許從湖區直接取數的企業(yè)而言,可以不建設。但同時(shí)會(huì )對數倉的建設及其數據產(chǎn)品運維推廣工作要求較高。

數據架構中定義的數據區不是簡(jiǎn)單的數據容器,它同時(shí)也定義了規范、邊界、制度、流程、接口等等,數據產(chǎn)品的開(kāi)發(fā)運維及相應的資源配置是其運營(yíng)的關(guān)鍵。部分企業(yè)在數據運營(yíng)中的痛點(diǎn)多多少少與此相關(guān),這不是有了湖倉一體就能解決的問(wèn)題,但卻可以通過(guò)湖倉一體建設為契機,通過(guò)咨詢(xún)及服務(wù)的方式,幫助企業(yè)及其各部門(mén)建設相配套的數據團隊,來(lái)實(shí)現企業(yè)的數字化轉型。

欧美老妇配种高清视频_亚洲色大成永久ww网站_久久受www免费人成_欧美乱码伦视频免费