詳解數(shù)據(jù)中臺(tái)的底層架構(gòu)邏輯
發(fā)布時(shí)間:2021-09-29 作者: admin
數(shù)據(jù)中臺(tái)到底是什么,幾年過(guò)去了,也一直眾說(shuō)紛紜。
筆者認(rèn)為數(shù)據(jù)中臺(tái)不應(yīng)該是一個(gè)單純的系統(tǒng)或者是一個(gè)軟件工具,而應(yīng)該是一套架構(gòu)、一套數(shù)據(jù)流轉(zhuǎn)模式。
數(shù)據(jù)中臺(tái)需要采集數(shù)據(jù)作為原材料進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)建模,然后分門別類地儲(chǔ)存,再根據(jù)實(shí)際的業(yè) 務(wù)場(chǎng)景,打造各類數(shù)據(jù)服務(wù)(含數(shù)據(jù)應(yīng)用平臺(tái))從而實(shí)現(xiàn)對(duì)業(yè)務(wù)的賦能加速。
但以上流程的實(shí)現(xiàn),需要有對(duì)應(yīng)的系統(tǒng)與產(chǎn)品作為支撐,那么基礎(chǔ)的數(shù)據(jù)中臺(tái)到底應(yīng)該由哪些系統(tǒng)或者產(chǎn)品組成?
這里我們可以先來(lái)看一下幾個(gè)企業(yè)的數(shù)據(jù)中臺(tái)架構(gòu)。
可以看出,雖然每個(gè)企業(yè)由于自身業(yè)務(wù)的不同,衍生出來(lái)的數(shù)據(jù)中臺(tái)體系都有所不同,但大的架構(gòu)方面是基本統(tǒng)一的,都需要通過(guò)一個(gè)“數(shù)據(jù)采集接入”-“加工存儲(chǔ)”-“統(tǒng)一管理”-“服務(wù)應(yīng)用”的階段。
這里筆者認(rèn)為《數(shù)據(jù)中臺(tái)產(chǎn)品經(jīng)理:從數(shù)據(jù)體系到數(shù)據(jù)平臺(tái)實(shí)戰(zhàn)》一書中總結(jié)的數(shù)據(jù)中臺(tái)架構(gòu)是比較具有普適性的, 不論是互聯(lián)網(wǎng)行業(yè)、還是傳統(tǒng)行業(yè),都可以在該架構(gòu)上進(jìn)行改造,設(shè)計(jì)建設(shè)自己的中臺(tái)架構(gòu)。
總體來(lái)說(shuō)數(shù)據(jù)中臺(tái)的功能架構(gòu)由大數(shù)據(jù)平臺(tái)、數(shù)據(jù)資產(chǎn)管理平臺(tái)與數(shù)據(jù)服務(wù)平臺(tái)三大部分組成,其中在數(shù)據(jù)服務(wù)平臺(tái)中自助分析平臺(tái)與標(biāo)簽管理系統(tǒng)的應(yīng)用場(chǎng)景最為廣泛。
1、大數(shù)據(jù)平臺(tái)
大數(shù)據(jù)平臺(tái)是數(shù)據(jù)中臺(tái)的基座,我們也可以把大數(shù)據(jù)平臺(tái)稱為大數(shù)據(jù)開發(fā)平臺(tái),它需要具備與大數(shù)據(jù)相關(guān)的開發(fā)能力,提供數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗/計(jì)算、數(shù)據(jù)查詢展示及權(quán)限管理等功能。那么,應(yīng)該如何建設(shè)上述功能與服務(wù)?是不是擁有了上述能力就等同于成功打造大數(shù)據(jù)平臺(tái)了呢?
其實(shí)我們可以發(fā)現(xiàn)各公司的大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu)其實(shí)大同小異,各類架構(gòu)都包含了數(shù)據(jù)采集組件、數(shù)據(jù)存儲(chǔ)組件、數(shù)據(jù)計(jì)算引擎、數(shù)據(jù)權(quán)限與安全組件,以及集群管理與監(jiān)控組件等。 除了少數(shù)像阿里這樣傾力打造自研“飛天”系統(tǒng)的企業(yè),其他企業(yè)在底層組件選用上,還是以 Hadoop 生態(tài)構(gòu)建的技術(shù)體系為主,依托各類開源組件進(jìn)行優(yōu)化改進(jìn)與二次開發(fā)。例如,數(shù)據(jù)存儲(chǔ)組件可以選擇HBase、Hive等組件,數(shù)據(jù)計(jì)算引擎可以選擇Spark、Flink等分布式計(jì)算引擎。 既然大家選用的組件相同或者相似,那為什么最終各企業(yè)大數(shù)據(jù)平臺(tái)的服務(wù)能力還是存在差距呢?這有些類似于購(gòu)買零件組裝臺(tái)式電腦,零件不需要選最貴的,而是要根據(jù)實(shí)際需求來(lái)選擇最適合的。 好用的大數(shù)據(jù)平臺(tái)需要擁有為用戶解決問(wèn)題的能力。因此,數(shù)據(jù)中臺(tái)的大數(shù)據(jù)平臺(tái)建設(shè)不是比拼引用了多少新技術(shù)、覆蓋了多少技術(shù)組件,而是要看它能否解決數(shù)據(jù)中臺(tái)建設(shè)中所面臨的復(fù)雜數(shù)據(jù)現(xiàn)狀,能否成為數(shù)據(jù)中臺(tái)打破數(shù)據(jù)壁壘的技術(shù)保障,能否提供簡(jiǎn)潔有效的數(shù)據(jù)處理工具,如提供自助配置式的數(shù)據(jù)采集與數(shù)據(jù)清洗工具等,以及能否提供更多的附加價(jià)值。 數(shù)據(jù)中臺(tái)的大數(shù)據(jù)平臺(tái)建設(shè),可以避免各事業(yè)部技術(shù)團(tuán)隊(duì)各自搭建大數(shù)據(jù)集群所帶來(lái)的資源浪費(fèi)。統(tǒng)一的、成熟的大數(shù)據(jù)平臺(tái)對(duì)企業(yè)來(lái)說(shuō),不能一蹴而就,需要循序漸進(jìn)、分步實(shí)施,在持續(xù)迭代中構(gòu)建企業(yè)的大數(shù)據(jù)平臺(tái)生態(tài)。
2、數(shù)據(jù)資產(chǎn)管理平臺(tái)
數(shù)據(jù)資產(chǎn)管理平臺(tái)主要解決數(shù)據(jù)資源的管理, 數(shù)據(jù)資產(chǎn)遍布在各個(gè)大數(shù)據(jù)組件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各個(gè)組件的管控系統(tǒng)很難互相打通, 所以需要一個(gè)統(tǒng)一的數(shù)據(jù)資產(chǎn)管理服務(wù), 來(lái)統(tǒng)籌大數(shù)據(jù)資源的管理。
隨著大數(shù)據(jù)平臺(tái)的建設(shè),構(gòu)建數(shù)據(jù)中臺(tái)的數(shù)據(jù)體系成為可能,通過(guò)對(duì)各業(yè)務(wù)線數(shù)據(jù)的歸類整合,我們可以構(gòu)建出各個(gè)數(shù)據(jù)主題域,完成數(shù)據(jù)的規(guī)范存儲(chǔ),形成數(shù)據(jù)資產(chǎn),進(jìn)而完成數(shù)據(jù)資產(chǎn)管理。 在數(shù)據(jù)中臺(tái)體系中,數(shù)據(jù)資產(chǎn)管理平臺(tái)主要由元數(shù)據(jù)管理與數(shù)據(jù)模型管理組成,下面讓我們分別了解一下。
-
元數(shù)據(jù)管理
這里舉一個(gè)最通俗的例子。當(dāng)我們?nèi)D書館借書時(shí),直接面對(duì)數(shù)以萬(wàn)計(jì)的圖書,自然難以尋找,但是你通過(guò)在圖書館查詢系統(tǒng)中輸入這本的書名、作者、出版社等信息,獲取就能準(zhǔn)確的圖書位置。那么這些書名、作者等信息,就可以理解為元數(shù)據(jù),而圖書的存放位置、借閱歷史記錄等,則是我們系統(tǒng)中的普通數(shù)據(jù)。 在數(shù)據(jù)庫(kù)中,每一張數(shù)據(jù)表的表名、創(chuàng)建信息(創(chuàng)建人、創(chuàng)建時(shí)間、所屬部門)、修改信息、表字段(字段名、字段類型、字段長(zhǎng)度等),以及該表與其他表之間的關(guān)系等信息都屬于這張數(shù)據(jù)表的元數(shù)據(jù)。 其實(shí),元數(shù)據(jù)有多種分類方式,筆者更傾向于按照元數(shù)據(jù)的用途來(lái)區(qū)分,總共分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。 ?業(yè)務(wù)元數(shù)據(jù):描述數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)規(guī)則等,包括業(yè)務(wù)規(guī)則、數(shù)據(jù)字典以及安全標(biāo)準(zhǔn)等多項(xiàng)內(nèi)容。通過(guò)明確業(yè)務(wù)元數(shù)據(jù),讓人們產(chǎn)生統(tǒng)一的數(shù)據(jù)認(rèn)知,消除數(shù)據(jù)歧義,讓不懂?dāng)?shù)據(jù)庫(kù)的業(yè)務(wù)方讀懂?dāng)?shù)據(jù)表的內(nèi)容。 ?技術(shù)元數(shù)據(jù):描述數(shù)據(jù)源信息、數(shù)據(jù)流轉(zhuǎn)信息及數(shù)據(jù)結(jié)構(gòu)化信息,主要服務(wù)于數(shù)據(jù)開發(fā)人員,讓開發(fā)人員明晰數(shù)據(jù)表結(jié)構(gòu)與所依賴的上下游任務(wù),主要包括庫(kù)表字段(存儲(chǔ)位置、數(shù)據(jù)庫(kù)表、字段長(zhǎng)度和類型)、數(shù)據(jù)模型、ETL腳本(調(diào)度信息)與SQL腳本等。 ?管理元數(shù)據(jù):描述數(shù)據(jù)的管理歸屬信息,包括業(yè)務(wù)歸屬、系統(tǒng)歸屬、運(yùn)維歸屬以及數(shù)據(jù)權(quán)限歸屬等信息,是數(shù)據(jù)安全管理的基礎(chǔ)。 所以有人說(shuō),元數(shù)據(jù)記錄了數(shù)據(jù)從無(wú)到有的全過(guò)程,就像一本有關(guān)數(shù)據(jù)的“字典”,讓我們可以查詢到每一個(gè)字段的含義與出處,同時(shí)它又像是一張“地圖”,讓我們可以追溯數(shù)據(jù)產(chǎn)生的路徑。 通過(guò)對(duì)數(shù)據(jù)體系的建設(shè),數(shù)據(jù)中臺(tái)的元數(shù)據(jù)匯聚了企業(yè)各業(yè)務(wù)線與各系統(tǒng)的數(shù)據(jù)信息,讓數(shù)據(jù)中臺(tái)具備了提供全域數(shù)據(jù)資產(chǎn)視圖的能力,實(shí)現(xiàn)了統(tǒng)一數(shù)據(jù)資產(chǎn)查詢與獲取入口的目標(biāo)。 元數(shù)據(jù)管理包括對(duì)元數(shù)據(jù)增刪與編輯管理、版本管理、元數(shù)據(jù)統(tǒng)計(jì)分析與元模型管理。通過(guò)上述功能模塊,有計(jì)劃地進(jìn)行數(shù)據(jù)體系的落地實(shí)施,實(shí)現(xiàn)數(shù)據(jù)中臺(tái)元數(shù)據(jù)的結(jié)構(gòu)化與模型化,這樣既可以避免元數(shù)據(jù)出現(xiàn)雜亂與冗余的現(xiàn)象,也便于用戶查詢與定位數(shù)據(jù)。
-
數(shù)據(jù)模型管理
3、數(shù)據(jù)服務(wù)平臺(tái)
自助分析平臺(tái)
自助分析平臺(tái),也就是商業(yè)智能平臺(tái)(BI平臺(tái))。BI平臺(tái)目前已經(jīng)是很多企業(yè)的標(biāo)配,目前BI商用市場(chǎng)的行業(yè)競(jìng)爭(zhēng)日趨激烈,進(jìn)場(chǎng)者可以分為如下3類: ?國(guó)內(nèi)BI廠商,典型代表為連續(xù)多年國(guó)內(nèi)市場(chǎng)占有率第一的帆軟?國(guó)外BI廠商,如Tableau?互聯(lián)網(wǎng)大廠內(nèi)部孵化
BI 平臺(tái)是數(shù)據(jù)中臺(tái)服務(wù)能力的主要輸出方,要想讓數(shù)據(jù)中臺(tái)發(fā)揮出應(yīng)有價(jià)值,那么BI平臺(tái)的建設(shè)必不可少,所以需要將BI 平臺(tái)建設(shè)劃分在數(shù)據(jù)中臺(tái)體系下。綜合來(lái)看,BI平臺(tái)應(yīng)該具備如下能力。
(1)數(shù)據(jù)接入
除了數(shù)據(jù)中臺(tái)的自有數(shù)據(jù)源,BI平臺(tái)還需要支持外部數(shù)據(jù)源的接入。其接入方式,主要有如下3種。
?文件型:支持Excel等文件數(shù)據(jù)的上傳。?數(shù)據(jù)連接型:支持Mysql、Oracle等數(shù)據(jù)庫(kù),以及Hadoop、Spark等大數(shù)據(jù)平臺(tái)(數(shù)據(jù)中臺(tái)的大數(shù)據(jù)平臺(tái)也在此列)。?API讀取:支持通過(guò)API獲取第三方系統(tǒng)數(shù)據(jù)。
圖例:帆軟BI平臺(tái)支持的數(shù)據(jù)源
(2)數(shù)據(jù)處理
BI 平臺(tái)需要能為用戶提供數(shù)據(jù)建模工具,幫助用戶創(chuàng)建目標(biāo)數(shù)據(jù)(數(shù)據(jù)集),其提供的功能包括拖拽表字段、自動(dòng)識(shí)別維度/指標(biāo)、自定義視圖語(yǔ)句、預(yù)覽數(shù)據(jù)、設(shè)置虛擬字段、函數(shù)計(jì)算、設(shè)置參數(shù)等基本操作,以及多源異構(gòu)的 JOIN/UNION等數(shù)據(jù)處理功能。
FineBI自助數(shù)據(jù)集數(shù)據(jù)處理界面
(3)數(shù)據(jù)分析與可視化
在數(shù)據(jù)處理的基礎(chǔ)上,BI 平臺(tái)還需要為用戶提供豐富的圖表制作和聯(lián)機(jī)分析處理(OLAP)操作,讓用戶在前端頁(yè)面完成數(shù)據(jù)分析與數(shù)據(jù)可視化等工作。 其操作流程如下:用戶選擇處理后的數(shù)據(jù)集,對(duì)維度與指標(biāo)進(jìn)行篩選過(guò)濾,然后通過(guò)上卷下鉆、圖表聯(lián)動(dòng)、報(bào)表跳轉(zhuǎn)等操作,完成業(yè)務(wù)需求的分析,同時(shí)BI平臺(tái)會(huì)為用戶提供可視化圖形組件,使其最終完成可視化內(nèi)容的設(shè)計(jì)。
(4)內(nèi)容分發(fā)與基礎(chǔ)服務(wù)
BI平臺(tái)需要具備分發(fā)可視化內(nèi)容,并進(jìn)行查看權(quán)限與數(shù)據(jù)權(quán)限控制的能力。主要的分發(fā)方式包括BI平臺(tái)、移動(dòng)BI(App)、數(shù)據(jù)大屏、郵件、鏈接訪問(wèn),以及第三方嵌入等方式。 同時(shí)BI平臺(tái)還需要具備基礎(chǔ)的運(yùn)營(yíng)管理、角色管理、幫助中心與消息推送等功能。 只有滿足以上功能、具備了多維分析、數(shù)據(jù)可視化與數(shù)據(jù)大屏等服務(wù)能力的BI平臺(tái),才可以最大限度的發(fā)揮在數(shù)據(jù)中臺(tái)體系中的價(jià)值,有效地幫助分析師與運(yùn)營(yíng)團(tuán)隊(duì)提升工作效率。
-
標(biāo)簽管理系統(tǒng)
(1)用戶唯一性識(shí)別
很多企業(yè)內(nèi)各業(yè)務(wù)線都有自己的獨(dú)立用戶識(shí)別體系,如在 58 集團(tuán)內(nèi)就有 58設(shè)備指紋、安居客唯一用戶、招聘自然人、金融自然人等多種用戶識(shí)別方式,但是這些識(shí)別方式大部分是服務(wù)于單一業(yè)務(wù)線的,各業(yè)務(wù)線內(nèi)的標(biāo)簽也是面向本業(yè)務(wù)的獨(dú)立用戶標(biāo)識(shí)進(jìn)行研發(fā)的。 數(shù)據(jù)中臺(tái)的標(biāo)簽管理體系,可以提供統(tǒng)一的用戶識(shí)別服務(wù),將各業(yè)務(wù)線的獨(dú)立用戶標(biāo)識(shí)進(jìn)行關(guān)聯(lián)和統(tǒng)一,從而打通面向整個(gè)企業(yè)的獨(dú)立用戶識(shí)別和標(biāo)簽交互轉(zhuǎn)換方案。
(2)標(biāo)簽體系管理
標(biāo)簽體系管理的主要工作是制訂標(biāo)簽數(shù)據(jù)和信息交互方案,打通用戶畫像研發(fā)和服務(wù)中的信息及數(shù)據(jù)壁壘,提供標(biāo)簽接入、可視化標(biāo)簽信息展現(xiàn)、可視化標(biāo)簽權(quán)限控制、可視化用戶標(biāo)簽分析、可視化人群定向提取與可視化相似人群擴(kuò)展(Lookalike)等功能。
(3)標(biāo)簽數(shù)據(jù)服務(wù)
標(biāo)簽管理系統(tǒng),需要提供用戶畫像研發(fā)和應(yīng)用過(guò)程中涉及的標(biāo)簽提取與查詢等服務(wù),以標(biāo)準(zhǔn)化服務(wù)接口(API)的方式將相關(guān)解決方案提供給各業(yè)務(wù)方,支持業(yè)務(wù)方基于數(shù)據(jù)中臺(tái)的能力,打造業(yè)務(wù)線的個(gè)性化服務(wù)。 除了商業(yè)智能BI和標(biāo)簽管理外,各企業(yè)還需根據(jù)自身所處行業(yè)的特性去進(jìn)行數(shù)據(jù)應(yīng)用價(jià)值的最大化挖掘。
(如有侵權(quán),請(qǐng)聯(lián)系刪除。)