5月6日,,由國(guó)家金融與發(fā)展實(shí)驗(yàn)室金融科技研究中心學(xué)術(shù)指導(dǎo),,北京立言金融與發(fā)展研究院、神州控股,、神州信息,、神州數(shù)碼集團(tuán)共同主辦的2023數(shù)云原力大會(huì)“數(shù)據(jù)資產(chǎn)•金融核心競(jìng)爭(zhēng)力”主題論壇在京盛大舉辦。
作為全球金融科技大會(huì)系列論壇之一,,本次活動(dòng)大咖云集,。數(shù)據(jù)倉(cāng)庫(kù)之父、Databricks獨(dú)立董事Bill Inmon線上帶來(lái)主旨演講:《Lakehouse技術(shù)展望》,。
公司的數(shù)據(jù)一般有三種類型:結(jié)構(gòu)化數(shù)據(jù),、文本數(shù)據(jù)和模擬/物聯(lián)網(wǎng)數(shù)據(jù)。這些都是可用于做出商業(yè)決策的數(shù)據(jù),。
結(jié)構(gòu)化數(shù)據(jù)大多數(shù)是業(yè)務(wù)運(yùn)營(yíng)的基礎(chǔ)數(shù)據(jù),。文本數(shù)據(jù)則貫穿于公司的方方面面,可惜的是,,幾乎沒(méi)人會(huì)利用它們,。首先,文本數(shù)據(jù)可能以多種語(yǔ)言的書面或口頭形式存在,像英語(yǔ),、西班牙語(yǔ),、中文、葡萄牙語(yǔ)等等,。其次,,文本數(shù)據(jù)有不同的形式:有正式用語(yǔ),還有俚語(yǔ),、縮略詞以及其他形式的語(yǔ)言,。此外,文本數(shù)據(jù)可能出現(xiàn)在很多場(chǎng)景,,例如錄音中,,書本上,還可以在互聯(lián)網(wǎng)和視頻中,。各種地方都可以找到文本數(shù)據(jù),。文本 ETL技術(shù)能夠讀取文本數(shù)據(jù)后轉(zhuǎn)化為數(shù)據(jù)庫(kù)可識(shí)別的格式。不利用文本 ETL 技術(shù),,就沒(méi)法對(duì)文本數(shù)據(jù)進(jìn)行分析,。第三種類型的數(shù)據(jù)就是機(jī)器生成的數(shù)據(jù)。
你會(huì)發(fā)現(xiàn),,只有一部分?jǐn)?shù)據(jù)有意義,。過(guò)去,把數(shù)據(jù)扔進(jìn)數(shù)據(jù)湖就好,,結(jié)果它變成了沼澤,。怎樣把沼澤變成有用的東西呢?我們首先需要具備分析型的基礎(chǔ)架構(gòu),,其次需要給數(shù)據(jù)湖加載集成整合后的數(shù)據(jù),。為了幫助數(shù)據(jù)科學(xué)家產(chǎn)出效益,我們需要將數(shù)據(jù)湖轉(zhuǎn)換成數(shù)據(jù)湖倉(cāng),。
分析型基礎(chǔ)架構(gòu)有很多組件,,比如元數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)很有用,;對(duì)于文本數(shù)據(jù),,有本體論和分類法;對(duì)于模擬/物聯(lián)網(wǎng)數(shù)據(jù),,有提煉算法等等,。這些組件會(huì)使數(shù)據(jù)湖倉(cāng)的管理運(yùn)營(yíng)工作更加高效。
文本 ETL 能夠?qū)⑽谋巨D(zhuǎn)換成能夠分析的格式,,然后放入數(shù)據(jù)湖倉(cāng),;模擬/物聯(lián)網(wǎng)數(shù)據(jù)通過(guò)提煉,,從中挑出有用的也放進(jìn)數(shù)據(jù)湖倉(cāng);原始格式的文本無(wú)法進(jìn)行分析,,必須將文本轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的格式,;再把機(jī)器生成的數(shù)據(jù)分離成訪問(wèn)概率高的數(shù)據(jù)和訪問(wèn)概率低的數(shù)據(jù),這樣整個(gè)分析過(guò)程就不會(huì)被沒(méi)必要的數(shù)據(jù)所淹沒(méi),。
一般來(lái)說(shuō),,文本數(shù)據(jù)的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)多于結(jié)構(gòu)化數(shù)據(jù),而機(jī)器生成的數(shù)據(jù)又遠(yuǎn)遠(yuǎn)多過(guò)文本數(shù)據(jù),。它們的商業(yè)價(jià)值也不相同,,結(jié)構(gòu)化數(shù)據(jù)大多有較高的商業(yè)價(jià)值,文本數(shù)據(jù)有一部分會(huì)有較高商業(yè)價(jià)值,,而機(jī)器生成的數(shù)據(jù)只有極少數(shù)有商業(yè)價(jià)值,。
將具有高可用性和訪問(wèn)概率高的數(shù)據(jù)存放到高性能存儲(chǔ),而將訪問(wèn)概率不高的數(shù)據(jù)存放到大容量存儲(chǔ),。當(dāng)發(fā)現(xiàn)大容量存儲(chǔ)中有想要用于分析處理的數(shù)據(jù),,只需要從大容量存儲(chǔ)中把數(shù)據(jù)取出存放到高性能存儲(chǔ),以便分析,。歸檔信息也是一樣,,將這些數(shù)據(jù)從高性能系統(tǒng)環(huán)境中移出,存放到大容量存儲(chǔ)系統(tǒng)以便于歸檔,。這樣也方便數(shù)據(jù)科學(xué)家訪問(wèn),、使用高性能存儲(chǔ)中的數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng)不是一回事,,就基礎(chǔ)架構(gòu)而言,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng)有關(guān)系,,但并非同一種東西,。而有了數(shù)據(jù)湖倉(cāng),就能更好地開(kāi)展業(yè)務(wù),,讓客戶更加滿意,。
5月11日
“2023數(shù)云原力大會(huì)
——數(shù)字金融新征程論壇”
掃碼預(yù)約注冊(cè)