大數(shù)據(jù)、人工智能與云計算的融合與應用
人工智能、大數(shù)據(jù)與云計算三者有著密不可分的聯(lián)系。人工智能從1956年開始發(fā)展,在大數(shù)據(jù)技術出現(xiàn)之前已經(jīng)發(fā)展了數(shù)十年,幾起幾落,但當遇到了大數(shù)據(jù)與分布式技術的發(fā)展,解決了計算力和訓練數(shù)據(jù)量的問題,開始產(chǎn)生巨大的生產(chǎn)價值;同時,大數(shù)據(jù)技術通過將傳統(tǒng)機器學習算法分布式實現(xiàn),向人工智能領域延伸;此外,隨著數(shù)據(jù)不斷匯聚在一個平臺,企業(yè)大數(shù)據(jù)基礎平臺服務各個部門以及分支機構的需求越來越迫切。通過容器技術,在容器云平臺上構建大數(shù)據(jù)與人工智能基礎公共能力,結合多租戶技術賦能業(yè)務部門的方式將人工智能、大數(shù)據(jù)與云計算進行融合。
數(shù)據(jù)處理的發(fā)展階段
隨著信息技術的蓬勃發(fā)展,特別是近十年,移動互聯(lián)技術的普及,運營商、泛金融、政府、大型央企、大型國企、能源等領域數(shù)據(jù)量更是呈現(xiàn)幾何級數(shù)的增長趨勢。數(shù)據(jù)量的膨脹除了帶來了數(shù)據(jù)處理性能的壓力外,數(shù)據(jù)種類的多樣性也為數(shù)據(jù)處理手段提出了新的要求,大量新系統(tǒng)的建設同時產(chǎn)生了眾多數(shù)據(jù)孤島,給企業(yè)的數(shù)據(jù)運營維護與價值發(fā)掘帶來了重大的挑戰(zhàn)。隨著大數(shù)據(jù)技術的不斷發(fā)展,企業(yè)的數(shù)據(jù)處理技術轉型也經(jīng)歷了幾個階段,如圖1所示。
c9b3aee039b743d2ba11d2d1f6de2d77
▲圖1 企業(yè)數(shù)據(jù)處理轉型的階段變化
在第一階段,大數(shù)據(jù)技術發(fā)展的早期,為了打破數(shù)據(jù)孤島,將各類數(shù)據(jù)向大數(shù)據(jù)平臺匯集,形成數(shù)據(jù)湖的概念,作為多源、異構的數(shù)據(jù)的數(shù)據(jù)歸集,在此基礎上進行數(shù)據(jù)標準化,建立企業(yè)數(shù)據(jù)的匯聚中心。在這個階段,對非結構化數(shù)據(jù)處理以存儲檢索為主,對結構化數(shù)據(jù)處理提供各類API和少量SQL支持,使海量的以SQL實現(xiàn)為主的業(yè)務難以遷移到大數(shù)據(jù)平臺,新業(yè)務開發(fā)使用門檻高,大數(shù)據(jù)技術的推廣受到阻礙。
在第二階段,企業(yè)客戶的需求集中表現(xiàn)為,如何更好地處理結構化數(shù)據(jù)以及將老的IT架構遷移到分布式架構中。各大數(shù)據(jù)平臺廠商開始在SQL on Hadoop領域進行研發(fā)和競爭,不斷提高SQL標準的兼容程度。在這個過程中,Spark誕生并逐漸取代了過于笨重且TB量級計算性能存在缺陷的MapReduce架構,Hadoop技術開始向結構化數(shù)據(jù)處理分析更深度的應用領域進發(fā)。隨著SQL on Hadoop技術的不斷發(fā)展與星環(huán)科技解決了Hadoop分布式事務的難題,越來越多的客戶在Hadoop上構建新一代數(shù)據(jù)倉庫,將Hadoop技術應用于越來越多的業(yè)務生產(chǎn)場景,技術門檻的降低,使越來越多的客戶可以利用強大的分布式計算能力輕松分析處理海量數(shù)據(jù)。在這個階段后期,隨著企業(yè)客戶對實時數(shù)據(jù)分析研判需求的不斷提高,流處理技術得以蓬勃發(fā)展。
在第三階段,一部分企業(yè)已經(jīng)完成了由基于關系型數(shù)據(jù)庫為核心的數(shù)據(jù)處理體系向基于大數(shù)據(jù)技術為核心的數(shù)據(jù)處理體系的轉變。在本階段早期,很多企業(yè)客戶不滿足于通過SQL基于統(tǒng)計對數(shù)據(jù)的分析和挖掘,促使傳統(tǒng)的機器學習算法開始實現(xiàn)分布化,但主要還是針對結構化數(shù)據(jù)的學習挖掘。隨著深度學習技術和分布式技術的碰撞,演化出了新一代的計算框架,如TensorFlow等,計算能力的提升,并結合大量訓練數(shù)據(jù),使機器學習人工智能技術在結構化與非結構化數(shù)據(jù)領域產(chǎn)生巨大威力,開始應用于人臉識別、車輛識別、智能客服、無人駕駛等領域;同時,對傳統(tǒng)機器學習算法產(chǎn)生了巨大沖擊,一定程度上減少了對特征工程與業(yè)務領域知識的依賴,降低了機器學習的進入門檻,使人工智能技術得以普及。另一方面,可視化的拖拽頁面、豐富的行業(yè)模板、高效率的交互式體驗,極大地降低了數(shù)據(jù)分析人員的使用門檻,讓人工智能技術進一步走入企業(yè)的生產(chǎn)應用。
大數(shù)據(jù)、人工智能與云技術的融合
隨著企業(yè)內(nèi)部對于數(shù)據(jù)資源的應用不再僅僅局限于IT部門,越來越多的內(nèi)部項目組與分支機構加入大數(shù)據(jù)平臺的使用中,加之數(shù)據(jù)處理技術的不斷發(fā)展,如何解決基礎平臺的資源隔離問題、管理分配問題、編排調度問題;如何將企業(yè)業(yè)務應用需要的基礎服務能力做更好地抽象,降低應用所需的基礎服務的環(huán)境搭建、開發(fā)、測試部署周期,提升IT支撐效能;如何更好地管理眾多的基于大數(shù)據(jù)與人工智能開發(fā)的應用等等成為企業(yè)急需解決的問題。
在大數(shù)據(jù)技術發(fā)展的早期,僅僅是在計算框架MapReduce中提供簡單的作業(yè)調度算法,隨著資源管理的需求,在Hadoop 2.0時代,Yarn作為單獨組件負責分布式計算框架的資源管理。但是,一方面,Yarn僅僅能夠管理調度計算框架的資源;另一方面,資源的管理粒度較為粗放,不能做到有效的資源隔離,越來越不能滿足企業(yè)客戶的需求。
云計算技術作為資源隔離封裝虛擬化,以及管理調度的技術,本應應用于解決上述問題。但是,在Docker容器技術被廣泛接受之前,云計算虛擬化技術主要基于虛擬機封裝資源,并在其之上加載操作系統(tǒng),資源利用率低,早期有廠商嘗試將大數(shù)據(jù)平臺構建在基于虛擬機技術的云化方案上,由于資源利用和穩(wěn)定性問題,在私有云上的嘗試鮮有成功案例。在公有云方面,借助公有云較為強大的基礎平臺硬件與運維支持能力,有一些非核心業(yè)務的應用嘗試。
隨著Docker、Kubernetes等容器技術的發(fā)展,與微服務等技術概念的形成,大數(shù)據(jù)與人工智能基礎平臺開始基于容器云構建底層資源管理與調度平臺。容器云就像一個分布式的操作系統(tǒng),將集群中的各類硬件資源進行封裝、管理以及調度,將封裝的資源作為容器承載大數(shù)據(jù)的相關組件進程,再將這些容器進行編排,組成一個個的大數(shù)據(jù)和人工智能的基礎服務,如分布式文件系統(tǒng)HDFS、NoSQL數(shù)據(jù)庫Hbase、分布式分析型數(shù)據(jù)庫Inceptor、分布式流處理平臺Slipstream、分布式機器學習組件Sophon等。由這些基礎服務編排構建公共能力服務層,提供如數(shù)據(jù)倉庫、數(shù)據(jù)集市、圖數(shù)據(jù)庫、全文搜索數(shù)據(jù)庫、流處理服務、NoSQL數(shù)據(jù)庫、機器學習平臺服務、定制圖像識別服務等,為企業(yè)打造全新的數(shù)據(jù)處理核心系統(tǒng)?;谶@一核心系統(tǒng)服務于各類企業(yè)的不同部門。通過資源隔離技術,通過對每個租戶的資源分配和權限管理,滿足業(yè)務分析人員的個性化分析需求,專注于業(yè)務邏輯的開發(fā)和數(shù)據(jù)的分析挖掘。
技術融合的應用
中國郵政大數(shù)據(jù)平臺建設以Transwarp Data Hub(以下簡稱TDH)與Transwarp Operating System(以下簡稱TOS)作為基礎架構系統(tǒng),搭建的新一代邏輯數(shù)據(jù)倉庫和數(shù)據(jù)集市,完全取代了Teradata和Oracle.
總體架構與實現(xiàn)
中國郵政大數(shù)據(jù)平臺服務于量收、郵務、名址等系統(tǒng),同時運用容器云TOS實現(xiàn)創(chuàng)新多租戶的數(shù)據(jù)分析挖掘環(huán)境。建立從業(yè)務層到管理層到?jīng)Q策層的智能分析體系,模擬量化風險和收益,實現(xiàn)對郵政各種業(yè)務數(shù)據(jù)進行分類、管理、統(tǒng)計和分析等功能,給各級管理人員提供各類準確的統(tǒng)計分析預測數(shù)據(jù),使其能夠及時掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為省分公司基層業(yè)務人員提供詳盡的數(shù)據(jù),供其對各自的工作目標、當前和歷史狀況進行準確的把握,對業(yè)務活動進行有效支撐,滿足郵政經(jīng)營分析管理及決策支持。
中國郵政大數(shù)據(jù)平臺以五大基礎服務集群域為基礎,分別是數(shù)據(jù)湖集群域、企業(yè)數(shù)據(jù)倉庫集群域、省分服務集群域、機器學習實驗室集群域、開發(fā)/測試/培訓集群域。
(1)數(shù)據(jù)湖集群域:基于TDH平臺搭建的數(shù)據(jù)湖,主要承擔多源異構的數(shù)據(jù)歸集,數(shù)據(jù)湖內(nèi)包括:原始數(shù)據(jù)池、清洗加工數(shù)據(jù)池、整合加工數(shù)據(jù)池等。
(2)企業(yè)數(shù)倉集群域:基于TDH搭架的數(shù)據(jù)倉庫集群,基于大數(shù)據(jù)創(chuàng)新搭架邏輯數(shù)據(jù)倉庫,用于遷移改造原有基于Teradata搭架的數(shù)據(jù)倉庫,數(shù)據(jù)集市和基于Oracle搭建的報刊集市的郵政量收管理系統(tǒng)。
(3)省分服務集群域:基于TOS搭建容器化多租戶數(shù)據(jù)分析平臺云。為省、市分公司開發(fā)人員和業(yè)務人員提供省分多租戶的平臺環(huán)境,集團分發(fā)數(shù)據(jù)與自有數(shù)據(jù)存儲計算,自有應用的開發(fā)與管理,獨立租戶使用運行。
(4)機器學習實驗室集群域:基于TOS搭建的容器化多租戶大數(shù)據(jù)機器學習平臺,為集團數(shù)據(jù)中心分析師提供多租戶的開發(fā)實驗環(huán)境平臺,進行數(shù)據(jù)探查、業(yè)務建模、算法研究、應用開發(fā)、成果推廣等。
(5)開發(fā)/測試/培訓集群域:為應用開發(fā)人員、系統(tǒng)測試人員、培訓師、學員提供多租戶的大數(shù)據(jù)與機器學習平臺,為開發(fā)商及內(nèi)部單位提供開發(fā)測試培訓服務。
以此為基礎,達到了數(shù)據(jù)管理、服務管理、運維管控、安全管控四個維度的統(tǒng)一。在風險管控、決策支持、服務支撐、流程優(yōu)化、品牌創(chuàng)新、交叉營銷六大應用領域展開應用。實現(xiàn)了租戶管理、數(shù)據(jù)治理、數(shù)據(jù)加工、數(shù)據(jù)挖掘、數(shù)據(jù)探索、數(shù)據(jù)展現(xiàn)六大平臺功能。
數(shù)據(jù)湖和數(shù)據(jù)倉庫基于TDH構建,將包括業(yè)務系統(tǒng)數(shù)據(jù)、實時流數(shù)據(jù)、合作單位數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等不同數(shù)據(jù)源,通過ESB接入、ETL工具、Kafka、Sqoop、文本上傳、人工接入等方式,統(tǒng)一匯聚進入數(shù)據(jù)湖。加工后獲得的數(shù)據(jù)資產(chǎn)發(fā)布到數(shù)據(jù)資產(chǎn)目錄,通過數(shù)據(jù)資產(chǎn)目錄的構建TDH與TOS用戶間數(shù)據(jù)交互體系。便于用戶快速檢索數(shù)據(jù),通過數(shù)據(jù)資產(chǎn)目錄實現(xiàn)對數(shù)據(jù)的集成、融合、安全、共享。數(shù)據(jù)資產(chǎn)目錄包括:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)標準、數(shù)據(jù)質量、數(shù)據(jù)輪廓、數(shù)據(jù)生命周期等。此外,企業(yè)用戶通過大數(shù)據(jù)門戶按需申請租戶存儲計算資源、數(shù)據(jù)資源、審批流程通過后,集群資源管理員按需快速部署集群,自動化將數(shù)據(jù)從數(shù)據(jù)湖加載入數(shù)據(jù)分析集群或省分集群對應的租戶空間,供數(shù)據(jù)開發(fā)人員使用。數(shù)據(jù)開發(fā)人員會將數(shù)據(jù)應用成果固化到數(shù)據(jù)湖內(nèi),對外提供數(shù)據(jù)服務。
中國· 上海

關鍵詞
辦公室:上海市浦東新區(qū)郭守敬路351號
CopyRight?2009-2019 上海谷谷網(wǎng)絡科技有限公司 All Rights Reserved. 滬ICP備11022482號-8
- top
- 在線咨詢
-
添加微信咨詢