1. <progress id="lghtq"><pre id="lghtq"></pre></progress>

      1. <progress id="lghtq"><track id="lghtq"><video id="lghtq"></video></track></progress>
        <legend id="lghtq"></legend>

        Greenplum大數據分析建制方案

        兼顧使用效率與成本效益 以數據云湖架構支持不同特性的數據儲存供相對應之應用使用

        Greenplum大數據分析平臺建制方案

        大數據分析平臺建議方案說明

        ♦ 為了保證前臺交易系統的效能,需對其進行“數據瘦身”    

           - 前臺交易系統仍然采用OLTP數據庫,但僅保留最近12個月的數據 (視實際需求而定);     

           - 實時響應要求較高以及需要頻繁變更的數據操作仍然放在OLTP數據庫當中處理;      

           - 實時響應要求不高以及長期的歷史數據下沉至后臺的數據云湖架構;      

           - 半結構化的日志/文檔,如無須進行實時分析,不再存放于OLTP數據庫,集中存放于NAS存儲 。

         

        ♦ 整合源數據 (包含:數據庫、文檔等),為業務分析構造底層數據倉庫      

           - 以MPP分析型數據庫Greenplum搭建數據云,用于存放較長時間的分析數據;     

           - 以Python定制開發的ETL數據處理系統,將源數據(數據庫/文檔)轉存至數據云湖架構,為前臺應用分析提供數據。

        大數據分析平臺系統架構

        大數據分析平臺之數據云架構說明(一)

        ♦ 利用ETL工具整合源數據 (包含:數據庫、文檔等),為業務分析構造底層數據倉庫    

            - 規劃兩臺ETL服務器,實現高可用HA架構,運行Python/Pentaho等定制開發的ETL數據處理系統;  

            - ETL單臺服務器故障,不影響數據的持續抽??;

         

        ♦ ETL整合后的數據轉儲至由Greenplum集群搭建的大數據分析平臺     

            - Greenplum集群由Master Server (2臺,HA架構)以及Segment Server (4臺,鏡像架構)組成;    

            - Master Server負責接收、轉發用戶的請求以及結果集的匯總等工作;       

            - Segment Server負責數據的存儲以及運算等工作;

        大數據分析平臺之數據云架構說明(二)

        ♦ 關于Greenplum集群高可用說明:

             - 兩臺Master node為HA架構(Active/Standby),無法同時提供連接服務,單臺故障后可進行切換;     

             - 四臺Segment node為鏡像架構(如下圖),除非同一個Segment實例的主和鏡像都失效,否則最多可以有一半的主機失效并且集群將繼續運行;

        大數據分析平臺之數據云架構說明(三)

        ♦ 關于Greenplum集群擴容說明:

           - Master node只能通過升級硬件配置進行擴容,滿足更多的連接請求;      

           - Segment node可通過橫向擴展增加節點數的方式進行 空間和性能 的擴容;      

           - Segment node節點擴容,建議最少單位為兩臺,硬件配置與當前Segment Node保持一致;      

           - Segment node節點擴容,可在線進行,無需額外安排停機時間;

        通過經濟的方案擴展到千萬億字節規模,支持從TB 到PB級規模的數據倉庫,提供客戶強大、可擴展的平臺

        不用擔心數據增長或者開始的規模太小

        在商用硬件上通過線性、經濟的方式擴展

        海量并行處理

        支持海量數據存儲和處理

        可以比以往更快地獲取查詢結果

        在數據增長的同時確保高性能分析

        統一的分析處理功能

        為數據倉庫、市場、ELT 、文本挖掘、統計運算提供統一的平臺

        可以使用7SQL、
        MapReduce等在所有層次上對任何數據進行并行分析和數據挖掘

        Why Greenplum 全球最強大的數據倉庫引擎

        MPP(海量并行處理) +完全不共享體系

        Greenplum高可用性

        Greenplum在架構和數據平臺上均進行高可用性設計,在單個節點或網絡的失敗/損壞情況下,系統仍能正常運行,數據完好無缺。

        Greenplum動態在線擴容

        系統永不停機

        ● Greenplum動態在線擴容技術,可以保證客戶在擴容期間不宕機

        ● 不能動態在線擴容,高可用性無從談起

        ● 宕機意味著利潤的流失,客戶需要可靠的IT環境

        Greenplum并行加載和導出優勢

        業界最快并行加載速度>10TB/Hr

        ● 并行加載技術充分利用分布式計算和分布式存儲的優勢,保證發揮出每一塊Disk的I/O資源

        ● 并行加載比串行加載,速度提高40-50倍以上,減少ETL窗口時間

        ● 增加Segment和ETL Server,并行加載速度呈線性增長

        Greenplum – 其他功能特性

        開方式設計,支持通用X86服務器

        數據分區功能

        外部表并行數據加載

        并行備份、恢復

        線性擴展

        并行處理查詢優化器

        數據庫內壓縮功能,支持1/3~1/10數據庫壓縮

        高并發支持

        與第三方ETL和BI產品良好的兼容性

        B/S方式數據庫運行監控

        良好的易用性

        1. <progress id="lghtq"><pre id="lghtq"></pre></progress>

          1. <progress id="lghtq"><track id="lghtq"><video id="lghtq"></video></track></progress>
            <legend id="lghtq"></legend>