Greenplum大數據分析建制方案
大數據分析平臺建議方案說明
♦ 為了保證前臺交易系統的效能,需對其進行“數據瘦身”
- 前臺交易系統仍然采用OLTP數據庫,但僅保留最近12個月的數據 (視實際需求而定);
- 實時響應要求較高以及需要頻繁變更的數據操作仍然放在OLTP數據庫當中處理;
- 實時響應要求不高以及長期的歷史數據下沉至后臺的數據云湖架構;
- 半結構化的日志/文檔,如無須進行實時分析,不再存放于OLTP數據庫,集中存放于NAS存儲 。
♦ 整合源數據 (包含:數據庫、文檔等),為業務分析構造底層數據倉庫
- 以MPP分析型數據庫Greenplum搭建數據云,用于存放較長時間的分析數據;
- 以Python定制開發的ETL數據處理系統,將源數據(數據庫/文檔)轉存至數據云湖架構,為前臺應用分析提供數據。
大數據分析平臺之數據云架構說明(一)
♦ 利用ETL工具整合源數據 (包含:數據庫、文檔等),為業務分析構造底層數據倉庫
- 規劃兩臺ETL服務器,實現高可用HA架構,運行Python/Pentaho等定制開發的ETL數據處理系統;
- ETL單臺服務器故障,不影響數據的持續抽??;
♦ ETL整合后的數據轉儲至由Greenplum集群搭建的大數據分析平臺
- Greenplum集群由Master Server (2臺,HA架構)以及Segment Server (4臺,鏡像架構)組成;
- Master Server負責接收、轉發用戶的請求以及結果集的匯總等工作;
- Segment Server負責數據的存儲以及運算等工作;
大數據分析平臺之數據云架構說明(三)
♦ 關于Greenplum集群擴容說明:
- Master node只能通過升級硬件配置進行擴容,滿足更多的連接請求;
- Segment node可通過橫向擴展增加節點數的方式進行 空間和性能 的擴容;
- Segment node節點擴容,建議最少單位為兩臺,硬件配置與當前Segment Node保持一致;
- Segment node節點擴容,可在線進行,無需額外安排停機時間;
Greenplum – 其他功能特性
開方式設計,支持通用X86服務器
數據分區功能
外部表并行數據加載
并行備份、恢復
線性擴展
并行處理查詢優化器
數據庫內壓縮功能,支持1/3~1/10數據庫壓縮
高并發支持
與第三方ETL和BI產品良好的兼容性
B/S方式數據庫運行監控
良好的易用性