'數據系統架構的演變'

數據庫 Hadoop Apache 大數據數據挖掘 Spark 技術數據結構 MySQL 市場營銷 MapReduce Storm SQL IT生涯 2019-08-04

01 傳統數據基礎架構

如圖1-1所示，傳統單體數據架構(Monolithic Architecture)最大的特點便是集中式數據存儲，企業內部可能有諸多的系統，例如Web業務系統、訂單系統、CRM系統、ERP系統、監控系統等，這些系統的事務性數據主要基於集中式的關係性數據庫(DBMS)實現存儲，大多數將架構分為計算層和存儲層。

存儲層負責企業內系統的數據訪問，且具有最終數據一致性保障。這些數據反映了當前的業務狀態，例如系統的訂單交易量、網站的活躍用戶數、每個用戶的交易額變化等，所有的更新操作均需要藉助於同一套數據庫實現。

01 傳統數據基礎架構

▲圖1-1 傳統數據結構

單體架構的初期效率很高，但是隨著時間的推移，業務越來越多，系統逐漸變得很大，越來越難以維護和升級，數據庫是唯一的準確數據源，每個應用都需要訪問數據庫來獲取對應的數據，如果數據庫發生改變或者出現問題，則將對整個業務系統產生影響。

後來隨著微服務架構(Microservices Architecture)的出現，企業開始逐漸採用微服務作為企業業務系統的架構體系。微服務架構的核心思想是，一個應用是由多個小的、相互獨立的微服務組成，這些服務運行在自己的進程中，開發和發佈都沒有依賴。不同的服務能依據不同的業務需求，構建的不同的技術架構之上，能夠聚焦在有限的業務功能。

01 傳統數據基礎架構

▲圖1-1 傳統數據結構

▲圖1-2 微服務架構

如圖1-2所示，微服務架構將系統拆解成不同的獨立服務模塊，每個模塊分別使用各自獨立的數據庫，這種模式解決了業務系統拓展的問題，但是也帶來了新的問題，那就是業務交易數據過於分散在不同的系統中，很難將數據進行集中化管理。

對於企業內部進行數據分析或者數據挖掘之類的應用，則需要通過從不同的數據庫中進行數據抽取，將數據從數據庫中週期性地同步到數據倉庫中，然後在數據倉庫中進行數據的抽取、轉換、加載(ETL)，從而構建成不同的數據集市和應用，提供給業務系統使用。

02 大數據數據架構

起初數據倉庫主要還是構建在關係型數據庫之上，例如Oracle、Mysql等數據庫，但是隨著企業數據量的增長，關係型數據庫已經無法支撐大規模數據集的存儲和分析，因此越來越多的企業開始選擇基於Hadoop構建企業級大數據平臺。

同時眾多Sql-On-Hadoop技術方案的提出，也讓企業在Hadoop上構建不同類型的數據應用變得簡單而高效，例如通過使用Apache Hive進行數據ETL處理，通過使用Apache Impala進行實時交互性查詢等。

大數據技術的興起，讓企業能夠更加靈活高效地使用自己的業務數據，從數據中提取出更多重要的價值，並將數據分析和挖掘出來的結果應用在企業的決策、營銷、管理等應用領域。但不可避免的是，隨著越來越多新技術的引入與使用，企業內部一套大數據管理平臺可能會藉助眾多開源技術組件實現。

例如在構建企業數據倉庫的過程中，數據往往都是週期性的從業務系統中同步到大數據平臺，完成一系列ETL轉換動作之後，最終形成數據集市等應用。但是對於一些時間要求比較高的應用，例如實時報表統計，則必須有非常低的延時展示統計結果，為此業界提出一套Lambda架構方案來處理不同類型的數據。

例圖1-3所示，大數據平臺中包含批量計算的Batch Layer和實時計算的Speed Layer，通過在一套平臺中將批計算和流計算整合在一起，例如使用Hadoop MapReduce進行批量數據的處理，使用Apache Storm進行實時數據的處理。

這種架構在一定程度上解決了不同計算類型的問題，但是帶來的問題是框架太多會導致平臺複雜度過高、運維成本高等。在一套資源管理平臺中管理不同類型的計算框架使用也是非常困難的事情。總而言之，Lambda架構是構建大數據應用程序的一種很有效的解決方案，但是還不是最完美的方案。

01 傳統數據基礎架構

▲圖1-1 傳統數據結構

▲圖1-2 微服務架構

02 大數據數據架構

▲圖1-3 大數據Lambada架構

後來隨著Apache Spark的分佈式內存處理框架的出現，提出了將數據切分成微批的處理模式進行流式數據處理，從而能夠在一套計算框架內完成批量計算和流式計算。

但因為Spark本身是基於批處理模式的原因，並不能完美且高效地處理原生的數據流，因此對流式計算支持的相對較弱，可以說Spark的出現本質上是在一定程度上對Hadoop架構進行了一定的升級和優化。

03 有狀態流計算架構

數據產生的本質，其實是一條條真實存在的事件，前面提到的不同的架構其實都是在一定程度違背了這種本質，需要通過在一定時延的情況下對業務數據進行處理，然後得到基於業務數據統計的準確結果。

實際上，基於流式計算技術侷限性，我們很難在數據產生的過程中進行計算並直接產生統計結果，因為這不僅對系統有非常高的要求，還必須要滿足高性能、高吞吐、低延時等眾多目標。

而有狀態流計算架構(如圖1-4所示)的提出，從一定程度上滿足了企業的這種需求，企業基於實時的流式數據，維護所有計算過程的狀態，所謂狀態就是計算過程中產生的中間計算結果，每次計算新的數據進入到流式系統中都是基於中間狀態結果的基礎上進行運算，最終產生正確的統計結果。

基於有狀態計算的方式最大的優勢是不需要將原始數據重新從外部存儲中拿出來，從而進行全量計算，因為這種計算方式的代價可能是非常高的。從另一個角度講，用戶無須通過調度和協調各種批量計算工具，從數據倉庫中獲取數據統計結果，然後再落地存儲，這些操作全部都可以基於流式計算完成，可以極大地減輕系統對其他框架的依賴，減少數據計算過程中的時間損耗以及硬件存儲。

如果計算的結果能保持一致，實時計算在很短的時間內統計出結果，批量計算則需要等待一定時間才能得出，相信大多數用戶會更加傾向於選擇使用有狀態流進行大數據處理。

04 為什麼會是Flink

可以看出有狀態流計算將會逐步成為企業作為構建數據平臺的架構模式，而目前從社區來看，能夠滿足的只有Apache Flink。Flink通過實現Google Dataflow流式計算模型實現了高吞吐、低延遲、高性能兼具實時流式計算框架。

同時Flink支持高度容錯的狀態管理，防止狀態在計算過程中因為系統異常而出現丟失，Flink週期性地通過分佈式快照技術Checkpoints實現狀態的持久化維護，使得即使在系統停機或者異常的情況下都能計算出正確的結果。

Flink具有先進的架構理念、諸多的優秀特性，以及完善的編程接口，而Flink也在每一次的Release版本中，不斷推出新的特性，例如Queryable State功能的提出，容許用戶通過遠程的方式直接獲取流式計算任務的狀態信息，數據不需要落地數據庫就能直接從Flink流式應用中查詢。對於實時交互式的查詢業務可以直接從Flink的狀態中查詢最新的結果。

在未來，Flink將不僅作為實時流式處理的框架，更多的可能會成為一套實時的狀態存儲引擎，讓更多的用戶從有狀態計算的技術中獲益。

從單體到Flink：一文讀懂數據架構的演變

Flink的具體優勢有以下幾點。

1. 同時支持高吞吐、低延遲、高性能

Flink是目前開源社區中唯一一套集高吞吐、低延遲、高性能三者於一身的分佈式流式數據處理框架。像Apache Spark也只能兼顧高吞吐和高性能特性，主要因為在Spark Streaming流式計算中無法做到低延遲保障;而流式計算框架Apache Storm只能支持低延遲和高性能特性，但是無法滿足高吞吐的要求。而滿足高吞吐、低延遲、高性能這三個目標對分佈式流式計算框架來說是非常重要的。

2. 支持事件時間(Event Time)概念

在流式計算領域中，窗口計算的地位舉足輕重，但目前大多數框架窗口計算採用的都是系統時間(Process Time)，也是事件傳輸到計算框架處理時，系統主機的當前時間。

Flink能夠支持基於事件時間(Event Time)語義進行窗口計算，也就是使用事件產生的時間，這種基於事件驅動的機制使得事件即使亂序到達，流系統也能夠計算出精確的結果，保持了事件原本產生時的時序性，儘可能避免網絡傳輸或硬件系統的影響。

3. 支持有狀態計算

Flink在1.4版本中實現了狀態管理，所謂狀態就是在流式計算過程中將算子的中間結果數據保存在內存或者文件系統中，等下一個事件進入算子後可以從之前的狀態中獲取中間結果中計算當前的結果，從而無須每次都基於全部的原始數據來統計結果，這種方式極大地提升了系統的性能，並降低了數據計算過程的資源消耗。

對於數據量大且運算邏輯非常複雜的流式計算場景，有狀態計算髮揮了非常重要的作用。

4. 支持高度靈活的窗口(Window)操作

在流處理應用中，數據是連續不斷的，需要通過窗口的方式對流數據進行一定範圍的聚合計算，例如統計在過去的1分鐘內有多少用戶點擊某一網頁，在這種情況下，我們必須定義一個窗口，用來收集最近一分鐘內的數據，並對這個窗口內的數據進行再計算。

Flink將窗口劃分為基於Time、Count、Session，以及Data-driven等類型的窗口操作，窗口可以用靈活的觸發條件定製化來達到對複雜的流傳輸模式的支持，用戶可以定義不同的窗口觸發機制來滿足不同的需求。

5. 基於輕量級分佈式快照(Snapshot)實現的容錯

Flink能夠分佈式運行在上千個節點上，將一個大型計算任務的流程拆解成小的計算過程，然後將tesk分佈到並行節點上進行處理。在任務執行過程中，能夠自動發現事件處理過程中的錯誤而導致數據不一致的問題，比如：節點宕機、網路傳輸問題，或是由於用戶因為升級或修復問題而導致計算服務重啟等。

在這些情況下，通過基於分佈式快照技術的Checkpoints，將執行過程中的狀態信息進行持久化存儲，一旦任務出現異常停止，Flink就能夠從Checkpoints中進行任務的自動恢復，以確保數據在處理過程中的一致性。

6. 基於JVM實現獨立的內存管理

內存管理是所有計算框架需要重點考慮的部分，尤其對於計算量比較大的計算場景，數據在內存中該如何進行管理顯得至關重要。針對內存管理，Flink實現了自身管理內存的機制，儘可能減少JVM GC對系統的影響。

另外，Flink通過序列化/反序列化方法將所有的數據對象轉換成二進制在內存中存儲，降低數據存儲的大小的同時，能夠更加有效地對內存空間進行利用，降低GC帶來的性能下降或任務異常的風險，因此Flink較其他分佈式處理的框架會顯得更加穩定，不會因為JVM GC等問題而影響整個應用的運行。

7. Save Points(保存點)

對於7*24小時運行的流式應用，數據源源不斷地接入，在一段時間內應用的終止有可能導致數據的丟失或者計算結果的不準確，例如進行集群版本的升級、停機運維操作等操作。

值得一提的是，Flink通過Save Points技術將任務執行的快照保存在存儲介質上，當任務重啟的時候可以直接從事先保存的Save Points恢復原有的計算狀態，使得任務繼續按照停機之前的狀態運行，Save Points技術可以讓用戶更好地管理和運維實時流式應用。

'數據系統架構的演變'

相關推薦