Spark Streaming 原理

Spark 百味書 2017-05-07

Spark Streaming工作原理

每個Spark Streaming程序提交後，會在Driver把程序計算邏輯描述為一個 RDD DAG 的“模板”，在後面 Job 動態生成的時候，針對每個 batch，Spark Streaming 都將根據這個“模板”生成一個 RDD DAG 的實例。

把生成的DAG實例分配給任務調度器，生成相對應的Job sets。Job sets裡包含了部分的計算邏輯和數據的元信息，分發到相應的Executor。

真正數據的獲取的填充是發生在Executor中的，而Executor存儲著處理過或者未處理的數據。

Executor資源控制

通過設定每個Executor相同的資源(CPU，內存，磁盤，網絡帶寬)作為一個單位。Streaming程序通過添加或減少Executor來提高或者降低Streaming程序的性能。這樣一個Spark Streaming程序就很容易的通過標準Executor來量化性能。

Streaming程序在提交的時候可以通過如下命令定義Executor：

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \ # can be client for client mode

--executor-memory 20G \

--num-executors 50 \

/path/to/examples.jar \

1000

Executor數據獲取控制

Direct Approach (NoReceivers) 的接收方式也是可以限制接受數據的量的。你可以通過設置 "spark.streaming.kafka.maxRatePerPartition" 來完成對應的配置。需要注意的是，這裡是對每個Partition進行限速。所以你需要事先知道Kafka有多少個分區，才好評估系統的實際吞吐量，從而設置該值。

相應的，"spark.streaming.backpressure.enabled" 參數在Direct Approach 中也是繼續有效的。根據JobScheduler反饋作業的執行信息來動態調整Receiver數據接收率。通過屬性“spark.streaming.backpressure.enabled”來控制是否啟用backpressure機制，默認值false，即不啟用。

Executor優雅退出

因此實現的Streaming程序的彈性擴展需要保證Executor上元數據完全處理完畢，處理過的數據的kafka偏移能夠全部提交成功，保證程序重啟時不會重複消費消息。也就是說Streaming程序需要優雅退出。

所以，我們應該使用一種避免數據丟失的方式，官方建議調用 StreamingContext#stop(stopSparkContext: Boolean, stopGracefully: Boolean)，將 stopGracefully 設置為 true，這樣可以保證在 driver 結束前處理完所有已經接受的數據。

一個 streaming application 往往是長時間運行的，所以存在兩個問題：

應該在什麼時候去調用 StreamingContext#stop
當 streaming application 已經在運行了該怎麼去調用 StreamingContext#stop

ssc.start()

var break = true;

while (break){

if (System.currentTimeMillis() > 1487571750000L){

ssc.stop()

break = false;

}

Spark Streaming資源動態分配

Spark 屬於粗粒度資源分配，也就是在默認情況下是先分配好資源然後再進行計算，粗粒度有個好處，因為資源是提前給你分配好，當有計算任務的時候直接使用就可以了。

粗粒度不好的方面就是從Spark Streaming角度講有高峰值、低峰值，在高與低峰值時候需要的資源是不一樣的，如果資源分配按照高峰值考慮的話，在低峰值就是對資源的浪費。

動態資源分配源碼：

Spark Streaming 原理

在SparkConf中進行Set其配置：

Spark Streaming 原理

以定時器的頻率來不斷的掃描Executor，正在運行的Scheduler是要運行在不同的Executor中，需要動態的增加Executor或者減少Executor ，例如判斷一個60秒為時間間隔的Executor一個任務都沒有運行，就會把Executor刪除掉。怎麼會減少Executor，是因為當前應用程序中運行的Executor在Driver中會有數據結構對其保持引用，每次任務調度的時候都會循環遍歷Executor的列表，然後查詢列表的可用資源，根據這個類中的時鐘會不斷循環查看是否滿足添加或者刪除Executor的條件，如果滿足添加或者刪除的條件就觸發Executor進行添加與刪除。

Spark Streaming 原理

從Spark Streaming的角度考慮，Spark Streaming要處理的動態資源調整就是Executor的資源動態調整，其最大的挑戰是什麼？

Spark Streaming是按照BachDuration的方式運行的，可能這個BachDuration需要很多資源，下一個又不用那麼多資源，當前BachDuration的資源還沒有等調整完成其運行已經過期了。

if (numExecutor != 0 && streamingDynamicAllocationEnabled) {

throw new IllegalArgumentException(

"Dynamic Allocation for streaming cannot be enabled while spark.executor.instances is set.")

}

if (Utils.isDynamicAllocationEnabled(conf) && streamingDynamicAllocationEnabled) {

throw new IllegalArgumentException(

"""

|Dynamic Allocation cannot be enabled for both streaming and core at the same time.

|Please disable core Dynamic Allocation by setting spark.dynamicAllocation.enabled to

|false to use Dynamic Allocation in streaming.

""".stripMargin)

}

要注意當確定了Streaming程序的Executor數量和Spark Core也使用了動態分配的時候是無法使用動態分配的

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'這是你見過的史上最全的Spark知識學習總結嗎？'

"RDD及其特點1、RDD是Spark的核心數據模型，但是個抽象類，全稱為Resillient Distributed Dataset，即彈性分佈式數據集。2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分佈在集群中的不同節點上，從而讓...

Spark HDFS Hadoop Numbers Hive 大數據 2019-08-14

'Spark內存管理之三：UnifiedMemoryManager分析'

"acquireExecutionMemory方法UnifiedMemoryManager中的accquireExecutionMemory方法：當前的任務嘗試從executor中獲取numBytes這麼大的內存該方法直接向ExecutionMemoryPool索要所需內存...

Spark 2019-08-09

'Spark內存管理之二：統一內存管理及設計理念'

"堆內內存Spark 1.6之後引入的統一內存管理機制，與靜態內存管理的區別在於Storage和Execution共享同一塊內存空間，可以動態佔用對方的空閒區域其中最重要的優化在於動態佔用機制，其規則如下：設定基本的Storage內存和Execution內存區域（spark...

Spark 設計 Java 數據結構 Java虛擬機 2019-08-07

'Linux環境Spark安裝配置及使用（三）'

"7. Spark RDD的高級算子(1) mapPartitionsWithIndex把每個partition中的分區號和對應的值拿出來def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U], p...

Spark Linux Scala 2019-08-06

'Linux環境Spark安裝配置及使用（六）'

"12. 認識 Spark Streaming(1) Spark Streaming 簡介流式計算框架（類似於Storm）常用的實時計算引擎（流式計算）<1>. Apache Storm：真正的流式計算<2>. Spark Streaming ：嚴格...

Spark Linux Apache 數據庫 Scala 算法 Storm Python 機器學習 Java 2019-08-04

'我挖掘Kafka底層原理！發現了它火爆宇宙的3個真相！'

"專注於Java領域優質技術，歡迎關注來自：架構師社區作者：陌北有棵樹，一線互聯網資深高級JAVA工程師，熱愛研究開源技術，架構師社區合夥人目前市面上各種中間件層出不窮，我們在做具體的選型時難免會糾結，在這裡闡述點粗淺的看法，其實每個中間件在其設計上，都有其獨有的特點或優化...

Java 技術宇宙操作系統 Spark 程序員設計 Sync 工程師 2019-07-31

'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'

"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark，擁有Had...

Spark 大數據 Hadoop HDFS Amazon EC2 Storm 機器學習 MapReduce 設計 HBase Hive 數據挖掘軟件技術 SQL 加州大學伯克利分校 Cassandra Java 亞馬遜公司 UC瀏覽器算法 Python 2019-07-29

'TalkingData的Spark On Kubernetes實踐'

"眾所周知，Spark是一個快速、通用的大規模數據處理平臺，和Hadoop的MapReduce計算框架類似。但是相對於MapReduce，Spark憑藉其可伸縮、基於內存計算等特點，以及可以直接讀寫Hadoop上任何格式數據的優勢，使批處理更加高效，並有更低的延遲。實際上，...

Spark Linux Hadoop MapReduce 路由器硬件 Calico 大數據 2019-07-28

'尋找數據統治力：比較Spark和Flink'

"大數據文摘授權轉載自數據派THU作者：王海濤本篇文章屬於阿里巴巴Flink系列文章之一。當提及大數據時，我們無法忽視流式計算的重要性，它能夠完成強大的實時分析。而說起流式計算，我們也無法忽視最強大的數據處理引擎：Spark和Flink。Apache Spark自2014年...

Spark 大數據數據庫技術 MapReduce Hadoop Apache 機器學習 Google 編程語言文章阿里巴巴集團 2019-07-17

'DataBricks推出新一代開源大殺器Delta Lake，助力Spark一統天下'

"DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對我來說Delta Lake就是久聞大名，但是不知道廬山真面目。當然以DataBricks一貫的既要為人民服務，更要為人...

Spark 技術大數據數據庫 PowerPoint 軟件設計 Hive 微軟 Storm 2019-07-16

深度分析Spark最新大殺器Delta Lake

DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對...

Spark 數據庫大數據技術 PowerPoint 軟件 Hive 設計 Storm 微軟工業設計 2019-07-15

一文詳解Spark基本架構原理

Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架，最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為A...

Spark Hadoop Apache 大數據 MapReduce HDFS Hive SQL 算法技術分佈式計算機器學習 Storm Java虛擬機加州大學伯克利分校電腦 2019-07-13

大數據學習之Spark快速入門指南(Quick Start Spark)

大數據學習之Spark快速入門指南(Quick Start Spark)快速入門指南(Quick Start Spark)這個文檔只是簡單的介紹如何快速地...

Spark Scala 大數據 Apache MapReduce Line Java Hadoop Word 跳槽那些事兒泛函編程 Python 2019-07-12

推薦中...