ES-Hadoop插件介紹

Hadoop Spark 大數據 HDFS 星射科技 2017-05-03

上篇文章,寫了使用spark集成es框架,並向es寫入數據,雖然能夠成功,但從集成度上來講肯定沒有官網提供的ES-Hadoop框架來的優雅,今天我們就來認識一下ES-Hadoop這個框架。

我們都知道Hadoop是標準的大數據生態代表,裡面有非常多的組件來處理不同類型或者場景下的數據,Hadoop的基礎組件是YARN,HDFS,MapReduce,我們都知道HDFS是可靠的分佈式存儲系統,大多數我們都是用MapReduce來分析數據,唯一的不足之處在於速度,為了解決這種問題所以才有了Hbase,Spark,Kylin,Presto,Imapla等等許多框架。而我們的elasticsearch卻恰恰相反,尤其是其定位高性能的搜索引擎,處理多維數據的檢索分析非常高效,此外ES也是一個分佈式的,高可靠的,可擴展的搜索框架,這些特點也決定了其處理海量數據的效率也是非常出色的。但es和hadoop屬於兩個不同的框架,如果想互相共享數據來處理,就需要自己來寫程序把各自的數據導入需要的一方,過程非常繁瑣,並且需要關注各自框架的版本,從而容易出現問題。

ES-Hadoop的出現則解決了這個問題,我們可以把它看做是ES和Hadoop大數據生態圈之間的數據橋樑,通過它,我們可以快速的分析Hadoop裡面的海量數據。

前面說了Hadoop的MapReduce定位是一個離線的批處理計算框架,而現在越來越多的服務,都要求是實時或者近實時的交互式分析,通過ES-Hadoop我們可以輕鬆的將Hadoop集群上面的數據導入到ES,從而通過使用ES來獲得高性能,低延遲,並支持各種聚合,空間檢索以及產品推薦的一些特性。最後還可以使用Kibana提供的可視化的數據分析一條龍服務,非常棒的組合。

整個數據流轉圖如下:

ES-Hadoop插件介紹

ES-Hadoop無縫打通了ES和Hadoop兩個非常優秀的框架,我們既可以把HDFS的數據導入到ES裡面做分析,也可以將es數據導出到HDFS上做備份,歸檔,其中值得一提的是ES-Hadoop全面的支持了Spark框架,其中包括Spark,Spark Streaming,Spark SQL,此外也支持Hive,Pig,Storm,Cascading,當然還有標準的MapReduce,無論用那一個框架集成ES,都是非常簡潔的。

最後ES-Hadoop對各種版本的Hadoop都支持,這裡麵包含社區版本的Apache Hadoop,Cloudrea的CDH,MapR以及Hortonworks的HDP所以無論我們使用哪個版本的Hadoop都可以非常easy的與ES集成,從而讓ES的強大性能幫助我們快速分析海量數據。

相關推薦

推薦中...