'如何跨歷史數據和實時數據進行實時分析？'

數據庫物聯網 Spark Apache Hadoop 機器學習歷史大數據深度學習 IT168企業級 2019-08-19

當下的數據分析需求給現有的數據基礎設施帶來了前所未有的壓力。跨操作和存儲數據執行實時分析通常是成功的關鍵，但這些操作實現起來卻充滿挑戰。

比如一家航空公司，它希望收集和分析來自其噴氣發動機的連續數據流，以實現可預測的維護以及迅速發佈解決方案。每個引擎都有數百個傳感器，監測溫度、速度和振動等條件，並不斷將這些信息發送到物聯網(IoT)平臺。物聯網平臺對數據進行收集、處理和分析後，將數據存儲在數據湖中(也稱為運營數據存儲)，只有最新的數據保存在運營數據庫中。

現在，當實時數據中的異常讀數觸發特定引擎的警報時，航空公司需要跨實時操作數據和該引擎存儲的歷史數據進行實時分析。然而，航空公司可能會發現，利用其現有的基礎設施實現實時分析幾乎是不可能的。

如今，開發大數據計劃的公司通常使用Hadoop將其運營數據的副本存儲在數據湖中，數據科學家可以在其中訪問數據進行各種分析。當需要跨傳入的操作數據以及存儲在數據湖中的數據子集運行實時分析時，傳統的基礎設施將成為絆腳石。在訪問存儲在數據湖中的數據時可能存在延遲，跨組合數據湖和操作數據運行聯合查詢也會遇到挑戰。

內存計算解決方案通過提供實時性能、大規模可伸縮性和與流行數據平臺的內置集成，解決了跨數據湖和操作數據的實時分析的挑戰。這些功能支持混合事務/分析處理(HTAP)，能夠跨數據湖和操作數據集運行實時聯合查詢。

內存計算平臺功能

內存計算平臺支持對操作數據的攝取、處理和分析，並支持以下部分或全部的實時性能和pb級可伸縮性:

內存中的數據網格和內存中的數據庫。內存中的數據網格和數據庫共享服務器集群的可用內存和計算，允許在內存中處理數據，並消除從磁盤檢索數據的延遲。此外，內存中的數據網格部署在現有數據庫之上，並保持底層數據庫的同步，而內存中的數據庫則在內存中維護完整的數據集，定期將數據寫入磁盤，僅用於備份和恢復。內存中的數據網格和數據庫可以部署在場所、公共雲或私有云或混合環境中。

流媒體數據處理。內存中的計算平臺可以收集、處理和分析來自Apache Kafka等流行流媒體平臺的具有實時性能的大容量數據流。

機器學習和深度學習。內存計算平臺允許使用操作數據對機器學習模型進行實時訓練。將本機計算平臺與深度學習平臺(如TensorFlow)集成在內存中，可以極大地降低傳輸數據的成本和複雜性。

聯合查詢。一些內存中的計算平臺利用內置集成的流數據平臺，包括Apache Kafka和Apache Spark，來支持跨數據湖和操作數據集的聯合查詢。Apache Kafka用於構建實時數據管道和流媒體應用程序，為實時處理傳入數據提供數據。Apache Spark是一個統一的分析引擎，可以執行大規模數據處理，包括基於跨hadoop數據湖和操作數據庫的數據運行聯合查詢。

混合事務/分析處理(HTAP)或混合操作/分析處理(HOAP)。HTAP、HOAP能夠使公司維護單個數據集，在該數據集上可以同時執行事務和分析處理，從而消除了將數據從專用事務數據庫移動到獨立的專用分析數據庫所需的昂貴成本和複雜過程。

內存計算平臺功能

內存計算平臺支持對操作數據的攝取、處理和分析，並支持以下部分或全部的實時性能和pb級可伸縮性:

流媒體數據處理。內存中的計算平臺可以收集、處理和分析來自Apache Kafka等流行流媒體平臺的具有實時性能的大容量數據流。

從Apache Kafka到Apache Spark再到實時洞察

與Kafka、Spark和Hadoop集成的內存計算平臺能夠使公司跨實時操作數據和特定引擎的歷史數據運行實時分析。Apache Kafka將實時流數據提供給內存中的計算平臺。內存中的計算平臺在內存中維護操作數據，並跨這些數據集運行實時查詢。Spark從數據湖檢索歷史數據，從內存計算平臺檢索熱操作數據，運行查詢並提供更深入的見解。通過這種架構，企業可以立即瞭解異常讀數的原因。

現代數據基礎設施能夠預測維護，並且能迅速處理問題，這將提高客戶滿意度、提高資產利用率和更高的ROI。而且，使用內存計算平臺對運營數據和數據湖數據子集進行實時分析，可以使實時物聯網服務成為現實。

原文網址：https://www.infoworld.com/article/3430787/how-to-perform-real-time-analytics-across-live-and-historical-data.html

'如何跨歷史數據和實時數據進行實時分析？'

相關推薦