'大數據的4個神話以及使用深度數據的4種方法'

大數據數據庫人工智能算法人力資源 Hadoop 物聯網跳槽那些事兒金智塔數據 2019-08-07

作者 | Stephen Smith

譯者 | Jarvan

編輯 | 金智塔

金智塔科技導讀：一直存在著一個基本的誤解，即更大的數據會產生更好的學習效果。然而，更大的數據並不一定有助於發現更多的信息。實際上，我們應該更關注數據質量、價值和多樣性。數據的深度優於數據的數量。

更多優質內容請關注微信公眾號“金智塔科技”

最近對大數據的炒作正在減弱。雲，Hadoop以及其他類似的工具已經解決了大數據的處理問題。但是，仍有很多人花費大量資金建立更大的基礎設施，來存放和管理這些龐大的數據庫。這種對“大”的盲目追求，正在為基礎設施和人力資源帶來一些巨大的，不必要的成本。

現在，是時候將從“大數據”的討論改為“深度數據”了。我們現在需要更加周到和明智來處理數據，而不是收集所有可能的數據來實現“大數據”。我們現在需要將一些數據落實，並尋求各種多樣性和質量，而不是數量。而這將帶來許多長期利益。

4種大數據神話

要理解從“大”到“深”的這種轉變，讓我們首先看一下我們對大數據的錯誤觀念。

以下是一些大數據的重大神話：

可以並且應該捕獲和存儲所有數據。
更多的數據總是有助於構建更準確的預測模型。
存儲更多數據的成本幾乎為零。
計算更多數據的成本幾乎為零。

實際上

來自物聯網和網絡流量的數據顯然超過了我們的捕獲能力。有些數據必須在獲取時進行處理才能夠保存和管理。我們需要根據價值對數據進行分類。
重複一千次相同數據的訓練不會提高預測模型的準確性。
存儲更多數據的成本不僅僅是亞馬遜網絡服務向您收取的每TB的美元成本。這也是查找和管理多個數據源的額外複雜性，以及員工移動和使用該數據的“虛擬權重”。這些成本通常高於存儲和計算費用。
人工智能算法對計算資源的需求甚至可以快速超過彈性雲基礎架構。如果不是專業管理，計算資源將線性增長，而計算需求可以超線性增長，甚至指數級增長。

相信這些神話的問題在於，您將以在紙上或長期角度看起來不錯的方式構建您的信息系統，但在即時的框架中會因為過於繁瑣而無法使用。

大數據的4個問題

以下是在數據方面盲目相信“越多越好”的四個問題：

重複的數據沒有幫助。在為AI構建機器學習模型時，培訓示例的多樣性至關重要。原因是模型試圖確定概念邊界。例如，如果您的模型試圖通過使用年齡和職業來定義“退休工人”的概念，那麼32歲的註冊會計師這樣的重複示例，對該模型沒有什麼好處，因為他們都沒有退休。在65歲的概念邊界獲得樣本，並瞭解退休如何隨職業變化則更有幫助。
低質量的數據可能會傷害模型。如果新數據中存在錯誤，或者不精確，那麼它只會使AI試圖學習的兩個概念之間的邊界變得混亂。在這種情況下，更多數據無濟於事，實際上甚至可能會降低現有模型的準確性。
大數據增加了時間成本。不同的學習算法下，在數TB的數據上構建模型可能比在數GB的數據上構建模型多花費一千倍、甚至一萬倍的時間。
大數據易實現的模型。任何預測模型的最終目標都是創建一個可以為業務部署的高度準確的模型。有時使用來自數據湖深處凹陷的、更加模糊的數據，可能會提高準確性，但所使用的數據對於實際部署可能是不可靠的。那些不太準確但可以快速部署的模型往往會更好。

4件能做的改變

您可以採取一些措施來對抗大數據的“黑暗面”並轉向深層數據思維：

瞭解準確性、執行權限。數據科學家常常以更建立準確的模型為目標。根據準確性和部署速度，以明確的ROI預期，再啟動項目。
使用隨機樣本構建每個模型。如果你有大數據，那麼沒有理由不使用它。如果您具有良好的隨機抽樣功能，那麼您可以從小樣本中準確預測使用整個數據庫構建的模型的準確性。先使用小樣本構建模型，然後再使用整個數據庫構建最終模型。
丟棄一些數據。如果你對來自物聯網設備和其他來源的數據感到不知所措，可以隨心所欲地拋棄一些數據。如果你不能購買足夠的磁盤來存儲多餘的數據，它會破壞你在數據科學生產線後期工作的所有東西。
尋找更多數據源。人工智能最近的許多突破並非來自較大的數據集，而是來自機器學習算法利用以前無法獲得的數據的能力。例如，在二十年前，現在普遍存在的大型文本，圖像，視頻和音頻數據集並不存在。我們要不斷尋找這些新的數據。

改變後得到的4個好處

如果您專注於深度數據而不僅僅是大數據，您將享受到許多好處。以下是一些關鍵問題：

一切都會更快。使用較小的數據，您的數據移動，實驗，培訓和模型評分都會快得多。
需要更少的存儲和計算。關注深度數據意味著您將更加智能地使用更小的磁盤並在雲中計算足跡。這直接轉化為較低的基礎設施成本。用您節省的資金聘請更多數據科學家和AI專家！
減少IT和數據科學家的壓力。當數據科學家花費更多時間構建和測試模型而不是移動數據或等待長時間的訓練來完成時，他們會更高興。
可以解決更難的問題。構建AI模型並不是一種神奇的體驗，只能由類似巫師的研究人員執行。它更多的是邏輯而不是魔術。它類似於一位藝術老師的故事，他告訴學生，他們一般的成績將取決於他們製作的藝術作品的數量，另一半將根據他們最好作品的質量進行評分。毫不奇怪，學生創造了大量的作品，並且他們做出了很多高品質的產品。在我們的例子中，在相同資源約束下嘗試的更多模型，可能意味著更好的模型。

大數據和支持它的技術突破，極大地促進了許多公司在決策過程中使用數據的動力。隨著人工智能的興起以及我們使這些強大資源飽和的能力，我們現在需要更加精確地根據我們的數據需求。現在需要建立一種理解深度數據而不僅僅是大數據的文化。

原文鏈接：

https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

— 完 —

金智塔是由浙江大學人工智能研究所和浙江大學互聯網金融研究院聯合孵化，以打造金融大數據智能服務生態體系為願景，擁有行業領先的金融大數據AI服務能力的高新技術企業。自主研發的“知他金融大數據智能服務平臺”基於金融大數據，採用深度學習、聯邦學習等技術實現對智能監管、大數據風控、智能營銷、智能投顧的大數據建模服務支撐，通過一站式全流程服務為金融監管部門、各類金融機構與中介賦能。

作者 | Stephen Smith

譯者 | Jarvan

編輯 | 金智塔

更多優質內容請關注微信公眾號“金智塔科技”

4種大數據神話

要理解從“大”到“深”的這種轉變，讓我們首先看一下我們對大數據的錯誤觀念。

以下是一些大數據的重大神話：

可以並且應該捕獲和存儲所有數據。
更多的數據總是有助於構建更準確的預測模型。
存儲更多數據的成本幾乎為零。
計算更多數據的成本幾乎為零。

實際上

來自物聯網和網絡流量的數據顯然超過了我們的捕獲能力。有些數據必須在獲取時進行處理才能夠保存和管理。我們需要根據價值對數據進行分類。
重複一千次相同數據的訓練不會提高預測模型的準確性。
存儲更多數據的成本不僅僅是亞馬遜網絡服務向您收取的每TB的美元成本。這也是查找和管理多個數據源的額外複雜性，以及員工移動和使用該數據的“虛擬權重”。這些成本通常高於存儲和計算費用。
人工智能算法對計算資源的需求甚至可以快速超過彈性雲基礎架構。如果不是專業管理，計算資源將線性增長，而計算需求可以超線性增長，甚至指數級增長。

相信這些神話的問題在於，您將以在紙上或長期角度看起來不錯的方式構建您的信息系統，但在即時的框架中會因為過於繁瑣而無法使用。

大數據的4個問題

以下是在數據方面盲目相信“越多越好”的四個問題：

重複的數據沒有幫助。在為AI構建機器學習模型時，培訓示例的多樣性至關重要。原因是模型試圖確定概念邊界。例如，如果您的模型試圖通過使用年齡和職業來定義“退休工人”的概念，那麼32歲的註冊會計師這樣的重複示例，對該模型沒有什麼好處，因為他們都沒有退休。在65歲的概念邊界獲得樣本，並瞭解退休如何隨職業變化則更有幫助。
低質量的數據可能會傷害模型。如果新數據中存在錯誤，或者不精確，那麼它只會使AI試圖學習的兩個概念之間的邊界變得混亂。在這種情況下，更多數據無濟於事，實際上甚至可能會降低現有模型的準確性。
大數據增加了時間成本。不同的學習算法下，在數TB的數據上構建模型可能比在數GB的數據上構建模型多花費一千倍、甚至一萬倍的時間。
大數據易實現的模型。任何預測模型的最終目標都是創建一個可以為業務部署的高度準確的模型。有時使用來自數據湖深處凹陷的、更加模糊的數據，可能會提高準確性，但所使用的數據對於實際部署可能是不可靠的。那些不太準確但可以快速部署的模型往往會更好。

4件能做的改變

您可以採取一些措施來對抗大數據的“黑暗面”並轉向深層數據思維：

瞭解準確性、執行權限。數據科學家常常以更建立準確的模型為目標。根據準確性和部署速度，以明確的ROI預期，再啟動項目。
使用隨機樣本構建每個模型。如果你有大數據，那麼沒有理由不使用它。如果您具有良好的隨機抽樣功能，那麼您可以從小樣本中準確預測使用整個數據庫構建的模型的準確性。先使用小樣本構建模型，然後再使用整個數據庫構建最終模型。
丟棄一些數據。如果你對來自物聯網設備和其他來源的數據感到不知所措，可以隨心所欲地拋棄一些數據。如果你不能購買足夠的磁盤來存儲多餘的數據，它會破壞你在數據科學生產線後期工作的所有東西。
尋找更多數據源。人工智能最近的許多突破並非來自較大的數據集，而是來自機器學習算法利用以前無法獲得的數據的能力。例如，在二十年前，現在普遍存在的大型文本，圖像，視頻和音頻數據集並不存在。我們要不斷尋找這些新的數據。

改變後得到的4個好處

如果您專注於深度數據而不僅僅是大數據，您將享受到許多好處。以下是一些關鍵問題：

一切都會更快。使用較小的數據，您的數據移動，實驗，培訓和模型評分都會快得多。
需要更少的存儲和計算。關注深度數據意味著您將更加智能地使用更小的磁盤並在雲中計算足跡。這直接轉化為較低的基礎設施成本。用您節省的資金聘請更多數據科學家和AI專家！
減少IT和數據科學家的壓力。當數據科學家花費更多時間構建和測試模型而不是移動數據或等待長時間的訓練來完成時，他們會更高興。
可以解決更難的問題。構建AI模型並不是一種神奇的體驗，只能由類似巫師的研究人員執行。它更多的是邏輯而不是魔術。它類似於一位藝術老師的故事，他告訴學生，他們一般的成績將取決於他們製作的藝術作品的數量，另一半將根據他們最好作品的質量進行評分。毫不奇怪，學生創造了大量的作品，並且他們做出了很多高品質的產品。在我們的例子中，在相同資源約束下嘗試的更多模型，可能意味著更好的模型。

原文鏈接：

https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

— 完 —

'大數據的4個神話以及使用深度數據的4種方法'

4種大數據神話

實際上

大數據的4個問題

4件能做的改變

改變後得到的4個好處

4種大數據神話

實際上

大數據的4個問題

4件能做的改變

改變後得到的4個好處

相關推薦