機器學習實戰及Python實現——主成分分析（PCA）

機器學習 Python 圖像處理編程語言極數蝸牛 2017-05-18

本篇主要講述數據預處理的常用方法——主成分分析，包括基本概念，數學基礎，優缺點，實施步驟及Python實現等內容。

1、基本概念

主成分分析（Principal Component Analysis，PCA）是一種比較常見的數據分析方法，主要運用於數據降維，是通過線性變換將原來數據（N維數據）轉換成線性無關的維度來表示，轉換後的維度是根據方差大小排列，因此通過提取前K維（K≤N）數據，從而實現原數據的維度的下降。該方法儘可能保存了原有數據的差異性。

如圖所示，將三維降到二維空間，有效區分數據樣本。

機器學習實戰及Python實現——主成分分析（PCA）

該分析方法主要應用場景包括圖像處理，人臉識別等領域。

2、數學原理

PCA的本質就是將原數據用新的正交基來表示，其中新的維度之間相互獨立，即它們之間的協方差為0。因此假設原數據為X，降維後的數據為Y，Y=P*X，其中P為轉變函數。根據主成分分析定義選擇合適的P能夠使Y的協方差之和為0。

公式推導過程：

（1）對X數據進行均值化（每個數減去其平均值）處理，能夠簡化其平方差和協方差的計算公式。

原方差計算公式為：

機器學習實戰及Python實現——主成分分析（PCA）

簡化後方差計算公式：

機器學習實戰及Python實現——主成分分析（PCA）

簡化後協方差計算公式：

機器學習實戰及Python實現——主成分分析（PCA）

（2）均值化後的數據為X，則其各維度的協方差和方差的計算可通過矩陣完成；

機器學習實戰及Python實現——主成分分析（PCA）

（3）設

機器學習實戰及Python實現——主成分分析（PCA）

則可通過方陣對角化可得：

機器學習實戰及Python實現——主成分分析（PCA）

（4）計算Y=P*X的協方差

機器學習實戰及Python實現——主成分分析（PCA）

（5）根據（3）步驟和（4）步驟的公式可得

機器學習實戰及Python實現——主成分分析（PCA）

通過計算可得出轉化函數P就是樣本協方差的特徵向量的轉置。

3、優缺點

主成分分析的優點：

（1）消除了各維度之間的相關性，能夠將數據轉換成各不相關並相互獨立的主成分；

（2）降低數據間的複雜性，通過降低維度，減少了模型工作量；

（3）相對客觀，該方法不受主觀影響，也沒有參數需要調整，任何人使用該方法結果都一樣。

主成分分析缺點：

（1）將會有部分信息丟失情況；

（2）分析後的數據，其物理含義和業務理解不明確，比較模糊。

4、實施步驟

PCA的一般實施步驟為：

（1）將原始數據組成n行m列矩陣X，其中n表示特徵屬性，m表示樣本；

（2）將X的每一行（代表一個屬性字段）進行零均值化，即減去這一行的均值；

（3）計算出X的協方差矩陣C；

機器學習實戰及Python實現——主成分分析（PCA）

（4）求出協方差矩陣C的特徵值及對應的特徵向量；

（5）將特徵向量按對應特徵值大小從上到下按行排列成矩陣，取前k行組成矩陣P；

（6）計算Y=PX為降維到k維後的數據

5、Python實現

本內容以簡單示例來實現數據的主成分分析

步驟一：數據準備，導入相關數據X和程序包；其中每列表示1個樣本，每行表示一個屬性特徵值。

機器學習實戰及Python實現——主成分分析（PCA）

步驟二：均值化數據；該樣本數據屬性平均值為【2,3】，通過均值化後數據將會以0為中心分佈；

機器學習實戰及Python實現——主成分分析（PCA）

步驟三：計算X的協方差C；

機器學習實戰及Python實現——主成分分析（PCA）

步驟四：計算協方差C的特徵值和特徵向量；特徵值為【2,5,0.5】

機器學習實戰及Python實現——主成分分析（PCA）

步驟五：將特徵向量根據特徵值按從大到小排列，取值K行組成P；本次選擇k=1，其對應的最大特徵向量為【0.707,0.707】

機器學習實戰及Python實現——主成分分析（PCA）

步驟六：通過P*X，計算降維後的Y，降維後的數據為【-2.12，-0.70,0,2.12,0.70】

機器學習實戰及Python實現——主成分分析（PCA）

另外，通過以下公式t(p)*(p*x)+x_mean ,可以還原為原數據

機器學習實戰及Python實現——主成分分析（PCA）

6、經驗總結

主成分分析是一種降維的數據分析方法，一般應用於數據預處理階段，尤其在特徵維度較多的場景下，能夠有效降低模型的計算量。有以下知識點需要注意：

（1）特徵值就是指每個成分維度的方差值，特徵值的佔比表示該主成分代表了原數據的差異性的多少，也表示含有多少原始數據的信息量；

（2）一般選擇前K維的方差佔比≥80%，既能夠有效減少信息丟失，又能夠減少維度。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'Python基礎學習教程系列講解——try_except異常處理機制'

"在Python編程中不可避免的會出現錯誤，在調試階段出現語法之類的錯誤時，Pycharm會在Debug窗口提示錯誤，但是程序在運行時由於內部隱含的問題而引起錯誤，會導致程序終止執行。比如以下例程中，使用urllib庫打開URL時由於網絡問題而發生了錯誤：import ur...

Python PyCharm 2019-09-15

'用Python控制Excel實現自動化辦公！附全套學習教程'

"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼：操作完成後，數據存儲結果如下：3. 操作簡單Excel文檔並添加數據格式操作代碼如下：附帶數據格式的定義操作效果如圖所示：4.Excel中添加不同類型的數據操作代碼如下：將不同的數據按照指定的格式添加到文件中代碼執行...

Excel Python 2019-09-15

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'Python黑客實戰編程--3分鐘教你如何暴力破解FTP服務器口令'

"很多關注我的小夥伴在上篇文章裡學習到了如何利用python去破解加密的ZIP壓縮文件，感覺很有意思，就有很多小夥伴問我有沒有利用python腳本實現FTP服務器口令的暴力破解，今天小編就以此篇文章內容給小夥伴們普及一下如何利用python編程腳本暴力破解ftp服務器口令!...

Python 黑客腳本語言文章人生第一份工作 2019-09-14

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'阿里巴巴Python工程師推出了的一份Python學習清單，絕對經典'

Python MySQL 工程師數據庫 Linux 程序員讀書面向對象程序編程 CSS Django HTML JavaScript MongoDB 阿里巴巴集團人工智能 jQuery 編程語言路由器算法硬件物聯網 2019-09-14

'都應該瞭解的Python函數式編程+2019最新python學習資料分享'

"文末小編整理了2019最新流出的python400集學習資料希望對大家有幫助謝謝“ 函數式編程（Functional Programming）或者函數程序設計，是一種編程範型。”它將計算機運算視為數學上的函數運算，並且避免使用程序狀態以及變量對象。以上只是簡單的函數式編程...

Python 泛函編程編程範型 Linux C語言機器學習程序設計 2019-09-13

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

推薦中...