"
全文共3220字,預計學習時長6分鐘
"
全文共3220字,預計學習時長6分鐘
人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/photo/blur-clock-clock-face-close-up-280361/

在2007年,早在AI熱潮推動“深度學習”和“神經網絡”成為硅谷的流行語之前,人工智能界的大咖Learned-Miller和馬薩諸塞州阿默斯特分校的三位同事發佈了一個名為“Labeled Faces in the Wild”的人臉數據集。

對你我來說,Labeled Faces in the Wild這個人臉數據集看起來就像一個不起眼的圖像文件夾,可以下載圖像並尋找自己。裡面有張亞歷克·鮑德溫(Alec Baldwin)指著鏡頭外某個人的照片,有哈莉·貝瑞(Halle Berry)在奧斯卡頒獎典禮上微笑的照片,還有拳擊手喬·加蒂(Joe Gatti)在中場比賽中舉起手套的照片。但對於人工智能算法而言,這些文件夾包含著模擬人臉意義的精髓。

"
全文共3220字,預計學習時長6分鐘
人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/photo/blur-clock-clock-face-close-up-280361/

在2007年,早在AI熱潮推動“深度學習”和“神經網絡”成為硅谷的流行語之前,人工智能界的大咖Learned-Miller和馬薩諸塞州阿默斯特分校的三位同事發佈了一個名為“Labeled Faces in the Wild”的人臉數據集。

對你我來說,Labeled Faces in the Wild這個人臉數據集看起來就像一個不起眼的圖像文件夾,可以下載圖像並尋找自己。裡面有張亞歷克·鮑德溫(Alec Baldwin)指著鏡頭外某個人的照片,有哈莉·貝瑞(Halle Berry)在奧斯卡頒獎典禮上微笑的照片,還有拳擊手喬·加蒂(Joe Gatti)在中場比賽中舉起手套的照片。但對於人工智能算法而言,這些文件夾包含著模擬人臉意義的精髓。

人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:馬薩諸塞大學阿默斯特分校

這就是Labeled Faces in the Wild(通常縮寫為LFW)為何如此重要的原因。在過去十年中,它經常被一些最有影響力的人臉識別研究所引用。在2014年和2015年,當谷歌和Facebook在人臉識別準確性方面進行競爭時,最常見的測試就是對LFW這個不變數據庫中的圖像進行性能分類。LFW前前後後被引用過3500次,引用者包括微軟和斯坦福大學的研究人員、中國和香港的計算機科學家以及最先負責神經網絡的傑弗裡·辛頓(Geoff Hinton)等人。

這十分重要。

但如今人工智能也是一項重大業務,Learned-Miller正在考慮如何管控這項技術。他現在的主要觀點是:像美國食品藥品監督管理局監管醫療器械行業一樣去監管人工智能。對此,他還沒有為這個機構想到官方的名稱,但正在考慮的一個想法是:將其命名為FDA 2號:人臉識別和檢測機構。

其中的問題就是面部識別工作並不盡如人意。研究表明,在現實世界中使用人臉識別會存在偏差:與深膚色人群相比,人臉識別更擅長識別淺膚色人群,也更擅長對男性的圖像進行分類。原因在於用算法來學習不同人臉差異的數據庫存有偏差。例如,LFW的圖像主要以白人男性為主。因此,在數據集上訓練的算法在處理超出這些參數的人臉時自然就會出現問題。

2019年的科技格局與2007年LFW首次發佈時的科技格局大有不同。人們今天熟知的人工智能主要集中在研究上,只有少數學校對所謂的神經網絡感興趣,如紐約大學和多倫多大學。

今天,人工智能可以並且也正在現實世界中使用。聯網攝像機可以將圖像發送到數據中心,實時進行面部識別,而智能手機(如具有FaceID的新型iPhone)通常把面部識別用作安全性能。政府機構也對面部識別產生了濃厚的興趣。多年來,聯邦調查局一直使用基於駕照和護照照片的人臉識別來進行執法而很少受到監督。國會最近在眾議院監督委員會聽證會上對此提出了質詢。10年前進行的研究現在觸手可得。

對於Learned-Miller而言,這項研究始於20世紀80年代和90年代的一個簡單想法:人類非常善於識別面孔。人類識別數百萬張不同面部的技能可用於其他計算機視覺任務,因此複製這種能力對於推進人工智能意義重大。

“從科學的角度看,人們面部識別的能力直到最近才被認為非常好,”Learned-Miller告訴科技公司OneZero。“人類能大量接觸到不同人臉,正確辨別這些人臉十分重要。正是如此人類才不斷進化並學著去辨別其他人。這項能力非常有趣。”

Learned-Miller講述了一個故事:當時他走在舊金山的街道上,他認出了一個25年來都未曾見過的人。即使他們的臉因年齡發生了改變,而且Learned-Miller在這25年間見了數百萬張面孔,但他的大腦仍然能夠認出並記起這個人是誰。

Learned-Miller表示,2007年的計算機人臉識別不論在哪一方面都無法企及人類水平。在人臉識別偏差成為一個問題之前,研究人員只想讓它有效地工作。

不準確的人臉識別可能會帶來不同嚴重程度的問題。較輕的問題包括也許某個智能手機無法識別深色皮膚的面孔以及有照明的肖像。嚴重的問題包括比如像谷歌照片這樣的產品可能會把黑人與關鍵詞“大猩猩”聯繫起來。或者,不準確的人臉識別可能會導致執法人員錯將他人認為犯罪嫌疑人。

這讓Learned-Miller陷入了一個不安的境地:人臉識別這項技術已經運用在世界各地,並未以應有的方式得以運用。Learned-Miller表示已經獲得了資助,可以搭建另一個大型的人臉識別數據庫,但是為了繼續研究如何搭建更公平以及更符合歐洲GDPR等新數據法則的人臉識別數據集,Learned-Miller一一婉拒了贊助者。

“你可能會說最簡單的方法就是停止研究,但實際上這個出路並不可行,因為現在已經有不公平的[數據集]了。”Learned-Miller表示。“我們陷入了這種瘋狂的束縛中,看起來似乎沒有好的方向可走,但其實我們也沒有處在一個好的位置。”

Learned-Miller提出的FDA 2號解決方案不是要放棄研究,而是要規範面部識別的使用方式。他的想法是效仿美國食品藥品監督管理局(FDA)對醫療器械的清關程序。由於醫療器械的不同侷限性可能意味著生與死的區別,因此美國食品藥品監督管理局要求對包括導管到手術工具在內的所有醫療器械都要進行詳盡的測試,這被稱為510(k)許可。

“我曾經在醫療器械行業工作過,所以寫了很多這些東西。這些都是數據十分龐大的文件,可以提供研究成果和其他所有信息,”Learned-Miller表示。“這方面的很多內容都非常適合用於面部識別。其中包括計劃好的使用途徑以及支持這一途徑的數據。

“當然,相反的情況就會出現一些限制。比如,我們從來沒有在夜間圖像上測試過這個軟件;因此不應該使用該軟件測試夜間圖像。我們從未對15歲以下的孩子進行測試,因此也不可以用在15歲以下的孩子身上。”

LFW不會朝著其他方向發展,也不會發生改變。這是因為LFW不能這麼做,它最重要的一點就是保持不變。這是一個基準測試,人們可以在同一級別的競爭環境中測試算法。

"
全文共3220字,預計學習時長6分鐘
人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/photo/blur-clock-clock-face-close-up-280361/

在2007年,早在AI熱潮推動“深度學習”和“神經網絡”成為硅谷的流行語之前,人工智能界的大咖Learned-Miller和馬薩諸塞州阿默斯特分校的三位同事發佈了一個名為“Labeled Faces in the Wild”的人臉數據集。

對你我來說,Labeled Faces in the Wild這個人臉數據集看起來就像一個不起眼的圖像文件夾,可以下載圖像並尋找自己。裡面有張亞歷克·鮑德溫(Alec Baldwin)指著鏡頭外某個人的照片,有哈莉·貝瑞(Halle Berry)在奧斯卡頒獎典禮上微笑的照片,還有拳擊手喬·加蒂(Joe Gatti)在中場比賽中舉起手套的照片。但對於人工智能算法而言,這些文件夾包含著模擬人臉意義的精髓。

人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:馬薩諸塞大學阿默斯特分校

這就是Labeled Faces in the Wild(通常縮寫為LFW)為何如此重要的原因。在過去十年中,它經常被一些最有影響力的人臉識別研究所引用。在2014年和2015年,當谷歌和Facebook在人臉識別準確性方面進行競爭時,最常見的測試就是對LFW這個不變數據庫中的圖像進行性能分類。LFW前前後後被引用過3500次,引用者包括微軟和斯坦福大學的研究人員、中國和香港的計算機科學家以及最先負責神經網絡的傑弗裡·辛頓(Geoff Hinton)等人。

這十分重要。

但如今人工智能也是一項重大業務,Learned-Miller正在考慮如何管控這項技術。他現在的主要觀點是:像美國食品藥品監督管理局監管醫療器械行業一樣去監管人工智能。對此,他還沒有為這個機構想到官方的名稱,但正在考慮的一個想法是:將其命名為FDA 2號:人臉識別和檢測機構。

其中的問題就是面部識別工作並不盡如人意。研究表明,在現實世界中使用人臉識別會存在偏差:與深膚色人群相比,人臉識別更擅長識別淺膚色人群,也更擅長對男性的圖像進行分類。原因在於用算法來學習不同人臉差異的數據庫存有偏差。例如,LFW的圖像主要以白人男性為主。因此,在數據集上訓練的算法在處理超出這些參數的人臉時自然就會出現問題。

2019年的科技格局與2007年LFW首次發佈時的科技格局大有不同。人們今天熟知的人工智能主要集中在研究上,只有少數學校對所謂的神經網絡感興趣,如紐約大學和多倫多大學。

今天,人工智能可以並且也正在現實世界中使用。聯網攝像機可以將圖像發送到數據中心,實時進行面部識別,而智能手機(如具有FaceID的新型iPhone)通常把面部識別用作安全性能。政府機構也對面部識別產生了濃厚的興趣。多年來,聯邦調查局一直使用基於駕照和護照照片的人臉識別來進行執法而很少受到監督。國會最近在眾議院監督委員會聽證會上對此提出了質詢。10年前進行的研究現在觸手可得。

對於Learned-Miller而言,這項研究始於20世紀80年代和90年代的一個簡單想法:人類非常善於識別面孔。人類識別數百萬張不同面部的技能可用於其他計算機視覺任務,因此複製這種能力對於推進人工智能意義重大。

“從科學的角度看,人們面部識別的能力直到最近才被認為非常好,”Learned-Miller告訴科技公司OneZero。“人類能大量接觸到不同人臉,正確辨別這些人臉十分重要。正是如此人類才不斷進化並學著去辨別其他人。這項能力非常有趣。”

Learned-Miller講述了一個故事:當時他走在舊金山的街道上,他認出了一個25年來都未曾見過的人。即使他們的臉因年齡發生了改變,而且Learned-Miller在這25年間見了數百萬張面孔,但他的大腦仍然能夠認出並記起這個人是誰。

Learned-Miller表示,2007年的計算機人臉識別不論在哪一方面都無法企及人類水平。在人臉識別偏差成為一個問題之前,研究人員只想讓它有效地工作。

不準確的人臉識別可能會帶來不同嚴重程度的問題。較輕的問題包括也許某個智能手機無法識別深色皮膚的面孔以及有照明的肖像。嚴重的問題包括比如像谷歌照片這樣的產品可能會把黑人與關鍵詞“大猩猩”聯繫起來。或者,不準確的人臉識別可能會導致執法人員錯將他人認為犯罪嫌疑人。

這讓Learned-Miller陷入了一個不安的境地:人臉識別這項技術已經運用在世界各地,並未以應有的方式得以運用。Learned-Miller表示已經獲得了資助,可以搭建另一個大型的人臉識別數據庫,但是為了繼續研究如何搭建更公平以及更符合歐洲GDPR等新數據法則的人臉識別數據集,Learned-Miller一一婉拒了贊助者。

“你可能會說最簡單的方法就是停止研究,但實際上這個出路並不可行,因為現在已經有不公平的[數據集]了。”Learned-Miller表示。“我們陷入了這種瘋狂的束縛中,看起來似乎沒有好的方向可走,但其實我們也沒有處在一個好的位置。”

Learned-Miller提出的FDA 2號解決方案不是要放棄研究,而是要規範面部識別的使用方式。他的想法是效仿美國食品藥品監督管理局(FDA)對醫療器械的清關程序。由於醫療器械的不同侷限性可能意味著生與死的區別,因此美國食品藥品監督管理局要求對包括導管到手術工具在內的所有醫療器械都要進行詳盡的測試,這被稱為510(k)許可。

“我曾經在醫療器械行業工作過,所以寫了很多這些東西。這些都是數據十分龐大的文件,可以提供研究成果和其他所有信息,”Learned-Miller表示。“這方面的很多內容都非常適合用於面部識別。其中包括計劃好的使用途徑以及支持這一途徑的數據。

“當然,相反的情況就會出現一些限制。比如,我們從來沒有在夜間圖像上測試過這個軟件;因此不應該使用該軟件測試夜間圖像。我們從未對15歲以下的孩子進行測試,因此也不可以用在15歲以下的孩子身上。”

LFW不會朝著其他方向發展,也不會發生改變。這是因為LFW不能這麼做,它最重要的一點就是保持不變。這是一個基準測試,人們可以在同一級別的競爭環境中測試算法。

人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/@rawpixel

但LFW可以利用信息披露。Learned-Miller表示,這個數據集並不是用來測試一種算法是否適用於現實世界。就像一種藥物可能會標有警告一樣......面部識別系統也可以標記上“可以做”和“不可以做”的標籤,清楚地概述用戶所期待的內容。

“我可能很快就會這樣做,在LFW網站上放一些免責聲明。比如,軟件在數據庫測試上表現良好並不意味著該軟件就可以部署了。”他表示。“這並不能表明你的人臉識別能力已經準備好了。我想大多數人都明白這一點,但也有些人不瞭解。數據集裡沒有孩子,也沒有很多老人,而且裡面的女性也不多。”

這又回到了Learned-Miller提出的FDA 2號這一想法。美國食品和藥物管理局的存在就是為了確保藥店貨架上的補充劑不會對消費者造成傷害。但即使面部識別使用不當會帶來致命的後果,目前也沒有對面部識別的監管。正如一種藥物可能會標有警告:服用該藥物的人不應該飲酒或使用重型機械,面部識別系統也可以清楚地標明可做事項和禁止事項,並概述用戶的預期。

“這些重要的標準機制可以顯著提高藥物療效和安全性。”Learned-Miller表示,“沒有人會想回到沒有食品藥品監督管理局的日子。所以我認為這是可行的,但需要時間。”

"
全文共3220字,預計學習時長6分鐘
人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/photo/blur-clock-clock-face-close-up-280361/

在2007年,早在AI熱潮推動“深度學習”和“神經網絡”成為硅谷的流行語之前,人工智能界的大咖Learned-Miller和馬薩諸塞州阿默斯特分校的三位同事發佈了一個名為“Labeled Faces in the Wild”的人臉數據集。

對你我來說,Labeled Faces in the Wild這個人臉數據集看起來就像一個不起眼的圖像文件夾,可以下載圖像並尋找自己。裡面有張亞歷克·鮑德溫(Alec Baldwin)指著鏡頭外某個人的照片,有哈莉·貝瑞(Halle Berry)在奧斯卡頒獎典禮上微笑的照片,還有拳擊手喬·加蒂(Joe Gatti)在中場比賽中舉起手套的照片。但對於人工智能算法而言,這些文件夾包含著模擬人臉意義的精髓。

人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:馬薩諸塞大學阿默斯特分校

這就是Labeled Faces in the Wild(通常縮寫為LFW)為何如此重要的原因。在過去十年中,它經常被一些最有影響力的人臉識別研究所引用。在2014年和2015年,當谷歌和Facebook在人臉識別準確性方面進行競爭時,最常見的測試就是對LFW這個不變數據庫中的圖像進行性能分類。LFW前前後後被引用過3500次,引用者包括微軟和斯坦福大學的研究人員、中國和香港的計算機科學家以及最先負責神經網絡的傑弗裡·辛頓(Geoff Hinton)等人。

這十分重要。

但如今人工智能也是一項重大業務,Learned-Miller正在考慮如何管控這項技術。他現在的主要觀點是:像美國食品藥品監督管理局監管醫療器械行業一樣去監管人工智能。對此,他還沒有為這個機構想到官方的名稱,但正在考慮的一個想法是:將其命名為FDA 2號:人臉識別和檢測機構。

其中的問題就是面部識別工作並不盡如人意。研究表明,在現實世界中使用人臉識別會存在偏差:與深膚色人群相比,人臉識別更擅長識別淺膚色人群,也更擅長對男性的圖像進行分類。原因在於用算法來學習不同人臉差異的數據庫存有偏差。例如,LFW的圖像主要以白人男性為主。因此,在數據集上訓練的算法在處理超出這些參數的人臉時自然就會出現問題。

2019年的科技格局與2007年LFW首次發佈時的科技格局大有不同。人們今天熟知的人工智能主要集中在研究上,只有少數學校對所謂的神經網絡感興趣,如紐約大學和多倫多大學。

今天,人工智能可以並且也正在現實世界中使用。聯網攝像機可以將圖像發送到數據中心,實時進行面部識別,而智能手機(如具有FaceID的新型iPhone)通常把面部識別用作安全性能。政府機構也對面部識別產生了濃厚的興趣。多年來,聯邦調查局一直使用基於駕照和護照照片的人臉識別來進行執法而很少受到監督。國會最近在眾議院監督委員會聽證會上對此提出了質詢。10年前進行的研究現在觸手可得。

對於Learned-Miller而言,這項研究始於20世紀80年代和90年代的一個簡單想法:人類非常善於識別面孔。人類識別數百萬張不同面部的技能可用於其他計算機視覺任務,因此複製這種能力對於推進人工智能意義重大。

“從科學的角度看,人們面部識別的能力直到最近才被認為非常好,”Learned-Miller告訴科技公司OneZero。“人類能大量接觸到不同人臉,正確辨別這些人臉十分重要。正是如此人類才不斷進化並學著去辨別其他人。這項能力非常有趣。”

Learned-Miller講述了一個故事:當時他走在舊金山的街道上,他認出了一個25年來都未曾見過的人。即使他們的臉因年齡發生了改變,而且Learned-Miller在這25年間見了數百萬張面孔,但他的大腦仍然能夠認出並記起這個人是誰。

Learned-Miller表示,2007年的計算機人臉識別不論在哪一方面都無法企及人類水平。在人臉識別偏差成為一個問題之前,研究人員只想讓它有效地工作。

不準確的人臉識別可能會帶來不同嚴重程度的問題。較輕的問題包括也許某個智能手機無法識別深色皮膚的面孔以及有照明的肖像。嚴重的問題包括比如像谷歌照片這樣的產品可能會把黑人與關鍵詞“大猩猩”聯繫起來。或者,不準確的人臉識別可能會導致執法人員錯將他人認為犯罪嫌疑人。

這讓Learned-Miller陷入了一個不安的境地:人臉識別這項技術已經運用在世界各地,並未以應有的方式得以運用。Learned-Miller表示已經獲得了資助,可以搭建另一個大型的人臉識別數據庫,但是為了繼續研究如何搭建更公平以及更符合歐洲GDPR等新數據法則的人臉識別數據集,Learned-Miller一一婉拒了贊助者。

“你可能會說最簡單的方法就是停止研究,但實際上這個出路並不可行,因為現在已經有不公平的[數據集]了。”Learned-Miller表示。“我們陷入了這種瘋狂的束縛中,看起來似乎沒有好的方向可走,但其實我們也沒有處在一個好的位置。”

Learned-Miller提出的FDA 2號解決方案不是要放棄研究,而是要規範面部識別的使用方式。他的想法是效仿美國食品藥品監督管理局(FDA)對醫療器械的清關程序。由於醫療器械的不同侷限性可能意味著生與死的區別,因此美國食品藥品監督管理局要求對包括導管到手術工具在內的所有醫療器械都要進行詳盡的測試,這被稱為510(k)許可。

“我曾經在醫療器械行業工作過,所以寫了很多這些東西。這些都是數據十分龐大的文件,可以提供研究成果和其他所有信息,”Learned-Miller表示。“這方面的很多內容都非常適合用於面部識別。其中包括計劃好的使用途徑以及支持這一途徑的數據。

“當然,相反的情況就會出現一些限制。比如,我們從來沒有在夜間圖像上測試過這個軟件;因此不應該使用該軟件測試夜間圖像。我們從未對15歲以下的孩子進行測試,因此也不可以用在15歲以下的孩子身上。”

LFW不會朝著其他方向發展,也不會發生改變。這是因為LFW不能這麼做,它最重要的一點就是保持不變。這是一個基準測試,人們可以在同一級別的競爭環境中測試算法。

人臉數據集Labeled Faces in the Wild到底有多牛

圖片來源:https://www.pexels.com/@rawpixel

但LFW可以利用信息披露。Learned-Miller表示,這個數據集並不是用來測試一種算法是否適用於現實世界。就像一種藥物可能會標有警告一樣......面部識別系統也可以標記上“可以做”和“不可以做”的標籤,清楚地概述用戶所期待的內容。

“我可能很快就會這樣做,在LFW網站上放一些免責聲明。比如,軟件在數據庫測試上表現良好並不意味著該軟件就可以部署了。”他表示。“這並不能表明你的人臉識別能力已經準備好了。我想大多數人都明白這一點,但也有些人不瞭解。數據集裡沒有孩子,也沒有很多老人,而且裡面的女性也不多。”

這又回到了Learned-Miller提出的FDA 2號這一想法。美國食品和藥物管理局的存在就是為了確保藥店貨架上的補充劑不會對消費者造成傷害。但即使面部識別使用不當會帶來致命的後果,目前也沒有對面部識別的監管。正如一種藥物可能會標有警告:服用該藥物的人不應該飲酒或使用重型機械,面部識別系統也可以清楚地標明可做事項和禁止事項,並概述用戶的預期。

“這些重要的標準機制可以顯著提高藥物療效和安全性。”Learned-Miller表示,“沒有人會想回到沒有食品藥品監督管理局的日子。所以我認為這是可行的,但需要時間。”

人臉數據集Labeled Faces in the Wild到底有多牛

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

編譯組:李林虹、餘昊燁

相關鏈接:

https://onezero.medium.com/an-a-i-pioneer-wants-an-fda-for-facial-recognition-cdde309cf553

如需轉載,請後臺留言,遵守轉載規範

"

相關推薦

推薦中...