自動人臉識別的經典過程分為三個步驟: 人臉檢測、人臉特徵點定位 (又稱人臉對齊) 、特徵提取和分類器設計。 一般來說,狹義的人臉識別是指
& Quot; 特徵提取分類器
& Quot; 算法研究的兩個部分。 在深度學習出現之前,人臉識別方法一般分為高維人工特徵提取 (如LBP、gabor等) 和降維兩步。 代表性的降維方法包括PCA和LDA等子空間學習方法和LPP等流行學習方法。 深度學習方法普及後,代表性的方法是從原始圖像空間直接學習判別人臉表示。 一般來說,人臉識別的研究歷史可以分為三個階段。 在第一階段 (1950年代-1980年代),人臉識別被視為一般的模式識別問題。 主流技術基於面部的幾何結構。 在第二階段 (20世紀90年代),人臉識別迅速發展,出現了許多經典方法,例如特徵臉,Fisher人臉和彈性圖匹配。 此時,主流技術路線是面向表觀建模。 在第三階段 (從20世紀90年代結束到現在),關於人臉識別的研究不斷深入。 研究人員開始關注人臉識別面對真實狀況,主要包括以下四個方面: 1) 提出不同的人臉空間模型,包括以線性判別分析為代表的線性建模方法、以核為代表的非線性建模方法和基於三維信息的三維人臉識別方法。 2) 深入分析和研究影響人臉識別的因素,包括光照不變人臉識別、姿態不變人臉識別和表情不變人臉識別。 3) 使用了新的特徵表示,包括局部描述符 (Gabor face,LBP face等) 和深度學習方法。 4) 使用新的數據源,例如基於視頻的人臉識別和基於草圖和近紅外圖像的人臉識別。 自2007年以來,LFW數據庫已成為真實條件下人臉識別的測試基準。 LFW數據集包括來自互聯網的5749人的13233人臉圖像,其中1680人具有兩個或更多個圖像。 LFW的標準測試協議包括6000對臉的十倍確認任務。 每個折疊包括300對正實例和300對負實例。 十倍平均精度作為績效評價指標。 自LFW發布以來,性能不斷刷新。 在2013之前,主要的技術路線是人工或基於學習的局部描述符測量學習。 經過2014,主要的技術路線是深入學習。 自2014年以來,深度學習大數據 (海量標註人臉數據) 已成為人臉識別領域的主流技術路線。 兩個重要的趨勢是: 1) 網絡變得越來越大,越來越深 (vggface16層,facenet22層)。 2) 隨著數據量的增加 (deepface 400萬,facenet 2億),大數據已成為提高人臉識別性能的關鍵。 在前DL時代,以vipl實驗室的第三代半SDK為例,關鍵技術點包括1) 塊面特徵融合: gabor特徵LPQ特徵。 2) 用於特徵約簡的子空間學習 (PCA LDA)。 3) 融合多尺度人臉歸一化模板。 在FRGC實驗4中,sdk3.5的相關技術在錯誤接受率0.1% 的情況下達到了96% 的確認率,這仍然是FRGC數據集中最好的結果。 需要說明的是,雖然深度學習強調的是特徵學習,但是學習特徵並不是DL的專利。 在前DL時代,使用淺層模型直接從圖像中學習表示以及基於人工描述符學習語義表示的工作 (例如用於學習中層屬性表示的屬性和simile分類器以及用於學習高級語義表示的Tom vs Pete) 在相關文獻中可以看到。 2014年,Facebook發表了其在cvpr14上的工作。 Deepface將大數據 (400萬人臉數據) 與深度卷積網絡相結合,在LFW數據集上接近人類識別的準確性。 Deepface還引入了局部連接的卷積結構,以在每個空間位置學習單獨的卷積內核。 缺點是會導致參數膨脹。 這種結構後來沒有流行起來。 Deepid家族可以看作是DL時代人臉識別領域的一組代表性作品。 最早的deepid網絡包括四個卷積層,並採用softmax損失函數。 Deepid2在deepid2網絡的基礎上同時考慮身份丟失和驗證丟失。 這兩個損失可以通過在Caffe深度學習框架中分別使用softmaxwithlos層和對比度損失層來實現。 Deepid2網絡在deepid2的基礎上增加了各層的輔助損失函數 (類似於深度監督網絡)。 Google於cvpr2015發表作品。 Facenet使用22層深度卷積網絡和海量人臉數據 (800萬人的2億圖像) 以及圖像檢索任務中常用的三重損失函數。 值得一提的是,由於人臉類別數達到800萬,如果使用softmax loss,輸出層節點數將達到800萬,並且至少需要32GB的視頻內存 (假設最後一個隱藏層節點有1024,使用單精度浮點數) 但是,三重態丟失不需要占用額外的視頻存儲器。 Facenet在LFW數據集上10% 折扣的平均準確率達到了99.63%,這也是迄今為止正式發表論文中最好的成績,幾乎宣告了LFW 2008年2015年上長達8年的性能競賽的結束。
![人臉識別的發展 _ 太格網科技 1]()