自20世紀下半葉,計算機視覺技術逐漸地發(fā)展壯大。同時,伴隨著數(shù)字圖像相關的軟硬件技術在人們生活中的廣泛使用,數(shù)字圖像已經(jīng)成為當代社會信息來源的重要構成因素,各種圖像處理與分析的需求和應用也不斷促使該技術的革新。計算機視覺技術的應用十分廣泛。數(shù)字圖像檢索管理、醫(yī)學影像分析、智能安檢、人機交互等領域都有計算機視覺技術的涉足。該技術是人工智能技術的重要組成部分,也是當今計算機科學研究的前沿領域。經(jīng)過近年的不斷發(fā)展,已逐步形成一套以數(shù)字信號處理技術。計算機圖形圖像、信息論和語義學相互結合的綜合性技術,并具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內(nèi)的一個熱門研究課題, 也是目前生物特征識別中最受人們關注的一個分支。
人臉識別,是基于人的臉部特征信息進行身份識別的一種生物識別技術。通常采用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉。根據(jù)資料,2017 年生物識別技術全球市場規(guī)模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規(guī)模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規(guī)模增長了 166.6%,在眾多生物識別技術中增幅居于首位,預計到 2020 年人臉識別技術市場規(guī)模將上升至 24 億美元。
本期我們推薦來自清華大學副教授唐杰領導的學者大數(shù)據(jù)挖掘項目Aminer的研究報告,講解人臉識別技術及其應用領域,介紹人臉識別領域的國內(nèi)玩人才并預測該技術的發(fā)展趨勢。
人臉識別技術概述
1、基本概念
人類視覺系統(tǒng)的獨特魅力驅使著研究者們試圖通過視覺傳感器和計算機軟硬件模擬出人類對三維世界圖像的采集、處理、分析和學習能力,以便使計算機和機器人系統(tǒng)具有智能化的視覺功能。在過去 30 年間,眾多不同領域的科學家們不斷地嘗試從多個角度去了解生物視覺和神經(jīng)系統(tǒng)的奧秘,以便借助其研究成果造福人類。自 20 世紀下半葉,計算機視覺技術就在此背景下逐漸地發(fā)展壯大。同時,伴隨著數(shù)字圖像相關的軟硬件技術在人們生活中的廣泛使用,數(shù)字圖像已經(jīng)成為當代社會信息來源的重要構成因素,各種圖像處理與分析的需求和應用也不斷促使該技術的革新。
計算機視覺技術的應用十分廣泛。數(shù)字圖像檢索管理、醫(yī)學影像分析、智能安檢、人機交互等領域都有計算機視覺技術的涉足。該技術是人工智能技術的重要組成部分,也是當今計算機科學研究的前沿領域。經(jīng)過近年的不斷發(fā)展,已逐步形成一套以數(shù)字信號處理技術、計算機圖形圖像、信息論和語義學相互結合的綜合性技術,并具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內(nèi)的一個熱門研究課題, 也是目前生物特征識別中最受人們關注的一個分支。
人臉識別,是基于人的臉部特征信息進行身份識別的一種生物識別技術。通常采用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉。根據(jù)中國報告網(wǎng)發(fā)布《2018 年中國生物識別市場分析報告-行業(yè)深度分析與發(fā)展前景預測》中內(nèi)容,2017 年生物識別技術全球市場規(guī)模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規(guī)模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規(guī)模增長了 166.6%,在眾多生物識別技術中增幅居于首位,預計到 2020 年人臉識別技術市場規(guī)模將上升至 24 億美元。
在不同的生物特征識別方法中,人臉識別有其自身特殊的優(yōu)勢,因而在生物識別中有著重要的地位。人臉識別的五個優(yōu)勢:
非侵擾性。人臉識別無需干擾人們的正常行為就能較好地達到識別效果,無需擔心被識別者是否愿意將手放在指紋采集設備上,他們的眼睛是否能夠對準虹膜掃描裝置等等。只要在攝像機前自然地停留片刻,用戶的身份就會被正確識別。
便捷性。采集設備簡單,使用快捷。一般來說,常見的攝像頭就可以用來進行人臉圖像的采集, 不需特別復雜的專用設備。圖像采集在數(shù)秒內(nèi)即可完成。
友好性。通過人臉識別身份的方法與人類的習慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經(jīng)過特殊訓練的人,無法利用指紋和虹膜圖像對其他人進行身份識別。
非接觸性。人臉圖像信息的采集不同于指紋信息的采集,利用指紋采集信息需要用手指接觸到采集設備,既不衛(wèi)生,也容易引起使用者的反感,而人臉圖像采集,用戶不需要與設備直接接觸。
可擴展性。在人臉識別后,下一步數(shù)據(jù)的處理和應用,決定著人臉識別設備的實際應用,如應用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識別等各個領域,可擴展性強。
正是因為人臉識別擁有這些良好的特性,使其具有非常廣泛的應用前景,也正引起學術界和商業(yè)界越來越多的關注。人臉識別已經(jīng)廣泛應用于身份識別、活體檢測、唇語識別、創(chuàng)意相機、人臉美化、社交平臺等場景中。
2、發(fā)展歷程
早在 20 世紀 50 年代,認知科學家就已著手對人臉識別展開研究。20 世紀 60 年代,人臉識別工程化應用研究正式開啟。當時的方法主要利用了人臉的幾何結構,通過分析人臉器官特征點及其之間的拓撲關系進行辨識。這種方法簡單直觀,但是一旦人臉姿態(tài)、表情發(fā)生變化,精度則嚴重下降。
20世紀90年代:1991 年,著名的“特征臉”(Eigenface)方法第一次將主成分分析和統(tǒng)計特征技術引入人臉識別,在實用效果上取得了長足的進步。這一思路也在后續(xù)研究中得到進一步發(fā)揚光大, 例如,Belhumer 成功將 Fisher 判別準則應用于人臉分類,提出了基于線性判別分析的Fisherface 方法。
2000-2012年:21 世紀的前十年,隨著機器學習理論的發(fā)展,學者們相繼探索出了基于遺傳算法、支持向量機(Support Vector Machine,SVM)、boosting、流形學習以及核方法等進行人臉識別。2009 年至 2012 年,稀疏表達(Sparse Representation)因為其優(yōu)美的理論和對遮擋因素的魯棒性成為當時的研究熱點。與此同時,業(yè)界也基本達成共識:基于人工精心設計的局部描述子進行特征提取和子空間方法進行特征選擇能夠取得最好的識別效果。
Gabor 及 LBP 特征描述子是迄今為止在人臉識別領域最為成功的兩種人工設計局部描述子。這期間,對各種人臉識別影響因子的針對性處理也是那一階段的研究熱點,比如人臉光照歸一化、人臉姿態(tài)校正、人臉超分辨以及遮擋處理等。
也是在這一階段,研究者的關注點開始從受限場景下的人臉識別轉移到非受限環(huán)境下的人臉識別。LFW 人臉識別公開競賽(LFW 是由美國馬薩諸塞大學發(fā)布并維護的公開人臉數(shù)集,測試數(shù)據(jù)規(guī)模為萬)在此背景下開始流行,當時最好的識別系統(tǒng)盡管在受限的 FRGC 測試集上能取得 99%以上的識別精度,但是在 LFW 上的最高精度僅僅在 80%左右,距離實用看起來距離頗遠。
2013年:微軟亞洲研究院的研究者首度嘗試了 10 萬規(guī)模的大訓練數(shù)據(jù),并基于高維LBP 特征和 Joint Bayesian 方法在 LFW 上獲得了 95.17%的精度。這一結果表明:大訓練數(shù)據(jù)集對于有效提升非受限環(huán)境下的人臉識別很重要。然而,以上所有這些經(jīng)典方法,都難以處理大規(guī)模數(shù)據(jù)集的訓練場景。
2014年:2014 年前后,隨著大數(shù)據(jù)和深度學習的發(fā)展,神經(jīng)網(wǎng)絡重受矚目,并在圖像分類、手寫體識別、語音識別等應用中獲得了遠超經(jīng)典方法的結果。香港中文大學的 Sun Yi 等人提出將卷積神經(jīng)網(wǎng)絡應用到人臉識別上,采用 20 萬訓練數(shù)據(jù),在 LFW 上第一次得到超過人類水平的識別精度,這是人臉識別發(fā)展歷史上的一座里程碑。自此之后,研究者們不斷改進網(wǎng)絡結構,同時擴大訓練樣本規(guī)模,將 LFW 上的識別精度推到 99.5%以上。人臉識別發(fā)展過程中一些經(jīng)典的方法及其在 LFW 上的精度,都有一個基本的趨勢:訓練數(shù)據(jù)規(guī)模越來越大,識別精度越來越高。
▲人臉識別技術發(fā)展歷程
3、中國政策支持
2015 年以來,國家密集出臺了《關于銀行業(yè)金融機構遠程開立人民幣賬戶的指導意見(征求意見稿)》,給人臉識別普及打開了門縫;其后,《安全防范視頻監(jiān)控人臉識別系統(tǒng)技術要求》、《信息安全技術網(wǎng)絡人臉識別認證系統(tǒng)安全技術要求》等法律法規(guī),為人臉識別在金融、安防、醫(yī)療等領域的普及打下了堅實的基礎,掃清了政策障礙。同時,2017 年人工智能首次寫入國家政府報告,作為人工智能的重要細分領域,國家對人臉識別相關的政策支持力度在不斷的加大。2017 年 12 月發(fā)布的《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020 年)》規(guī)劃“到 2020 年,復雜動態(tài)場景下人臉識別有效檢出率超過 97%,正確識別率超過 90%”。
▲人臉識別相關政策
4、發(fā)展熱點
研究通過對以往人臉識別領域論文的挖掘,總結出人臉識別領域的研究關鍵詞主要集中在人臉識別、特征提取、稀疏表示、圖像分類、神經(jīng)網(wǎng)絡、目標檢測、人臉圖像、人臉檢測、圖像表示、計算機視覺、姿態(tài)估計、人臉確認等領域。
下圖是對人臉識別研究趨勢的分析,旨在基于歷史的科研成果數(shù)據(jù)的基礎上,對技術來源、熱度甚至發(fā)展趨勢進行研究。圖 2 中,每個彩色分支代表一個關鍵詞領域,其寬度表示該關鍵詞的研究熱度,各關鍵詞在每一年份的位置是按照這一時間上所有關鍵詞的熱度高度進行排序。起初,Computer Vision(計算機視覺)是研究的熱點,在 20 世紀末期,F(xiàn)eature Extraction(特征提。┏ CV,成為研究的新熱點,其后在 21 世紀初期被 Face Recognition 超過,至今一直處在第二的位置上。
▲人臉識別相關熱點
此外,研究根據(jù)最近兩年發(fā)表于 FG(International Conference on Automatic Face and Gesture Recognition)的論文中提取出來的關鍵詞發(fā)現(xiàn),F(xiàn)ace Recognition 出現(xiàn)頻率最高,為118 次,Object Detection 排在第二位,為 41 次,Image Classification 和 Object Recognition 以36 次并列第三,出現(xiàn)次數(shù)超過十次的詞匯還有 Image Segmentation(32)、Action Recognition(32)、Sparse Representation(28)、Image Retrieval(27)、Visual Tracking(24)、SingleImage(23)。詞云圖如下所示:
▲人臉識別詞云分析
5、人臉識別相關會議
計算機視覺(CV)界三大頂級國際會議:
ICCV: IEEE International Conference on Computer Vision
該會議由美國電氣和電子工程師學會(IEEE, Institute of Electrical & Electronic Engineers)主辦,主要在歐洲、亞洲、美洲的一些科研實力較強的國家舉行。作為世界頂級的學術會議,首屆國際計算機視覺大會于 1987 年在倫敦揭幕,其后兩年舉辦一屆。 ICCV 是計算機視覺領域最高級別的會議,會議的論文集代表了計算機視覺領域最新的發(fā)展方向和水平。 論文接受率在 20%左右。方向為計算機視覺、模式識別、多媒體計算等。
近年來,全球學界愈來愈關注中國人在計算機視覺領域所取得的科研成就,這是因為由中國人主導的相關研究已取得了長足的進步——2007 年大會共收到論文 1200 余篇,而獲選論文僅為 244 篇,其中來自中國大陸,香港及臺灣的論文有超過 30 篇,超過大會獲選論文總數(shù)的 12%。作為最早投入深度學習技術研發(fā)的華人團隊,在多年布局的關鍵技術基礎之上,香港中文大學教授湯曉鷗率領的團隊迅速取得技術突破。2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自湯曉鷗實驗室,而在 2013 年國際計算機視覺大會(ICCV)上全球學者共發(fā)表的 8 篇深度學習領域的文章中,有 6 篇出自湯曉鷗實驗室。
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
該會議是由 IEEE 舉辦的計算機視覺和模式識別領域的頂級會議。每年召開一次,錄取率在 25%左右。方向為計算機視覺、模式識別、多媒體計算等。
香港中文大學教授湯曉鷗率領的團隊在全球范圍內(nèi)做出了大量深度學習原創(chuàng)技術突破:2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自其實驗室;2011—2013 年間在計算機視覺領域兩大頂級會議 ICCV 和 CVPR 上發(fā)表了 14 篇深度學習論文,占據(jù)全世界在這兩個會議上深度學習論文總數(shù)(29篇)的近一半。他在 2009 年獲得計算機視覺領域兩大最頂尖的國際學術會議之一 CVPR 最佳論文獎,這是 CVPR 歷史上來自亞洲的論文首次獲獎。
ECCV:European Conference on Computer Vision
ECCV 是一個歐洲的會議,每次會議在全球范圍錄用論文 300 篇左右,主要的錄用論文都來自美國、歐洲等頂尖實驗室及研究所,中國大陸的論文數(shù)量一般在 10-20 篇之間。ECCV2010 的論文錄取率為 27%。兩年召開一次,論文接受率在 20%左右。方向為計算機視覺、模式識別、多媒體計算等。2018 年的 ECCV 于 2018 年 9 月 8 日-14 日在德國慕尼黑舉辦。
亞洲計算機視覺會議:
ACCV:Asian Conference on Computer Vision
ACCV 即亞洲計算機視覺會議,是 AFCV(Asian Federation of Computer Vision,亞洲計算機視覺聯(lián)盟)自 1993 年以來官方組織的兩年一度的會議,旨在為研究者、開發(fā)者和參與者提供一個良好的平臺來展示和討論計算機視覺領域和相關領域的新問題、新方案和新技術。2018 年第 14 屆亞洲計算機視覺會議將于 2018 年 12 月 4 日-6 日在澳大利亞舉辦。
人臉和手勢識別專門的會議:
FG:IEEE International Conference on Automatic Face and Gesture Recognition
“International Conference on Automatic Face and Gesture Recognition”是全球范圍內(nèi)人臉與手勢識別領域的權威學術會議。會議方向有人臉檢測、人臉識別、表情識別、姿勢分析、心理行為分析等。
人臉識別技術詳解
1、人臉識別流程
人臉識別技術原理簡單來講主要是三大步驟:一是建立一個包含大批量人臉圖像的數(shù)據(jù)庫,二是通過各種方式來獲得當前要進行識別的目標人臉圖像,三是將目標人臉圖像與數(shù)據(jù)庫中既有的人臉圖像進行比對和篩選。根據(jù)人臉識別技術原理具體實施起來的技術流程則主要包含以下四個部分,即人臉圖像的采集與預處理、人臉檢測、人臉特征提取、人臉識別和活體鑒別。
▲人臉識別技術流程
人臉圖像的采集與預處理
人臉圖像的采集與檢測具體可分為人臉圖像的采集和人臉圖像的檢測兩部分內(nèi)容。
人臉圖像的采集:采集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導入和人臉圖像的實時采集。一些比較先進的人臉識別系統(tǒng)甚至可以支持有條件的過濾掉不符合人臉識別質(zhì)量要求或者是清晰度質(zhì)量較低的人臉圖像,盡可能的做到清晰精準的采集。既有人臉圖像的批量導入:即將通過各種方式采集好的人臉圖像批量導入至人臉識別系統(tǒng),系統(tǒng)會自動完成逐個人臉圖像的采集工作。人臉圖像的實時采集:即調(diào)用攝像機或攝像頭在設備的可拍攝范圍內(nèi)自動實時抓取人臉圖像并完成采集工作。
人臉圖像的預處理:人臉圖像的預處理的目的是在系統(tǒng)對人臉圖像的檢測基礎之上,對人臉圖像做出進一步的處理以利于人臉圖像的特征提取。人臉圖像的預處理具體而言是指對系統(tǒng)采集到的人臉圖像進行光線、旋轉、切割、過濾、降噪、放大縮小等一系列的復雜處理過程來使得該人臉圖像無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉圖像的特征提取的標準要求。在現(xiàn)實環(huán)境下采集圖像,由于圖像受到光線明暗不同、臉部表情變化、陰影遮擋等眾多外在因素的干擾,導致采集圖像質(zhì)量不理想,那就需要先對采集到的圖像預處理,如果圖像預處理不好,將會嚴重影響后續(xù)的人臉檢測與識別。研究介紹三種圖像預處理手段,即灰度調(diào)整、圖像濾波、圖像尺寸歸一化等。
灰度調(diào)整:因為人臉圖像處理的最終圖像一般都是二值化圖像,并且由于地點、設備、光照等方面的差異,造成采集到彩色圖像質(zhì)量不同,因此需要對圖像進行統(tǒng)一的灰度處理,來平滑處理這些差異;叶日{(diào)整的常用方法有平均值法、直方圖變換法、冪次變換法、對數(shù)變換法等。
圖像濾波:在實際的人臉圖像采集過程中,人臉圖像的質(zhì)量會受到各種噪聲的影響,這些噪聲來源于多個方面,比如周圍環(huán)境中充斥大量的電磁信號、數(shù)字圖像傳輸受到電磁信號的干擾等影響信道,進而影響人臉圖像的質(zhì)量。為保證圖像的質(zhì)量,減小噪聲對后續(xù)處理過程的影響, 必須對圖像進行降噪處理。去除噪聲處理的原理和方法很多,常見的有均值濾波,中值濾波等。目前常用中值濾波算法對人臉圖像進行預處理。
圖像尺寸歸一化:在進行簡單的人臉訓練時候,遇到人臉庫的圖像像素大小不一樣時,我們需要在上位機人臉比對識別之前對圖像做尺寸歸一化處理。需要比較常見的尺寸歸一化算法有雙線性插值算法、最近鄰插值算法和立方卷積算法等。
人臉檢測
一張包含人臉圖像的圖片通常情況下可能還會包含其他內(nèi)容,這時候就需要進行必要的人臉檢測。也就是在一張人臉圖像之中,系統(tǒng)會精準的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時自動剔除掉其他多余的圖像信息來進一步的保證人臉圖像的精準采集。
人臉檢測是人臉識別中的重要組成部分。人臉檢測是指應用一定的策略對給出的圖片或者視頻來進行檢索,判斷是否存在著人臉,如果存在則定位出每張人臉的位置、大小與姿態(tài)的過程。人臉檢測是一個具有挑戰(zhàn)性的目標檢測問題,主要體現(xiàn)在兩方面:人臉目標內(nèi)在的變化引起:1、人臉具有相當復雜的細節(jié)變化和不同的表情(眼、嘴的開與閉等),不同的人臉具有不同的外貌,如臉形、膚色等;2、人臉的遮擋,如眼鏡、頭發(fā)和頭部飾物等。外在條件變化引起:1、由于成像角度的不同造成人臉的多姿態(tài),如平面內(nèi)旋轉、深度旋轉以及上下旋轉等,其中深度旋轉影響較大;2、光照的影響,如圖像中的亮度、對比度的變化和陰影等;3、圖像的成像條件,如攝像設備的焦距、成像距離等。
人臉檢測的作用,便是在一張人臉圖像之中,系統(tǒng)會精準的定位出人臉的位置和大小, 在挑選出有用的圖像信息的同時自動剔除掉其他多余的圖像信息來進一步的保證人臉圖像 的精準采集。人臉檢測重點關注以下指標:
檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好; 誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,檢測模型效果越好; 漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好; 速度:從采集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
目前的人臉檢測方法可分為三類,分別是基于膚色模型的檢測、基于邊緣特征的檢測、基于統(tǒng)計理論方法,下面將對其進行簡單的介紹:
1、基于膚色模型的檢測:膚色用于人臉檢測時,可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數(shù)估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。通過提取彩色圖像中的面部區(qū)域以實現(xiàn)人臉檢測的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機參數(shù)的前提下才有效。Comaniciu 等學者利用非參數(shù)的核函數(shù)概率密度估計法來建立膚色模型,并使用 mean-shift 方法進行局部搜索實現(xiàn)了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對于遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結合性不是很高,同時,用于人臉檢測時,處理復雜背景和多個人臉時存在困難。
為了解決人臉檢測中的光照問題,可以針對不同光照進行補償,然后再檢測圖像中的膚色區(qū)域。這樣可以解決彩色圖像中偏光、背景復雜和多個人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉、姿態(tài)和表情等具有不敏感性。
2、基于邊緣特征的檢測:利用圖像的邊緣特征檢測人臉時,計算量相對較小,可以實現(xiàn)實時檢測。大多數(shù)使用邊緣特征的算法都是基于人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進行匹配。也有研究者采用橢圓環(huán)模型與邊緣方向特征,實現(xiàn)簡單背景的人臉檢測。Fröba 等采用基于邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進行人臉檢測。該算法在復雜背景下誤檢率比較高,但是與其他的特征相融合后可以獲得很好的效果。
3、 基于統(tǒng)計理論方法:本文重點介紹基于統(tǒng)計理論方法中的Adaboost人臉檢測算法。Adaboost算法是通過無數(shù)次循環(huán)迭代來尋求最優(yōu)分類器的過程。用弱分類器Haar特征中任一特征放在人臉樣本上,求出人臉特征值,通過更多分類器的級聯(lián)便得到人臉的量化特征,以此來區(qū)分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉45°的矩形組成。目前的Haar特征總的來說廣義地分為三類:邊緣特征、線特征以及中心特征。
這一算法是由劍橋大學的 Paul Viola 和 Michael Jones 兩位學者提出,該算法優(yōu)點在于不僅計算速度快,還可以達到和其他算法相當?shù)男阅,所以在人臉檢測中應用比較廣泛,但也存在著較高的誤檢率。因為在采用 Adaboost 算法學習的過程中,最后總有一些人臉和非人臉模式難以區(qū)分,而且其檢測的結果中存在一些與人臉模式并不相像的窗口。
人臉特征提取
目前主流的人臉識別系統(tǒng)可支持使用的特征通?煞譃槿四樢曈X特征、人臉圖像像素統(tǒng)計特征等,而人臉圖像的特征提取就是針對人臉上的一些具體特征來提取的。特征簡單,匹配算法則簡單,適用于大規(guī)模的建庫;反之,則適用于小規(guī)模庫。特征提取的方法一般包括基于知識的提取方法或者基于代數(shù)特征的提取方法。
以基于知識的人臉識別提取方法中的一種為例,因為人臉主要是由眼睛、額頭、鼻子、耳朵、下巴、嘴巴等部位組成,對這些部位以及它們之間的結構關系都是可以用幾何形狀特征來進行描述的,也就是說每一個人的人臉圖像都可以有一個對應的幾何形狀特征,它可以幫助我們作為識別人臉的重要差異特征,這也是基于知識的提取方法中的一種。
人臉識別
我們可以在人臉識別系統(tǒng)中設定一個人臉相似程度的數(shù)值,再將對應的人臉圖像與系統(tǒng)數(shù)據(jù)庫中的所有人臉圖像進行比對,若超過了預設的相似數(shù)值,那么系統(tǒng)將會把超過的人臉圖像逐個輸出,此時我們就需要根據(jù)人臉圖像的相似程度高低和人臉本身的身份信息來進行精確篩選,這一精確篩選的過程又可以分為兩類:其一是一對一的篩選,即對人臉身份進行確認過程;其二是一對多的篩選,即根據(jù)人臉相似程度進行匹配比對的過程。
活體鑒別
生物特征識別的共同問題之一就是要區(qū)別該信號是否來自于真正的生物體,比如,指紋識別系統(tǒng)需要區(qū)別帶識別的指紋是來自于人的手指還是指紋手套,人臉識別系統(tǒng)所采集到的人臉圖像,是來自于真實的人臉還是含有人臉的照片。因此,實際的人臉識別系統(tǒng)一般需要增加活體鑒別環(huán)節(jié),例如,要求人左右轉頭,眨眼睛,開開口說句話等。
2、 人臉識別主要方法
人臉識別技術的研究是一個跨越多個學科領域知識的高端技術研究工作,其包括多個學科的專業(yè)知識,如圖像處理、生理學、心理學、模式識別等知識。在人臉識別技術研究的領域中,目前主要有幾種研究的方向,如:一種是根據(jù)人臉特征統(tǒng)計學的識別方法,其主要有特征臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;另一種人臉識別方法是關于連接機制的,主要有人工神經(jīng)網(wǎng)絡(ANN,Artificial Neural Network)方法和支持向量機(SVM,Support Vector Machine)方法等;還有一個就是綜合多種識別方式的方法。
基于特征臉的方法
特征臉的方法是一種比較經(jīng)典而又應用比較廣的人臉識別方法,其主要原理是把圖像做降維算法,使得數(shù)據(jù)的處理更容易,同時,速度又比較快。特征臉的人臉識別方法,實際上是將圖像做 Karhunen-Loeve 變換,把一個高維的向量轉化為低維的向量,從而消除每個分量存在的關聯(lián)性,使得變換得到的圖像與之對應特征值遞減。在圖像經(jīng)過 K-L 變換后,其具有很好的位移不變性和穩(wěn)定性。所以,特征臉的人臉識別方法具有方便實現(xiàn),并且可以做到速度更快,以及對正面人臉圖像的識別率相當高等優(yōu)點。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態(tài)和光照改變等因素的影響,從而導致識別率低的情況。
基于幾何特征的方法
基于幾何特征的識別方法是根據(jù)人臉面部器官的特征及其幾何形狀進行的一種人臉識別方法,是人們最早研究及使用的識別方法,它主要是采用不同人臉的不同特征等信息進行匹配識別,這種算法具有較快的識別速度,同時,其占用的內(nèi)存也比較小,但是,其識別率也并不算高。該方法主要做法是首先對人臉的嘴巴、鼻子、眼睛等人臉主要特征器官的位置和大小進行檢測,然后利用這些器官的幾何分布關系和比例來匹配,從而達到人臉識別。
基于幾何特征識別的流程大體如下:首先對人臉面部的各個特征點及其位置進行檢測, 如鼻子、嘴巴和眼睛等位置,然后計算這些特征之間的距離,得到可以表達每個特征臉的矢量特征信息,例如眼睛的位置,眉毛的長度等,其次還計算每個特征與之相對應關系,與人臉數(shù)據(jù)庫中已知人臉對應特征信息來做比較,最后得出最佳的匹配人臉;趲缀翁卣鞯姆椒ǚ先藗儗θ四樚卣鞯恼J識,另外,每幅人臉只存儲一個特征,所以占用的空間比較小; 同時,這種方法對光照引起的變化并不會降低其識別率,而且特征模板的匹配和識別率比較高。但是,基于幾何特征的方法也存在著魯棒性不好,一旦表情和姿態(tài)稍微變化,識別效果將大打折扣。
基于深度學習的方法
深度學習的出現(xiàn)使人臉識別技術取得了突破性進展。人臉識別的最新研究成果表明,深度學習得到的人臉特征表達具有手工特征表達所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強的選擇性、對局部遮擋具有良好的魯棒性。這些特性是通過大數(shù)據(jù)訓練自然得到的,并未對模型加入顯式約束或后期處理,這也是深度學習能成功應用在人臉識別中的主要原因。
深度學習在人臉識別上有 7 個方面的典型應用:基于卷積神經(jīng)網(wǎng)絡(CNN)的人臉識別方法,深度非線性人臉形狀提取方法,基于深度學習的人臉姿態(tài)魯棒性建模,有約束環(huán)境中的全自動人臉識別,基于深度學習的視頻監(jiān)控下的人臉識別,基于深度學習的低分辨率人臉識別及其他基于深度學習的人臉相關信息的識別。
其中,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)是第一個真正成功訓練多層網(wǎng)絡結構的學習算法,基于卷積神經(jīng)網(wǎng)絡的人臉識別方法是一種深度的監(jiān)督學習下的機器學習模型,能挖掘數(shù)據(jù)局部特征,提取全局訓練特征和分類,其權值共享結構網(wǎng)絡使之更類似于生物神經(jīng)網(wǎng)絡,在模式識別各個領域都得到成功應用。CNN 通過結合人臉圖像空間的局部感知區(qū)域、共享權重、在空間或時間上的降采樣來充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化模型結構,保證一定的位移不變性。
利用 CNN 模型,香港中文大學的 Deep ID 項目以及 Facebook 的 Deep Face 項目在 LFW 數(shù)據(jù)庫上的人臉識別正確率分別達 97.45%和 97.35%只比人類視覺識別 97.5%的正確率略低。在取得突破性成果之后,香港中文大學的 DeepID2 項目將識別率提高到了 99.15%。Deep ID2 通過學習非線性特征變換使類內(nèi)變化達到最小,而同時使不同身份的人臉圖像間的距離保持 恒定,超過了目前所有領先的深度學習和非深度學習算法在 LFW 數(shù)據(jù)庫上的識別率以及人類在該數(shù)據(jù)庫的識別率。深度學習已經(jīng)成為計算機視覺中的研究熱點,關于深度學習的新算 法和新方向不斷涌現(xiàn),并且深度學習算法的性能逐漸在一些國際重大評測比賽中超過了淺層 學習算法。
基于支持向量機的方法
將支持向量機(SVM)的方法應用到人臉識別中起源于統(tǒng)計學理論,它研究的方向是如何構造有效的學習機器,并用來解決模式的分類問題。其特點是將圖像變換空間,在其他空間做分類。
支持向量機結構相對簡單,而且可以達到全局最優(yōu)等特點,所以,支持向量機在目前人臉識別領域取得了廣泛的應用。但是,該方法也和神經(jīng)網(wǎng)絡的方法具有一樣的不足,就是需要很大的存儲空間,并且訓練速度還比較慢。
其他綜合方法
以上幾種比較常用的人臉識別方法,我們不難看出,每一種識別方法都不能做到完美的識別率與更快的識別速度,都有著各自的優(yōu)點和缺點,因此,現(xiàn)在許多研究人員則更喜歡使用多種識別方法綜合起來應用,取各種識別方法的優(yōu)勢,綜合運用,以達到更高的識別率和識別效果。
人臉識別三大經(jīng)典算法
特征臉法(Eigenface)
征臉技術是近期發(fā)展起來的用于人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。使用特征臉進行人臉識別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉換成一個特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓練圖像集的基本組件。識別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。
將圖像變換到另一個空間后,同一個類別的圖像會聚到一起,不同類別的圖像會聚力比較遠,在原像素空間中不同類別的圖像在分布上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分布的主要成分,具體實現(xiàn)是對訓練集中所有人臉圖像的協(xié)方差矩陣進行本征值分解,得到對應的本征向量,這些本征向量就是“特征臉”。每個特征向量或者特征臉相當于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個人臉都可以表示為這些特征臉的線性組合。
局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是計算機視覺領域里用于分類的視覺算子。LBP 一種用來描述圖像紋理特征的算子,該算子由芬蘭奧盧大學的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發(fā)表了一篇關于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉不變、等價模式的改進的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作為閾值,與他的領域相比較得到相對應的二進制碼來表示局部紋理特征。
LBP 是提取局部特征作為判別依據(jù)的。LBP 方法顯著的優(yōu)點是對光照不敏感,但是依然沒有解決姿態(tài)和表情的問題。不過相比于特征臉方法,LBP 的識別率已經(jīng)有了很大的提升。
Fisherface
線性鑒別分析在降維的同時考慮類別信息,由統(tǒng)計學家 Sir R. A. Fisher1936 年發(fā)明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特征組合方式,達到最大的類間離散度和最小的類內(nèi)離散度。這個想法很簡單:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別盡量距離越遠。1997 年,Belhumer 成功將 Fisher 判別準則應用于人臉分類,提出了基于線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。
經(jīng)典論文
Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的坐標系統(tǒng)來表示。Eigenpictures 是面部集合的平均協(xié)方差的本征函數(shù)。
Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發(fā)了一種近實時的計算機系統(tǒng),可以定位和追蹤人的頭部,然后通過比較面部特征和已知個體的特征來識別該人。該方法將面部識別問題視為二維識別問題。識別的過程是把一副新的圖像投影到特征臉子空間,該特征空間捕捉到已知面部圖像之間的顯著變化。重要特征稱為特征臉,因為它們是面集的特征向量。
Ojala,T.,Pietikäinen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進行比較,并提出了用來描述圖像紋理特征的 LBP 算子。
Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉不變紋理分類方法,該方法基于局部二值模式和樣本和原型分布的非參數(shù)判別。該方法具有灰度變化穩(wěn)健、計算簡單的特點。
Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特征組合方式,以達到最大的類間離散度和最小的類內(nèi)離散度。解決方式為:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別盡量距離越遠。
Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的線性判別進行面部投影,能夠在低維子空間中產(chǎn)生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實驗結果表明, 所提出的“Fisherface”方法的誤差率低于哈佛和耶魯人臉數(shù)據(jù)庫測試的特征臉技術。
常用的人臉數(shù)據(jù)庫
主要介紹以下幾種常用的人臉數(shù)據(jù)庫:
ERET人臉數(shù)據(jù)庫
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 項目創(chuàng)建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個人臉。該集中,同一個人的照片有不同表情、光照、姿態(tài)和年齡的變化。包含 1 萬多張多姿態(tài)和光照的人臉圖像,是人臉識別領域應用最廣泛的人臉數(shù)據(jù)庫之一。其中的多數(shù)人是西方人,每個人所包含的人臉圖像的變化比較單一。
CMU Multi-PIE人臉數(shù)據(jù)庫
http://www.flintbox.com/public/project/4742/
由美國卡耐基梅隆大學建立。所謂“PIE”就是姿態(tài)(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數(shù)據(jù)庫是在 CMU-PIE 人臉數(shù)據(jù)庫的基礎上發(fā)展起來的。包含 337 位志愿者的 75000 多張多姿態(tài),光照和表情的面部圖像。其中的姿態(tài)和光照變化圖像也是在嚴格控制的條件下采集的,目前已經(jīng)逐漸成為人臉識別領域的一個重要的測試集合。
YALE人臉數(shù)據(jù)庫(美國,耶魯大學)
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學計算視覺與控制中心創(chuàng)建,包含 15 位志愿者的 165 張圖片,包含光照、表情和姿態(tài)的變化。
Yale 人臉數(shù)據(jù)庫中一個采集志愿者的 10 張樣本,相比較 ORL 人臉數(shù)據(jù)庫 Yale 庫中每個對象采集的樣本包含更明顯的光照、表情和姿態(tài)以及遮擋變化。
YALE人臉數(shù)據(jù)庫 B
ttps://computervisiononline.com/dataset/1105138686
包含了 10 個人的 5850 幅在 9 種姿態(tài),64 種光照條件下的圖像。其中的姿態(tài)和光照變化的圖像都是在嚴格控制的條件下采集的,主要用于光照和姿態(tài)問題的建模與分析。由于采集人數(shù)較少,該數(shù)據(jù)庫的進一步應用受到了比較大的限制。
MIT人臉數(shù)據(jù)庫
由麻省理工大學媒體實驗室創(chuàng)建,包含 16 位志愿者的 2592 張不同姿態(tài)(每人 27 張照片),光照和大小的面部圖像。
ORL人臉數(shù)據(jù)庫
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國劍橋大學 AT&T 實驗室創(chuàng)建,包含 40 人共 400 張面部圖像,部分志愿者的圖像包括了姿態(tài),表情和面部飾物的變化。該人臉庫在人臉識別研究的早期經(jīng)常被人們采用,但由于變化模式較少,多數(shù)系統(tǒng)的識別率均可以達到 90%以上,因此進一步利用的價值已經(jīng)不大。
ORL 人臉數(shù)據(jù)庫中一個采集對象的全部樣本庫中每個采集對象包含10 幅經(jīng)過歸一化處理的灰度圖像,圖像尺寸均為 92×112 ,圖像背景為黑色。其中采集對象的面部表情和細節(jié)均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態(tài)也有變化,其深度旋轉和平面旋轉可達 20 度。
BioID人臉數(shù)據(jù)庫
https://www.bioid.com/facedb/
包含在各種光照和復雜背景下的 1521 張灰度面部圖像,眼睛位置已經(jīng)被手工標注。
UMIST圖像集
由英國曼徹斯特大學建立。包括 20 個人共 564 幅圖像,每個人具有不同角度、不同姿態(tài)的多幅圖像。
年齡識別數(shù)據(jù)集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數(shù)據(jù)圖片。應用了一個新穎的化回歸為分類的年齡算法。本質(zhì)就是在 0-100 之間的 101 類分類后,對于得到的分數(shù)和 0-100 相乘, 并將最終結果求和,得到最終識別的年齡。
技術人才
1、學者概況
AMiner 基于發(fā)表于國際期刊會議的學術論文,對人臉識別領域全 TOP1000 的學者進行計算分析,繪制了該領域學者全球分布地圖。從全球范圍來看,美國是人臉識別研究學者聚集最多的國家,在人臉識別領域的研究占有絕對的優(yōu)勢;英國緊隨其后,位列第二;中國位列全球第三,占有一席之地;加拿大、德國和日本等國家也聚集了部分人才。
▲人臉識別學者 TOP1000 全球分布圖
▲人臉識別專家國家數(shù)量排名
▲人臉識別全球學者 h-index 統(tǒng)計
h-index:國際公認的能夠比較準確地反映學者學術成就的指數(shù),計算方法是該學者至多有 h 篇論文分別被引用了至少 h 次。
全球人臉識別學者的 h-index 平均數(shù)為 48, h-index 指數(shù)在 20 到 40 之間的學者最多,占比 33%; h-index 指數(shù)在 40 到 60 之間的學者和大于 60 占比相持不下,前者為 27%,后者為 28%; h-index 指數(shù)小于等于 10 的學者最少,僅占 2%。
▲人臉識別全球人才遷徙圖
AMiner 選取人臉識別領域影響力排名前 1000 的專家學者,對其遷徙路徑做了分析。由上圖可以看出,各國人臉識別領域人才的流失和引進略有差異,其中美國是人臉識別領域人才流動大國,人才輸入和輸出都大幅領先,且從數(shù)據(jù)來看人才流入略大于流出。英國、中國、德國、加拿大和澳大利亞等國緊隨其后,其中英國、中國和澳大利亞有輕微的人才流失現(xiàn)象。
研究根據(jù)在全球范圍內(nèi)人臉與手勢識別領域的權威學術會議( IEEE International Conference on Automatic Face and Gesture Recognition,F(xiàn)G)上最近五年引用論文中,研究計算出 citation 和 h-index 排在前十的人臉識別專家,并截取部分領先學者加以介紹。
Citation 排在前十的相關學者位列如下:
▲Citation 前十的人臉識別專家
h-index 排在前十二的相關學者位列如下:
▲h-index 前十的人臉識別專家
2、國內(nèi)外人才
報告列舉了全球 6 位專家學者和5位國內(nèi)專家,詳見本內(nèi)參附件。
應用領域
從應用角度看,人臉識別應用廣泛,可應用于自動門禁系統(tǒng)、身份證件的鑒別、銀行ATM 取款機以及家庭安全等領域。具體來看主要有:
1、 公共安全:公安刑偵追逃、罪犯識別、邊防安全檢查; 2、 信息安全:計算機和網(wǎng)絡的登錄、文件的加密和解密; 3、 政府職能:電子政務、戶籍管理、社會福利和保險; 4、商業(yè)企業(yè):電子商務、電子貨幣和支付、考勤、市場營銷; 5、場所進出:軍事機要部門、金融機構的門禁控制和進出管理等。
門禁人臉識別
隨著人們生活水平的提高,人們更加注重家居環(huán)境的安全,安防觀念不斷加強;伴隨著這種需求的提高,智能門禁系統(tǒng)應運而生,越來越多的企業(yè)、商鋪、家庭都安裝了各種各樣的門禁系統(tǒng)。
當前比較普遍使用的門禁系統(tǒng)不外乎視頻門禁、密碼門禁、射頻門禁或指紋門禁等等。其中,視頻門禁只是簡單地把視頻信息傳送給用戶,并無多少智能化,本質(zhì)上離不開“人防”,用戶不在場時并不能絕對保障家居安全;密碼門禁最大的硬傷是,密碼容易忘記,并且容易破解;射頻門禁的缺點則是“認卡不認人”,射頻卡容易丟失及易被他人盜用;另外,指紋門禁的安全隱患則是指紋容易復制。因此,現(xiàn)有技術中提供的上述門禁系統(tǒng)均對應原因存在安全性較低的問題。安裝了人臉識別系統(tǒng),只要對著攝像頭露個臉就可以輕松出入小區(qū),真正實現(xiàn)了“刷臉卡”。生物識別門禁系統(tǒng)不需要攜帶驗證介質(zhì),驗證特征具有唯一性,安全 性極好。目前廣泛的應用于機密等級較高的場所,例如研究所、銀行等。
市場營銷
面部識別技術在營銷上主要有兩方面的應用:首先,可以識別一個人的基本個人信息, 例如性別、大致年齡,以及他們看過什么,看了多久等。戶外廣告公司,例如 Val Morgan Outdoor(VMO),開始采用面部識別技術來收集消費者數(shù)據(jù)。其次,該技術可以用于識別已知的個人,例如小偷,或者已經(jīng)加入系統(tǒng)的會員。這方面的應用已經(jīng)引起一些服務提供商和零售商的注意。
此外,面部識別技術還可以提高廣告的效果,并允許廣告主對消費者的表現(xiàn)及時做出反應。VMO 公司推出了一個測量工具 DART,這個工具可以實時看出消費者眼睛關注的方向以及時長,從而可以判斷出他們對一支廣告的關注程度。下一代的 DART 還將納入更多的人口統(tǒng)計學信息,除了年齡之外,還包括消費者在看一個數(shù)字標牌時的情緒。
商業(yè)銀行
利用人臉識別技術防范網(wǎng)絡風險:對于我國廣泛使用的磁條銀行卡,雖然技術成熟,規(guī)范,但制作技術并不復雜,銀行磁條卡磁道標準已經(jīng)是公開的秘密,僅憑一臺電腦和一臺磁條讀寫器就可以順利“克隆”銀行 卡。另外制卡機銷售管理不夠嚴格。不法分子利用銀行卡詐騙案件時有發(fā)生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業(yè)銀行也采取了一些技術手段防止偽 造和克隆卡,如采用 CVV(Check Value Verify)技術,在生成卡磁條信息的同時產(chǎn)生一組校驗值,該校驗值與每個卡片本身的特性相關聯(lián),從而達到復制無效的功能。雖然采取了多種措施,但磁條卡本身固有的缺陷已嚴重威脅到客戶的利益。對于這些銀行網(wǎng)絡安全問題, 我們可以利用人臉識別技術防范網(wǎng)絡風險。人臉識別技術就是通過圖像采集設備捕捉人的臉部區(qū)域,然后把捕捉到的人臉和數(shù)據(jù)庫中的人臉進行匹配,從而完成身份識別的任務。利用人臉識別技術準確認定持卡人的真實身份,確保持卡人的資金安全。另外,還可以通過人臉識別技術進一步鎖定不法分子,有利于公安機關快速破案。
人臉識別技術在治理假鈔方面的應用:目前,我國商業(yè)銀行在自助設備方面存在的主要問題:一是部分自助設備安裝沒有達到要求。商業(yè)銀行的部分自助設備安裝沒有按照公安部門的要求對設備進行與地面加固連接; 有的電氣環(huán)境沒有達到要求:有的沒有設置 110 連動報警或者沒有可視監(jiān)控報警,有的監(jiān)控錄像不夠清晰,監(jiān)控錄像保存時間沒有達到規(guī)定要求等,另外設備人為破壞現(xiàn)象嚴重等。二是自助設備端軟件設計缺陷。特別是某些國產(chǎn)設備軟件設計不夠合理,軟件變更隨意性大, 存在漏洞,造成錯帳可能性比較大。三是銀行的 ATM 機中沒有假鈔鑒別設備。由于我國商業(yè)銀行在自助設備方面存在的問題,目前,假鈔層出不窮。由于銀行的 ATM 機中沒有假鈔鑒別設備,只是在清機人員放入現(xiàn)金前做了鑒別,這樣的措施并不夠完善,且容易造成銀行與持卡人之間的糾紛。即使是現(xiàn)金存款機(CRS)有假鈔鑒別功能,但往往因為假鈔識別特征提取的滯后,而被不法分子所利用。不法分子先存入假鈔,然后馬上在柜臺或其他自助設備上提取真鈔,以此手段謀取不法利益。
未來趨勢
總的來說,人臉識別的趨勢包括以下幾方面。
1、機器識別與人工識別相結合
目前市面上主流的一些人臉識別公司在引用國內(nèi)外知名的人臉圖像數(shù)據(jù)庫進行測試時, 其人臉識別的精準性一般都可以達到 95%以上,而且進行精準人臉識別的速度也非常快,這也從側面為人臉識別技術投入實際應用提供了強有力的實踐證明。
不過在實際的生活中,每個人的人臉相對于攝像頭而言并不是保持靜止不動的,相反則是處于高速的運動狀態(tài)之中,攝像機采集到的人臉圖像會因為人臉的姿態(tài)、表情、光線、裝飾物等不同而呈現(xiàn)出完全不同的樣子,也極有可能會出現(xiàn)采集到的人臉圖像不清晰、不完整、關鍵部位特征不明顯的情況,這個時候人臉識別系統(tǒng)也就可能無法做到快速和精準的人臉識別了。
因此在設定了一定的人臉圖像相似程度數(shù)值之后,人臉識別公司系統(tǒng)會對高于該相似程度數(shù)值的人臉圖像做出提示,然后再由人工進行逐個的篩選,采用機器識別與人工識別相結合的方式才能最大限度的做到人臉圖像的精準識別。
2、3D 人臉識別技術的廣泛應用
不論是時下主流的人臉圖像數(shù)據(jù)庫中已經(jīng)保存好的人臉圖像,還是在街邊路口由攝像頭實時采集到的人臉圖像,絕大多數(shù)其實都是一張 2D 人臉圖像。2D 人臉圖像本身其實存在著固有的缺陷,那就是它無法做到深度的表達人臉圖像信息,在拍攝時特別容易受到光照、姿態(tài)、表情等因素的影響。而對于人臉來講,人臉面部包括眼睛、鼻子、耳朵、下巴等諸多的關鍵部位并不是處于一個平面上的,人臉天然具有立體效果,拍攝 2D 人臉圖像不能夠很好的完全反映出人臉面部的全部關鍵特征。
2017 年,iPhone X 這部搭載了眾多最新前沿技術的智能手機一經(jīng)亮相,便引起業(yè)界的極大關注。其中最引人注目的當屬于一項黑科技:3D 人臉解鎖功能,即 Face ID,一種新的身份認證方式。在開鎖時,用戶只需要注視著手機,F(xiàn)ace ID 就能實現(xiàn)人臉識別解鎖。
▲蘋果在 3D 視覺領域的布局
蘋果 iPhone X 加入 3D 面部識別功能并不是心血來潮,因為其在 2010 年的時候就已經(jīng)開始在 3D 視覺領域進行了布局。特別是在 2013 年,蘋果公司以 3.45 億美元的價格收購了以色列的 3D 視覺公司 PrimeSense。這項收購是蘋果公司史上最大手筆的收購之一。此后, 蘋果還投資了一些列的 3D 視覺技術和人臉識別技術公司。
此外,F(xiàn)ace ID 還可用于 Apple pay 和第三方應用。比如,蘋果就利用 Face ID 對 emoji 功能進行了升級,可通過 Face ID 利用戶面部表情來創(chuàng)建 3D 表情 Animojis,可利用動畫來表達情緒,不過目前這個功能只能使用在蘋果自己的 iMessage 中。這種直接“刷臉”的方式帶給了用戶更真實的人機交互體驗。
3、基于深度學習的人臉識別技術的廣泛應用
目前主流的人臉識別技術大多都是針對輕量級的人臉圖像數(shù)據(jù)庫,對于未來完全可預見的億萬級的人臉圖像數(shù)據(jù)庫則還不太成熟,因此需要重點研究基于深度學習的人臉識別技術。
通俗意義上來講就是,目前國內(nèi)人口有十三億之多,由實力雄厚的人臉識別公司牽頭在不久的未來建立起一個覆蓋全國范圍的統(tǒng)一的人臉圖像數(shù)據(jù)庫也是可以預見的,那么該人臉圖像數(shù)據(jù)庫存儲的人臉圖像的容量可能會達到數(shù)十億甚至是數(shù)百億的級別,這時候可能就會存在大量表征相似、關鍵特征點相似的人臉,如果沒有基于深度學習的人臉識別技術,建立更為復雜的多樣化的人臉模型,那么在實現(xiàn)精準和快速的人臉識別就會比較困難。
4、人臉圖像數(shù)據(jù)庫的實質(zhì)提升
建立具備優(yōu)良的多樣性和通用性的人臉圖像數(shù)據(jù)庫也是一個必然的事情,與目前主流的人臉識別公司引用的數(shù)據(jù)庫相比,其實質(zhì)上的提升主要體現(xiàn)在如下幾個方面:一是人臉圖像數(shù)據(jù)庫量級的提升,將會從現(xiàn)在的十萬百萬級提升至未來的十億級甚至是百億級;二是質(zhì)級的提升,將會由主流的2D 人臉圖像提升至各種關鍵特征點更為明顯和清晰的3D 人臉圖像; 三是人臉圖像的類型提升,將會采集每個人在各個不同的姿態(tài)、表情、光線、裝飾物等之下的人臉圖像,以充實每個人的人臉表征進而做到精準的人臉識別。
小編認為,人臉識別是AI技術發(fā)展較快、應用較多的一個領域,有著廣泛的應用范圍。在今年的安博會上,人臉識別及動態(tài)捕捉技術,幾乎成為每家展商的“標配”。隨著國家科研機構的研發(fā)投入、企業(yè)對技術的鉆研、市場的推廣等,人臉識別將迎來更美好的發(fā)展浪潮。未來人臉識別或成為有效身份識別主流,屆時,人臉識別就不是什么新鮮詞了。
|