人臉識(shí)別的算法能力幾個(gè)指標(biāo):拒識(shí)率、誤識(shí)率、通過(guò)率,準(zhǔn)確率。
那么人臉識(shí)別的基本流程是怎么樣的呢:
人臉識(shí)別最難的部分是有充分適應(yīng)各大光線(xiàn)環(huán)境的人臉預(yù)處理算法,需要在各種復(fù)雜的光線(xiàn)環(huán)境中提取到人臉信息,特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,攝像頭拍照的地方可以在斑駁的樹(shù)影下,也可以在昏暗的街燈下,以及深夜出租車(chē)內(nèi),這對(duì)算法的魯棒性考驗(yàn)極大。同時(shí)還要考慮照片和視頻欺詐,二次成像的光線(xiàn)污染等問(wèn)題。
下面說(shuō)一下目前人臉識(shí)別的常見(jiàn)問(wèn)題:
1:1人臉識(shí)別算法主要用于身份驗(yàn)證
1:1人臉識(shí)別技術(shù)主要是利用圖像處理技術(shù)從圖像中提取人像特征點(diǎn),利用生物統(tǒng)計(jì)學(xué)的原理進(jìn)行分析建立數(shù)學(xué)模型,即人臉特征點(diǎn)模型。再?gòu)娜四樚卣鼽c(diǎn)模型與被測(cè)者的人的面像進(jìn)行特征分析(可以假定為無(wú)數(shù)的幾何特征點(diǎn)求解),根據(jù)分析的結(jié)果來(lái)給出一個(gè)相似值,通過(guò)這個(gè)值即可確定是否為同一人。簡(jiǎn)單的說(shuō)就是A/B兩張照片比對(duì),產(chǎn)生的計(jì)算數(shù)值是否達(dá)到要求。
這個(gè)值我們稱(chēng)之為閾值,可以從1到100(100就是極端嚴(yán)苛)很多人臉識(shí)別公司說(shuō)他們的產(chǎn)品很容易通過(guò),那只說(shuō)了一半,如果閾值調(diào)整到5以下,幾乎大部分人都可以是相似的,而調(diào)整到95以上,同一個(gè)人在不同的背景環(huán)境拍出的照片都無(wú)法匹配。所以當(dāng)一公司跟你吹牛算法準(zhǔn)確度,先問(wèn)下使用的是用什么閾值,同一人臉比對(duì)通過(guò)率,非同一人比對(duì)通過(guò)率。
所以沒(méi)有閾值說(shuō)明的算法都是耍流氓。
1:1主要用于快速的人臉識(shí)別比對(duì),作為身份確認(rèn)的一種新方式,比如考生身份確認(rèn)、公司考勤確認(rèn)、各種證件照和本人確認(rèn),由于這些照片源不一定有權(quán)威統(tǒng)一的接口調(diào)用,所以一直沒(méi)有用起來(lái)。目前市面上做的比對(duì)來(lái)源主要有三種方式:
1. 用戶(hù)自傳照片,比如支付寶的人臉比對(duì),用戶(hù)自傳的照片最大的問(wèn)題是照片質(zhì)量的合格率太低,拍照的光線(xiàn)、角度等因素會(huì)導(dǎo)致采集源的質(zhì)量下降,不利于后期的大批量人臉特征碼管理。
2. 使用身份證讀卡器,讀取身份證上的照片,遺憾的是這張照片2K的大小,不過(guò)也是目前用最多的源照片提取方式,比較適合簽到場(chǎng)合。
2016給國(guó)內(nèi)一些會(huì)議培訓(xùn)公司的識(shí)別軟件(用于驗(yàn)證會(huì)員是否有效以及是否本人):
3. 使用公安部旗下NCIIC的人臉比對(duì)接口(注意,不是網(wǎng)紋照片接口,這個(gè)接口已經(jīng)不對(duì)外),使用的是直接的人臉比對(duì)接口。目前具備有這個(gè)庫(kù)調(diào)用權(quán)限的,目前所知的只有幾家,在人臉識(shí)別公司中,好像只看到一家在提供,這里先不提了。BAT應(yīng)該都還沒(méi)有接入,如有大家有新發(fā)現(xiàn)的可以補(bǔ)充。
實(shí)際上,解決比對(duì)源的問(wèn)題的關(guān)鍵是需要有權(quán)威的照片數(shù)據(jù)來(lái)進(jìn)行比對(duì),許多公司剛剛開(kāi)始的時(shí)候采取NCIIC(公安部的一個(gè)事業(yè)單位)身份證返照接口的照片,進(jìn)行消網(wǎng)紋處理進(jìn)行比對(duì),但人臉的很多特征點(diǎn)被損毀成功率大概只有6成(根據(jù)六月份發(fā)布的網(wǎng)絡(luò)安全法,目前網(wǎng)紋返照接口市面上除了銀行系統(tǒng)可以使用外,其他所用的身份證返照接口都是非法的,一用就被查)。
1:1 人臉識(shí)別算法主要使用場(chǎng)景
曾經(jīng)有一些問(wèn)題是關(guān)于如何確認(rèn)本人的笑話(huà),派出所要求一個(gè)小伙證明就是本人,證明你媽是你媽。。這種奇葩問(wèn)題,但是許多陌生場(chǎng)合也有這種尷尬,你如果沒(méi)有帶證件,警察無(wú)法看到你的照片,如何確認(rèn)你就是XX就是之前經(jīng)常出現(xiàn)的執(zhí)法矛盾;如果一個(gè)人把身份證弄丟了,外面風(fēng)雪交加,如何給這類(lèi)人辦理酒店入住手續(xù)?這些就是身份確認(rèn)的問(wèn)題。公安部推身份證網(wǎng)上副本 身份認(rèn)證可“刷臉”完成就是用來(lái)解決這個(gè)問(wèn)題,我們出門(mén)不用完全依賴(lài)身份證可以確定身份,可以方便很多。
但是1:1人臉?biāo)惴ǖ木薮箅[患是我們隨處可見(jiàn)的人臉,實(shí)際就是一個(gè)公開(kāi)的鑰匙,馬云提出刷臉消費(fèi)吃飯,如果沒(méi)有手機(jī)驗(yàn)證碼(本身也是一重手機(jī)實(shí)名驗(yàn)證,同時(shí)做了人臉庫(kù)圖源定位,方便1:1校驗(yàn)),分分鐘鐘被吃垮。但是既然可以用手機(jī),為什么還用刷臉,不是多此一舉嗎?
另外還有一些高級(jí)會(huì)所,希望實(shí)現(xiàn)VIP的貴賓警報(bào)服務(wù),這個(gè)在下面的1:N和N:人臉識(shí)別算法系統(tǒng)中可以看到。但是1:1比對(duì)的身份應(yīng)用哪家強(qiáng)了?
在互聯(lián)網(wǎng)買(mǎi)機(jī)票、車(chē)票,醫(yī)院掛號(hào),政府惠民工程項(xiàng)目,以及各種證券開(kāi)戶(hù)、電信開(kāi)戶(hù)、互聯(lián)網(wǎng)金融開(kāi)戶(hù)都會(huì)用到。過(guò)去的身份認(rèn)證方式是非常不妥的(比如支付寶的持有注冊(cè)流程,還有一些不知名的社交APP等需要上傳身份證照片),這些資料是極其容易被盜取和轉(zhuǎn)賣(mài)的,下圖是來(lái)自百度的圖片搜索結(jié)果截圖,還有最近的一些女大學(xué)生的裸條資料泄露知乎專(zhuān)欄,導(dǎo)致犯罪分子有很多利用的漏洞,黑客軍團(tuán)號(hào)稱(chēng)資料2000萬(wàn),分分鐘鐘薅干一家金融平臺(tái)沒(méi)有問(wèn)題:
人臉識(shí)別的破解:
許多金融公司喜歡把人臉識(shí)別SDK模塊嵌入到APP當(dāng)中,但這個(gè)太容易繞過(guò),所以會(huì)再加上活體檢測(cè)(市場(chǎng)上常見(jiàn)的活體檢測(cè)為隨機(jī)動(dòng)作配合),但是即便加了活體檢測(cè),也一樣可以繞過(guò)。比如下面這兩種方式:
1. 3D人臉?lè)抡婷婢?/FONT>
2. 人臉模型實(shí)時(shí)重建
所謂道高一尺魔高一丈,這個(gè)還是增加其他的多維校驗(yàn)才能確認(rèn)身份,否則真有人要進(jìn)行遠(yuǎn)程攻擊,也不是很難的事情。那么活體檢測(cè)哪家強(qiáng)了?
1:N人臉識(shí)別算法主要用于人臉檢索
跟1:1的A/B兩張照片比對(duì)最大的區(qū)別是A/B A/C A/D……多個(gè)1:1計(jì)算,這個(gè)最大的問(wèn)題是一旦BCD總和數(shù)量越大計(jì)算速度越慢,而總和超過(guò)20萬(wàn),就回出現(xiàn)多個(gè)相似結(jié)果(20萬(wàn)人這個(gè)大數(shù)會(huì)導(dǎo)致有不少人長(zhǎng)相相似),需要人工輔助定位。過(guò)去我們?cè)陔娪袄锩婵吹绞裁础疤炀W(wǎng)”識(shí)別系統(tǒng)只是一種理想狀態(tài),實(shí)際應(yīng)用中都是排列出多個(gè)結(jié)果,排第一的未必是需要的人。
1:N人臉識(shí)別算法主要用于排查犯罪嫌疑人、失蹤人口的全庫(kù)搜尋、一人多證的重復(fù)排查,以此相似度列出相應(yīng)的結(jié)果,可以大大提高排查效率。類(lèi)似的也可以用到走失兒童的項(xiàng)目中去,相比美帝的亞當(dāng)警報(bào)、安珀警戒,國(guó)內(nèi)有沒(méi)有類(lèi)似的兒童走失警報(bào)及尋找機(jī)制?
這一類(lèi)系統(tǒng)的部署需要兩個(gè)條件:
1. BCD基本庫(kù)(比如1000萬(wàn)人)
2. 強(qiáng)大的算法硬件
1:N同時(shí)作業(yè)就是N:N了,同時(shí)相應(yīng)多張照片檢索需求,檢索耗費(fèi)的時(shí)間跟硬件算法關(guān)系極大,就這一領(lǐng)域的應(yīng)用,又哪家公司強(qiáng)了?
N:N人臉識(shí)別算法主要用于實(shí)時(shí)多1:N檢索計(jì)算:
N:N 該算法實(shí)際上是基于1:N的算法,輸入多個(gè)求解結(jié)果。比如視頻流的幀處理所用,對(duì)服務(wù)器的計(jì)算環(huán)境要求嚴(yán)苛,目前的算法系統(tǒng)所支撐的輸出率非常有限。
主要的限制如下:
海量的人臉照片解析需要大量運(yùn)算(目前很少看到在采集端直接解析的,都是照片剪裁)
海量的人臉照片傳輸需要大量的帶寬(常見(jiàn)的720布控?cái)z像頭抓取最小的人臉照片為20K)
海量的人臉照片在后臺(tái)檢索需要耗費(fèi)大量的運(yùn)算(國(guó)內(nèi)主流主機(jī)為例,最多到24路攝像頭)
由此可見(jiàn),真正實(shí)現(xiàn)“天網(wǎng)”人臉檢索,一來(lái)要解決數(shù)億攝像頭的圖片處理,二來(lái)需要解決聯(lián)合庫(kù)的超算檢索,這可不是一般公司吃得消。有些小區(qū)和高級(jí)場(chǎng)所,對(duì)VIP客戶(hù)的識(shí)別和接待比較喜歡這種視頻校驗(yàn)方式,但是實(shí)際部署使用者會(huì)受到攝像頭位置、角度,以及多人同時(shí)入場(chǎng)產(chǎn)生的問(wèn)題,而且人臉庫(kù)會(huì)非常有限,不然計(jì)算時(shí)間長(zhǎng),體驗(yàn)極差,一些所謂的迎賓機(jī)通常也就幾個(gè)人的照片(就是純粹給領(lǐng)導(dǎo)看的),實(shí)用價(jià)值大大的打折扣,有戴墨鏡或者帽子遮蔽都認(rèn)不出,畢竟關(guān)鍵特征取樣有限。這又有誰(shuí)強(qiáng)了?
拍照和直播APP的人臉圖像疊加
國(guó)內(nèi)比較多的娛樂(lè)APP通過(guò)對(duì)人像圖層跟蹤處理,也是一個(gè)不錯(cuò)的技術(shù)切入點(diǎn),但是產(chǎn)品安裝包會(huì)比較大,現(xiàn)在做的也只是跟蹤技術(shù),屬于底層識(shí)別,如果復(fù)雜一些的需要通過(guò)云服務(wù)實(shí)現(xiàn),但是服務(wù)器算法解析速度和帶寬比較難以跟上,也不算是一種靠譜的商業(yè)模式。
在視頻級(jí)N:N的校驗(yàn)中,如果要提高通過(guò)率,很多時(shí)候是采取降低準(zhǔn)確率的方式,降低算法隊(duì)列數(shù)量;同樣在一些比賽中為了降低誤識(shí)率,大大提高了準(zhǔn)確率,所以算法在校驗(yàn)的過(guò)程中必須遵循至少一個(gè)固定標(biāo)準(zhǔn),追求的是速度效率還是最高準(zhǔn)確率。
人臉識(shí)別算法的應(yīng)用分類(lèi)派系:
人臉識(shí)別對(duì)應(yīng)解決方案方向:
個(gè)人認(rèn)為未來(lái)人臉識(shí)別會(huì)讓大部分的數(shù)據(jù)更加真實(shí),而可以通過(guò)社會(huì)工程學(xué)模板做很多分析和改良,比如近期一些科學(xué)家利用人臉識(shí)別來(lái)分析一些人的健康、清晰,甚至是犯罪傾向,或許在未來(lái)還可以結(jié)合大數(shù)據(jù),對(duì)我們過(guò)去傳統(tǒng)的面相分析技術(shù)做一個(gè)全新的提升,到時(shí)候算命先生都要失業(yè)了。更多機(jī)器人交互、無(wú)人機(jī)產(chǎn)生的攝像目標(biāo)鎖定分析等科幻畫(huà)面并不是多遙遠(yuǎn)的事情。
|