即時人臉辨識(使用OpenCV與FaceNet)
分別來自《DeepFace: Closing the gap to human-level performance in face verification》(2014)[1]與《FaceNet: A Unified Embedding for Face Recognition and Clustering》(2015)[2]這兩篇paper提出的方法,而外利用OpenCV來擷取Webcam影像並使用其提供的Haar Cascade分類器進行人臉檢測(Face Detection)
在Face Recognition(人臉辨識)的問題上,通常會再進一步分成兩個種類 :
Face Verification (人臉驗證) :
e.g. 手機的人臉解鎖
Face Recognition (人臉辨識) :
e.g. 使用的人臉辨識的員工通行閘門
在Face Recognition(人臉辨識)的應用中經常要做到只靠一張照片就能辨認一個人,但深度學習(Deep Learning)的演算法在只有一筆訓練資料的情況下效果會很差,所以在人臉辨識中必須解決One Shot Learning(單樣本學習)的問題
假定某公司內的Database共有4位人員的照片各一張,當有其中一位人員經過系統前的鏡頭並被捕捉到臉孔後,儘管Database只有一張此人的照片,系統依然能辨認出此臉孔為公司裡的員工,相反的,若不為公司內人員則無法辨識此人
Similarity Function (相似度函數) 為了達到One Shot Learning (單樣本學習)這樣的目標,我們希望讓NN(Neural Network)去學習一個函數d d(img1, img2) : 給予兩張照片,輸出這兩張照片的相異程度
如此一來就解決了Face Verification (人臉驗證)1:1 matching的問題
Siamese network (孿生網路)
Note: 2範數(2-Norm)又稱為為歐基里德範數(Euclidean norm),是以歐式距離的方式作為基礎,計算出向量的長度或大小
總結來說,在Siamese network的架構我們希望能學出一種encoding(編碼)方式,更準確來說是希望學習出參數使得我們能達成以下的目標 在上述的目標中,改變ConvNet每一層的參數就會得到不同的編碼,所以我們可以利用反向傳播(Backpropagation)來更改這些參數以達到上列的目標
Triplet Loss (三元組損失) 在NN(Neural Network)的訓練中,都需要一個損失函數(Loss function)作為最小化(minimize)目標,而在Face recognition的應用中為了能夠學習參數來得到良好的encoding(編碼),《FaceNet: A Unified Embedding for Face Recognition and Clustering》(2015)[2]這篇論文提出一種有效的損失函數稱為Triplet Loss (三元組損失)
也就是說,我們希望神經網路的參數所造成的編碼能夠使Anchor與Positive的距離小於等於Anchor與Negative的距離這樣的性質
在上圖中,Anchor、Positive、Negative分別簡寫為A、P、N
def triplet_loss(y_true, y_pred, alpha = 0.3):
anchor, positive, negative = y_pred[0], y_pred[1], y_pred[2]
# Step 1: 計算anchor和positive的編碼(距離)
pos_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, positive)), axis=-1)
# Step 2: 計算anchor和negative的編碼(距離)
neg_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, negative)), axis=-1)
# Step 3: 將先前計算出的距離相減並加上邊距alpha
basic_loss = tf.add(tf.subtract(pos_dist, neg_dist), alpha)
# Step 4: 將上述計算出的損失與零取最大值,再將所有樣本加總起來
loss = tf.reduce_sum(tf.maximum(basic_loss, 0.0))
return loss
Loss Function (損失函數) Triplet Loss定義在3張一組的圖片A、P、N上,則損失函數則可以定義成:
這個max函數的用意在於,若括號的左邊項 ≤ 0則損失就為零,若左邊項 > 0則損失變成>零;而我們是希望損失越小越好,所以只要左邊項≤ 0不管負多少,就能把損失推向零
Note: 假定有10000張訓練圖片,分別來自1000個不同的人(每人約10張圖片)才能構成我們的資料集,若每個人只有一張照片這樣就無法順利挑出Anchor與Positive,但是當NN訓練完成後就可以將系統用在One-shot Learning的問題,對於你想辨識的人,你可能只有他的一張照片也能順利辨識出此人。
Choosing the triplets A, P, N
在訓練資料中,Triplets(三元組)樣本的選擇會是一個問題,因為在上述學習目標 d(A,P) + α ≤ d(A,N) 中,若只按照要求隨機的選擇同一個人的照片A與P 和不同人照片A與N,則這個不等式很容易就被滿足,因為隨機挑兩個人的照片有很大的機率使得A與N差異遠大於A與P,這會使得NN無法學習有效的參數
因此,要建立訓練集的話必須挑選那種很難訓練的A,P和N,因為目標是讓所有Triplets(三元組)滿足d(A,P) + α ≤ d(A,N) 這個不等式,而很難訓練的Triplets(三元組)的意思就是你所挑選的A,P和N會讓 d(A,P)≈ d(A,N) ,如此一來NN在學習的時候就必須花更大的力氣嘗試讓d(A,N)往上推或讓d(A,P)往下掉 ,推開彼此以達到相隔α的邊距,這樣的效果會讓你的學習演算法更效率;反之,若隨便選會導致很多的Triplets(三元組)都解起來很簡單,Gradient descent(梯度下降法)就不會再做任何事,因為你的NN早已把問題都做對了,在這部分在《FaceNet: A Unified Embedding for Face Recognition and Clustering》(2015)[2]這篇論文有更詳細的說明
Face detection (人臉偵測) 在人臉偵測的部分使用OpenCV的Haar Cascade分類器,選擇的為人臉分類器haarcascade_frontalface_default.xml
On Windows
eg: With Tensorflow as backend
> python facenet.py
利用OpenCV的Haar Cascade分類器進行人臉偵測(Face detection)
偵測出人臉後使用預訓練的FaceNet來進行encoding並計算距離,辨識從Webcam讀取的影像是否為資料庫中的人物