ArticlePDF Available

Deteksi Spoofing Wajah Menggunakan Faster R-CNN dengan Arsitektur Resnet50 pada Video

Authors:
  • Universitas Mikroskil

Abstract

Deteksi wajah merupakan proses mendasar dan penting dalam bidang pengenalan wajah yang sudah diteliti secara luas. Tujuan deteksi wajah adalah menentukan keberadaan dan menandai posisi wajah, baik pada gambar maupun video, yang disebut dengan bounding box. Salah satu masalah penting dalam deteksi wajah adalah membedakan wajah spoof dan non-spoof yang disebut sebagai deteksi spoofing wajah. Deteksi spoofing wajah merupakan pekerjaan penting yang digunakan untuk menjamin keamanan otentikasi berbasis wajah dan sistem analisis wajah. Oleh karena itu, dibutuhkan sebuah model yang dapat mendeteksi spoofing wajah. Pada makalah ini dilakukan proses membangun model yang dapat digunakan untuk mendeteksi wajah spoof dan non-spoof pada video menggunakan algoritme Faster R-CNN dengan arsitektur Resnet50. Faster R-CNN merupakan salah satu algoritme yang unggul dalam menyelesaikan berbagai persoalan deteksi objek. Dataset yang digunakan adalah Replay-Attack Database yang disediakan oleh Idiap Dataset Distribution Portal. Pada tahap training digunakan 360 video spoof dan non-spoof. Rata-rata nilai akurasi yang dihasilkan pada tahap training adalah 97,07%, dengan jumlah epoch sebanyak 21. Hasil pengujian menunjukkan bahwa model yang dihasilkan berhasil menentukan bounding box dengan akurat dan mendeteksi spoof dan non-spoof wajah pada video dengan efektif.
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ... ISSN 2301 - 4156
Deteksi Spoofing Wajah Menggunakan Faster R-CNN dengan
Arsitektur Resnet50 pada Video
(Face Spoofing Detection Using Faster R-CNN with Resnet50 Architecture
on Video)
Sunario Megawan1, *Wulan Sri Lestari1
AbstractFace detection is a main and important process in the
field of face recognition that has been widely studied. The purpose
of face detection is to determine the presence and mark the
position of faces, in both images and videos, called bounding
boxes. One important problem in face detection is to differentiate
between face spoof and non-spoof which is referred to as face
spoofing detection. Face spoofing detection is an important task
used to ensure the security of face-based authentication and facial
analysis systems. Therefore, we need a model that can detect face
spoofing. In this paper, the process to build a model that can be
used to detect face spoofing on video is carried out using Faster R-
CNN with Resnet50 architecture. Faster R-CNN is one of the
superior algorithms in solving various object detection problems.
The dataset used in this paper is a Replay-Attack Database,
provided by Idiap Dataset Distribution Portal.The training phase
used 360 videos, consisting of 300 spoof videos and 60 non-spoof
videos. The average accuracy of the training stage is 97,07% with
a total of 21 epochs. The test results show that the resulting model
successfully determined bounding boxes and detected face spoof
and non-spoof on the video effectively.
IntisariDeteksi wajah merupakan proses mendasar dan
penting dalam bidang pengenalan wajah yang sudah diteliti
secara luas. Tujuan deteksi wajah adalah menentukan
keberadaan dan menandai posisi wajah, baik pada gambar
maupun video, yang disebut dengan bounding box. Salah satu
masalah penting dalam deteksi wajah adalah membedakan wajah
spoof dan non-spoof yang disebut sebagai deteksi spoofing wajah.
Deteksi spoofing wajah merupakan pekerjaan penting yang
digunakan untuk menjamin keamanan otentikasi berbasis wajah
dan sistem analisis wajah. Oleh karena itu, dibutuhkan sebuah
model yang dapat mendeteksi spoofing wajah. Pada makalah ini
dilakukan proses membangun model yang dapat digunakan
untuk mendeteksi wajah spoof dan non-spoof pada video
menggunakan algoritme Faster R-CNN dengan arsitektur
Resnet50. Faster R-CNN merupakan salah satu algoritme yang
unggul dalam menyelesaikan berbagai persoalan deteksi objek.
Dataset yang digunakan adalah Replay-Attack Database yang
disediakan oleh Idiap Dataset Distribution Portal. Pada tahap
training digunakan 360 video spoof dan non-spoof. Rata-rata nilai
akurasi yang dihasilkan pada tahap training adalah 97,07%,
dengan jumlah epoch sebanyak 21. Hasil pengujian menunjukkan
bahwa model yang dihasilkan berhasil menentukan bounding box
dengan akurat dan mendeteksi spoof dan non-spoof wajah pada
video dengan efektif.
Kata KunciDeteksi Wajah, Spoofing, Video, Faster R-CNN,
Resnet50.
I. PENDAHULUAN
Deteksi wajah merupakan tahap penting dalam banyak
aplikasi, seperti face recognition, facial expression, dan
emotion recognition [1]. Tujuan deteksi wajah adalah
menentukan keberadaan wajah dalam video dan jika
ditemukan, maka posisi wajah ditandai. Ada banyak faktor
yang memengaruhi deteksi wajah, yaitu kualitas video, posisi
wajah manusia, pose ekstrem berbagai skala wajah, dan
occlusions [2]. Sebagai proses penting dalam face recognition,
algoritme untuk deteksi wajah yang baik diharapkan mampu
mengidentifikasi wajah dalam kondisi dan kualitas video yang
berubah-ubah.
Banyak algoritme yang telah diusulkan untuk melakukan
proses deteksi wajah pada video. Referensi [3] menggunakan
Convolutional Neural Network (CNN) untuk melakukan proses
deteksi wajah. Hasil yang diperoleh menunjukkan bahwa
algoritme yang digunakan mampu untuk mendeteksi wajah.
Namun, penelitian tersebut hanya difokuskan pada data citra
saja. Penelitian lainnya mengusulkan algoritme Adaboost untuk
melakukan deteksi wajah pada Youtube Faces dataset [4].
Penelitian tersebut menggunakan video wajah full face dan
tampak depan, sehingga mudah untuk dideteksi. Selain itu,
penelitian tersebut juga hanya dapat digunakan untuk
mendeteksi satu wajah saja. Penelitian lainnya menggunakan
Local Binary Pattern untuk melakukan deteksi wajah pada
video realtime yang ditangkap oleh kamera [5]. Namun,
penelitian tersebut juga hanya dapat digunakan untuk
mendeteksi satu wajah saja.
Penelitian lainnya melakukan deteksi wajah dan pejalan kaki
pada video menggunakan Region based Convolutional Neural
Network (R-CNN) [6]. R-CNN merupakan pengembangan dari
CNN yang digunakan untuk menyelesaikan berbagai persoalan
deteksi objek. Hasil penelitian menunjukkan bahwa algoritme
yang diusulkan mampu mendeteksi banyak wajah dan para
pejalan kaki [6]. Namun, penelitian tersebut memiliki
kelemahan, yaitu belum dapat membedakan wajah asli (non-
spoof) dan gambar atau video wajah (spoof), yang disebut
dengan spoofing wajah. Spoofing wajah merupakan proses
pemalsuan wajah seseorang untuk mendapatkan akses ilegal ke
sistem biometrik yang dapat dilakukan dengan menampilkan
video atau gambar wajah seseorang di layar monitor. Untuk
1 Program Studi Teknik Informatika, STMIK Mikroskil, Jl.
Thamrin No. 140 Medan 20212 INDONESIA (tlp: 061-4573767;
fax: 061-4567789; e-mail: sunario@mikroskil.ac.id,
wulan.lestari@mikroskil.ac.id)
261
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
mengatasi kelemahan tersebut, pada makalah ini diusulkan
algoritme Faster Region based Convolutional Neural Network
(Faster R-CNN). Faster R-CNN merupakan algoritme deteksi
objek berbasis wilayah terbaru yang menunjukkan hasil luar
biasa pada berbagai deteksi objek [7]. Ada banyak penelitian
yang sudah menggunakan Faster R-CNN pada bidang deteksi
objek, seperti deteksi objek pada gambar [7] dan deteksi mobil
pada video [8]. Kinerja Faster R-CNN sangat bergantung pada
kualitas data training yang besar. Tujuan utama makalah ini
adalah menguji kinerja Faster R-CNN dalam mendeteksi wajah
pada video yang dapat membedakan antara wajah spoof dan
non-spoof pada dataset Replay-Attack Database yang
disediakan oleh Idiap Dataset Distribution Portal.
II. DETEKSI WAJAH
Deteksi wajah merupakan masalah mendasar dan penting
dalam computer vision dan pengenalan pola yang telah diteliti
secara luas. Deteksi wajah merupakan tahap penting dalam
banyak aplikasi, seperti face recognition, facial expression, dan
emotion recognition [1]. Tujuan deteksi wajah adalah
menentukan keberadaan posisi wajah dalam video dan jika
wajah ditemukan maka posisi wajah ditandai dengan bounding
box. Ada banyak faktor yang memengaruhi deteksi wajah, yaitu
kualitas video, posisi wajah manusia, pose ekstrem berbagai
skala wajah dan occlusions [2]. Beberapa tantangan yang
dihadapi pada proses deteksi wajah adalah sebagai berikut [9].
Posisi wajah pada citra atau video dapat bervariasi seperti
miring, tegak, hadap depan, hadap belakang, tunduk, dan
lain-lain.
Komponen-komponen pada wajah seperti kacamata,
jenggot, dan kumis.
Ekpresi wajah.
Posisi wajah yang terhalang objek lain.
Kondisi pengambilan citra atau video yang dipengaruhi
oleh intensitas cahaya ruangan, lensa kamera, dan lain-lain.
III. FASTER R-CNN
Region based Convolutional Neural Networks (R-CNN)
merupakan algoritme deteksi objek yang masuk dalam ranah
computer vision berbasis jaringan konvolusi. R-CNN sendiri
awalnya pada tahun 2015 dibuat sebagai algoritme
pendeteksian objek yang mengombinasikan algoritme Region
Proposal Network (RPN) dan CNN [10]. Seiring berjalannya
waktu, R-CNN terus dikembangkan untuk meningkatkan
kinerja, baik kecepatan maupun akurasi, dalam pendeteksian
objek. Akan tetapi, R-CNN maupun Fast R-CNN masih
mempunyai kekurangan, salah satunya adalah adanya
bottleneck, yaitu kompleksitas perhitungan region proposal
pada RPN yang tidak dapat menyamai kecepatan komputasi
pada CNN. Untuk mengatasi masalah bottleneck, dilakukan
penelitian dengan optimisasi pada penggunaan fitur
konvolusional untuk mempercepat proses RPN, sehingga dapat
mengurangi terjadinya bottleneck menggunakan Faster R-
CNN, yang merupakan kombinasi dari Fast R-CNN dan RPN
[7].
Faster R-CNN merupakan algoritme deteksi objek berbasis
wilayah terbaru yang menunjukkan hasil luar biasa pada
berbagai deteksi objek [7]. Faster R-CNN adalah algoritme
yang menggunakan Fast R-CNN dan RPN sebagai arsitektur
utamanya. Algoritme ini merupakan pengembangan dari Fast
R-CNN dengan mengubah bagian selective search pada Fast R-
CNN menjadi RPN [7]. RPN adalah sebuah neural network
yang menggantikan peran selective search untuk mengajukan
region (bagian-bagian dari sebuah gambar yang perlu “dilihat”
lebih jauh). RPN menghasilkan beberapa bounding box, dengan
setiap box memiliki dua skor probabilitas, yaitu pada lokasi
tersebut terdapat objek atau tidak. Region-region yang
dihasilkan tersebut akan menjadi input untuk arsitektur yang
mirip seperti Fast R-CNN. Penggunaan RPN untuk
menggantikan selective search dapat mengurangi kebutuhan
komputasi yang cukup signifikan dan membuat keseluruhan
model dapat dilatih secara end-to-end. Saat ini, Faster R-CNN
sudah menjadi pilihan model yang umum digunakan untuk
deteksi objek dengan solusi berbasis deep learning [7], [8],
[11]. Gbr. 1 merupakan arsitektur dari Faster R-CNN [12].
Faster R-CNN dibagi menjadi dua bagian penting sebagai
berikut [12].
1) Region Proposal Network (RPN): RPN merupakan
proses yang berguna untuk mencari kemungkinan lokasi objek
pada gambar yang dimasukkan secara cepat. Lokasi objek yang
ada pada gambar memiliki kemungkinan batasan objek dari
wilayah yang diketahui yang disebut sebagai Region of Interest
(RoI). RoI diperkenalkan oleh Ross Girschik tahun 2015 [10]
sebagai sebuah pendekatan deteksi objek menggunakan deep
learning. Input yang digunakan pada layer RoI adalah feature
maps yang merupakan output dari CNN dengan multiple
convolution layers dan max pooling layers. Sebuah N x N
matriks dibuat dengan membagi ruang feature map menjadi
RoI. Kolom pertama merupakan indeks dari citra dan sisa
kolom lainnya merupakan koordinat dari RoI, dimulai dari
koordinat paling kiri atas hingga kiri bawah. RoI yang sudah
ditentukan disebut sebagai region proposal. Pada RPN,
awalnya citra input diproses dalam jaringan saraf konvolusi
untuk menghasilkan feature map. Feature map terdiri atas
Gbr. 1 Arsitektur Faster R-CNN.
ISSN 2301 4156 Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ...
262
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
enam bagian, yaitu penentuan object dan non-object dengan
nilai 01, koordinat nilai x dan y, serta nilai weight dan height
dari bounding box. Sliding window ditempatkan pada setiap
feature map dengan ukuran N x N, sesuai dengan setiap anchor
sliding window yang dibentuk. Setiap anchor memiliki titik
pusat yang sama, tetapi memiliki aspect rations dan scaling
factor yang berbeda.
2) Classifier: Classifier merupakan proses yang digunakan
untuk mengklasifikasikan RoI yang sudah diidentifikasi pada
RPN ke dalam kelas atau target yang sesuai. Teknik yang
digunakan pada tahap ini adalah CNN.
IV. METODOLOGI
Tahapan-tahapan yang dilakukan dalam makalah ini adalah
sebagai berikut.
A. Pengumpulan Data
Data yang digunakan adalah data sekunder (dataset), yaitu
Replay-Attack Database yang dapat diakses pada link
https://www.idiap.ch/dataset/replayattack. Replay-Attack Da-
tabase merupakan dataset yang digunakan pada berbagai
penelitian di bidang deteksi spoofing wajah. Replay-Attack
Database berisi 1.300 video klip dari foto dan video yang
direkam dengan berbagai lighting yang berbeda dari 50 klien
[13]. Dataset dibagi menjadi empat bagian, yaitu sebagai
berikut.
1. Training data (“train”) digunakan untuk training model
klasifikasi non-spoof yang terdiri atas 60 real-accesses dan
300 attacks di bawah kondisi lighting yang berbeda.
2. Development data (“devel”) digunakan sebagai threshold
estimation (EER Equal Error Rate point), yang terdiri
atas 60 real-accesses dan 300 attacks di bawah kondisi
lighting yang berbeda.
3. Test data (“test”) digunakan untuk menghasilkan
error/akurasi dari model yang diusulkan, yang terdiri atas
80 real-accesses dan 400 attacks di bawah kondisi lighting
yang berbeda.
4. Enrollment data (“enroll”) digunakan untuk melakukan
verifikasi sensitivitas spoofing pada algoritme deteksi
wajah, yang terdiri atas 100 real-accesses di bawah kondisi
lighting yang berbeda.
Pada makalah ini, data yang digunakan untuk membangun
model deteksi spoofing wajah pada video hanya mengunakan
training data dan testing data. Tabel I merupakan rincian data
yang digunakan.
B. Implementasi Faster R-CNN
Pada tahap ini dilakukan proses analisis dan desain terhadap
algoritme Faster R-CNN untuk diimplementasikan pada sistem
deteksi wajah manusia pada video, yang dapat digunakan untuk
membedakan wajah spoof dan non-spoof berdasarkan dataset
yang digunakan. Alat bantu yang digunakan adalah bahasa
pemrograman Python, Tensorflow, Keras, dan OpenCV.
Penelitian terdiri atas dua proses penting, yaitu tahap training
dan tahap testing.
1) Tahap Training: Tahap training digunakan untuk
membangun model berdasarkan algoritme Faster R-CNN dan
dataset Replay-Attack. Gbr. 2 merupakan langkah-langkah
yang dilakukan pada tahap training. Berikut adalah penjelasan
masing-masing tahap pada Gbr. 2.
Masukan berupa data video.
Seluruh data video dikonversi menjadi data gambar
menggunakan OpenCV. Kemudian, masing-masing
gambar diberi label sesuai dengan jenis kelasnya masing-
masing (spoof dan non-spoof) beserta ukuran dari
bounding box yang akan digunakan untuk proses deteksi
dan disimpan ke dalam file teks untuk mempermudah
proses pemanggilan data.
TABEL I
RINCIAN DATA YANG DIGUNAKAN
Jenis Kelas
Jumlah
Video
Jumlah
Frame/Video
Training
Spoof
Fixed
150
240
Hand
150
230
Non-
Spoof
Real
60
375
Testing
Spoof
Fixed
200
240
Hand
200
230
Non-
Spoof
Real
80
375
Gbr. 2 Flowchart tahap training.
Mulai
Data
Video
Konversi
Menjadi
Gambar
Data
Gambar
Convolution
Network
Feature
Map
Regional
Propos al
Network
Region
Propos al
Region of
Interest
Pooling
Classifier
CNN
Model
Deteksi
Selesai
A
A
Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ... ISSN 2301 - 4156
263
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
Seluruh data diproses ke dalam layer convolution network
dengan nilai weight yang diinisialisasi menggunakan
Resnet50 dan menghasilkan feature map berdasarkan
jumlah anchor.
Selanjutnya, feature map diproses ke regional proposal
network untuk mendapatkan region proposal.
Region proposal selanjutkan akan diproses ke dalam RoI
dan classifier CNN untuk menentukan jenis kelas (label)
serta akurasi dalam pembuatan model berdasarkan jumlah
epoch yang digunakan.
2) Tahap Testing: Tahap testing digunakan untuk menguji
model yang dihasilkan pada tahap training. Gbr. 3 merupakan
flowchart tahap testing, dengan penjelasan masing-masing
tahap adalah sebagai berikut.
Masukan berupa data video.
Seluruh data video dikonversi menjadi data gambar
menggunakan OpenCV.
Seluruh data gambar dimasukkan ke dalam model yang
sudah dibangun pada tahap training.
Kemudian video akan dideteksi, termasuk wajah spoof atau
non-spoof, beserta dengan nilai akurasi yang dihasilkan.
C. Confusion Matrix
Confusion matrix digunakan untuk mengukur kinerja
algoritme yang diimplementasikan. Kinerja yang diukur dilihat
dari sisi tingkat akurasi. Tabel II merupakan confusion matrix
yang sering digunakan.
= +
+++ 100% (1)
dengan TP adalah True Positive, yaitu jumlah data positif yang
terklasifikasi dengan benar oleh sistem; TN adalah True
Negative, yaitu jumlah data negatif yang terklasifikasi dengan
benar oleh sistem; FN adalah False Negative, yaitu jumlah data
negatif tetapi terklasifikasi salah oleh sistem; dan
FP adalah False Positive, yaitu jumlah data positif tetapi
terklasifikasi salah oleh sistem.
V. HASIL DAN PEMBAHASAN
Untuk mengimplementasi teknik Faster R-CNN dengan data
video, dibutuhkan spesifikasi perangkat yang mendukung agar
proses training dan testing dapat berjalan dengan baik dan lebih
efisien. Tabel III menyajikan spesifikasi hardware dan
software yang digunakan.
Pada makalah ini, untuk membangun model deteksi
menggunakan Faster R-CNN, digunakan 360 video (300 spoof
dan 60 non-spoof) data training. Kemudian, video tersebut
dikonversi menjadi gambar dengan total 92.998, yang terdiri
atas 22.461 gambar non-spoof dan 69.996 gambar spoof.
Sebelum proses training dilakukan, disediakan sebuah file teks
yang berisi informasi terkait nama gambar, ukuran bounding
box, dan class (label). Data training tersebut dibagi menjadi
dua, yaitu data train sebanyak 76.990 gambar dan data
validation sebanyak 15.467 gambar. Arsitektur CNN yang
digunakan adalah Resnet50 yang merupakan model yang sudah
dilatih menggunakan ImageNet Dataset agar dapat
menghasilkan feature extraction yang baik. Jumlah anchor
yang digunakan adalah sembilan, sesuai dengan default anchor
Faster R-CNN. Anchor merupakan bagian penting yang
digunakan untuk menentukan bagian penting dari gambar
Gbr. 3 Flowchart tahap testing.
Mulai
Data
Video
Konversi
Menjadi
Gambar
Data
Gambar
Model
Deteksi
Spoof atau
Non-Spoof
Selesai
TABEL II
CONFUSION MATRIX
Correct Result/Classification
E1
E2
Obtained
Result/Classification
E1
TP
(True
Positive)
FP
(False
Positive)
E2
FN
(False
Negative)
TN
(True
Negative)
TABEL III
SPESIFIKASI HARDWARE DAN SOFTWARE
Kriteria
Spesifikasi
Sistem Operasi
Windows 10 64-Bit
Prosesor
Amd Ryzen 3700x
Memori
32Gb DDR4 PC 3200
Graphics Card
GTX 1660 TI 6GB DDR6
GPU Engine
NVIDIA Cuda Core 1536
Bahasa Pemrograman
Python
IDE Pemrograman
IDLE
Library
Tensorflow, Keras, dan
OpenCV
ISSN 2301 4156 Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ...
264
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
(region proposal) yang akan dimasukkan ke RPN. Optimizer
yang digunakan adalah Adam, dengan nilai learning rate
sebesar 0,00001. Selain itu, Stochastic Gradient Distance
digunakan untuk mengoptimasi convolution layer, RPN weight,
dan fully connected layer. Epoch length yang digunakan adalah
50.000, dengan jumlah epoch sebesar 21.
Tabel IV menunjukkan hasil yang diperoleh pada tahap
training. Berdasarkan tabel tersebut, nilai akurasi tertinggi
diperoleh pada epoch ke-21 dengan nilai 97,63% , nilai loss
(tingkat kesalahan) yang semakin rendah, dan waktu eksekusi
7 jam 21 menit 22 detik. Pada saat pembuatan model di tahap
training, nilai weight akan diperbarui setiap kali nilai akurasi
pada epoch berjalan lebih besar daripada nilai akurasi pada
epoch sebelumnya. Sementara itu, Gbr. 4 merupakan hasil
deteksi wajah yang dilakukan pada tahap testing. Lalu, untuk
menguji model training yang dihasilkan, dilakukan beberapa
skenario pengujian sebagai berikut.
1) Pengaruh Lighthing Video Terhadap Akurasi Deteksi
yang Dihasilkan: Untuk mengetahui pengaruh lighting
terhadap akurasi model deteksi, pada pengujian ini digunakan
enam data video yang terdiri atas tiga video spoof dan tiga video
non-spoof. Gbr. 5 merupakan video spoof sedangkan Gbr. 6
merupakan video non-spoof.
Hasil pengujian untuk melihat pengaruh lighting terhadap
hasil akurasi deteksi spoof dan non-spoof diperlihatkan pada
Tabel V. Berdasarkan tabel, dibuat grafik yang diperlihatkan
pada Gbr. 7. Dapat dilihat bahwa lighthing dapat memengaruhi
keakuratan model dalam mendeteksi wajah spoof dan non-
spoof. Video1 (a) Spoof dengan jumlah frame 230 mendapatkan
rata-rata akurasi 89,04% dengan lighthing video gelap.
Sementara untuk video1 (a) non-spoof dengan jumlah frame
375, dihasilkan nilai rata-rata akurasi yang lebih rendah, yaitu
56,48% dengan lighthing video yang diberikan juga gelap.
Tabel V juga menunjukkan bahwa waktu yang dibutuhkan
TABEL IV
HASIL PROSES TRAINING
Epoch ke-
Loss RPN
Classifier (mse)
Loss RPN Regression
(mse)
Loss Detector
Classifier (mse)
Loss Detector Regression
(mse)
Akurasi
Waktu
(H:M:S)
1
0,308
0,21
0,13
0,06
94,92
07:25:00
2
0,213
0,009
0,085
0,026
96,55
07:14:57
3
0,197
0,007
0,084
0,022
96,62
07:13:25
4
0,202
0,005
0,080
0,020
96,84
07:18:11
5
0,113
0,005
0,082
0,019
96,76
07:15:10
6
0,011
0,004
0,082
0,018
96,80
07:15:21
7
0,009
0,004
0,078
0,017
96,97
07:22:05
8
0,007
0,004
0,075
0,016
97,04
07:17:07
9
0,008
0,003
0,074
0,015
97,09
07:16:29
10
0,006
0,003
0,071
0,014
97,25
07:21:27
11
0,007
0,003
0,072
0,014
97,17
07:19:45
12
0,006
0,003
0,071
0,014
97,22
12:07:49
13
0,007
0,003
0,068
0,013
97,38
07:20:22
14
0,006
0,003
0,069
0,013
97,33
07:19:13
15
0,006
0,002
0,067
0,013
97,39
07:17:37
16
0,005
0,002
0,066
0,013
97,44
07:19:16
17
0,004
0,002
0,067
0,012
97,40
07:18:50
18
0,004
0,002
0,064
0,012
97,54
07:17:48
19
0,003
0,002
0,062
0,012
97,58
07:21:57
20
0,002
0,002
0,062
0,012
97,58
07:22:08
21
0,003
0,002
0,062
0,011
97,63
07:21:22
Gbr. 4 Hasil deteksi wajah tahap testing.
(a) (b) (c)
Gbr. 5 Video uji spoof.
(a) (b) (c)
Gbr. 6 Video uji non-spoof.
Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ... ISSN 2301 - 4156
265
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
untuk menguji masing-masing video berbeda-beda, meskipun
jumlah frame yang diberikan sama.
2) Pengaruh Gender Terhadap Akurasi Deteksi yang
Dihasilkan: Pengujian ini dilakukan dengan tujuan mengetahui
gender memengaruhi hasil deteksi atau tidak. Pada tahap
training, data yang digunakan untuk membangun model
merupakan 94% data video dengan gender laki-laki, sehingga
perlu diuji dengan data video wanita untuk melihat keakuratan
model dalam melakukan deteksi spoof dan non-spoof wajah.
Gbr. 8 menunjukkan tiga data video wanita spoof dan Gbr. 9
menunjukkan data video wanita non-spoof yang digunakan
untuk pengujian. Hasil pengujian untuk melihat pengaruh
gender terhadap hasil akurasi deteksi spoof dan non-spoof
diperlihatkan pada Tabel VI.
Berdasarkan Tabel VI, dibuat grafik yang diperlihatkan
pada Gbr. 10. Dapat dilihat bahwa video wanita wajah spoof
dapat terdeteksi benar sesuai jenis kelasnya dengan rata-rata
nilai akurasi 99,99%. Sementara, data video uji wanita untuk
wajah non-spoof hanya berhasil dideteksi dengan benar pada
video1 (a) dengan nilai akurasi 99,97%, sedangkan video2 (b)
dan video3 (b) non-spoof hanya dapat dideteksi bagian
wajahnya, tetapi hasil klasifikasi kelasnya tidak sesuai. Oleh
karena itu, untuk pengujian pengaruh gender dari enam video
data uji yang diberikan, model hanya dapat mendeteksi empat
video dengan benar. Hal tersebut terjadi karena pada saat
melakukan training, jumlah video wanita yang diuji tidak
termasuk ke dalam data training.
VI. KESIMPULAN
Berdasarkan hasil pengujian yang didapatkan dengan
berbagai skenario, diketahui bahwa lighting dapat
memengaruhi hasil akurasi deteksi spoofing wajah, tetapi hasil
deteksi yang dilakukan benar sesuai dengan jenis kelasnya.
Model yang dihasilkan juga belum mampu mendeteksi dengan
baik ketika data uji yang diberikan merupakan video wajah
wanita. Hal tersebut dapat dilihat pada pengujian pengaruh
TABEL V
HASIL PENGUJIAN PENGARUH LIGHTHING
Kelas Jumlah
Frame Hasil
Deteksi
Rata-
rata
Akurasi
(%)
Waktu
(Menit:Detik)
Spoof
Video1 (a)
230
Spoof
89,04
36:23
Video2 (b)
230
Spoof
99,99
38:47
Video3 (c)
230
Spoof
99,99
37:09
Non-Spoof
Video1 (a)
375
Non-
Spoof
56,48
56:17
Video2 (b)
375
Non-
Spoof
99,92
58:09
Video3 (c)
375
Non-
Spoof
99,94
59:16
Gbr. 7 Grafik hasil pengujian pengaruh lighting.
(a) (b) (c)
Gbr. 8 Data video wanita spoof.
(a) (b) (c)
Gbr. 9 Data video wanita non-spoof.
99,8
99,9
100
Video1(a) Video2(b) Video3 ( c)
Akurasi
Hasil Pengujian Pengaruh
Lighthing
Spoof Non-Spoof
TABEL VI
HASIL PENGUJIAN PENGARUH GENDER
Kelas Jumlah
Frame Hasil
Deteksi
Rata-
rata
Akurasi
Waktu
(Jam:Menit
:Detik)
Spoof
Video1 (a)
230
Spoof
99,99
00:35:00
Video2 (b)
230
Spoof
99,99
00:38:13
Video3 (c)
240
Spoof
99,99
00:37:04
Non-Spoof
Video1 (a)
375
Spoof
99,97
01:01:27
Video2 (b)
375
Non-
Spoof
99,99
01:32:16
Video3 (c)
375
Spoof
99,88
01:01:52
Gbr. 10 Grafik hasil pengujian pengaruh gender.
99,8
99,85
99,9
99,95
100
Video1(a) Video2(b) Video3 ( c)
Akurasi
Hasil Pengujian Pengaruh
Gender
Spoof Non-Spoof
ISSN 2301 4156 Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ...
266
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 3, Agustus 2020
gender, yaitu model hanya dapat mendeteksi empat video
dengan baik dari enam video yang diberikan. Namun, secara
keseluruhan, Faster R-CNN dapat mendeteksi wajah dan
membedakan wajah spoof dan non-spoof dengan rata-rata
akurasi training sebesar 97,07%. Untuk penelitian selajutnya,
model yang dihasilkan perlu diuji dengan beberapa skenario
lain, seperti dataset yang lebih kompleks, pengaruh noise,
dataset lainnya yang dapat menguji model yang dihasilkan
dapat mendeteksi spoofing dan non-spoofing wajah dengan
akurat dari sisi samping dan jarak wajah yang lebih jauh atau
tidak.
UCAPAN TERIMA KASIH
Terima kasih disampaikan kepada STMIK Mikroskil yang
telah memberikan bantuan hibah dan dukungan pada penelitian
ini melalui skema Hibah Kompetisi Internal Kreativitas dan
Inovasi Dosen Semester Ganjil TA. 2019/2020.
REFERENSI
[1] E. Owusu, J.D. Abdulai, dan Y. Zhan, Face Detection Based on
Multilayer Feed-forward Neural Network and Haar Features,” Softw.
Pract. Exper, Vol. 49, No. 1, hal. 120-129, 2019.
[2] Y. Zhou, D. Liu, dan T. Huang, Survey of Face Detection on Low-
quality Images,” 13th IEEE International Conference on Automatic Face
& Gesture Recognition (FG), 2018, hal. 769-773.
[3] G. Guo, H Wang, Y. Yan, J Zheng, dan B. Li, “A Fast Face Detection
Method via Convolutional Neural Network,” Neurocomputing, Vol. 395,
hal, 128-137, 2020.
[4] X. Huang, A Hybrid Framework for Human Face Detection and
Recognition in Videos,” IOP Conf. Series: Earth and Environmental
Science, Vol. 252, No. 5, hal. 1-5, 2018.
[5] N.A. Othman dan I. Aydin, A Face Recognition Method in the Internet
of Things for Security Applications in Smart Homes and Cities,” 6th
International Istanbul Smart Grids and Cities Congress and Fair (ICSG),
2018, hal 20-24.
[6] S.Y. Jin, A. RoyChowdhury, H. Jiang, A. Singh, A. Prasad, D.
Chakraborty, dan E.L. Miller, Unsupervised Hard Example Mining from
Videos for Improved Object Detection,” European Conference on
Computer Vision, 2018, hal. 1-18.
[7] S. Ren, K. He, R.B. Girshick, dan J. Sun, “Faster R-CNN: Towards Real-
time Object Detection with Region Proposal Networks,” IEEE Trans. on
Pattern Analysis and Machine Intelligence, Vol. 39, No. 6, hal. 1137-
1149, 2017.
[8] B. Benjdira, T. Khursheed, A. Koubaa, A. Ammar, dan K. Ouni, “Car
Detection using Unmanned Aerial Vehicles: Comparison between Faster
R-CNN and YOLOv3,” 1st International Conference on Unmanned
Vehicle Systems-Oman (UVS), 2019, hal. 1-6.
[9] M.D. Putro, T.B. Adji, dan B. Winduratna, “Sistem Deteksi Wajah
dengan Menggunakan Metode Viola-Jones,” Sem. Nas. Sci. Eng.
Technol., 2012, hal. 1–5.
[10] R. Girshick, J. Donahue, T. Darrell, dan J. Malik, Rich Feature
Hierarchies for Accurate Object Detection and Semantic Segmentation,”
IEEE Conf. on Computer Vision and Pattern Recognition, 2014, hal. 580-
587.
[11] Y. Liu, Z. Ma, X. Liu, S. Ma, dan K. Ren, Privacy-Preserving Object
Detection for Medical Images with Faster R-CNN,” IEEE Transactions
on Information Forensics and Security, hal. 1-16, 2019.
[12] S.M. Abbas dan S.N. Singh, Region-based Object Detection and
Classification Using Faster R-CNN,” Int. Conf. on Computational
Intelligence and Communication Technology, 2018, hal. 1-6.
[13] I. Chingovska, A. Anjos, dan S., Marcel, On the Effectiveness of Local
Binary Patterns in Face Non-spoofing,” Proc. of the Int. Conf. of
Biometrics Special Interest Group (BIOSIG), 2012, hal. 1–7.
Sunario Megawan: Deteksi Spoofing Wajah Menggunakan ... ISSN 2301 - 4156
267
... The combination of poses and orientations is used to find specific key points of the person or object so that they can be combined to identify a person's pose [26]. The proposed method estimates human poses when disposing of trash and other poses, such as walking and running [22]. Thus, the system can distinguish the results of the detected poses. ...
... The classification of body posture construction using the K-NN method, although more straightforward than the application of facial recognition, has accurate results [25]. Deep learning [22], multi-scale temporal features, spatio-temporal KCS pose differentiation, and occlusion data augmentation [29] have been used for the 2D to 3D development of human pose estimation [30,31]. Other methods use attention models [32] and multi-scale networks with phase inference optimization [33], introducing many parameters requiring manual tuning. ...
Article
Full-text available
Infrastructure development requires various considerations to maintain its continuity. Some public facilities cannot survive due to human indifference and irresponsible actions. Unfortunately, the government has to spend a lot of money, effort, and time to repair the damage. One of the destructive behaviors that can have an impact on infrastructure and environmental problems is littering. Therefore, this paper proposes a device as an alternative for catching littering rule violators. The proposed device can be used to monitor littering and provide warnings to help officers responsible for capturing the violators. In this innovation, the data obtained by the camera are sent to a mini-PC. The device will send warning information to a mobile phone when someone litters. Then, a speaker will turn on and issue a sound warning: “Do not litter”. The device uses pose detection and a recurrent neural network (RNN) to recognize a person’s activity. All activities can be monitored in a more distant place using IoT technology. In addition, this tool can also monitor environmental conditions and replace city guards to monitor the area. Thus, the municipality can save money and time.
... Habib Astari Adi dan Ika Candradewi yang melakukan penelitian dengan judul "Sistem Pengenalan Isyarat Tangan untuk Mengendalikan Gerakan Robot Mochamad Bagus Setiyo Bakti dan Yuliana Melita Pranoto yang melakukan penelitian dengan judul "Pengenalan Angka Sistem Syarat Bahasa Indonesia dengan Menggunakan Metode Convolutional Neural Network" menggunakan metode Convolutional Neural Network mendapatkan hasil bahwa dengan menggunakan arsitektur LeNet tingkat akurasi training dan testing mencapai 90% bahkan lebih [4]. Sunario Megawan dan Wulan Sri Lestari yang melakukan penelitian dengan judul "Deteksi Spoofing Wajah Menggunakan Faster R-CNN Dengan Arsitektur Resnet50 pada Video" menggunakan metode Faster R-CNN mendapatkan hasil bahwa rata-rata nilai akurasi yang dihasilkan pada tahap training adalah 97,07%, dengan jumlah epoch sebanyak 21, yang artinya pengujian menunjukkan bahwa model yang dihasilkan berhasil menentukan bounding box[5]. RNN didalamnya untuk membantu melakukan proses pelatihan dan perhitungan terhadap model dan menghasilkan persentase akurasi 90%-100%. ...
... Jika hasil perhitungan memiliki jumlah data False Negatif dan False Positif yang sangat mendekati atau simetris maka Accuracy dapat dijadikan sebagai acuan untuk melihat performa algoritma. Namun jika jumlahnya tidak mendekati, sebaiknya menggunakan F-1 Score sebagai acuannya[11].Pada penelitian ini, dari segi akurasi yang dihasilkan dari model pengenalan saat di train pada Teachable Machine yaitu, Sikap Sempurna sebesar 100%, Jangkar Kodok sebesar 93%, Jangkar Kuda sebesar 100%, Jurus 1 UMS (Ular Menyebrang Sungai) sebesar 97% dan Jurus 2 MJ (Menghadang Jalan) sebesar 100%, hal ini membuat akurasi rata-rata semua class di atas 90% dari 30 epoch.5. Hasil Akurasi saat Bergerak dengan BenarSaat model diintegrasikan dengan program, sistem pengenalan menghasilkan akurasi rata-rata di atas 70% saat pengguna sudah melakukan gerakan dengan benar seperti pada Gambar 5, sedangkan di sisi lain sistem memberikan akurasi rata-rata dibawah 10% saat pengguna masih bergerak salah seperti pada Gambar 6.Pada aplikasi ini sudah berisi feedback berupa teks di bagian bawah akurasi saat gerakan sudah diprediksi benar atau salah. ...
Article
Full-text available
Penelitian pengenalan sikap dasar atau poses recognition yang mengkhusus ke bidang olahraga sangatlah jarang ada dan peneliti belum menemukan jurnal atau artikel yang membahas mengenai pengenalan sikap dasar dari Pencak Silat seperti pada penelitian ini. Hasil penelitian ini dapat dipergunakan oleh atlet, tenaga pengajar ataupun organisasi bahkan juga pemerintah yang ingin memanfaatkan hasil penelitian ini yaitu, berupa aplikasi pengenalan sikap dasar dari Pencak Silat. Untuk mewujudkan aplikasi ini, peneliti menggunakan Neural Network atau kecerdasan buatan yang mana model dari pengenalan di train pada Teachable Machine yang menghasilkan akurasi pengenalan di atas 90%, kemudian diintegrasikan dengan program aplikasi mobile berbasis Android yang dibangun menggunakan Flutter, serta setelah diintegrasikan dengan aplikasi mobile, aplikasi pengenalan ini masih menghasilkan akurasi di atas 90%, sehingga dapat disimpulkan aplikasi ini dapat bekerja dengan sangat baik.
... Beberapa algoritma, teknik maupun metode telah banyak digunakan dalam eksperimen pengenalan wajah seperti algoritma PCA [7], [8], viola jones [9], wavelet [2], CNN [10], [11] , haar cascade [11], [12]. Beberapa contoh tersebut memiliki hasil pengenalan wajah yang sesuai, tingkat akurasi tinggi dan mampu mendeteksi wajah sesuai dengan citra data latih. ...
Article
Full-text available
Current facial recognition system utilizes the Principal Component Algorithm (PCA) and the Bounding Box method to recognize facial locations based on brightness levels. The problem that was found in the experiment was that unclear or illuminated light factors could cause inaccuracies in facial area recognition. PCA is an algorithm capable of performing dimensional reduction to recognize the face area. The recognition process involves image pre-processing, PCA analysis to produce vectors, and application of a Bounding Box to focus on critical areas. This research contributes to the development of reliable and efficient facial recognition systems, potentially applied in security and access management. The experiment used the Grimace dataset using the .jpg format, with tests on normal brightness and -50 decreases in brightness level. At the decrease in -50, the result shows that the smallest distance value is 3540.1, and the greatest distance is 6849.4 with the average value being 5810.110. face recognition results can recognize face images with the original image
... Pemrosesan citra adalah utamanya sebuah teknik untuk mengkompresi, memperbaiki, atau mengekstrak informasi berharga dari suatu gambar (Hasan & Sallow, 2021). Tujuan deteksi wajah adalah menentukan keberadaan dan menandai posisi wajah, baik pada gambar maupun video, yang disebut dengan bounding box (Megawan & Lestari, 2020). Deteksi wajah sering digunakan dan dimanfaatkan di berbagai perangkat teknologi digital pada zaman sekarang dengan memanfaatkan perkembangan teknologi komputer. ...
Article
Full-text available
Pemeriksaan foto paspor pada saat ini masih menggunakan system manual atau membutuhkan tenaga manusia. Dalam melakukan pemeriksaan tentunya tata cara pemeriksaan seperti ini memiliki beberapa keterbatasan yaitu human error karena petugas juga memiliki keterbatasan tenaga dalam melakukan pengecekan. Tujuan dari penelitian ini adalah dapat mengenali wajah seseorang meskipun area wajah tertutup oleh objek atau aksesoris. Metode yang digunakan sebagai deteksi wajah yaitu DNN dan metode untuk pengenalan wajah yaitu FaceNet. Untuk hasil pengujian training model FaceNet telah menghasilkan model terbaik dengan akurasi 97,48% terhadap 5191 citra uji dan untuk testing gambar didapat akurasi gambar sebesar 97% dengan citra uji 412 dan untuk pengujian secara realtime didapat hasil untuk kondisi wajah normal sebesar 90%, kondisi wajah menggunakan kacamata sebesar 83%, kondisi wajah menggunakan masker sebesar 70%, kondisi wajah menggunakan topi sebesar 81% dan kondisi wajah menggunakan semua aksesoris sebesar 66%. Dengan begitu sistem telah berjalan sesuai dengan yang diharapkan dan metode FaceNet telah dapat diimplementasikan secara realtime pada sistem pengenalan wajah dengan akurasi pengenalan wajah yang sangat baik
... These areas will serve as inputs for comparable designs, such as Fast R-CNN. Using RPN to replace selective search can drastically lower the computing resources required to make the entire model viable and trainable from beginning to finish [4] [5]. Figure 1 depicts the architecture of the Faster R-CNN algorithm. Faster R-CNN is divided into 2 (two) important parts, namely: ...
Article
Full-text available
Numerous victims and huge economic and social losses have resulted from the escalating number of traffic accidents. From these issues, a technique to create a camera capable of detecting vehicles going around the driver using the Faster R-CNN method and calculating the vehicle's distance using the Stereo Vision and Mono Vision methods was discovered. The determination of safe distance between these cars is determined by the speed of the driver's vehicle, with the LED and buzzer warning system activating when the parameters are met. Based on the results of object detection experiments utilizing the Faster R-CNN, the model's success rate in identifying and classifying objects had an average success rate of 83.33 percent across 35 object situations examined from different perspectives. The success rates for distance estimates utilizing the Stereo Vision and Mono Vision methods with the Linear Regression equation were 98.84% and 98.10%, respectively.
... Faster R-CNN merupakan salah satu metode yang paling unggul dalam bidang deteksi objek [1]. Ada banyak penelitian yang sudah menggunakan Faster R-CNN pada bidang deteksi objek seperti Zhong et al untuk mendeteksi teks [7], Benjdira et al untuk mendeteksi mobil pada video [8], Sunario dan Wulan untuk mendeteksi spoofing wajah pada gambar [9] dan lain-lain. Sehingga kontribusi yang diusulkan pada penelitian ini ...
Article
Full-text available
Face non-spoofing detection is an important job used to ensure authentication security by performing an analysis of the captured faces. Face spoofing is the process of fake faces by other people to gain illegal access to the biometric system which can be done by displaying videos or images of someone's face on the monitor screen or using printed images. There are various forms of attacks that can be carried out on the face authentication system in the form of face sketches, face photos, face videos and 3D face masks. Such attacks can occur because photos and videos of faces from users of the facial authentication system are very easy to obtain via the internet or cameras. To solve this problem, in this research proposes a non-spoofing face detection model on video using Faster R-CNN. The results obtained in this study are the Faster R-CNN model that can detect non-spoof and spoof face in real time using the Raspberry Pi as a camera with a frame rate of 1 fps.
... FAT is a condition where a detection error happened in a frame (Fig.11). If a false alarm occurs in a frame, then there was a high probability that the event repeated itself at the same position in the next frame [8]. In this experiment, the FATs that occur were treated correctly, using the original Mask R-CNN method and the Mask R-CNN RGBD, by generating a new id for the false alarm object. ...
Article
In this study, additional depth images were used to enrich the information in each image pixel. Segmentation, by its nature capable to process image up to pixel level. So, it can detect up to the smallest part of the object, even when it’s overlapped with another object. By using segmentation, the main goal is to be able to maintain the tracking process longer when the object starts to be occluded until it is severely occluded right before it is completely disappeared. Object tracking based on object detection was developed by modifying the Mask R-CNN architecture to process RGBD images. The detection results feature extracted using HOG, and each of them got compared to the target objects. The comparison was using cosine similarity calculation, and the maximum value of the detected object would update the target object for the next frame. The evaluation of the model was using mAP calculation. Mask R-CNN RGBD late fusion had a higher value by 5% than Mask R-CNN RGB. It was 68,234% and 63,668%, respectively. Meanwhile, the tracking evaluation uses the traditional method of calculating the id switching during the tracking process. Out of 295 frames, the original Mask R-CNN method had ten switching ID times. On the other hand, the proposed method Mask R-CNN RGBD had much better tracking results with switching ids close to 0. Keywords—Occlusion, RGBD, Mask R-CNN, Late fusion, Cosine similarity
Article
Full-text available
The use of masks is currently important to prevent the spread of the virus. However, there are often people who do not wear masks in public places. Therefore, a real-time mask detection system is needed via webcam video. This system uses the You Only Look Once (YOLO) method to detect faces and classify whether the person is wearing a mask or not. The YOLO model is used to detect and classify masks in images and is trained using datasets from kaggle. The results for YOLO show the detection accuracy for masks is 92% using training data.
Article
Full-text available
At this time the world is experiencing a pandemic, the virus is COVID-19 and to prevent a very fast spread, there are many ways to spread the virus, starting from touching, one of which is through saliva when sneezing or talking, therefore all people around the world The world is given rules for washing hands, social distancing and wearing mas. However, it is very unfortunate that there are still many who do not comply with the rules made. Due to this, the mask detection system exists to facilitate community monitoring to be more obedient to the regulations that have been made. In the proposed system the Region-based Convolutional Neural Network (RCNN) is used to classify images which consist of three classes including medical masks, non-medical masks and not using masks. Later the system will detect people in one image. With the Region-based Convolutional Neural Network (RCNN) method, 2 experiments were carried out on 30 epochs with 2 different layers and the first layer got 86% accuracy and 74% accuracy validation and the second layer got 80% accuracy and validation by 79%. With the level of accuracy obtained, it is hoped that it can help the government in slowing down the rate of increase in the number of COVID-19 and also that the community can be more obedient to the rules that have been applied.
Article
Full-text available
Fast and accurate detection of a facial data is crucial for both face and facial expression recognition systems. These systems include internet protocol video surveillance systems, crime scene photographs systems, and criminals' databases. The aim for this study is both improvement of accuracy and speed. The salient facial features are extracted through Haar techniques. The sizes of the images are reduced by Bessel down‐sampling algorithm. This method preserved the details and perceptual quality of the original image. Then, image normalization was done by anisotropic smoothing. Multilayer feed‐forward neural network with a back‐propagation algorithm was used as classifier. A detection accuracy of 98.5% with acceptable false positives was registered with test sets from FDDB, CMU‐MIT, and Champions databases. The speed of execution was also promising. An evaluation of the proposed method with other popular detectors on the FDDB set shows great improvement.
Article
Full-text available
Current face or object detection methods via convolutional neural network (such as OverFeat, R-CNN and DenseNet) explicitly extract multi-scale features based on an image pyramid. However, such a strategy increases the computational burden for face detection. In this paper, we propose a fast face detection method based on discriminative complete features (DCFs) extracted by an elaborately designed convolutional neural network, where face detection is directly performed on the complete feature maps. DCFs have shown the ability of scale invariance, which is beneficial for face detection with high speed and promising performance. Therefore, extracting multi-scale features on an image pyramid employed in the conventional methods is not required in the proposed method, which can greatly improve its efficiency for face detection. Experimental results on several popular face detection datasets show the efficiency and the effectiveness of the proposed method for face detection.
Article
In this paper, we propose a lightweight privacy-preserving Faster R-CNN framework (SecRCNN) for object detection in medical images. Faster R-CNN is one of the most outstanding deep learning models for object detection. Using SecRCNN, healthcare centers can efficiently complete privacy-preserving computations of Faster R-CNN via the additive secret sharing technique and edge computing. To implement SecRCNN, we design a series of interactive protocols to perform the three stages of Faster R-CNN, namely feature map extraction, region proposal and regression and classification. To improve the efficiency of SecRCNN, we improve the existing secure computation sub-protocols involved in SecRCNN, including division, exponentiation and logarithm. The newly proposed sub-protocols can dramatically reduce the number of messages exchanged during the iterative approximation process based on the coordinate rotation digital computer algorithm. Moreover, the effectiveness, efficiency and security of SecRCNN are demonstrated through comprehensive theoretical analysis and extensive experiments. The experimental findings show that the communication overhead in computing division, logarithm and exponentiation decreases to 36.19%, 73.82% and 43.37%, respectively.
Conference Paper
Can a large convolutional neural network trained for whole-image classification on ImageNet be coaxed into detecting objects in PASCAL? We show that the answer is yes, and that the resulting system is simple, scalable, and boosts mean average precision, relative to the venerable deformable part model, by more than 40% (achieving a final mAP of 48% on VOC 2007). Our framework combines powerful computer vision techniques for generating bottom-up region proposals with recent advances in learning high-capacity convolutional neural networks. We call the resulting system R-CNN: Regions with CNN features. The same framework is also competitive with state-of-the-art semantic segmentation methods, demonstrating its flexibility. Beyond these results, we execute a battery of experiments that provide insight into what the network learns to represent, revealing a rich hierarchy of discriminative and often semantically meaningful features.
Article
State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottleneck. In this work, we introduce a Region Proposal Network (RPN) that shares full-image convolutional features with the detection network, thus enabling nearly cost-free region proposals. An RPN is a fully-convolutional network that simultaneously predicts object bounds and objectness scores at each position. RPNs are trained end-to-end to generate high-quality region proposals, which are used by Fast R-CNN for detection. With a simple alternating optimization, RPN and Fast R-CNN can be trained to share convolutional features. For the very deep VGG-16 model, our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection accuracy on PASCAL VOC 2007 (73.2% mAP) and 2012 (70.4% mAP) using 300 proposals per image. The code will be released.