Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2

Hiện tại, dịch bệnh COVID-19 vẫn có diễn biến

phức tạp trên toàn thế giới, nó không chỉ ảnh

hưởng đến kinh tế, thương mại, dịch vụ mà còn

ảnh hưởng không nhỏ đến tâm lý xã hội của người

dân và chưa có vacxin điều trị cho nên cần kiểm

soát tốt nguồn lây nhiễm. Leung et al. [1] cho rằng

khẩu trang có thể làm giảm sự lây lan của vi-rút

Corona vì đa số các ca lây nhiễm COVID-19 do

tiếp xúc rất gần và không đeo khẩu trang khi nói

chuyện. Theo trung tâm kiểm soát bệnh tật CDC

(Centers for Disease Control and Prevention),

khẩu trang được khuyến nghị là một rào chắn đơn

giản để giúp ngăn các giọt bắn từ đường hô hấp

bay vào không khí và lên người khác. Khuyến nghị

này dựa trên nghiên cứu vai trò của các giọt bắn

từ đường hô hấp đối với sự lây lan của vi-rút gây

ra COVID-19, kết hợp với bằng chứng mới xuất

hiện từ các nghiên cứu lâm sàng và trong phòng

thí nghiệm cho thấy khẩu trang làm giảm việc phun

các giọt bắn khi đeo qua mũi và miệng [2]. Các

giọt cũng có thể rơi xuống các bề mặt nơi vi-rút có

thể tồn tại. Do đó, môi trường trực tiếp của một cá

nhân bị nhiễm bệnh có thể đóng vai trò là nguồn

lây truyền do tiếp xúc. Theo các chuyên gia của Tổ

chức Y tế thế giới (WHO), đeo khẩu trang có thể

hạn chế sự lây lan của một số bệnh đường hô hấp

trong đó có COVID-19. Dịch bệnh này lây lan chủ

yếu giữa những người tiếp xúc gần với nhau (trong

khoảng 6 feet), vì vậy việc sử dụng khẩu trang đặc

biệt quan trọng ở những nơi mọi người gần nhau

hoặc nơi khó có thể duy trì cách ly xã hội. WHO

cũng khuyến cáo mọi người nên đeo khẩu trang

nếu họ có triệu chứng hô hấp, hoặc họ đang chăm

sóc những người có triệu chứng [3].

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 1

Trang 1

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 2

Trang 2

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 3

Trang 3

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 4

Trang 4

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 5

Trang 5

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 6

Trang 6

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 7

Trang 7

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 trang 8

Trang 8

pdf 8 trang baonam 7300
Bạn đang xem tài liệu "Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2

Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2
5LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2
Face Mask Detector using Deep Learning model MobileNetV2
Phạm Thị Hường
Email: pthuong@saodo.edu.vn
Trường Đại học Sao Đỏ
Ngày nhận bài: 13/4/2020
Ngày nhận bài sửa sau phản biện: 26/9/2020
Ngày chấp nhận đăng: 30/9/2020
Tóm tắt
Nghiên cứu này trình bày phương pháp học sâu (deep learning - DL) MobileNetV2 nhằm phát hiện người 
đeo khẩu trang trên ảnh và video thời gian thực. Mạng được huấn luyện để thực hiện nhận dạng hai lớp 
gồm những người đeo khẩu trang và những người không đeo khẩu trang, đầu vào là các ảnh mầu RBG 
với độ phân giải 224×224. Các ảnh mẫu được lấy từ cơ sở dữ liệu Real World Masked Face Dataset. Kết 
quả thử nghiệm trên bộ mẫu gồm 4.591 mẫu cho khả nĕng phát hiện chính xác đạt 99,22% cho thấy đây 
là một trong những phương pháp góp phần hạn chế lây nhiễm dịch bệnh COVID-19 nhằm bảo vệ sức 
khỏe cộng đồng. 
Từ khóa: COVID-19; học sâu; phát hiện khẩu trang.
Abstract
This study presents a deep learning method to detect people who wear masks on images and real-
time videos. A MobileNetV2 network was used to train a binary recognition task (people with mask or 
without mask). The input RGB color images were at resolution of 224×224. The set of 4.591 images was 
taken from Real World Fase Dataset to train and test the network. Numerical results showed an accurate 
detection at 99,22%, whichproves that this could be one of the measures contributing to the limit of 
COVID-19 disease transmission to protect public health.
Keywords: COVID-19; deep learning; face mask detection.
1. ĐẶT VẤN ĐỀ
Hiện tại, dịch bệnh COVID-19 vẫn có diễn biến 
phức tạp trên toàn thế giới, nó không chỉ ảnh 
hưởng đến kinh tế, thương mại, dịch vụ mà còn 
ảnh hưởng không nhỏ đến tâm lý xã hội của người 
dân và chưa có vacxin điều trị cho nên cần kiểm 
soát tốt nguồn lây nhiễm. Leung et al. [1] cho rằng 
khẩu trang có thể làm giảm sự lây lan của vi-rút 
Corona vì đa số các ca lây nhiễm COVID-19 do 
tiếp xúc rất gần và không đeo khẩu trang khi nói 
chuyện. Theo trung tâm kiểm soát bệnh tật CDC 
(Centers for Disease Control and Prevention), 
khẩu trang được khuyến nghị là một rào chắn đơn 
giản để giúp ngĕn các giọt bắn từ đường hô hấp 
bay vào không khí và lên người khác. Khuyến nghị 
này dựa trên nghiên cứu vai trò của các giọt bắn 
từ đường hô hấp đối với sự lây lan của vi-rút gây 
ra COVID-19, kết hợp với bằng chứng mới xuất 
hiện từ các nghiên cứu lâm sàng và trong phòng 
thí nghiệm cho thấy khẩu trang làm giảm việc phun 
các giọt bắn khi đeo qua mũi và miệng [2]. Các 
giọt cũng có thể rơi xuống các bề mặt nơi vi-rút có 
thể tồn tại. Do đó, môi trường trực tiếp của một cá 
nhân bị nhiễm bệnh có thể đóng vai trò là nguồn 
lây truyền do tiếp xúc. Theo các chuyên gia của Tổ 
chức Y tế thế giới (WHO), đeo khẩu trang có thể 
hạn chế sự lây lan của một số bệnh đường hô hấp 
trong đó có COVID-19. Dịch bệnh này lây lan chủ 
yếu giữa những người tiếp xúc gần với nhau (trong 
khoảng 6 feet), vì vậy việc sử dụng khẩu trang đặc 
biệt quan trọng ở những nơi mọi người gần nhau 
hoặc nơi khó có thể duy trì cách ly xã hội. WHO 
cũng khuyến cáo mọi người nên đeo khẩu trang 
nếu họ có triệu chứng hô hấp, hoặc họ đang chĕm 
sóc những người có triệu chứng [3]. 
Như vậy, phát hiện người đeo khẩu trang đề cập 
đến việc phát hiện xem một người đeo khẩu trang 
hay không và vị trí của khuôn mặt đó [4] trở thành 
Người phản biện: 1. PGS. TS. Trần Hoài Linh
 2. TS. Đỗ Văn Đỉnh
6NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
một nhiệm vụ quan trọng nhưng nghiên cứu liên 
quan đến vấn đề này chưa phổ biến. Trên thế giới, 
đã có một số nghiên cứu phát hiện người đeo hay 
không đeo khẩu trang. Trong [5] đã xây dựng mô 
hình CNN để phát hiện khuôn mặt đeo khẩu trang, 
mô hình có độ chính xác 98,86% với bộ huấn luyện 
và 96,19% với bộ thử nghiệm. Tác giả sử dụng đặc 
trưng Haar để phát hiện khuôn mặt và CNN với các 
lớp khác nhau như Conv2D, MaxPooling2D, Flatten, 
Dropout và Dense. Trong [6] sử dụng PyTorch và 
CNN để cài đặt học sâu. Các mô hình đã được thử 
nghiệm với hình ảnh và video thời gian thực với độ 
chính xác của mô hình là 60%. Trong [7] dùng mô 
hình học sâu thay vì mô hình Haar-Cascade, CNN 
sử dụng 4 lớp chập theo sau là 2 lớp tuyến tính, 
dùng ReLU làm chức nĕng kích hoạt và MaxPool2 
là lớp tổng hợp. Huấn luyện mô hình trong 10 lần 
lặp và độ chính xác đạt cao nhất tại lần lặp thứ 8 
là 99%. Trong [8], sử dụng deepleaning và bộ dữ 
liệu của tác giả Prajna Bhandary là bộ dữ liệu đào 
tạo có phần hạn chế bởi nhãn lớp có khẩu trang 
được tạo một cách nhân tạo. Cụ thể, chụp ảnh 
bình thường của khuôn mặt sau đó tùy chỉnh để 
thêm khẩu trang cho chúng. Phương pháp này 
dễ hơn nhiều so với áp dụng các mốc trên khuôn 
 ... liệu nhân tạo hình ảnh khuôn mặt đeo khẩu trang 
không chứa các hình ảnh có thể khiến phân loại 
nhầm. Ở Pháp cũng sử dụng AI để kiểm tra xem 
mọi người có đeo khẩu trang trên phương tiện giao 
thông công cộng hay không như tại ga tàu điện 
ngầm Chatelet-Les Halles. Tại Việt Nam, Robot do 
Đại học Công nghệ (ĐH Quốc gia) chế tạo để phát 
hiện người không đeo khẩu trang và nhắc nhở sử 
dụng những thiết bị, linh kiện có sẵn. Camera tích 
hợp cảm biến laser để đo khoảng cách, phát hiện 
người ra vào cửa. Cùng lúc, camera sẽ thu lại hình 
ảnh và truyền tới máy tính. Các chi tiết chính trên 
khuôn mặt như mắt, mũi, miệng sẽ được số hóa 
và xử lý. Nếu máy tính phát hiện mũi và miệng bị 
che, có nghĩa là người đó đang đeo khẩu trang. 
Còn trong trường hợp miệng bị che nhưng mũi 
hở, hoặc cả mũi và miệng đều hở, nghĩa là người 
đó đeo chưa đúng cách hoặc không đeo. Khi đó 
máy tính sẽ lập tức kích hoạt loa và phát ra thông 
báo. Độ chính xác phụ thuộc nhiều vào bối cảnh, 
chẳng hạn ánh sáng, cách di chuyển của người 
ra vào cao nhất đã đạt 95%. Như vậy, phát hiện 
khẩu trang là một nhiệm vụ cần thiết trong tình hình 
hiện nay, mục tiêu ngoài nhắc nhở những cá nhân 
không đeo khẩu trang, mà còn tạo ra dữ liệu thống 
kê giúp chính quyền dự đoán sự bùng phát của 
COVID-19 trong tương lai. Nghiên cứu này tiếp 
cận theo phương pháp học sâu sử dụng mô hình 
MobileNetV2, một mô hình khá nhẹ, số lượng tham 
số ít, tốc độ tính toán nhanh và dễ triển khai ứng 
dụng real time trên các thiết bị di động hoặc thống 
nhúng có khả nĕng tính toán thấp để tự động phát 
hiện cùng lúc nhiều người không đeo khẩu trang 
trên ảnh và video thời gian thực với bộ dữ liệu 
người đeo khẩu trang thực. 
Hình 1. Sơ đồ thuật toán phát hiện khẩu trang
Begin
Load ảnh/video
Dự đoán
Có khẩu trang
Có Không
Thông báo with _mask
Kết thúc
Thông báo with _mask
Lưu hình ảnh, thời gian hiện tại
7LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
2. NỘI DUNG NGHIÊN CỨU
2.1. Bài toán phát hiện khẩu trang
Phát hiện đối tượng là để trả lời câu hỏi: “Đối tượng 
cần tìm có ở trong ảnh hay video hay không?” và 
“Nếu có thì nằm ở vị trí nào?” Trong bài toán phát 
hiện người đeo khẩu trang cần trả lời câu hỏi người 
trong ảnh/video có hay không đeo khẩu trang? Bài 
toán phân loại này gồm hai bước là xây dựng mô 
hình và vận hành mô hình. Cho sẵn một tập dữ liệu 
các khuôn mặt được gán nhãn là không đeo khẩu 
trang hay có đeo khẩu trang gọi tắt là lớp không 
khẩu trang và lớp có khẩu trang. Cần một phương 
pháp huấn luyện để xây dựng một mô hình phân 
lớp từ tập dữ liệu mẫu đó, sau đó dùng mô hình 
này dự đoán lớp của những khuôn mặt mới chưa 
biết nhãn.
2.2. Tiền xử lý dữ liệu
Cơ sở dữ liệu hình ảnh thu thập tại Real World 
Masked Face Dataset (RMFD) chứa 5.000 khuôn 
mặt đeo khẩu trang của 525 người và 90.000 
khuôn mặt bình thường, sau đó tiến hành tiền xử 
lý để đưa vào mô hình huấn luyện [11]. Các bước 
xử lý trước bao gồm thay đổi kích thước thành 
224 × 224 pixel, chuyển đổi sang định dạng mảng, 
chuyển kênh màu BGR sang RGB và chia tỷ lệ 
cường độ pixel trong hình ảnh đầu vào thành phạm 
vi [-1, 1]. Sau đó sử dụng scikit-learn One-Hot-
Encoding để tạo nhãn lớp cho mỗi hình ảnh. Trong 
chiến lược này, mỗi véc-tơ giá trị nhãn đầu ra được 
chuyển đổi thành dạng mới, trong đó chỉ có 1 đầu 
ra bằng “1” ứng với mã phân loại của véc-tơ đầu 
vào tương ứng còn các đầu ra khác đều bằng “0”.
Tập hình ảnh này gọi là tập huấn luyện. Trong 
nghiên cứu này tác giả sử dụng 686 hình ảnh khuôn 
mặt không đeo khẩu trang và 3.905 hình ảnh đeo 
khẩu trang làm dữ liệu huấn luyện mô hình.
Hình 2. (a) Mặt không có khẩu trang và (b) mặt có khẩu trang
(a) (b) 
Hình 3. (a), (b), (c), (d) Minh họa các ảnh trong bộ dữ liệu phát hiện khẩu trang
(a) Mặt không có khẩu trang
(b) Mặt có khẩu trang
(c) Mặt có và không có khẩu trang
(d) Mặt nhầm lẫn là khẩu trang
8NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
2.3. Huấn luyện mô hình
CNN (Mạng nơron tích chập) có nhiều phiên bản 
của mạng được đào tạo trước và kiến trúc tốt như 
AlexNet, ResNet, Inception, LeNet, MobileNet,
Trong trường hợp này sử dụng MobileNetV2 là mô 
hình hướng di động, nhẹ và hiệu quả do số lượng 
tham số ít. MobileNetV2 xây dựng dựa trên các ý 
tưởng từ MobileNetV1 [10], sử dụng tích chập có 
thể phân tách theo chiều sâu với các đặc trưng mới 
cho kiến trúc.
Trong bước này, chia dữ liệu thành tập huấn luyện 
chứa các hình ảnh mà mô hình CNN sẽ được huấn 
luyện và tập kiểm tra với các hình ảnh mà mô hình 
sẽ kiểm tra. Cụ thể lấy split_size = 0.8, có nghĩa là 
80% tổng số hình ảnh cho huấn luyện và 20% còn 
lại của hình ảnh cho kiểm tra một cách ngẫu nhiên. 
Sau đó, xây dựng mô hình CNN với các lớp khác 
nhau như AveragePooling2D với trọng số 7×7, 
Flatten, Dropout và Dense. Trong lớp Dense cuối 
cùng, sử dụng hàm softmax để xuất ra một véc - tơ 
thể hiện xác suất của mỗi lớp.
Ảnh huấn luyện
Tiền xử lý ảnh
Trích chọn đặc trưng
Huấn luyện mô hình
Lưu mô hình
Hình 4. Huấn luyện mô hình
2.4. Vận hành mô hình
Tải hình ảnh, video đầu vào sau đó phát hiện 
khuôn mặt trong ảnh. Áp dụng bộ phát hiện khẩu 
trang để phân loại khuôn mặt đeo khẩu trang (with_
mask) hoặc là không đeo khẩu trang (without_
mask). Tiền xử lý được thực hiện là chuẩn hóa 
kích thước và hoán đổi kênh màu. Để giảm nhiễu 
cho ảnh do chiếu sáng cần chuyển ảnh sang dạng 
ảnh blob thông qua hàm blobFromImage của 
OpenCV.
Hình 5. Vận hành mô hình
2.5. Phát hiện khẩu trang trên ảnh
Với mỗi hình ảnh trong bộ kiểm tra, cần tìm chỉ 
mục của nhãn với xác suất dự đoán lớn nhất tương 
ứng, đánh giá và lưu mô hình. Sơ đồ phát hiện 
khẩu trang trên ảnh như trên hình 6.
2.6. Phát hiện khẩu trang trên ảnh
Đối với vấn đề xác định người trong video/webcam 
có đeo khẩu trang hay không cần xác định các 
khuôn mặt trong webcam và phân loại khuôn mặt 
đeo khẩu trang. Đầu tiên, lặp qua các frame từ 
video và thay đổi kích thước để có chiều rộng tối đa 
400 pixel, phát hiện khuôn mặt trong frame và xác 
định xem họ có đang đeo khẩu trang hay không? 
Quy trình chi tiết được thể hiện trên hình 7.
Hình 6. Sơ đồ phát hiện người đeo khẩu trang trên ảnh
Load ảnh/video cần kiểm tra
Phát hiện mặt từ ảnh/video
Áp dụng mô hình để dự đoán
Đưa ra kết quả dự đoán
Ảnh nguồn
Kết quả
MobileNetV2
Hàm kích hoạt
Softmax 2 kênh ra
Pooling theo
giá trị trung bình
Dropout
p = 0,5
Phẳng hóa ma trận 
thành véc - tơ
Kích hoạt phi tuyến 
Relu 128 kênh ra
9LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Hình 7. Sơ đồ phát hiện người đeo khẩu trang trên video/webcam
3. KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN
Dữ liệu thực hiện huấn luyện được lấy tại Real 
World Masked Face Dataset với nhiều ánh sáng, 
tư thế, sự che khuất khác nhau, một số khuôn mặt 
được che bằng tay hoặc các vật thể khác thay vì 
khẩu trang thực. Dữ liệu bao gồm các mặt có khẩu 
trang, mặt không có khẩu trang, mặt có và không 
có khẩu trang trong một hình ảnh và hình ảnh nhầm 
là khẩu trang nhưng thực tế thì không có. 
Để đánh giá tập trọng số cần xác định lỗi cho cả 
huấn luyện (loss) và kiểm tra (val_loss) ta sử dụng 
hàm Cross Entropy là nhị phân chéo binary_cros-
sentropy. Cụ thể, tính toán loss của mỗi trường 
hợp bằng cách tính giá trị trung bình như sau:
𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦	() = −,1𝑛𝑛	.0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log	(1 − 𝑦𝑦4!)6 
Với n là số lượng giá trị vô hướng trong đầu ra 
của mô hình, hàm loss trả về một số thực không 
âm thể hiện sự chênh lệch giữa hai đại lượng yˆ là 
xác suất nhãn được dự đoán và y là xác suất của 
nhãn đúng. Sau đó sử dụng thuật toán gradient 
descent “adam” (Adaptive Mô - ment Estimator) 
để tối ưu [13]. 
Hơn nữa, để kiểm định hiệu nĕng của mô hình 
phân loại, cần tính toán tỷ lệ chính xác trung bình 
trên tất cả các dự đoán sử dụng thang đo ma trận 
nhầm lẫn như sau: 
Bảng 1. Ma trận nhầm lẫn
Dự đoán là 
Positive
Dự đoán là 
Negative
Thực tế là Positve TP FN
Thực tế là Negative FP TN
Trong đó: 
Các hàng của ma trận là nhãn lớp thực tế, các cột 
của ma trận là nhãn lớp dự đoán.
- TN: Số lượng khuôn mặt không đeo khẩu trang 
được phân loại chính xác.
- FN: Số lượng khuôn mặt đeo khẩu trang bị phân 
loại nhầm là khuôn mặt không đeo khẩu trang.
- TP: Số lượng khuôn mặt đeo khẩu trang được 
phân loại chính xác. 
- FP: Số lượng khuôn mặt không đeo khẩu trang bị 
phân loại nhầm là khuôn mặt đeo khẩu trang. 
Từ đó, độ chính xác của mô hình được tính theo 
công thức sau:𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 + 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 Đây là tỉ lệ của tất cả trường hợp phân loại đúng 
(không phân biệt negative/positive) trên toàn bộ 
trường hợp trong mẫu kiểm tra. 
Một độ đo cũng thường được dùng để đánh giá mô 
hình phân lớp đó là F-measure hay F-core được 
tính dựa trên 2 độ đo khác là precision và recall, và 
được tính như sau:
Bảng 2. Đánh giá huấn luyện mô hình
Thời 
gian (s) loss acc val_loss val_acc
49 0,8343 0,6261 0,3932 0,8050
50 0,4339 0,7987 0,2218 0,9300
53 0,2503 0,9007 0,1433 0,9450
52 0,1726 0,9490 0,1104 0,9550
52 0,1405 0,9582 0,0907 0,9700
59 0,1336 0,9490 0,0770 0,9800
57 0,0957 0,9752 0,0674 0,9800
48 0,0802 0,9752 0,0595 0,9850
49 0,0718 0,0718 0,0548 0,9850
46 0,0843 0,9673 0,0481 0,9800
43 0,0728 0,9778 0,0428 0,9850
𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦	() = −,1𝑛𝑛	.0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log	(1 − 𝑦𝑦4!)6 (1)
(2)
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃	 = 	 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝑃𝑃 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 	 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 𝐹𝐹!"#$% = 21𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃	 + 1𝑅𝑅𝑃𝑃𝑃𝑃𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝑃𝑃2 
(3)
(4)
(5)
Khởi tạo 
video
Hiện thị 
kết quả
Trích xuất ảnh 
từ các frame
Chuyển kết quả 
vào frame
Load phát hiện 
khuôn mặt
Load mô hình 
MobileNetV2
Ảnh khuôn mặt
Tiền xử lý ảnh
10
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Thời 
gian (s) loss acc val_loss val_acc
48 0,0507 0,9817 0,0399 0,9950
60 0,0423 0,9869 0,0372 0,9900
74 0,0555 0,9843 0,0373 0,9900
77 0,0420 0,9883 0,0333 0,9950
71 0,0406 0,9869 0,0307 0,9950
57 0,0383 0,9895 0,0331 0,9900
57 0,0407 0,9869 0,0286 0,9950
55 0,0324 0,9900 0,0290 0,9922
42 0,0322 0,9900 0,0297 0,9922
Tiến hành huấn luyện với tốc độ học 0.0001, sau 
20 lần lặp với số số lượng mẫu (Batch_size) sử 
dụng cho mỗi lần cập nhật trọng số là 32 ta thu 
được kết quả (bảng 3). Như bảng 3 có thể thấy, 
sau 20 lần lặp, mô hình đạt được độ chính xác 
khoảng 99% trên bộ thử nghiệm (bộ kiểm tra). Đây 
là một giá trị tương đối cao.
Bảng 3. Đánh giá mô hình 
Precision Recall Fscore
Có khẩu trang 0,97 1,00 0,98
Không khẩu trang 1,00 0,99 0,99
Trọng số trung bình 0,99 0,99 0,99
Hình 8. Đồ thị độ chính xác và giá trị lỗi
Kết quả cài đặt phát hiện khẩu trang trên ảnh:
Hình 9. Kết quả phát hiện người đeo khẩu trang trên ảnh
Hình 10. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối khoảng cách 3 m
11
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Hình 11. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối
Hình 12. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình
Hình 13. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình
Với những khuôn mặt không đeo khẩu trang, hệ 
thống phát hiện và lưu dữ liệu ảnh là một trong 
những cơ sở thống kê dự đoán sự bùng phát trong 
tương lai.
Hình 14. Kết quả lưu người không đeo khẩu trang trên webcam 
12
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
4. KẾT LUẬN
Kết quả nghiên cứu cho thấy: Phát hiện người đeo 
khẩu trang sử dụng mô hình học sâu MobileNetV2 
có độ chính xác khá cao, số lượng tham số ít, giảm 
chi phí sản xuất các hệ thống phát hiện nếu triển 
khai trên các thiết bị nhúng, có thể phát hiện nhiều 
khuôn mặt trên ảnh và video với bộ dữ liệu đeo 
khẩu trang thực tế. Hơn nữa, nghiên cứu cũng 
thực hiện việc thu thập mặt không đeo khẩu trang 
và lưu trữ vào thư mục máy chủ nhằm tạo dữ liệu 
thống kê để dự đoán sự bùng phát của dịch bệnh 
mà không cần xác định danh tính cá nhân của họ.
TÀI LIỆU THAM KHẢO
[1] N. H. Leung, D. K. Chu, E. Y. Shiu, K.-H. Chan, 
J. J. Mc Devitt, B. J. Hau, H.-L. Yen, Y. Li, D. KM, 
J. Ip et al.(2020), Respiratory virus shedding in 
exhaled breath and efficacy of face masks.
[2] S. Feng, C. Shen, N. Xia, W. Song, M. Fan, 
and B. J. Cowling (2020), Rational use of face 
masks in the covid-19 pandemic, The Lancet 
Respiratory Medicine.
[3] https://vietnamese.cdc.gov/coronavirus/2019-
ncov/prevent-getting-sick/cloth-face-cover-
guidance.html.
[4] Z. Wang, G. Wang, B. Huang, Z. Xiong, Q. 
Hong, H. Wu, P. Yi, K. Jiang, N. Wang, Y. 
Pei et al. (2020), Masked face recognition 
dataset and application, arXiv preprint 
arXiv:2003.09093.
[5] https://towardsdatascience.com/covid-19-
face-mask-detection-using-tensorflow-and-
opencv-702dd833515b.
[6] https://www.ideas2it.com/blogs/face-
mask-detector-using-deep- learning-
pytorch-and-computer-vision-opencv/
[7] https://towardsdatascience.com/how-i-
built-a-face-mask-detector-for-covid-19-
using-pytorch-lightning-67eb3752fd61
[8] h t t p s : / / w w w . p y i m a g e s e a r c h .
com/2020/05/04/covid-19-face-mask-
detector-with-opencv-keras-tensorflow-
and-deep-learning/
[9] https://vnexpress.net/dung-robot-de-phat-
hien-nguoi-khong-deo-khau-trang-4099618.
html, đăng ngày 15/5/2020.
[10] A. G. Howard, M. Zhu, B. Chen, D. 
Kalenichenko, W. Wang, T. Weyand, M. 
Andreetto, and H. Adam (2017), Mobilenets: 
Efficient convolutional neural networks for 
mobile vision applications, arXiv preprint 
arXiv:1704.04861.
[11] https://github.com/X-zhangyang/Real-
World-Masked-Face-Dataset.
[12] h t t p s : // t o w a r d s d a t a s c i e n c e . c o m /
categorical-encoding-using-label-encoding-
and-one-hot-encoder-911ef77fb5bd.
[13] https://phantichdautu.com/2019/07/24/
cac-thuat-toan-toi-uu-trong-tensorflow-
voi-cong-thuc/
THÔNG TIN TÁC GIẢ
 Phạm Thị Hường
- Tóm tắt quá trình đào tạo, nghiên cứu (thời điểm tốt nghiệp và chương trình đào 
tạo, nghiên cứu):
+ Năm 2004: Tốt nghiệp Đại học chuyên ngành Tin học, Trường Đại học Sư Phạm 
Quy Nhơn.
+ Năm 2017: Tốt nghiệp Thạc sĩ ngành Công nghệ thông tin, Trường Đại học sư 
phạm Hà Nội.
- Tóm tắt công việc hiện tại: Giảng viên bộ môn Công nghệ thông tin, Trường Đại 
học Sao Đỏ.
- Lĩnh vực quan tâm: Tin học, toán học.
- Email: phamthihuongdtth@gmail.com.
- Điện thoại: 0972306806.

File đính kèm:

  • pdfphat_hien_khau_trang_su_dung_mo_hinh_hoc_sau_mobilenetv2.pdf