Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2
Hiện tại, dịch bệnh COVID-19 vẫn có diễn biến
phức tạp trên toàn thế giới, nó không chỉ ảnh
hưởng đến kinh tế, thương mại, dịch vụ mà còn
ảnh hưởng không nhỏ đến tâm lý xã hội của người
dân và chưa có vacxin điều trị cho nên cần kiểm
soát tốt nguồn lây nhiễm. Leung et al. [1] cho rằng
khẩu trang có thể làm giảm sự lây lan của vi-rút
Corona vì đa số các ca lây nhiễm COVID-19 do
tiếp xúc rất gần và không đeo khẩu trang khi nói
chuyện. Theo trung tâm kiểm soát bệnh tật CDC
(Centers for Disease Control and Prevention),
khẩu trang được khuyến nghị là một rào chắn đơn
giản để giúp ngăn các giọt bắn từ đường hô hấp
bay vào không khí và lên người khác. Khuyến nghị
này dựa trên nghiên cứu vai trò của các giọt bắn
từ đường hô hấp đối với sự lây lan của vi-rút gây
ra COVID-19, kết hợp với bằng chứng mới xuất
hiện từ các nghiên cứu lâm sàng và trong phòng
thí nghiệm cho thấy khẩu trang làm giảm việc phun
các giọt bắn khi đeo qua mũi và miệng [2]. Các
giọt cũng có thể rơi xuống các bề mặt nơi vi-rút có
thể tồn tại. Do đó, môi trường trực tiếp của một cá
nhân bị nhiễm bệnh có thể đóng vai trò là nguồn
lây truyền do tiếp xúc. Theo các chuyên gia của Tổ
chức Y tế thế giới (WHO), đeo khẩu trang có thể
hạn chế sự lây lan của một số bệnh đường hô hấp
trong đó có COVID-19. Dịch bệnh này lây lan chủ
yếu giữa những người tiếp xúc gần với nhau (trong
khoảng 6 feet), vì vậy việc sử dụng khẩu trang đặc
biệt quan trọng ở những nơi mọi người gần nhau
hoặc nơi khó có thể duy trì cách ly xã hội. WHO
cũng khuyến cáo mọi người nên đeo khẩu trang
nếu họ có triệu chứng hô hấp, hoặc họ đang chăm
sóc những người có triệu chứng [3].
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Tóm tắt nội dung tài liệu: Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2
5LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2 Face Mask Detector using Deep Learning model MobileNetV2 Phạm Thị Hường Email: pthuong@saodo.edu.vn Trường Đại học Sao Đỏ Ngày nhận bài: 13/4/2020 Ngày nhận bài sửa sau phản biện: 26/9/2020 Ngày chấp nhận đăng: 30/9/2020 Tóm tắt Nghiên cứu này trình bày phương pháp học sâu (deep learning - DL) MobileNetV2 nhằm phát hiện người đeo khẩu trang trên ảnh và video thời gian thực. Mạng được huấn luyện để thực hiện nhận dạng hai lớp gồm những người đeo khẩu trang và những người không đeo khẩu trang, đầu vào là các ảnh mầu RBG với độ phân giải 224×224. Các ảnh mẫu được lấy từ cơ sở dữ liệu Real World Masked Face Dataset. Kết quả thử nghiệm trên bộ mẫu gồm 4.591 mẫu cho khả nĕng phát hiện chính xác đạt 99,22% cho thấy đây là một trong những phương pháp góp phần hạn chế lây nhiễm dịch bệnh COVID-19 nhằm bảo vệ sức khỏe cộng đồng. Từ khóa: COVID-19; học sâu; phát hiện khẩu trang. Abstract This study presents a deep learning method to detect people who wear masks on images and real- time videos. A MobileNetV2 network was used to train a binary recognition task (people with mask or without mask). The input RGB color images were at resolution of 224×224. The set of 4.591 images was taken from Real World Fase Dataset to train and test the network. Numerical results showed an accurate detection at 99,22%, whichproves that this could be one of the measures contributing to the limit of COVID-19 disease transmission to protect public health. Keywords: COVID-19; deep learning; face mask detection. 1. ĐẶT VẤN ĐỀ Hiện tại, dịch bệnh COVID-19 vẫn có diễn biến phức tạp trên toàn thế giới, nó không chỉ ảnh hưởng đến kinh tế, thương mại, dịch vụ mà còn ảnh hưởng không nhỏ đến tâm lý xã hội của người dân và chưa có vacxin điều trị cho nên cần kiểm soát tốt nguồn lây nhiễm. Leung et al. [1] cho rằng khẩu trang có thể làm giảm sự lây lan của vi-rút Corona vì đa số các ca lây nhiễm COVID-19 do tiếp xúc rất gần và không đeo khẩu trang khi nói chuyện. Theo trung tâm kiểm soát bệnh tật CDC (Centers for Disease Control and Prevention), khẩu trang được khuyến nghị là một rào chắn đơn giản để giúp ngĕn các giọt bắn từ đường hô hấp bay vào không khí và lên người khác. Khuyến nghị này dựa trên nghiên cứu vai trò của các giọt bắn từ đường hô hấp đối với sự lây lan của vi-rút gây ra COVID-19, kết hợp với bằng chứng mới xuất hiện từ các nghiên cứu lâm sàng và trong phòng thí nghiệm cho thấy khẩu trang làm giảm việc phun các giọt bắn khi đeo qua mũi và miệng [2]. Các giọt cũng có thể rơi xuống các bề mặt nơi vi-rút có thể tồn tại. Do đó, môi trường trực tiếp của một cá nhân bị nhiễm bệnh có thể đóng vai trò là nguồn lây truyền do tiếp xúc. Theo các chuyên gia của Tổ chức Y tế thế giới (WHO), đeo khẩu trang có thể hạn chế sự lây lan của một số bệnh đường hô hấp trong đó có COVID-19. Dịch bệnh này lây lan chủ yếu giữa những người tiếp xúc gần với nhau (trong khoảng 6 feet), vì vậy việc sử dụng khẩu trang đặc biệt quan trọng ở những nơi mọi người gần nhau hoặc nơi khó có thể duy trì cách ly xã hội. WHO cũng khuyến cáo mọi người nên đeo khẩu trang nếu họ có triệu chứng hô hấp, hoặc họ đang chĕm sóc những người có triệu chứng [3]. Như vậy, phát hiện người đeo khẩu trang đề cập đến việc phát hiện xem một người đeo khẩu trang hay không và vị trí của khuôn mặt đó [4] trở thành Người phản biện: 1. PGS. TS. Trần Hoài Linh 2. TS. Đỗ Văn Đỉnh 6NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 một nhiệm vụ quan trọng nhưng nghiên cứu liên quan đến vấn đề này chưa phổ biến. Trên thế giới, đã có một số nghiên cứu phát hiện người đeo hay không đeo khẩu trang. Trong [5] đã xây dựng mô hình CNN để phát hiện khuôn mặt đeo khẩu trang, mô hình có độ chính xác 98,86% với bộ huấn luyện và 96,19% với bộ thử nghiệm. Tác giả sử dụng đặc trưng Haar để phát hiện khuôn mặt và CNN với các lớp khác nhau như Conv2D, MaxPooling2D, Flatten, Dropout và Dense. Trong [6] sử dụng PyTorch và CNN để cài đặt học sâu. Các mô hình đã được thử nghiệm với hình ảnh và video thời gian thực với độ chính xác của mô hình là 60%. Trong [7] dùng mô hình học sâu thay vì mô hình Haar-Cascade, CNN sử dụng 4 lớp chập theo sau là 2 lớp tuyến tính, dùng ReLU làm chức nĕng kích hoạt và MaxPool2 là lớp tổng hợp. Huấn luyện mô hình trong 10 lần lặp và độ chính xác đạt cao nhất tại lần lặp thứ 8 là 99%. Trong [8], sử dụng deepleaning và bộ dữ liệu của tác giả Prajna Bhandary là bộ dữ liệu đào tạo có phần hạn chế bởi nhãn lớp có khẩu trang được tạo một cách nhân tạo. Cụ thể, chụp ảnh bình thường của khuôn mặt sau đó tùy chỉnh để thêm khẩu trang cho chúng. Phương pháp này dễ hơn nhiều so với áp dụng các mốc trên khuôn ... liệu nhân tạo hình ảnh khuôn mặt đeo khẩu trang không chứa các hình ảnh có thể khiến phân loại nhầm. Ở Pháp cũng sử dụng AI để kiểm tra xem mọi người có đeo khẩu trang trên phương tiện giao thông công cộng hay không như tại ga tàu điện ngầm Chatelet-Les Halles. Tại Việt Nam, Robot do Đại học Công nghệ (ĐH Quốc gia) chế tạo để phát hiện người không đeo khẩu trang và nhắc nhở sử dụng những thiết bị, linh kiện có sẵn. Camera tích hợp cảm biến laser để đo khoảng cách, phát hiện người ra vào cửa. Cùng lúc, camera sẽ thu lại hình ảnh và truyền tới máy tính. Các chi tiết chính trên khuôn mặt như mắt, mũi, miệng sẽ được số hóa và xử lý. Nếu máy tính phát hiện mũi và miệng bị che, có nghĩa là người đó đang đeo khẩu trang. Còn trong trường hợp miệng bị che nhưng mũi hở, hoặc cả mũi và miệng đều hở, nghĩa là người đó đeo chưa đúng cách hoặc không đeo. Khi đó máy tính sẽ lập tức kích hoạt loa và phát ra thông báo. Độ chính xác phụ thuộc nhiều vào bối cảnh, chẳng hạn ánh sáng, cách di chuyển của người ra vào cao nhất đã đạt 95%. Như vậy, phát hiện khẩu trang là một nhiệm vụ cần thiết trong tình hình hiện nay, mục tiêu ngoài nhắc nhở những cá nhân không đeo khẩu trang, mà còn tạo ra dữ liệu thống kê giúp chính quyền dự đoán sự bùng phát của COVID-19 trong tương lai. Nghiên cứu này tiếp cận theo phương pháp học sâu sử dụng mô hình MobileNetV2, một mô hình khá nhẹ, số lượng tham số ít, tốc độ tính toán nhanh và dễ triển khai ứng dụng real time trên các thiết bị di động hoặc thống nhúng có khả nĕng tính toán thấp để tự động phát hiện cùng lúc nhiều người không đeo khẩu trang trên ảnh và video thời gian thực với bộ dữ liệu người đeo khẩu trang thực. Hình 1. Sơ đồ thuật toán phát hiện khẩu trang Begin Load ảnh/video Dự đoán Có khẩu trang Có Không Thông báo with _mask Kết thúc Thông báo with _mask Lưu hình ảnh, thời gian hiện tại 7LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 2. NỘI DUNG NGHIÊN CỨU 2.1. Bài toán phát hiện khẩu trang Phát hiện đối tượng là để trả lời câu hỏi: “Đối tượng cần tìm có ở trong ảnh hay video hay không?” và “Nếu có thì nằm ở vị trí nào?” Trong bài toán phát hiện người đeo khẩu trang cần trả lời câu hỏi người trong ảnh/video có hay không đeo khẩu trang? Bài toán phân loại này gồm hai bước là xây dựng mô hình và vận hành mô hình. Cho sẵn một tập dữ liệu các khuôn mặt được gán nhãn là không đeo khẩu trang hay có đeo khẩu trang gọi tắt là lớp không khẩu trang và lớp có khẩu trang. Cần một phương pháp huấn luyện để xây dựng một mô hình phân lớp từ tập dữ liệu mẫu đó, sau đó dùng mô hình này dự đoán lớp của những khuôn mặt mới chưa biết nhãn. 2.2. Tiền xử lý dữ liệu Cơ sở dữ liệu hình ảnh thu thập tại Real World Masked Face Dataset (RMFD) chứa 5.000 khuôn mặt đeo khẩu trang của 525 người và 90.000 khuôn mặt bình thường, sau đó tiến hành tiền xử lý để đưa vào mô hình huấn luyện [11]. Các bước xử lý trước bao gồm thay đổi kích thước thành 224 × 224 pixel, chuyển đổi sang định dạng mảng, chuyển kênh màu BGR sang RGB và chia tỷ lệ cường độ pixel trong hình ảnh đầu vào thành phạm vi [-1, 1]. Sau đó sử dụng scikit-learn One-Hot- Encoding để tạo nhãn lớp cho mỗi hình ảnh. Trong chiến lược này, mỗi véc-tơ giá trị nhãn đầu ra được chuyển đổi thành dạng mới, trong đó chỉ có 1 đầu ra bằng “1” ứng với mã phân loại của véc-tơ đầu vào tương ứng còn các đầu ra khác đều bằng “0”. Tập hình ảnh này gọi là tập huấn luyện. Trong nghiên cứu này tác giả sử dụng 686 hình ảnh khuôn mặt không đeo khẩu trang và 3.905 hình ảnh đeo khẩu trang làm dữ liệu huấn luyện mô hình. Hình 2. (a) Mặt không có khẩu trang và (b) mặt có khẩu trang (a) (b) Hình 3. (a), (b), (c), (d) Minh họa các ảnh trong bộ dữ liệu phát hiện khẩu trang (a) Mặt không có khẩu trang (b) Mặt có khẩu trang (c) Mặt có và không có khẩu trang (d) Mặt nhầm lẫn là khẩu trang 8NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 2.3. Huấn luyện mô hình CNN (Mạng nơron tích chập) có nhiều phiên bản của mạng được đào tạo trước và kiến trúc tốt như AlexNet, ResNet, Inception, LeNet, MobileNet, Trong trường hợp này sử dụng MobileNetV2 là mô hình hướng di động, nhẹ và hiệu quả do số lượng tham số ít. MobileNetV2 xây dựng dựa trên các ý tưởng từ MobileNetV1 [10], sử dụng tích chập có thể phân tách theo chiều sâu với các đặc trưng mới cho kiến trúc. Trong bước này, chia dữ liệu thành tập huấn luyện chứa các hình ảnh mà mô hình CNN sẽ được huấn luyện và tập kiểm tra với các hình ảnh mà mô hình sẽ kiểm tra. Cụ thể lấy split_size = 0.8, có nghĩa là 80% tổng số hình ảnh cho huấn luyện và 20% còn lại của hình ảnh cho kiểm tra một cách ngẫu nhiên. Sau đó, xây dựng mô hình CNN với các lớp khác nhau như AveragePooling2D với trọng số 7×7, Flatten, Dropout và Dense. Trong lớp Dense cuối cùng, sử dụng hàm softmax để xuất ra một véc - tơ thể hiện xác suất của mỗi lớp. Ảnh huấn luyện Tiền xử lý ảnh Trích chọn đặc trưng Huấn luyện mô hình Lưu mô hình Hình 4. Huấn luyện mô hình 2.4. Vận hành mô hình Tải hình ảnh, video đầu vào sau đó phát hiện khuôn mặt trong ảnh. Áp dụng bộ phát hiện khẩu trang để phân loại khuôn mặt đeo khẩu trang (with_ mask) hoặc là không đeo khẩu trang (without_ mask). Tiền xử lý được thực hiện là chuẩn hóa kích thước và hoán đổi kênh màu. Để giảm nhiễu cho ảnh do chiếu sáng cần chuyển ảnh sang dạng ảnh blob thông qua hàm blobFromImage của OpenCV. Hình 5. Vận hành mô hình 2.5. Phát hiện khẩu trang trên ảnh Với mỗi hình ảnh trong bộ kiểm tra, cần tìm chỉ mục của nhãn với xác suất dự đoán lớn nhất tương ứng, đánh giá và lưu mô hình. Sơ đồ phát hiện khẩu trang trên ảnh như trên hình 6. 2.6. Phát hiện khẩu trang trên ảnh Đối với vấn đề xác định người trong video/webcam có đeo khẩu trang hay không cần xác định các khuôn mặt trong webcam và phân loại khuôn mặt đeo khẩu trang. Đầu tiên, lặp qua các frame từ video và thay đổi kích thước để có chiều rộng tối đa 400 pixel, phát hiện khuôn mặt trong frame và xác định xem họ có đang đeo khẩu trang hay không? Quy trình chi tiết được thể hiện trên hình 7. Hình 6. Sơ đồ phát hiện người đeo khẩu trang trên ảnh Load ảnh/video cần kiểm tra Phát hiện mặt từ ảnh/video Áp dụng mô hình để dự đoán Đưa ra kết quả dự đoán Ảnh nguồn Kết quả MobileNetV2 Hàm kích hoạt Softmax 2 kênh ra Pooling theo giá trị trung bình Dropout p = 0,5 Phẳng hóa ma trận thành véc - tơ Kích hoạt phi tuyến Relu 128 kênh ra 9LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 Hình 7. Sơ đồ phát hiện người đeo khẩu trang trên video/webcam 3. KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN Dữ liệu thực hiện huấn luyện được lấy tại Real World Masked Face Dataset với nhiều ánh sáng, tư thế, sự che khuất khác nhau, một số khuôn mặt được che bằng tay hoặc các vật thể khác thay vì khẩu trang thực. Dữ liệu bao gồm các mặt có khẩu trang, mặt không có khẩu trang, mặt có và không có khẩu trang trong một hình ảnh và hình ảnh nhầm là khẩu trang nhưng thực tế thì không có. Để đánh giá tập trọng số cần xác định lỗi cho cả huấn luyện (loss) và kiểm tra (val_loss) ta sử dụng hàm Cross Entropy là nhị phân chéo binary_cros- sentropy. Cụ thể, tính toán loss của mỗi trường hợp bằng cách tính giá trị trung bình như sau: 𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦 () = −,1𝑛𝑛 .0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log (1 − 𝑦𝑦4!)6 Với n là số lượng giá trị vô hướng trong đầu ra của mô hình, hàm loss trả về một số thực không âm thể hiện sự chênh lệch giữa hai đại lượng yˆ là xác suất nhãn được dự đoán và y là xác suất của nhãn đúng. Sau đó sử dụng thuật toán gradient descent “adam” (Adaptive Mô - ment Estimator) để tối ưu [13]. Hơn nữa, để kiểm định hiệu nĕng của mô hình phân loại, cần tính toán tỷ lệ chính xác trung bình trên tất cả các dự đoán sử dụng thang đo ma trận nhầm lẫn như sau: Bảng 1. Ma trận nhầm lẫn Dự đoán là Positive Dự đoán là Negative Thực tế là Positve TP FN Thực tế là Negative FP TN Trong đó: Các hàng của ma trận là nhãn lớp thực tế, các cột của ma trận là nhãn lớp dự đoán. - TN: Số lượng khuôn mặt không đeo khẩu trang được phân loại chính xác. - FN: Số lượng khuôn mặt đeo khẩu trang bị phân loại nhầm là khuôn mặt không đeo khẩu trang. - TP: Số lượng khuôn mặt đeo khẩu trang được phân loại chính xác. - FP: Số lượng khuôn mặt không đeo khẩu trang bị phân loại nhầm là khuôn mặt đeo khẩu trang. Từ đó, độ chính xác của mô hình được tính theo công thức sau:𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 + 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 Đây là tỉ lệ của tất cả trường hợp phân loại đúng (không phân biệt negative/positive) trên toàn bộ trường hợp trong mẫu kiểm tra. Một độ đo cũng thường được dùng để đánh giá mô hình phân lớp đó là F-measure hay F-core được tính dựa trên 2 độ đo khác là precision và recall, và được tính như sau: Bảng 2. Đánh giá huấn luyện mô hình Thời gian (s) loss acc val_loss val_acc 49 0,8343 0,6261 0,3932 0,8050 50 0,4339 0,7987 0,2218 0,9300 53 0,2503 0,9007 0,1433 0,9450 52 0,1726 0,9490 0,1104 0,9550 52 0,1405 0,9582 0,0907 0,9700 59 0,1336 0,9490 0,0770 0,9800 57 0,0957 0,9752 0,0674 0,9800 48 0,0802 0,9752 0,0595 0,9850 49 0,0718 0,0718 0,0548 0,9850 46 0,0843 0,9673 0,0481 0,9800 43 0,0728 0,9778 0,0428 0,9850 𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦 () = −,1𝑛𝑛 .0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log (1 − 𝑦𝑦4!)6 (1) (2) 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝑃𝑃 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 𝐹𝐹!"#$% = 21𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 + 1𝑅𝑅𝑃𝑃𝑃𝑃𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝑃𝑃2 (3) (4) (5) Khởi tạo video Hiện thị kết quả Trích xuất ảnh từ các frame Chuyển kết quả vào frame Load phát hiện khuôn mặt Load mô hình MobileNetV2 Ảnh khuôn mặt Tiền xử lý ảnh 10 NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 Thời gian (s) loss acc val_loss val_acc 48 0,0507 0,9817 0,0399 0,9950 60 0,0423 0,9869 0,0372 0,9900 74 0,0555 0,9843 0,0373 0,9900 77 0,0420 0,9883 0,0333 0,9950 71 0,0406 0,9869 0,0307 0,9950 57 0,0383 0,9895 0,0331 0,9900 57 0,0407 0,9869 0,0286 0,9950 55 0,0324 0,9900 0,0290 0,9922 42 0,0322 0,9900 0,0297 0,9922 Tiến hành huấn luyện với tốc độ học 0.0001, sau 20 lần lặp với số số lượng mẫu (Batch_size) sử dụng cho mỗi lần cập nhật trọng số là 32 ta thu được kết quả (bảng 3). Như bảng 3 có thể thấy, sau 20 lần lặp, mô hình đạt được độ chính xác khoảng 99% trên bộ thử nghiệm (bộ kiểm tra). Đây là một giá trị tương đối cao. Bảng 3. Đánh giá mô hình Precision Recall Fscore Có khẩu trang 0,97 1,00 0,98 Không khẩu trang 1,00 0,99 0,99 Trọng số trung bình 0,99 0,99 0,99 Hình 8. Đồ thị độ chính xác và giá trị lỗi Kết quả cài đặt phát hiện khẩu trang trên ảnh: Hình 9. Kết quả phát hiện người đeo khẩu trang trên ảnh Hình 10. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối khoảng cách 3 m 11 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 Hình 11. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối Hình 12. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình Hình 13. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình Với những khuôn mặt không đeo khẩu trang, hệ thống phát hiện và lưu dữ liệu ảnh là một trong những cơ sở thống kê dự đoán sự bùng phát trong tương lai. Hình 14. Kết quả lưu người không đeo khẩu trang trên webcam 12 NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020 4. KẾT LUẬN Kết quả nghiên cứu cho thấy: Phát hiện người đeo khẩu trang sử dụng mô hình học sâu MobileNetV2 có độ chính xác khá cao, số lượng tham số ít, giảm chi phí sản xuất các hệ thống phát hiện nếu triển khai trên các thiết bị nhúng, có thể phát hiện nhiều khuôn mặt trên ảnh và video với bộ dữ liệu đeo khẩu trang thực tế. Hơn nữa, nghiên cứu cũng thực hiện việc thu thập mặt không đeo khẩu trang và lưu trữ vào thư mục máy chủ nhằm tạo dữ liệu thống kê để dự đoán sự bùng phát của dịch bệnh mà không cần xác định danh tính cá nhân của họ. TÀI LIỆU THAM KHẢO [1] N. H. Leung, D. K. Chu, E. Y. Shiu, K.-H. Chan, J. J. Mc Devitt, B. J. Hau, H.-L. Yen, Y. Li, D. KM, J. Ip et al.(2020), Respiratory virus shedding in exhaled breath and efficacy of face masks. [2] S. Feng, C. Shen, N. Xia, W. Song, M. Fan, and B. J. Cowling (2020), Rational use of face masks in the covid-19 pandemic, The Lancet Respiratory Medicine. [3] https://vietnamese.cdc.gov/coronavirus/2019- ncov/prevent-getting-sick/cloth-face-cover- guidance.html. [4] Z. Wang, G. Wang, B. Huang, Z. Xiong, Q. Hong, H. Wu, P. Yi, K. Jiang, N. Wang, Y. Pei et al. (2020), Masked face recognition dataset and application, arXiv preprint arXiv:2003.09093. [5] https://towardsdatascience.com/covid-19- face-mask-detection-using-tensorflow-and- opencv-702dd833515b. [6] https://www.ideas2it.com/blogs/face- mask-detector-using-deep- learning- pytorch-and-computer-vision-opencv/ [7] https://towardsdatascience.com/how-i- built-a-face-mask-detector-for-covid-19- using-pytorch-lightning-67eb3752fd61 [8] h t t p s : / / w w w . p y i m a g e s e a r c h . com/2020/05/04/covid-19-face-mask- detector-with-opencv-keras-tensorflow- and-deep-learning/ [9] https://vnexpress.net/dung-robot-de-phat- hien-nguoi-khong-deo-khau-trang-4099618. html, đăng ngày 15/5/2020. [10] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam (2017), Mobilenets: Efficient convolutional neural networks for mobile vision applications, arXiv preprint arXiv:1704.04861. [11] https://github.com/X-zhangyang/Real- World-Masked-Face-Dataset. [12] h t t p s : // t o w a r d s d a t a s c i e n c e . c o m / categorical-encoding-using-label-encoding- and-one-hot-encoder-911ef77fb5bd. [13] https://phantichdautu.com/2019/07/24/ cac-thuat-toan-toi-uu-trong-tensorflow- voi-cong-thuc/ THÔNG TIN TÁC GIẢ Phạm Thị Hường - Tóm tắt quá trình đào tạo, nghiên cứu (thời điểm tốt nghiệp và chương trình đào tạo, nghiên cứu): + Năm 2004: Tốt nghiệp Đại học chuyên ngành Tin học, Trường Đại học Sư Phạm Quy Nhơn. + Năm 2017: Tốt nghiệp Thạc sĩ ngành Công nghệ thông tin, Trường Đại học sư phạm Hà Nội. - Tóm tắt công việc hiện tại: Giảng viên bộ môn Công nghệ thông tin, Trường Đại học Sao Đỏ. - Lĩnh vực quan tâm: Tin học, toán học. - Email: phamthihuongdtth@gmail.com. - Điện thoại: 0972306806.
File đính kèm:
- phat_hien_khau_trang_su_dung_mo_hinh_hoc_sau_mobilenetv2.pdf