Theo vết đối tượng trong video dựa trên độ lợi thông tin

Theo vết đối tượng trong video là một bài toán quan trọng cốt yếu trong lĩnh vực thị giác

máy tính. Theo vết chuyển động của đối tượng có thể sử dụng trong các hệ thống an ninh,

quan sát tự động, tích hợp vào robot, các thiết bị bay không người lái của quân đội,. Bài báo

này trình bày hướng tiếp cận mô tả bài toán dưới dạng lọc một quá trình ngẫu nhiên Markov

ẩn, sử dụng particle filter để lọc quá trình ngẫu nhiên và kết hợp giữa việc tính toán điểm tự

tin từ gentle adaboost. Nhóm tác giả đề xuất thuật toán InfoPart cho phép theo vết đối tượng

bằng phương pháp theo vết phần chứa nhiều thông tin đối tượng hơn (phần đầu, thân) là phần

ít thay đổi theo thời gian và bỏ qua phần chứa ít thông tin (phần chân) là phần dao động nhiều.

Kết quả thực nghiệm cho thấy độ chính xác trung bình của thuật toán InfoPart lớn hơn so với

thuật toán GradNet.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

13 trang baonam 14720

Download

Bạn đang xem 10 trang mẫu của tài liệu "Theo vết đối tượng trong video dựa trên độ lợi thông tin", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Theo vết đối tượng trong video dựa trên độ lợi thông tin

Tạp chí Khoa học Công nghệ và Thực phẩm 20 (4) (2020) 76-88
76
THEO VẾT ĐỐI TƯỢNG TRONG VIDEO
DỰA TRÊN ĐỘ LỢI THÔNG TIN
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà,
Nguyễn Phương Hạc, Nguyễn Văn Tùng*
Trường Đại học Công nghiệp Thực phẩm TP.HCM
*Email: tungnv@hufi.edu.vn
Ngày nhận bài: 20/5/2020; Ngày chấp nhận đăng: 12/8/2020
TÓM TẮT
Theo vết đối tượng trong video là một bài toán quan trọng cốt yếu trong lĩnh vực thị giác
máy tính. Theo vết chuyển động của đối tượng có thể sử dụng trong các hệ thống an ninh,
quan sát tự động, tích hợp vào robot, các thiết bị bay không người lái của quân đội,... Bài báo
này trình bày hướng tiếp cận mô tả bài toán dưới dạng lọc một quá trình ngẫu nhiên Markov
ẩn, sử dụng particle filter để lọc quá trình ngẫu nhiên và kết hợp giữa việc tính toán điểm tự
tin từ gentle adaboost. Nhóm tác giả đề xuất thuật toán InfoPart cho phép theo vết đối tượng
bằng phương pháp theo vết phần chứa nhiều thông tin đối tượng hơn (phần đầu, thân) là phần
ít thay đổi theo thời gian và bỏ qua phần chứa ít thông tin (phần chân) là phần dao động nhiều.
Kết quả thực nghiệm cho thấy độ chính xác trung bình của thuật toán InfoPart lớn hơn so với
thuật toán GradNet.
Từ khóa: Boostrap, mô hình Markov ẩn, gentle adaboost, particle filter, Haar like.
1. TỔNG QUAN
Bài toán theo vết đối tượng trong video được áp dụng trong nhiều lĩnh vực khác nhau,
được sử dụng như một bài toán độc lập hay là một bài toán thành phần của bài toán lớn hơn.
Ví dụ, trong lĩnh vực thể thao, việc theo dõi tự động cầu thủ chuyển động là một vấn đề quan
trọng nhằm thuận tiện cho việc phân tích chiến thuật. Bài toán ở đây bao gồm việc phát hiện
cầu thủ rồi sau đó theo vết chuyển động của cầu thủ này. Một ứng dụng cụ thể khác của bài
toán là ứng dụng trong hệ thống xe lái tự động; Việc quan sát và theo vết các xe phía trước là
một phần không thể thiếu để đảm bảo an toàn. Vì vậy, bài toán theo vết nếu kết hợp thêm với
các hệ thống nhận diện, nhận dạng sẽ tạo ra một hệ thống có thể giải quyết nhiều vấn đề trong
cuộc sống.
Hướng tiếp cận bộ lọc tương quan là công cụ mạnh mẽ trong xử lý tín hiệu số. Lớp thuật
toán này xoay quanh việc khai thác các tính chất của biến đổi Fourier, tiêu biểu là tính chất
biến phép tích chập trong miền không gian thành phép nhân hàm số trong miền Fourier [1-4].
Ý tưởng ban đầu của bộ lọc tương quan dùng để giải quyết bài toán định vị một vật trong ảnh.
Nghĩa là, nếu vật được quan tâm có xuất hiện trong ảnh thì xác định vị trí của nó. Công cụ giải
quyết bài toán này là Average of synthetic exact filters (ASEF) [1]. Bộ lọc tương quan tiếp
theo là Minimun Output Sum of Squared Error (MOSSE) được nghiên cứu bởi David S. Bolme
và các cộng sự [4]. Phương pháp theo vết này rất mạnh mẽ, có thể đối phó với các tình huống
thay đổi ánh sáng, thay đổi kích cỡ, hình dáng của vật. Hơn thế nữa, tốc độ thực thi của phương
pháp này rất ấn tượng khoảng 669 fps.
Theo vết đối tượng trong video dựa trên độ lợi thông tin
77
Hướng tiếp cận dựa trên phân loại nền và đối tượng sử dụng adaboost có công trình
nghiên cứu của Shai Aviden [5] tại Mitsubishi Electric Research Labs xem xét việc theo vết
đối tượng là bài toán phân loại nhị phân giữa các pixels nền và vật cần theo vết. Ý tưởng
phương pháp là huấn luyện các hàm phân loại yếu để phân loại nền và vật rồi sau đó kết hợp
lại để tạo thành một phân loại mạnh dựa trên cơ chế adaboost. Tuy nhiên, nhóm tác giả nhận
thấy nếu vật không có dạng hình chữ nhật thì có những pixels thuộc khung hình chữ nhật chứa
vật nhưng không thuộc vật sẽ được gán nhãn thuộc vật. Các pixels này được xem là các phần
tử ngoại lai, adaboost thì lại nhạy cảm với các phần tử ngoại lai [6]. Ngoài ra, một số hạn chế
khác của hướng tiếp cận: chưa giải quyết được tình huống vật bị che khuất hoàn toàn trong
thời gian dài, vẫn phải đánh đổi giữa hiện tượng bị trôi đối tượng và khả năng thích nghi của
mô hình theo thời gian, không gian đặc trưng được sử dụng trong thuật giải chưa tận dụng
được thông tin về không gian của ảnh.
Hướng tiếp cận dựa trên lọc quá trình ngẫu nhiên đã được nghiên cứu trong thời gian dài
trong lĩnh vực thống kê toán học và đã có rất nhiều kết quả ấn tượng được khám phá [7-9]. Đa
số các thuật toán theo hướng tiếp cận này đều dựa trên lời giải tối ưu Bayes cho bài toán lọc
quá trình Markov ẩn [10-12]. Nghĩa là xây dựng mô hình Markov ẩn đóng vai trò then chốt,
mô hình càng chính xác với thực tế thì lời giải Bayes càng ước lượng được chính xác trạng
thái của đối tượng. Công trình [11] có sử dụng đặc trưng về histogram màu sắc để xây dựng
một particle filter để theo vết vật. Công trình [13] sử dụng gentle adaboost để xây dựng mô
hình quan sát cập nhật theo thời gian.
Phần còn lại của bài viết được tổ chức như sau. Phần 2 trình bày một số công việc liên
quan đến việc sử dụng Markov để lọc quá trình, phương pháp lấy mẫu, gentle adaboost cung
cấp điểm tự tin để phân loại và mô hình ... trùng với hàm chuyển trạng thái. Ngoài ra, trong quá
trình thực nghiệm tác giả nhận thấy nếu xem w và h độc lập nhau thì quá trình theo vết không
ổn định. Do đó, xem h phụ thuộc hoàn toàn vào w, nghĩa là tỷ lệ h/w luôn bảo toàn và bằng tỷ
lệ 𝜂 = ℎ/𝑤 của khung hình chữ nhật chứa vật ở ảnh ban đầu.
Thuật toán 1: Particle filter cho quá trình ngẫu nhiên (𝑥𝑛, 𝑦𝑛, 𝜔𝑛, ℎ𝑛)
Input: Bộ mẫu particles pf (dựa vào thuật toán 5), ảnh thứ k (trong đó k bắt đầu từ ảnh
thứ 2)
Output: Bộ particles mới đại diện cho 𝑝((𝑥, 𝑦, 𝜔, ℎ) | ả𝑛ℎ 𝑘), ước lượng trạng thái của
vật ở ảnh thứ k.
Bước 1: Gán 𝜖 = 10−20
Bước 2:
for i=1 to 𝑁𝑠 do (với (𝑥𝑖, 𝑦𝑖 , 𝜔𝑖, ℎ𝑖) là particle thứ i)
Lấy 𝑥𝑛𝑒𝑤~𝑥𝑖 + 𝑁(0, 𝛿𝑥
2)
Lấy 𝑦𝑛𝑒𝑤~𝑦𝑖 + 𝑁(0, 𝛿𝑦
2)
Lấy 𝜔𝑛𝑒𝑤~𝜔𝑖 + 𝑁(0, 𝛿𝜔
2 )
Tính ℎ𝑛𝑒𝑤 = 𝜂 ∗ 𝜔𝑛𝑒𝑤
Tính 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 = 𝑝(ả𝑛ℎ 2 | (𝑥𝑛𝑒𝑤 , 𝑦𝑛𝑒𝑤 , 𝜔𝑛𝑒𝑤, ℎ𝑛𝑒𝑤) theo thuật toán 2
Cập nhật trọng số cho particle thứ i: 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 = 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 ∗ 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng
82
endfor
Bước 3:
Tính tổng 𝑠𝑤 = ∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 + 𝜖
𝑁𝑠
𝑗=1
for i=1 to 𝑁𝑠 do
Chuẩn hóa trọng số 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 =
𝑤𝑒𝑖𝑔ℎ𝑡𝑖+𝜖
𝑠𝑤
endfor
Bước 4: Tính 𝑁𝑒𝑓𝑓 =
1
∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑗
2𝑁𝑠
𝑗=1
Bước 5:
if 𝑁𝑒𝑓𝑓 < 𝑁𝑠/2 then
{(𝑥𝑖 , 𝑦𝑖 , 𝜔𝑖 , ℎ𝑖), 𝑤𝑒𝑖𝑔ℎ𝑡𝑖}𝑖=1
𝑁𝑠 = 𝑅𝐸𝑆𝐴𝑀𝑃𝐿𝐸({(𝑥𝑖 , 𝑦𝑖 , 𝜔𝑖 , ℎ𝑖), 𝑤𝑒𝑖𝑔ℎ𝑡𝑖}𝑖=1
𝑁𝑠 ) sử
dụng boostrap
endif
Bước 6: Ước lượng trạng thái của vật ở ảnh thứ k bằng việc tính trung bình của bộ
particles mới
𝑇𝑟ạ𝑛𝑔 𝑡ℎá𝑖 ướ𝑐 𝑙ượ𝑛𝑔 = ∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 ∗ 𝑝𝑎𝑟𝑡𝑖𝑐𝑙𝑒[𝑖]
𝑁𝑠
𝑖=1
Thuật toán 2: Tính likelihood của ảnh trên giả thuyết về trạng thái của vật
Input: Ảnh quan sát, giả thuyết (𝑥, 𝑦, 𝜔, ℎ), vector 𝐻𝑂𝐺1của vật ở ảnh thứ nhất, phân
loại mạnh F.
Output: Likelihood 𝑝(ả𝑛ℎ 𝑞𝑢𝑎𝑛 𝑠á𝑡 | 𝑔𝑖ả 𝑡ℎ𝑢𝑦ế𝑡 (𝑥, 𝑦, 𝜔, ℎ))
Bước 1: Trích vùng ảnh trong hình chữ nhật (𝑥, 𝑦, 𝜔, ℎ) ra, ℎ = 𝑐𝑟𝑜𝑝(ả𝑛ℎ, (𝑥, 𝑦, 𝜔, ℎ))
Bước 2: Resize ảnh h về kích thước của vật ở ảnh đầu tiên
Bước 3:
Trích đặc trưng HOG trên h, 𝐻𝑂𝐺2 = 𝑔𝑒𝑡𝐻𝑂𝐺(ℎ)
Trích đặc trưng Haar-like trên h, 𝐻𝑎𝑎𝑟2 = 𝑔𝑒𝑡𝐻𝑎𝑎𝑟𝑙𝑖𝑘𝑒(ℎ)
Bước 4: Tính điểm phân loại 𝑐𝑜𝑛𝑓 = 𝐹(𝐻𝑎𝑎𝑟2) theo thuật toán 3
Bước 5: Tính likelihood = exp (α ∗ conf − γ||𝐻𝑂𝐺1 − 𝐻𝑂𝐺2||
2)
Thuật toán 3: Tính điểm phân loại
Input: Phân loại mạnh F là ma trận 4 × 𝑠 (tìm phân loại mạnh dựa vào thuật toán 4),
vector đặc trưng Haar-like x của vùng cần tính điểm
Output: Điểm phân loại conf
Bước 1: Gán điểm 𝑐𝑜𝑛𝑓 = 0
Bước 2:
for i=1 to s do
Lấy 𝑎, 𝑏, 𝜃, 𝑘 là phân loại yếu thứ i
Cập nhật 𝑐𝑜𝑛𝑓 = 𝑐𝑜𝑛𝑓 + 𝑎 × (𝑥[𝑘] > 𝜃) + 𝑏
endfor
Thuật toán 4: Gentle Adaboost
Theo vết đối tượng trong video dựa trên độ lợi thông tin
83
Input: Tập huấn luyện (𝑥1, 𝑦1), (𝑥2, 𝑦2), , (𝑥𝑁, 𝑦𝑁) với 𝑦𝑖 ∈ {1, −1} là nhãn của 𝑥𝑖
Output: Hàm phân loại mạnh F
Bước 1: Khởi tạo hệ số 𝜔1 = 𝜔2 = ⋯ = 𝜔𝑁 =
1
𝑁
cho tập huấn luyện
Bước 2:
for t=1 to s do
for j=1 to m do
Huấn luyện phân loại yếu ℎ𝑗, tức là tính (𝑎, 𝑘, 𝜃, 𝑏) theo công thức
endfor
Chọn phân loại yếu có lỗi thấp nhất, đặt là 𝑓𝑡
Cập nhật phân loại mạnh 𝐹(𝑥) = 𝐹(𝑥) + 𝑓𝑡(𝑥)
Cập nhật trọng số 𝜔𝑖 = 𝜔𝑖 × exp (−𝑦𝑖𝑓𝑡(𝑥𝑖))
endfor
Hình 4. Phần giới hạn cho việc lấy mẫu âm.
Thuật toán 5: Lấy mẫu để huấn luyện gentle adaboost
Input: Ảnh tại thời điểm ban đầu, vị trí và kích thước vật (𝑥0, 𝑦0, 𝜔0, ℎ0)
Output: Bộ dữ liệu D kích thước 𝑁+ + 𝑁−, gồm 𝑁+ mẫu dương, 𝑁− mẫu âm.
Bước 1: Khởi tạo một ngăn xếp features để chứa các vector đặc trưng.
Bước 2:
Lấy đặc trưng Haarlike của vùng (𝑥0, 𝑦0, 𝜔0, ℎ0), 𝑣 = 𝑔𝑒𝑡𝐻𝑎𝑎𝑟𝑙𝑖𝑘𝑒(𝑣ù𝑛𝑔(𝑥0, 𝑦0, 𝜔0, ℎ0))
Đưa v vào ngăn xếp features, features.push(v)
Bước 3:
for i=1 to N+ -1 do
Lấy ngẫu nhiên vùng chữ nhật S từ ảnh với vị trí ±5 pixels so với vật
Lấy vector đặc trưng Haarlike trên vùng S, v=getHaarlike(S)
Đưa vector v vào ngăn xếp features, features.push(v)
endfor
Bước 4:
for i=1 to N- -1 do
Lấy ngẫu nhiên vùng chữ nhật S thuộc phần màu xanh Hình 4
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng
84
Lấy vector đặc trưng Haarlike trên vùng S, v=getHaarlike(S)
Đưa vector v vào ngăn xếp features, features.push(v)
endfor
3.2. Thuật toán theo vết phần chứa nhiều thông tin (InfoPart)
Thay vì phải theo vết cả đối tượng dựa trên mô hình particle filter, nhóm tác giả đề xuất
theo vết một phần đối tượng chứa nhiều thông tin và ít thay đổi dựa trên mô hình particle filter.
Sau đó dựa vào kết quả theo vết một phần đối tượng nội suy ra toàn bộ đối tượng. Ví dụ,
trường hợp đối tượng là người đi bộ thì 5/8 phần trên (gồm phần đầu và thân) là phần ít biến
đổi theo thời gian và “đặc” hơn phần chân.
Hình 5. Cấu trúc ᴎ phân hoạch đối tượng gồm S1 là đầu, S2 là thân và S3 là chân.
Vùng (S1+S2) là phần lợi thông tin trong đối tượng.
Sơ đồ hệ thống bài toán theo vết đối tượng:
Hình 6. Sơ đồ hệ thống bài toán theo vết đối tượng
Thuật toán 6 theo vết đối tượng với phần nhiều thông tin dựa trên mô hình particle filter
(InfoPart):
Bước 1: Khởi tạo n bộ particles 𝑝𝑓1, 𝑝𝑓2, , 𝑝𝑓𝑛 trong vùng (S1+S2) hình 5 cho phép theo
vết phần lợi thông tin trong đối tượng tại ảnh thứ 1.
Bước 2:
Lấy mẫu 𝐷 cho vùng (S1+S2) tại ảnh thứ 1 theo thuật toán 5.
Huấn luyện phân loại mạnh 𝐹 = 𝑔𝑒𝑛𝑡𝑙𝑒𝐴𝑑𝑎𝑏𝑜𝑜𝑠𝑡(𝐷 ) theo thuật toán 3.
Bước 3:
while video chưa kết thúc do
Beginwhile
Nhận ảnh thứ k quan sát đối tượng theo vết
Ảnh thứ
k trong
video.
Ước lượng n bộ particle trong vùng (S1+S2) dựa trên n
bộ particle ở ảnh thứ (k-1) và dựa vào phân loại
gentleAdaboost trong lần lặp thứ (k-1).
Input:
Video.
Dùng n bộ particle và cấu trúc ᴎ theo
Hình 5 nội suy phần còn lại của đối
tượng theo vết tại ảnh thứ k.
Cập nhật huấn luyện phân
loại gentleAdaboost dựa
mẫu mới D.
Output: Vị trí đối tượng
theo vết tại ảnh thứ k.
Theo vết đối tượng trong video dựa trên độ lợi thông tin
85
Dùng n bộ particle ước lượng trạng thái vùng (S1+S2) tại ảnh thứ k theo thuật
toán 1
Dùng phần lợi thông tin vùng (S1+S2) và cấu trúc ᴎ theo Hình 5 nội suy phần
còn lại của đối tượng theo vết tại ảnh thứ k (Nghĩa là ước lượng trạng thái
của đối tượng theo vết ở ảnh thứ k dựa trên n bộ particle).
Lấy mẫu mới 𝐷∗ dựa trên phần lợi thông tin trong đối tượng theo vết tại ảnh
thứ k.
Cập nhật phân loại mạnh 𝐹.
endwhile
4. KẾT QUẢ THỰC NGHIỆM
Môi trường cài đặt: Tác giả thực nghiệm trên máy tính sử dụng hệ điều hành Windows
10 Pro bản 64 bit, RAM 8 GB, Chip Intel Core (TM) 5i-3210M CPU @ 2.5GHz. Ngôn ngữ
lập trình Matlab phiên bản R2016a.
4.1. Bộ dữ liệu
Năm 2013, nhóm tác giả Yi-Wu, Jongwoo Lim, Ming-Hsuan Yang [15] đã tổng hợp
nhiều nguồn video liên quan đến theo vết và đã tiến hành tạo groungtruth cho các video này
để tạo thành bộ dữ liệu TB-100.
Vì TB-100 là bộ dữ liệu tổng hợp từ nhiều nguồn nên ngữ cảnh của các video cũng rất
khác nhau và đa dạng về thuộc tính như: loại vật cần theo vết, video màu hoặc trắng đen,
camera tĩnh hoặc động,...
Các thử thách trong bộ dữ liệu bao gồm:
IV – Độ sáng của đối tượng thay đổi đáng kể.
SV – Tỉ lệ của hình chữ nhật chứa vật ảnh thứ nhất với ảnh hiện tại vượt ra khỏi
khoảng [1 𝑡𝑠⁄
, 𝑡𝑠] , 𝑡𝑠 > 1(𝑡𝑠 = 2).
OCC – Đối tượng bị che khuất một phần hoặc toàn phần.
DEF – Đối tượng không đặc biến đổi hình dạng.
MB – Đối tượng bị nhòe do chuyển động của camera.
FM – Chuyển động của groundtruth lớn hơn tm pixels (tm = 20).
IPR – Đối tượng xoay trong miền ảnh.
OPR – Đối tượng ra khỏi miền ảnh.
OV – Một phần của đối tượng ra khỏi miền ảnh.
BC – Nền gần đối tượng có màu sắc hoặc đường nét giống đối tượng.
LR – Số lượng pixels trong hình chữ nhật chứa vật (xét groundtruth) nhỏ hơn tr (tr = 400).
4.2. Phương thức đánh giá
Nghiên cứu của Yi Wu et al. cung cấp các tiêu chuẩn để đánh giá thuật toán theo vết [15].
Phương thức 1 (R1): Đánh giá dựa trên khoảng cách Euclid (precision plot): Đo khoảng
cách Euclid d từ tâm ước lượng của thuật toán đến tâm thực sự của vật (groundtruth), nếu d
nhỏ hơn hoặc bằng một ngưỡng t0 (t0 = 20) thì được xem là thành công (Hình 7a).
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng
86
Phương thức 2 (R2): Đánh giá dựa trên mức độ trùng nhau. Số điểm trùng lấp được định
nghĩa 𝑆 =
|𝑟𝑡∩𝑟𝑎|
|𝑟𝑡∪𝑟𝑎|
, trong đó: 𝑟𝑡 là hình chữ nhật bao vật do thuật toán ước lượng và 𝑟𝑎 là hình
chữ nhật groundtruth (Hình 7b).
Tính tỷ lệ 𝑅1, 𝑅2 =
𝑠ố ả𝑛ℎ 𝑡ℎà𝑛ℎ 𝑐ô𝑛𝑔
𝑡ổ𝑛𝑔 𝑠ố ả𝑛ℎ
Hình 7. (a) Đo khoảng cách Euclid; (b) đo mức độ trùng nhau
4.3. Kết quả đánh giá
Kết quả theo vết người với camera không dao động nhiều và bảo toàn tương đối các tỷ
lệ trên cơ thể người và người không quá nhỏ. Tác giả sử dụng thuật toán InfoPart so sánh với
thuật toán GradNet [16].
Bảng 1. Kết quả thuật toán GradNet và InfoPart
Video Thuộc tính
GradNet % InfoPart %
R1 R2 R1 R2
Crossing SV, DEF, FM, OPR, BC 100 100 100 98,33
Dancer SV, DEF, IPR, OPR 92,44 98,22 95,11 88,89
Dancer2 DEF 100 100 77,33 59,01
David3 OCC, DEF, OPR, BC 100 100 73,02 81,35
Human8 IV, SV, DEF 8,59 7,03 100 89,06
Walking SV, OCC, DEF 100 99,27 100 98,54
Walking2 SV, OCC, LR 100 100 100 100
85,86 86,36 92,21 87,88
5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Thuật toán InfoPart lấy phần có lợi thông tin 5/8 đối tượng người (gồm đầu và thân) cần
theo vết cho kết quả tốt hơn thuật toán GradNet. Cụ thể, cho thấy độ chính xác trung bình
của thuật toán InfoPart (R1 = 92,21%, R2 = 87,88%) lớn hơn so với thuật toán GradNet
(R1 = 85,86%, R2 = 86,36%).
Ngoài ra, theo vết phần có nhiều thông tin rồi nội suy phần còn lại sẽ giảm thời gian tính
toán so với thuật toán cơ sở particle filter ban đầu theo vết trên toàn bộ đối tượng.
Đối với lớp video theo vết người, camera tương đối ổn định và phép quay góc bảo toàn
tương đối tỷ lệ cơ thể người, tác giả theo vết phần có nhiều thông tin nhất rồi suy ra cả cơ thể.
Kết quả thực nghiệm của các thuật toán nêu trên cho từng video là chênh lệch nhau rất lớn,
cao nhất là 100% và thấp nhất là 59%. Kết quả này cũng dễ hiểu vì bộ dữ liệu TB-100 là tổng
Theo vết đối tượng trong video dựa trên độ lợi thông tin
87
hợp của rất nhiều bộ dữ liệu khác, rất đa dạng và nhiều thử thách. Nhìn chung, kết quả đạt ở
mức tốt.
Hướng phát triển là thay đổi mô hình quan sát. Nhóm tác giả nhận thấy quá trình huấn
luyện gentle adaboost rất tốn thời gian và khiến cho hệ thống chưa thể hoạt động theo thời
gian thực được. Các thuật toán sử dụng lớp bộ lọc tương quan lại có ưu điểm là tốc độ xử lý
rất nhanh và chính xác, nếu tích hợp được lớp bộ lọc tương quan này vào mô hình quan sát thì
sẽ rút ngắn đáng kể thời gian thực thi.
Lời cảm ơn: Nghiên cứu này do Trường Đại học Công nghiệp Thực phẩm TP.HCM bảo trợ
và cấp kinh phí theo Hợp đồng số 50/HĐ-DCT ngày 03 tháng 09 năm 2019.
TÀI LIỆU THAM KHẢO
1. David S. Bolme, Bruce A. Draper, J. Ross Beveridge - Average of synthetic exact
filters, IEEE Conference on Computer Vision and Pattern Recognition (2009).
2. Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista - Exploiting the
circulant structure of tracking-by-detection with kernels, European Conference on
Computer Vision (2012) 702-715.
3. Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista - High-speed
tracking with kernelized correlation filters, IEEE Transactions on Pattern Analysis and
Machine Intelligence (2015) 583-596.
4. Divid S.Bolme, J.Ross Beveridge, Bruce A. Draper, Yui Man Lui - Visual object
tracking using adaptive correlation filters, IEEE Computer Society Conference on
Computer Vision and Pattern Regconition (2010) 2544-2550.
5. Shai Avidan - Ensemble tracking, IEEE Transactions on Pattern Analysis and
Machine Intelligence (2007).
6. Freund Y. - An adaptive version of the boost by majority algorithm, Machine Learning
43 (2001) 293-318.
7. Zhe Chen - Bayesian filtering: from kalman filters to particle filters, and beyond,
Statistics: A Journal of Theoretical and Applied Statistics (2003).
8. Arnaud Doucet, Adam M. Johansen - A tutorial on particle filtering and smoothing:
Fifteen years later (2008).
9. Daniel Jurafsky, James H. Martin - Chapter 9: Hidden Markov models, Speech and
Language Processing (2017).
10. Dominik A. Klein, Dirk Schulz, Simone Frintrop, and Armin B. Cremers - Adaptive
real-time video-tracking for arbitrary objects, IEEE/RSJ International Conference on
Intelligent Robots and Systems (2010) 772-777.
11. Perez P., Hue C., Varmaak J., Gangnet M. - Color-based probabilistic tracking,
European Conference on Computer Vision (2002) 661-675.
12. Changjiang Yang, Ramani Duraiswami, Larry Davis - Fast multiple object tracking
via a hierarchical particle filter, 10th IEEE International Conference on Computer
Vision (2005) 212-219.
13. Olov Samualssonn - Video tracking algorithm for unmanned aerial vehicle
Surveillance, Stockholm - Sweden (2012).
14. Sanjeev Arulampalam, Simson Maskell, Neil Gordon, Tim Clapp - A tutorial on
particle filters for online no-linear/non-gaussian bayesian tracking, IEEE Transactions
on Signal Processing 50 (2) (2002) 174-188.
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng
88
15. Yi Wu, Jongwoo Lim, Ming-Hsuan Yang - Online object tracking: A benchmark,
Computer Vision and Pattern Recognition (2013).
16. Peixia Li, Boyu Chen, Wanli Ouyang, Dong Wang, Xiaoyun Yang, Huchuan Lu -
GradNet: Gradient-guided network for visual object tracking, IEEE International
Conference on Computer Vision (ICCV) (2019).
ABSTRACT
TRACKING MOVING OBJECTS IN VIDEO BASED ON BENEFIT PART
Ngo Duong Ha, Tran Nhu Y, Le Huu Ha,
Nguyen Phuong Hac, Nguyen Van Tung*
Ho Chi Minh City University of Food Industry
*Email: tungnv@hufi.edu.vn
Tracking object in video is important problem of computer vision. Tracking the
movement of objects that can be used in security systems, automatic observation, integrated
into robots unmanned aerial vehicles of the military, etc. This paper presents an approach that
describes the problem in terms of filtering a hidden Markov model using particle filters to filter
the random process and combining the computation of confidence scores from gentle
adaboost. We suggest tracking the more informative parts (head, body) and omitting the foot
part which is the more oscillating part. An InfoPart algorithm is proposes to track the benefit
part (head, body) without leg that is more oscillatory. Experimental results show that the
average accuracy of InfoPart algorithm is greater than GradNet algorithm.
Keywords: Hidden Markov model, gentle adaboost, particle filter, Haar like.

File đính kèm:

theo_vet_doi_tuong_trong_video_dua_tren_do_loi_thong_tin.pdf