Theo vết đối tượng trong video dựa trên độ lợi thông tin

Theo vết đối tượng trong video là một bài toán quan trọng cốt yếu trong lĩnh vực thị giác

máy tính. Theo vết chuyển động của đối tượng có thể sử dụng trong các hệ thống an ninh,

quan sát tự động, tích hợp vào robot, các thiết bị bay không người lái của quân đội,. Bài báo

này trình bày hướng tiếp cận mô tả bài toán dưới dạng lọc một quá trình ngẫu nhiên Markov

ẩn, sử dụng particle filter để lọc quá trình ngẫu nhiên và kết hợp giữa việc tính toán điểm tự

tin từ gentle adaboost. Nhóm tác giả đề xuất thuật toán InfoPart cho phép theo vết đối tượng

bằng phương pháp theo vết phần chứa nhiều thông tin đối tượng hơn (phần đầu, thân) là phần

ít thay đổi theo thời gian và bỏ qua phần chứa ít thông tin (phần chân) là phần dao động nhiều.

Kết quả thực nghiệm cho thấy độ chính xác trung bình của thuật toán InfoPart lớn hơn so với

thuật toán GradNet.

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 1

Trang 1

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 2

Trang 2

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 3

Trang 3

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 4

Trang 4

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 5

Trang 5

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 6

Trang 6

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 7

Trang 7

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 8

Trang 8

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 9

Trang 9

Theo vết đối tượng trong video dựa trên độ lợi thông tin trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 13 trang baonam 10320
Bạn đang xem 10 trang mẫu của tài liệu "Theo vết đối tượng trong video dựa trên độ lợi thông tin", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Theo vết đối tượng trong video dựa trên độ lợi thông tin

Theo vết đối tượng trong video dựa trên độ lợi thông tin
Tạp chí Khoa học Công nghệ và Thực phẩm 20 (4) (2020) 76-88 
76 
THEO VẾT ĐỐI TƯỢNG TRONG VIDEO 
DỰA TRÊN ĐỘ LỢI THÔNG TIN 
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, 
Nguyễn Phương Hạc, Nguyễn Văn Tùng* 
Trường Đại học Công nghiệp Thực phẩm TP.HCM 
*Email: tungnv@hufi.edu.vn 
Ngày nhận bài: 20/5/2020; Ngày chấp nhận đăng: 12/8/2020 
TÓM TẮT 
Theo vết đối tượng trong video là một bài toán quan trọng cốt yếu trong lĩnh vực thị giác 
máy tính. Theo vết chuyển động của đối tượng có thể sử dụng trong các hệ thống an ninh, 
quan sát tự động, tích hợp vào robot, các thiết bị bay không người lái của quân đội,... Bài báo 
này trình bày hướng tiếp cận mô tả bài toán dưới dạng lọc một quá trình ngẫu nhiên Markov 
ẩn, sử dụng particle filter để lọc quá trình ngẫu nhiên và kết hợp giữa việc tính toán điểm tự 
tin từ gentle adaboost. Nhóm tác giả đề xuất thuật toán InfoPart cho phép theo vết đối tượng 
bằng phương pháp theo vết phần chứa nhiều thông tin đối tượng hơn (phần đầu, thân) là phần 
ít thay đổi theo thời gian và bỏ qua phần chứa ít thông tin (phần chân) là phần dao động nhiều. 
Kết quả thực nghiệm cho thấy độ chính xác trung bình của thuật toán InfoPart lớn hơn so với 
thuật toán GradNet. 
Từ khóa: Boostrap, mô hình Markov ẩn, gentle adaboost, particle filter, Haar like. 
1. TỔNG QUAN 
Bài toán theo vết đối tượng trong video được áp dụng trong nhiều lĩnh vực khác nhau, 
được sử dụng như một bài toán độc lập hay là một bài toán thành phần của bài toán lớn hơn. 
Ví dụ, trong lĩnh vực thể thao, việc theo dõi tự động cầu thủ chuyển động là một vấn đề quan 
trọng nhằm thuận tiện cho việc phân tích chiến thuật. Bài toán ở đây bao gồm việc phát hiện 
cầu thủ rồi sau đó theo vết chuyển động của cầu thủ này. Một ứng dụng cụ thể khác của bài 
toán là ứng dụng trong hệ thống xe lái tự động; Việc quan sát và theo vết các xe phía trước là 
một phần không thể thiếu để đảm bảo an toàn. Vì vậy, bài toán theo vết nếu kết hợp thêm với 
các hệ thống nhận diện, nhận dạng sẽ tạo ra một hệ thống có thể giải quyết nhiều vấn đề trong 
cuộc sống. 
Hướng tiếp cận bộ lọc tương quan là công cụ mạnh mẽ trong xử lý tín hiệu số. Lớp thuật 
toán này xoay quanh việc khai thác các tính chất của biến đổi Fourier, tiêu biểu là tính chất 
biến phép tích chập trong miền không gian thành phép nhân hàm số trong miền Fourier [1-4]. 
Ý tưởng ban đầu của bộ lọc tương quan dùng để giải quyết bài toán định vị một vật trong ảnh. 
Nghĩa là, nếu vật được quan tâm có xuất hiện trong ảnh thì xác định vị trí của nó. Công cụ giải 
quyết bài toán này là Average of synthetic exact filters (ASEF) [1]. Bộ lọc tương quan tiếp 
theo là Minimun Output Sum of Squared Error (MOSSE) được nghiên cứu bởi David S. Bolme 
và các cộng sự [4]. Phương pháp theo vết này rất mạnh mẽ, có thể đối phó với các tình huống 
thay đổi ánh sáng, thay đổi kích cỡ, hình dáng của vật. Hơn thế nữa, tốc độ thực thi của phương 
pháp này rất ấn tượng khoảng 669 fps. 
Theo vết đối tượng trong video dựa trên độ lợi thông tin 
77 
Hướng tiếp cận dựa trên phân loại nền và đối tượng sử dụng adaboost có công trình 
nghiên cứu của Shai Aviden [5] tại Mitsubishi Electric Research Labs xem xét việc theo vết 
đối tượng là bài toán phân loại nhị phân giữa các pixels nền và vật cần theo vết. Ý tưởng 
phương pháp là huấn luyện các hàm phân loại yếu để phân loại nền và vật rồi sau đó kết hợp 
lại để tạo thành một phân loại mạnh dựa trên cơ chế adaboost. Tuy nhiên, nhóm tác giả nhận 
thấy nếu vật không có dạng hình chữ nhật thì có những pixels thuộc khung hình chữ nhật chứa 
vật nhưng không thuộc vật sẽ được gán nhãn thuộc vật. Các pixels này được xem là các phần 
tử ngoại lai, adaboost thì lại nhạy cảm với các phần tử ngoại lai [6]. Ngoài ra, một số hạn chế 
khác của hướng tiếp cận: chưa giải quyết được tình huống vật bị che khuất hoàn toàn trong 
thời gian dài, vẫn phải đánh đổi giữa hiện tượng bị trôi đối tượng và khả năng thích nghi của 
mô hình theo thời gian, không gian đặc trưng được sử dụng trong thuật giải chưa tận dụng 
được thông tin về không gian của ảnh. 
Hướng tiếp cận dựa trên lọc quá trình ngẫu nhiên đã được nghiên cứu trong thời gian dài 
trong lĩnh vực thống kê toán học và đã có rất nhiều kết quả ấn tượng được khám phá [7-9]. Đa 
số các thuật toán theo hướng tiếp cận này đều dựa trên lời giải tối ưu Bayes cho bài toán lọc 
quá trình Markov ẩn [10-12]. Nghĩa là xây dựng mô hình Markov ẩn đóng vai trò then chốt, 
mô hình càng chính xác với thực tế thì lời giải Bayes càng ước lượng được chính xác trạng 
thái của đối tượng. Công trình [11] có sử dụng đặc trưng về histogram màu sắc để xây dựng 
một particle filter để theo vết vật. Công trình [13] sử dụng gentle adaboost để xây dựng mô 
hình quan sát cập nhật theo thời gian. 
Phần còn lại của bài viết được tổ chức như sau. Phần 2 trình bày một số công việc liên 
quan đến việc sử dụng Markov để lọc quá trình, phương pháp lấy mẫu, gentle adaboost cung 
cấp điểm tự tin để phân loại và mô hình  ... trùng với hàm chuyển trạng thái. Ngoài ra, trong quá 
trình thực nghiệm tác giả nhận thấy nếu xem w và h độc lập nhau thì quá trình theo vết không 
ổn định. Do đó, xem h phụ thuộc hoàn toàn vào w, nghĩa là tỷ lệ h/w luôn bảo toàn và bằng tỷ 
lệ 𝜂 = ℎ/𝑤 của khung hình chữ nhật chứa vật ở ảnh ban đầu. 
Thuật toán 1: Particle filter cho quá trình ngẫu nhiên (𝑥𝑛, 𝑦𝑛, 𝜔𝑛, ℎ𝑛) 
Input: Bộ mẫu particles pf (dựa vào thuật toán 5), ảnh thứ k (trong đó k bắt đầu từ ảnh 
thứ 2) 
Output: Bộ particles mới đại diện cho 𝑝((𝑥, 𝑦, 𝜔, ℎ) | ả𝑛ℎ 𝑘), ước lượng trạng thái của 
vật ở ảnh thứ k. 
Bước 1: Gán 𝜖 = 10−20 
Bước 2: 
for i=1 to 𝑁𝑠 do (với (𝑥𝑖, 𝑦𝑖 , 𝜔𝑖, ℎ𝑖) là particle thứ i) 
Lấy 𝑥𝑛𝑒𝑤~𝑥𝑖 + 𝑁(0, 𝛿𝑥
2) 
Lấy 𝑦𝑛𝑒𝑤~𝑦𝑖 + 𝑁(0, 𝛿𝑦
2) 
Lấy 𝜔𝑛𝑒𝑤~𝜔𝑖 + 𝑁(0, 𝛿𝜔
2 ) 
Tính ℎ𝑛𝑒𝑤 = 𝜂 ∗ 𝜔𝑛𝑒𝑤 
Tính 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 = 𝑝(ả𝑛ℎ 2 | (𝑥𝑛𝑒𝑤 , 𝑦𝑛𝑒𝑤 , 𝜔𝑛𝑒𝑤, ℎ𝑛𝑒𝑤) theo thuật toán 2 
Cập nhật trọng số cho particle thứ i: 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 = 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 ∗ 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng 
82 
endfor 
Bước 3: 
Tính tổng 𝑠𝑤 = ∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 + 𝜖
𝑁𝑠
𝑗=1 
for i=1 to 𝑁𝑠 do 
Chuẩn hóa trọng số 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 =
𝑤𝑒𝑖𝑔ℎ𝑡𝑖+𝜖
𝑠𝑤
endfor 
Bước 4: Tính 𝑁𝑒𝑓𝑓 =
1
∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑗
2𝑁𝑠
𝑗=1
Bước 5: 
if 𝑁𝑒𝑓𝑓 < 𝑁𝑠/2 then 
{(𝑥𝑖 , 𝑦𝑖 , 𝜔𝑖 , ℎ𝑖), 𝑤𝑒𝑖𝑔ℎ𝑡𝑖}𝑖=1
𝑁𝑠 = 𝑅𝐸𝑆𝐴𝑀𝑃𝐿𝐸({(𝑥𝑖 , 𝑦𝑖 , 𝜔𝑖 , ℎ𝑖), 𝑤𝑒𝑖𝑔ℎ𝑡𝑖}𝑖=1
𝑁𝑠 ) sử 
dụng boostrap 
endif 
Bước 6: Ước lượng trạng thái của vật ở ảnh thứ k bằng việc tính trung bình của bộ 
particles mới 
𝑇𝑟ạ𝑛𝑔 𝑡ℎá𝑖 ướ𝑐 𝑙ượ𝑛𝑔 = ∑ 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 ∗ 𝑝𝑎𝑟𝑡𝑖𝑐𝑙𝑒[𝑖]
𝑁𝑠
𝑖=1
Thuật toán 2: Tính likelihood của ảnh trên giả thuyết về trạng thái của vật 
Input: Ảnh quan sát, giả thuyết (𝑥, 𝑦, 𝜔, ℎ), vector 𝐻𝑂𝐺1của vật ở ảnh thứ nhất, phân 
loại mạnh F. 
Output: Likelihood 𝑝(ả𝑛ℎ 𝑞𝑢𝑎𝑛 𝑠á𝑡 | 𝑔𝑖ả 𝑡ℎ𝑢𝑦ế𝑡 (𝑥, 𝑦, 𝜔, ℎ)) 
Bước 1: Trích vùng ảnh trong hình chữ nhật (𝑥, 𝑦, 𝜔, ℎ) ra, ℎ = 𝑐𝑟𝑜𝑝(ả𝑛ℎ, (𝑥, 𝑦, 𝜔, ℎ)) 
Bước 2: Resize ảnh h về kích thước của vật ở ảnh đầu tiên 
Bước 3: 
Trích đặc trưng HOG trên h, 𝐻𝑂𝐺2 = 𝑔𝑒𝑡𝐻𝑂𝐺(ℎ) 
Trích đặc trưng Haar-like trên h, 𝐻𝑎𝑎𝑟2 = 𝑔𝑒𝑡𝐻𝑎𝑎𝑟𝑙𝑖𝑘𝑒(ℎ) 
Bước 4: Tính điểm phân loại 𝑐𝑜𝑛𝑓 = 𝐹(𝐻𝑎𝑎𝑟2) theo thuật toán 3 
Bước 5: Tính likelihood = exp (α ∗ conf − γ||𝐻𝑂𝐺1 − 𝐻𝑂𝐺2||
2) 
Thuật toán 3: Tính điểm phân loại 
Input: Phân loại mạnh F là ma trận 4 × 𝑠 (tìm phân loại mạnh dựa vào thuật toán 4), 
vector đặc trưng Haar-like x của vùng cần tính điểm 
Output: Điểm phân loại conf 
Bước 1: Gán điểm 𝑐𝑜𝑛𝑓 = 0 
Bước 2: 
for i=1 to s do 
Lấy 𝑎, 𝑏, 𝜃, 𝑘 là phân loại yếu thứ i 
Cập nhật 𝑐𝑜𝑛𝑓 = 𝑐𝑜𝑛𝑓 + 𝑎 × (𝑥[𝑘] > 𝜃) + 𝑏 
endfor 
Thuật toán 4: Gentle Adaboost 
Theo vết đối tượng trong video dựa trên độ lợi thông tin 
83 
Input: Tập huấn luyện (𝑥1, 𝑦1), (𝑥2, 𝑦2),  , (𝑥𝑁, 𝑦𝑁) với 𝑦𝑖 ∈ {1, −1} là nhãn của 𝑥𝑖 
Output: Hàm phân loại mạnh F 
Bước 1: Khởi tạo hệ số 𝜔1 = 𝜔2 = ⋯ = 𝜔𝑁 =
1
𝑁
 cho tập huấn luyện 
Bước 2: 
for t=1 to s do 
for j=1 to m do 
Huấn luyện phân loại yếu ℎ𝑗, tức là tính (𝑎, 𝑘, 𝜃, 𝑏) theo công thức 
endfor 
Chọn phân loại yếu có lỗi thấp nhất, đặt là 𝑓𝑡 
Cập nhật phân loại mạnh 𝐹(𝑥) = 𝐹(𝑥) + 𝑓𝑡(𝑥) 
Cập nhật trọng số 𝜔𝑖 = 𝜔𝑖 × exp (−𝑦𝑖𝑓𝑡(𝑥𝑖)) 
endfor 
Hình 4. Phần giới hạn cho việc lấy mẫu âm. 
Thuật toán 5: Lấy mẫu để huấn luyện gentle adaboost 
Input: Ảnh tại thời điểm ban đầu, vị trí và kích thước vật (𝑥0, 𝑦0, 𝜔0, ℎ0) 
Output: Bộ dữ liệu D kích thước 𝑁+ + 𝑁−, gồm 𝑁+ mẫu dương, 𝑁− mẫu âm. 
Bước 1: Khởi tạo một ngăn xếp features để chứa các vector đặc trưng. 
Bước 2: 
Lấy đặc trưng Haarlike của vùng (𝑥0, 𝑦0, 𝜔0, ℎ0), 𝑣 = 𝑔𝑒𝑡𝐻𝑎𝑎𝑟𝑙𝑖𝑘𝑒(𝑣ù𝑛𝑔(𝑥0, 𝑦0, 𝜔0, ℎ0)) 
Đưa v vào ngăn xếp features, features.push(v) 
Bước 3: 
for i=1 to N+ -1 do 
Lấy ngẫu nhiên vùng chữ nhật S từ ảnh với vị trí ±5 pixels so với vật 
Lấy vector đặc trưng Haarlike trên vùng S, v=getHaarlike(S) 
Đưa vector v vào ngăn xếp features, features.push(v) 
endfor 
Bước 4: 
for i=1 to N- -1 do 
Lấy ngẫu nhiên vùng chữ nhật S thuộc phần màu xanh Hình 4 
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng 
84 
Lấy vector đặc trưng Haarlike trên vùng S, v=getHaarlike(S) 
Đưa vector v vào ngăn xếp features, features.push(v) 
endfor 
3.2. Thuật toán theo vết phần chứa nhiều thông tin (InfoPart) 
Thay vì phải theo vết cả đối tượng dựa trên mô hình particle filter, nhóm tác giả đề xuất 
theo vết một phần đối tượng chứa nhiều thông tin và ít thay đổi dựa trên mô hình particle filter. 
Sau đó dựa vào kết quả theo vết một phần đối tượng nội suy ra toàn bộ đối tượng. Ví dụ, 
trường hợp đối tượng là người đi bộ thì 5/8 phần trên (gồm phần đầu và thân) là phần ít biến 
đổi theo thời gian và “đặc” hơn phần chân. 
Hình 5. Cấu trúc ᴎ phân hoạch đối tượng gồm S1 là đầu, S2 là thân và S3 là chân. 
Vùng (S1+S2) là phần lợi thông tin trong đối tượng. 
Sơ đồ hệ thống bài toán theo vết đối tượng: 
Hình 6. Sơ đồ hệ thống bài toán theo vết đối tượng 
Thuật toán 6 theo vết đối tượng với phần nhiều thông tin dựa trên mô hình particle filter 
(InfoPart): 
Bước 1: Khởi tạo n bộ particles 𝑝𝑓1, 𝑝𝑓2,  , 𝑝𝑓𝑛 trong vùng (S1+S2) hình 5 cho phép theo 
vết phần lợi thông tin trong đối tượng tại ảnh thứ 1. 
Bước 2: 
Lấy mẫu 𝐷 cho vùng (S1+S2) tại ảnh thứ 1 theo thuật toán 5. 
Huấn luyện phân loại mạnh 𝐹 = 𝑔𝑒𝑛𝑡𝑙𝑒𝐴𝑑𝑎𝑏𝑜𝑜𝑠𝑡(𝐷 ) theo thuật toán 3. 
Bước 3: 
while video chưa kết thúc do 
Beginwhile 
Nhận ảnh thứ k quan sát đối tượng theo vết 
Ảnh thứ 
k trong 
video. 
Ước lượng n bộ particle trong vùng (S1+S2) dựa trên n 
bộ particle ở ảnh thứ (k-1) và dựa vào phân loại 
gentleAdaboost trong lần lặp thứ (k-1). 
Input: 
Video. 
Dùng n bộ particle và cấu trúc ᴎ theo 
Hình 5 nội suy phần còn lại của đối 
tượng theo vết tại ảnh thứ k. 
Cập nhật huấn luyện phân 
loại gentleAdaboost dựa 
mẫu mới D. 
Output: Vị trí đối tượng 
theo vết tại ảnh thứ k. 
Theo vết đối tượng trong video dựa trên độ lợi thông tin 
85 
Dùng n bộ particle ước lượng trạng thái vùng (S1+S2) tại ảnh thứ k theo thuật 
toán 1 
Dùng phần lợi thông tin vùng (S1+S2) và cấu trúc ᴎ theo Hình 5 nội suy phần 
còn lại của đối tượng theo vết tại ảnh thứ k (Nghĩa là ước lượng trạng thái 
của đối tượng theo vết ở ảnh thứ k dựa trên n bộ particle). 
Lấy mẫu mới 𝐷∗ dựa trên phần lợi thông tin trong đối tượng theo vết tại ảnh 
thứ k. 
Cập nhật phân loại mạnh 𝐹. 
endwhile 
4. KẾT QUẢ THỰC NGHIỆM 
Môi trường cài đặt: Tác giả thực nghiệm trên máy tính sử dụng hệ điều hành Windows 
10 Pro bản 64 bit, RAM 8 GB, Chip Intel Core (TM) 5i-3210M CPU @ 2.5GHz. Ngôn ngữ 
lập trình Matlab phiên bản R2016a. 
4.1. Bộ dữ liệu 
Năm 2013, nhóm tác giả Yi-Wu, Jongwoo Lim, Ming-Hsuan Yang [15] đã tổng hợp 
nhiều nguồn video liên quan đến theo vết và đã tiến hành tạo groungtruth cho các video này 
để tạo thành bộ dữ liệu TB-100. 
Vì TB-100 là bộ dữ liệu tổng hợp từ nhiều nguồn nên ngữ cảnh của các video cũng rất 
khác nhau và đa dạng về thuộc tính như: loại vật cần theo vết, video màu hoặc trắng đen, 
camera tĩnh hoặc động,... 
Các thử thách trong bộ dữ liệu bao gồm: 
IV – Độ sáng của đối tượng thay đổi đáng kể. 
SV – Tỉ lệ của hình chữ nhật chứa vật ảnh thứ nhất với ảnh hiện tại vượt ra khỏi 
khoảng [1 𝑡𝑠⁄
, 𝑡𝑠] , 𝑡𝑠 > 1(𝑡𝑠 = 2). 
OCC – Đối tượng bị che khuất một phần hoặc toàn phần. 
DEF – Đối tượng không đặc biến đổi hình dạng. 
MB – Đối tượng bị nhòe do chuyển động của camera. 
FM – Chuyển động của groundtruth lớn hơn tm pixels (tm = 20). 
IPR – Đối tượng xoay trong miền ảnh. 
OPR – Đối tượng ra khỏi miền ảnh. 
OV – Một phần của đối tượng ra khỏi miền ảnh. 
BC – Nền gần đối tượng có màu sắc hoặc đường nét giống đối tượng. 
LR – Số lượng pixels trong hình chữ nhật chứa vật (xét groundtruth) nhỏ hơn tr (tr = 400). 
4.2. Phương thức đánh giá 
Nghiên cứu của Yi Wu et al. cung cấp các tiêu chuẩn để đánh giá thuật toán theo vết [15]. 
Phương thức 1 (R1): Đánh giá dựa trên khoảng cách Euclid (precision plot): Đo khoảng 
cách Euclid d từ tâm ước lượng của thuật toán đến tâm thực sự của vật (groundtruth), nếu d 
nhỏ hơn hoặc bằng một ngưỡng t0 (t0 = 20) thì được xem là thành công (Hình 7a). 
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng 
86 
Phương thức 2 (R2): Đánh giá dựa trên mức độ trùng nhau. Số điểm trùng lấp được định 
nghĩa 𝑆 =
|𝑟𝑡∩𝑟𝑎|
|𝑟𝑡∪𝑟𝑎|
 , trong đó: 𝑟𝑡 là hình chữ nhật bao vật do thuật toán ước lượng và 𝑟𝑎 là hình 
chữ nhật groundtruth (Hình 7b). 
Tính tỷ lệ 𝑅1, 𝑅2 = 
𝑠ố ả𝑛ℎ 𝑡ℎà𝑛ℎ 𝑐ô𝑛𝑔
𝑡ổ𝑛𝑔 𝑠ố ả𝑛ℎ
Hình 7. (a) Đo khoảng cách Euclid; (b) đo mức độ trùng nhau 
4.3. Kết quả đánh giá 
Kết quả theo vết người với camera không dao động nhiều và bảo toàn tương đối các tỷ 
lệ trên cơ thể người và người không quá nhỏ. Tác giả sử dụng thuật toán InfoPart so sánh với 
thuật toán GradNet [16]. 
Bảng 1. Kết quả thuật toán GradNet và InfoPart 
Video Thuộc tính 
GradNet % InfoPart % 
R1 R2 R1 R2 
Crossing SV, DEF, FM, OPR, BC 100 100 100 98,33 
Dancer SV, DEF, IPR, OPR 92,44 98,22 95,11 88,89 
Dancer2 DEF 100 100 77,33 59,01 
David3 OCC, DEF, OPR, BC 100 100 73,02 81,35 
Human8 IV, SV, DEF 8,59 7,03 100 89,06 
Walking SV, OCC, DEF 100 99,27 100 98,54 
Walking2 SV, OCC, LR 100 100 100 100 
 85,86 86,36 92,21 87,88 
5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 
Thuật toán InfoPart lấy phần có lợi thông tin 5/8 đối tượng người (gồm đầu và thân) cần 
theo vết cho kết quả tốt hơn thuật toán GradNet. Cụ thể, cho thấy độ chính xác trung bình 
của thuật toán InfoPart (R1 = 92,21%, R2 = 87,88%) lớn hơn so với thuật toán GradNet 
(R1 = 85,86%, R2 = 86,36%). 
Ngoài ra, theo vết phần có nhiều thông tin rồi nội suy phần còn lại sẽ giảm thời gian tính 
toán so với thuật toán cơ sở particle filter ban đầu theo vết trên toàn bộ đối tượng. 
Đối với lớp video theo vết người, camera tương đối ổn định và phép quay góc bảo toàn 
tương đối tỷ lệ cơ thể người, tác giả theo vết phần có nhiều thông tin nhất rồi suy ra cả cơ thể. 
Kết quả thực nghiệm của các thuật toán nêu trên cho từng video là chênh lệch nhau rất lớn, 
cao nhất là 100% và thấp nhất là 59%. Kết quả này cũng dễ hiểu vì bộ dữ liệu TB-100 là tổng 
Theo vết đối tượng trong video dựa trên độ lợi thông tin 
87 
hợp của rất nhiều bộ dữ liệu khác, rất đa dạng và nhiều thử thách. Nhìn chung, kết quả đạt ở 
mức tốt. 
Hướng phát triển là thay đổi mô hình quan sát. Nhóm tác giả nhận thấy quá trình huấn 
luyện gentle adaboost rất tốn thời gian và khiến cho hệ thống chưa thể hoạt động theo thời 
gian thực được. Các thuật toán sử dụng lớp bộ lọc tương quan lại có ưu điểm là tốc độ xử lý 
rất nhanh và chính xác, nếu tích hợp được lớp bộ lọc tương quan này vào mô hình quan sát thì 
sẽ rút ngắn đáng kể thời gian thực thi. 
Lời cảm ơn: Nghiên cứu này do Trường Đại học Công nghiệp Thực phẩm TP.HCM bảo trợ 
và cấp kinh phí theo Hợp đồng số 50/HĐ-DCT ngày 03 tháng 09 năm 2019. 
TÀI LIỆU THAM KHẢO 
1. David S. Bolme, Bruce A. Draper, J. Ross Beveridge - Average of synthetic exact 
filters, IEEE Conference on Computer Vision and Pattern Recognition (2009). 
2. Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista - Exploiting the 
circulant structure of tracking-by-detection with kernels, European Conference on 
Computer Vision (2012) 702-715. 
3. Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista - High-speed 
tracking with kernelized correlation filters, IEEE Transactions on Pattern Analysis and 
Machine Intelligence (2015) 583-596. 
4. Divid S.Bolme, J.Ross Beveridge, Bruce A. Draper, Yui Man Lui - Visual object 
tracking using adaptive correlation filters, IEEE Computer Society Conference on 
Computer Vision and Pattern Regconition (2010) 2544-2550. 
5. Shai Avidan - Ensemble tracking, IEEE Transactions on Pattern Analysis and 
Machine Intelligence (2007). 
6. Freund Y. - An adaptive version of the boost by majority algorithm, Machine Learning 
43 (2001) 293-318. 
7. Zhe Chen - Bayesian filtering: from kalman filters to particle filters, and beyond, 
Statistics: A Journal of Theoretical and Applied Statistics (2003). 
8. Arnaud Doucet, Adam M. Johansen - A tutorial on particle filtering and smoothing: 
Fifteen years later (2008). 
9. Daniel Jurafsky, James H. Martin - Chapter 9: Hidden Markov models, Speech and 
Language Processing (2017). 
10. Dominik A. Klein, Dirk Schulz, Simone Frintrop, and Armin B. Cremers - Adaptive 
real-time video-tracking for arbitrary objects, IEEE/RSJ International Conference on 
Intelligent Robots and Systems (2010) 772-777. 
11. Perez P., Hue C., Varmaak J., Gangnet M. - Color-based probabilistic tracking, 
European Conference on Computer Vision (2002) 661-675. 
12. Changjiang Yang, Ramani Duraiswami, Larry Davis - Fast multiple object tracking 
via a hierarchical particle filter, 10th IEEE International Conference on Computer 
Vision (2005) 212-219. 
13. Olov Samualssonn - Video tracking algorithm for unmanned aerial vehicle 
Surveillance, Stockholm - Sweden (2012). 
14. Sanjeev Arulampalam, Simson Maskell, Neil Gordon, Tim Clapp - A tutorial on 
particle filters for online no-linear/non-gaussian bayesian tracking, IEEE Transactions 
on Signal Processing 50 (2) (2002) 174-188. 
Ngô Dương Hà, Trần Như Ý, Lê Hữu Hà, Nguyễn Phương Hạc, Nguyễn Văn Tùng 
88 
15. Yi Wu, Jongwoo Lim, Ming-Hsuan Yang - Online object tracking: A benchmark, 
Computer Vision and Pattern Recognition (2013). 
16. Peixia Li, Boyu Chen, Wanli Ouyang, Dong Wang, Xiaoyun Yang, Huchuan Lu - 
GradNet: Gradient-guided network for visual object tracking, IEEE International 
Conference on Computer Vision (ICCV) (2019). 
ABSTRACT 
TRACKING MOVING OBJECTS IN VIDEO BASED ON BENEFIT PART 
Ngo Duong Ha, Tran Nhu Y, Le Huu Ha, 
Nguyen Phuong Hac, Nguyen Van Tung* 
Ho Chi Minh City University of Food Industry 
*Email: tungnv@hufi.edu.vn 
Tracking object in video is important problem of computer vision. Tracking the 
movement of objects that can be used in security systems, automatic observation, integrated 
into robots unmanned aerial vehicles of the military, etc. This paper presents an approach that 
describes the problem in terms of filtering a hidden Markov model using particle filters to filter 
the random process and combining the computation of confidence scores from gentle 
adaboost. We suggest tracking the more informative parts (head, body) and omitting the foot 
part which is the more oscillating part. An InfoPart algorithm is proposes to track the benefit 
part (head, body) without leg that is more oscillatory. Experimental results show that the 
average accuracy of InfoPart algorithm is greater than GradNet algorithm. 
Keywords: Hidden Markov model, gentle adaboost, particle filter, Haar like. 

File đính kèm:

  • pdftheo_vet_doi_tuong_trong_video_dua_tren_do_loi_thong_tin.pdf