Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW

TÓM TẮT

Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu

quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa

trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc

điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một

xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời

bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ

khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục

đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm

nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc

theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW.

Từ khóa: Giải thuật thời gian động, Cao độ Pitch.

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW trang 1

Trang 1

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW trang 2

Trang 2

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW trang 3

Trang 3

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW trang 4

Trang 4

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW trang 5

Trang 5

pdf 5 trang baonam 9440
Bạn đang xem tài liệu "Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ 
CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW 
 Phùng Thị Thu Hiền1*, Thái Quang Vinh2, Phùng Trung Nghĩa3 ,Lê Tuấn Anh4 
 1Đại học Kỹ thuật Công nghiệp Thái Nguyên, 2Viện Công nghệ thông tin, Viện KHCN Việt nam, 
 3Japan Advanced Institute of Science and Technology, 4Khoa Công nghệ thông tin, Đại học Thái Nguyên 
 TÓM TẮT 
 Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu 
 quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa 
 trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc 
 điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một 
 xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời 
 bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ 
 khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục 
 đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm 
 nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc 
 theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW. 
 Từ khóa: Giải thuật thời gian động, Cao độ Pitch. 
 ĐẶT VẤN ĐỀ Wraping) để phân lớp dữ liệu và đƣa ra các 
Tìm kiếm âm nhạc theo nội dung là một lĩnh kết quả thực nghiệm. 
vực nghiên cứu mới và đƣợc nhiều nhà CƠ SỞ LÝ THUYẾT 
nghiên cứu quan tâm. Hiện có một số phƣơng Trích chọn đặc trƣng âm thanh sử dụng 
thức đã đƣợc áp dụng tìm kiếm âm nhạc theo tần số cơ bản F0 (Pitch) 
nội dung. Một số nhà nghiên cứu nhƣ 
 Cao độ (Pitch) là thuộc tính cơ bản của tiếng 
S.Blackburn, D.DeRoure [4] đã sử dụng kỹ 
 nói và âm thanh nói chung. Chu kỳ Pitch là 
thuật ƣớc lƣợng cao độ Pitch để xác định giai 
 đại lƣợng đƣợc xác định trên miền thời gian 
điệu của đoạn nhạc và sử dụng Pitch làm tham 
 và tỉ lệ nghịch với tần số cơ bản F0 là đại 
số đặc trƣng cho hệ thống tìm kiếm âm nhạc 
 lƣợng xác định trên miền tần số. Có rất nhiều 
theo nội dung. Tƣơng tự, Mc Nab và các cộng 
 thuật toán và phƣơng pháp ƣớc lƣợng Pitch. 
sự [5] đã sử dụng phƣơng thức tính toán giai 
 Các thuật toán ƣớc lƣợng Pitch cố gắng để 
điệu bằng cách ƣớc tần số cơ bản F0 để so 
 định vị trực tiếp chu kỳ Pitch trong miền thời 
sánh giữa các bản phiên âm của mỗi bài hát. 
 gian hoặc thông qua ƣớc lƣợng tần số cơ bản 
Ghias và các cộng sự [6] đã giới thiệu các F0 trên miền tần số của tín hiệu âm thanh. 
phƣơng pháp so khớp độ tƣơng tự sử dụng để Phƣơng pháp ƣớc lƣợng Pitch phổ biến nhất 
đƣa ra kết quả truy vấn cơ sở dữ liệu âm nhạc. là sử dụng hàm tự tƣơng quan ACF 
Tuy nhiên, theo kết quả nghiên cứu của Beth (AutoCorrelation Function). Ý nghĩa tƣơng 
Logan [8] thì các phƣơng pháp tìm kiếm âm quan giữa hai tín hiệu là đo độ tƣơng tự giữa 
nhạc theo nội dung hiện nay vẫn chƣa đảm chúng và tự tƣơng quan là đo độ tƣơng tự của 
bảo đƣợc cả độ chính xác và thời gian tính một tín hiệu và biến đổi theo thời gian của 
toán, đặc biệt khi tìm kiếm giai điệu của các chính nó. Hàm tự tƣơng quan trong một 
bản nhạc hoàn chỉnh trong hệ cơ sở dữ liệu khoảng thời gian hữu hạn, của một tín hiệu 
lớn. Bài báo này trình bày phƣơng pháp rời rạc theo thời gian s(n) có thể đƣợc biểu 
dùng tham số tần số cơ bản F0 để trích chọn diễn là: 
đặc trƣng âm thanh, sau đó dùng giải thuật N 1 k
thời gian động DTW (Dynamic Time r(k)  s(m)s(m k) (1) 
 m 0
 k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài miền. 
 Tel: 0986060545, Email: pthientng@gmail.com 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
55 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 
 Khoảng cách D(X,Y) giữa dữ liệu đầu vào và 
 dữ liệu mẫu Y=y1.ys có độ dài thời gian 
 khác nhau S T đƣợc xác định bằng tổng các 
 khoảng cách cục bộ dij d(xi , y j ) trên cả 
 đƣờng đi của quá trình biến dạng thời gian. 
 Khoảng cách tích luỹ 
 Dij D(x1...xi , y1...y j ) đƣợc xác định theo 
 công thức (3) 
 0 I=J=0
 min Di 1, j 1 , Di 1, j , Di, j 1 dij I>0, J>0 
 Kh¸c
 Và khoảng cách tổng D(X,Y)=DTS. 
 Hình 1. Dạng sóng và tự tƣơng quan trên miền Giả sử cho hai chuỗi vec tơ tƣơng ứng với 
 thời gian mẫu tín hiệu là a a1 ,a2 ,a3 ,....aI  và 
 b b1 ,b2 ,b3 ,....bJ . Cho rằng tín hiệu mẫu 
Hình 1 thể hiện một đoạn âm thanh ngắn và a có chiều dài lớn hơn mẫu b tức là giá trị 
tính tự tƣơng quan của đoạn đó. Chu kỳ cao (I > J). Thuật toán sẽ thực hiện việc tìm 
độ đƣợc theo dõi trên khoảng 80 mẫu. Đỉnh đƣờng đi tối ƣu của chuỗi b theo chuỗi a (tức 
nhô lên trong sóng tự tƣơng quan biểu thị là các vị trí khác nhau giữa hai chuỗi theo 
điều này. Giá trị cực đại để xuất hiện quá thời gian) sao cho tổng chênh lệch giữa hai 
trình tự tƣơng quan là ở mức trễ 0. Một giá trị chuỗi vec tơ là nhỏ nhất. 
cực đại khác ở mức trễ 162, cho thấy một sự 
kết hợp tốt khi dịch chuyển là hai lần chu kỳ Để thực hiện đƣợc điều này ta dùng thuật toán 
 dùng ma trận lƣới các điểm H2 
cao độ. Vì vậy, để ƣớc lƣợng cao độ Pitch, 
cửa sổ âm thanh nên chứa ít nhất hai chu kỳ 
cao độ (N >2/F0). 
Kỹ thuật phân lớp dùng thời gian động 
DTW (Dynamic Time Warping) 
Cho chuỗi đầu vào w w1,w2 ,...wL  có độ 
dài L và có chuỗi vector đặc tính 
X x1, x2 ,...xT , nhiệm vụ của hệ thống là 
phải nhận dạng chuỗi âm đầu vào và trong 
quá trình xử lý cần phải giảm thiểu tối đa các 
sai số quyết định. Mỗi tín hiệu đầu vào Wl sẽ Hình 2. Ma trận lƣới các điểm 
đƣợc so sánh với các mẫu Yl. Mỗi Yl là chuỗi 
các vector đặc tính của tín hiệu Wl . Nhằm Hai chuỗi véc tơ sẽ tƣơng ứng với hai cạnh 
tăng khả năng nhận dạng, mỗi tín hiệu có một của ma trận. Giả sử, véc tơ a theo trục x và 
tập hợp các mẫu khác nhau: Y ,...,Y . véc tơ b theo trục y. Các nút của ma trận 
 l,1 l,Ml tƣơng ứng với khoảng cách tính đƣợc của hai 
 *
 l arg min min D(X ,Yl,m ) (2 ) chuỗi véc tơ tại các thời điểm thứ i của véc tơ 
 l m a tƣơng ứng thời điểm thứ j của véc tơ b 
Nhƣ vậy Wl* là phù hợp nhất với mẫu Yl tìm tƣơng ứng nút (i,j). Nhƣ vậy, đƣờng đi tối ƣu 
đƣợc. trong ma trận sẽ có dạng nhƣ hình 3 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
56 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 
 tăng khối lƣợng tính toán (nếu xét trên toàn 
 bộ ma trận điểm). Vì vậy, cần phải giới hạn 
 phạm vi của đƣờng đi sao cho việc tính toán 
 giảm và độ chính xác cao. Phạm vi cho 
 đƣờng đi đƣợc chọn nhƣ hình vẽ 4: 
 Hình 3. Hình dạng đƣờng đi trong ma trận 
Việc xác định đƣờng đi tối ƣu trong ma trận 
lƣới đƣợc thực hiện sao tổng khoảng cách sai 
lệch giữa các cặp véc tơ của hai chuỗi là nhỏ 
nhất. Ký hiệu, d(i,j) là độ chênh lệch của hai 
véc tơ a và b tại thời điểm i và j tƣơng ứng. Hình 4. Phạm vi cho đƣờng đi 
Yêu cầu của thuật toán DTW cho hai chuỗi Luật đƣờng đi đƣợc lựa chọn theo nhƣ hình 5. 
vec tơ bất kỳ là cùng bắt đầu tại các vị trí 
(0,0) và kết thúc tại vị trí (I,J). Giá trị tại nút 
(0,0) xác định bằng 0. 
Đƣờng đi đƣợc xác định theo các cặp nút liên 
tiếp (ik-1,jk-1) (ik,jk) . Dùng ký hiệu ik để 
biểu diễn chỉ số của véc tơ a tại thời điểm k 
và jk là chỉ số của véc tơ b tại thời điểm k. 
Nhƣ vậy tổng khoảng cách giữa hai chuỗi véc 
tơ là : 
 D(ik , jk ) D(ik 1 , jk 1 ) d(ik , jk ) (4) Hình 5. Luật đƣờng đi 
Việc tìm giá trị min D(i,j) theo công thức sau: Giả sử vị trí hiện tại đang ở thời điểm ik-1 và 
 điểm đi tiếp là i . Nhƣ vậy các giá trị j có thể 
 k k
 là j , j , j tƣơng ứng với các mũi tên trên 
D* (i , j ) min D(i , j ) d(i , j ) k k+1 k+2
 k k  k 1 k 1  k k ma trận. 
 KẾT QUẢ THỰC NGHIỆM 
 m k 
 Chuẩn bị dữ liệu 
 min  d ( i m , j m ) (5) 
 m 0 Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng 
Một số bắt buộc của DTW: thế giới đƣợc download từ 
- Chỉ số của i phải tăng đều tức là : 
 g4public/QBSH-corpus/ . Trong các cấu trúc 
 ik - ik-1 =1 file âm thanh thì MIDI là định dạng file đơn 
 giản, kích cỡ nhỏ gọn nhƣng vẫn biểu diễn 
- Chỉ số của j tăng theo i với điều kiện: 
 đƣợc giai điệu âm nhạc. Do đó, trong bƣớc 
 jk -jk-1 0 huấn luyện, chƣơng trình sử dụng 20 bản 
 nhạc định dạng MIDI. PCM Wave là chuẩn 
Giới hạn của đƣờng đi không thể tuỳ ý đƣợc mã hóa âm thanh đƣợc sử dụng khá phổ biến 
vì nhƣ thế nó sẽ gây ra kết quả sai lệch và làm trong các hệ cơ sở dữ liệu âm nhạc, do vậy 
 khi tìm kiếm chƣơng trình thử nghiệm trên 20 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
57 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 
file âm thanh PCM Wave có tần số lấy mẫu 8 và tìm kiếm đúng cũng sẽ giảm xuống khi độ 
KHz, mã hóa 8 bít / mẫu, thu từ các điệu ngân dài mẫu âm thanh đầu vào là nhỏ. 
nga không lời (humming) hoặc các đoạn hát Về mặt thời gian, thời gian tìm kiếm cho mỗi 
không nhạc (singing) với giai điệu tƣơng ứng file Wave (dài khoảng 1 phút) là xấp xỉ 0.2 s 
với 20 bản nhạc MIDI đã huấn luyện. với điều kiện đã huấn luyện trƣớc. Thời gian 
Các tham số thực nghiệm này là chấp nhận đƣợc với ngƣời sử dụng. 
Cao độ Pitch đƣợc tính theo phƣơng pháp tự Thời gian tìm kiếm trong [8] là lớn hơn do 
tƣơng quan ACF với các tham số: kích cỡ thực nghiệm trên cơ sở dữ liệu âm nhạc lớn. 
khung là 256 ms, không chồng lấp. Sau khi Chƣơng trình mô phỏng đƣợc xây dựng trên 
tính Pitch bằng hàm ACF (AutoCorrelation phần mềm matlab: 
Function), pitch đƣợc làm trơn bằng lọc trung 
vị. Phƣơng pháp phân lớp sử dụng thuật toán 
thời gian động DTW tiến hành so sánh chuỗi 
Pitch đầu vào cần tìm kiếm tính từ file Wave 
với lần lƣợt các chuỗi Pitch của các file MIDI 
trong cơ sở dữ liệu. Thuật toán thời gian động 
cho phép so sánh 2 chuỗi Pitch có độ dài khác 
nhau với sai số nhỏ nhất. Độ tƣơng tự của 2 
chuỗi pitch sau đó đƣợc tính toán bằng khoảng 
cách Euclid để tìm ra chuỗi phù hợp nhất. 
Kết quả thực nghiệm và đánh giá 
Phƣơng pháp trích đặc trƣng giai điệu dùng 
tham số cao độ Pitch (hay tần số cơ bản F0) Hình 6. Kết quả chạy chƣơng trình 
sử dụng đặc trƣng các giá trị cao độ và sự Hƣớng phát triển 
biến đổi cao độ làm tham số so sánh. Do vậy, 
hệ thống không yêu cầu khắt khe về mẫu đầu Trƣớc hết cần xây dựng một cơ sở dữ liệu âm 
vào và có thể tìm kiếm đƣợc một tập nhiều nhạc đủ lớn để thử nghiệm. Từ đó sẽ đánh giá 
kết quả đầu ra có giai điệu tƣơng tự. Ƣu điểm đƣợc độ chính xác, hiệu quả của các phƣơng 
của hệ thống này là có thể tìm đƣợc nhiều kết pháp tìm kiếm và có thể đề xuất các phƣơng 
quả dựa trên giai điệu mà chỉ cần ngƣời sử pháp cải tiến thao tác trích đặc trƣng và phân 
dụng cung cấp giai điệu bài hát một cách lớp của hệ thống tìm kiếm. 
tƣơng đối nhƣ hát thử không nhạc, đánh thử Hƣớng nghiên cứu tiếp theo cũng sẽ là tìm 
một đoạn nhạc hay ngân nga giai điệu không 
 hiểu sâu hơn về các phƣơng pháp phân lớp dữ 
có lời (humming). Nhƣợc điểm của hệ thống 
 liệu triển vọng nhƣ dùng mạng Neural, giải 
này là kết quả tìm kiếm có thể thiếu chính xác 
do một số bài hát khác nhau có thể có những thuật di truyền GA, mô hình Markov ẩn 
phần nhỏ giai điệu tƣơng tự nhau. HMM, 
Trong chƣơng trình thực nghiệm, kết quả 
nhận dạng đúng sau 20 lần là 100%. Kết quả TÀI LIỆU THAM KHẢO 
này cao hơn kết quả đã công bố trong [8] và 
[10] dù dùng cùng thuật toán. Lý do có thể do [1]. E.Riskin and R.Gray, “A greedy tree growing 
chƣơng trình demo mới thử nghiệm trên bộ algorithm for the design of variable rate vector 
 quantizers”, IEEE Trans. On Sig.Proc, Nov 1991 
cơ sở dữ liệu rất nhỏ. Tỷ lệ nhận dạng sẽ giảm 
 [2]. J.-S. Roger Jang, Hong-Ru Lee, 
xuống khi dùng cơ sở dữ liệu lớn hơn (đặc "Hierarchical Filtering Method for Content-based 
biệt khi trong cơ sở dữ liệu có các bài hát có Music Retrieval via Acoustic Input", The 9th 
những phần tƣơng tự nhau), tỷ lệ nhận dạng ACM Multimedia Conference, PP. 401-410, 
 Ottawa, Ontario, Canada, September 2001. 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
58 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 
[3]. Beth Logan and Ariel Salomon, “A Music [7]. M Goto, “A predominant-F0 estimation 
Similarity Function Based on Signal Analysis”, method for CD recordings: MAP estimation using 
Cambridge Research Laboratory. EM algorithm for adaptive tone models,” in Proc. 
 ICASSP, 2001 
[4]. S.Blackburn and D. De Roure, “A tool for 
 [8]. Beth Logan and Stephen Chu, “Music 
content based navigation of music”, in ACM 
 Summarization Using Key Phrases”, Cambridge 
Multimedia ,1998. 
 Research Laboratories 
[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson, [9]. J.T. Foote, “Content-based retrieval of Music 
and S.Cunningham, “Towards the digital music and Audio,” in SPIE, 1997, p.p 138- 147 
library: Tune retrieval from acoustic input,” in [10]. J.-S. Roger Jang, Hong-Ru Lee, 
Digital Libraries 1996, 1996, pp.11-18 "Hierarchical Filtering Method for Content-based 
[6]. A.Ghias, J.Logan, D. Chamberlin and Music Retrieval via Acoustic Input", The 9th 
B.Smith, “Query by humming,” in ACM ACM Multimedia Conference, PP. 401-410, 
Multimedia, 1995 . Ottawa, Ontario, Canada, September 2001. 
 SUMMARY 
 USING FUNDAMENTAL FREQUENCY AND ALGORITHM DYNAMIC TIME 
 WARPING (DTW) TO SEARCH CONTEND MUSIC 
 Phung Thi Thu Hien1 , Thai Quang Vinh2, Phung Trung Nghia3 , Le Tuan Anh4 
 1University of Technology, 
 2Academy of Information Technology - Vietnam Academy of Science and Technology 
 3Japan Advanced Institute of Science and Technology 
 , 4Faculty of information Technology- Thai Nguyen University 
 Song searching in a database is interesting field which attract many researchers recently. Music 
 searching in current database is usually based on text query. In a huge multimedia database, content-
 based music searching becomes incredible. 
 This paper presents the content-based music searching method using F0 and the DTW algorithm. 
 Experimental results show that this is an effective method and need to continue researching. 
 Keywords: Dynamic Time Warping, Pitch. 
 Tel: 0986060545, Email: pthientng@gmail.com 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
59 

File đính kèm:

  • pdftim_kiem_am_nhac_theo_noi_dung_su_dung_dac_trung_tan_so_co_b.pdf