So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung

Hiện nay, có rất nhiều nghiên cứu về vấn đề

trích chọn đặc trưng âm thanh trong bài toán

tìm kiếm âm nhạc theo nội dung.

S.Blackburn và D.DeRoure [4] đã sử dụng kỹ

thuật hiệu chỉnh cao độ (F0) để xác định giai

điệu chính của đoạn nhạc. Trong nghiên cứu

của mình, S.Blackburn và D.DeRoure đã so

sánh tính toán độ tương tự của bài hát bằng

kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,

Smith, Witten, Henderson và Cunningham [5]

đã sử dụng phương thức tính toán giai điệu

bằng cách ước lượng cao độ Pitch để so sánh

giữa các bản phiên âm của mỗi bài hát.

Tuy nhiên, theo một nghiên cứu của Beth

Logan [3] thì cấu trúc âm thanh của âm nhạc

là quan trọng. Vì vậy cần phải có một hệ

thống nhận biết độ tương tự âm thanh theo

cách gần giống như hệ thống nghe của con

người, và hệ thống thính giác của con người

dễ dàng thu và nhận dạng các nhóm âm thanh

hơn là từng nốt nhạc hay âm riêng lẻ.

Bài báo này trình bày phương pháp tìm kiếm

âm nhạc theo nội dung sử dụng theo hai đặc

trưng, thứ nhất là sử dụng đặc trưng cao độ

(Pitch) và thứ hai là sử dụng đặc trưng đường

* Tel: 0986060545; Email: pthientng@gmail.com

bao phổ (MFCC), cuối cùng là đưa ra một số

kết quả thực nghiệm để so sánh hiệu quả của

hai phương pháp.

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 1

Trang 1

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 2

Trang 2

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 3

Trang 3

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 4

Trang 4

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 5

Trang 5

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung trang 6

Trang 6

pdf 6 trang baonam 6420
Bạn đang xem tài liệu "So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
SO SÁNH HAI PH ƯƠ NG PHÁP TRÍCH CH ỌN ĐẶ C TR ƯNG ÂM THANH: 
ĐƯỜNG BAO PH Ổ (MFCC) VÀ CAO ĐỘ PITCH TRONG VI ỆC 
TÌM KI ẾM ÂM NH ẠC THEO N ỘI DUNG 
 Phùng Th ị Thu Hi ền1*, Đoàn Xuân Ng ọc2, Phùng Trung Ngh ĩa3 
 1Tr ường Đại h ọc K ỹ thu ật Công nghi ệp - ĐH Thái Nguyên 
 2Cục thu ế t ỉnh Thái Nguyên 
 3Tr ường Đại h ọc CNTT&TT - ĐH Thái Nguyên 
TÓM T ẮT 
 Trong cách ti ếp c ận truy ền th ống, các vector đặ c tr ưng c ủa tín hi ệu âm thanh được xây d ựng t ừ các 
 đặc tr ưng v ật lý c ủa âm thanh nh ư độ to, độ cao, n ăng l ượng, ph ổ t ần s ố, Có r ất nhi ều ph ươ ng 
 pháp trích ch ọn đặ c tr ưng âm thanh đã và đang được nghiên c ứu để áp d ụng vào bài toán tìm ki ếm 
 âm nh ạc theo n ội dung. Tuy nhiên hai ph ươ ng pháp ph ổ bi ến nh ất và được đánh giá cao là ph ươ ng 
 pháp s ử d ụng đường bao ph ổ (MFCC) và ph ươ ng pháp s ử d ụng cao độ (F0). 
 Bài báo này nghiên c ứu v ề hai ph ươ ng pháp này đồng th ời so sánh đánh giá hi ệu qu ả c ủa t ừng 
 ph ươ ng pháp. 
 Từ khóa : Vector đặc tr ưng, Mel Cepstral, K-means, F0, pitch, DTW. 
ĐẶT V ẤN ĐỀ * bao ph ổ (MFCC), cu ối cùng là đư a ra m ột s ố 
 kết qu ả th ực nghi ệm để so sánh hi ệu qu ả c ủa 
Hi ện nay, có r ất nhi ều nghiên c ứu v ề v ấn đề 
 hai ph ươ ng pháp. 
trích ch ọn đặ c tr ưng âm thanh trong bài toán 
tìm ki ếm âm nh ạc theo n ội dung. CƠ S Ở LÝ THUY ẾT 
S.Blackburn và D.DeRoure [4] đã s ử d ụng k ỹ Sử d ụng đặ c tr ưng cao độ 
thu ật hi ệu ch ỉnh cao độ (F0) để xác đị nh giai Cao độ Pitch 
điệu chính c ủa đoạn nh ạc. Trong nghiên c ứu Không khí đi qua thanh qu ản làm thanh qu ản 
của mình, S.Blackburn và D.DeRoure đã so rung lên. S ự rung độ ng này v ới m ột t ỷ l ệ nào 
sánh tính toán độ t ươ ng t ự c ủa bài hát b ằng 
 đó c ũng được g ọi là t ần s ố c ơ b ản – f0 . T ần 
kỹ thu ật so kh ớp xâu. Trong khi đó, Mc Nab, số c ơ b ản ph ụ thu ộc vào kích c ỡ và áp l ực c ủa 
Smith, Witten, Henderson và Cunningham [5] thanh qu ản. T ần s ố cơ b ản liên quan đến âm 
đã s ử d ụng ph ươ ng th ức tính toán giai điệu thanh v ề cao độ và nó có th ể được ước l ượng 
bằng cách ước l ượng cao độ Pitch để so sánh chính xác t ừ tín hi ệu âm thanh. 
gi ữa các b ản phiên âm c ủa m ỗi bài hát. 
 Độ cao hay độ tr ầm b ổng c ủa âm thanh chính 
Tuy nhiên, theo m ột nghiên c ứu c ủa Beth là t ần s ố sóng c ơ h ọc c ủa âm thanh. Âm thanh 
Logan [3] thì c ấu trúc âm thanh c ủa âm nh ạc nào c ũng phát ra ở m ột độ cao nh ất đị nh. Độ 
là quan tr ọng. Vì vậy c ần ph ải có m ột h ệ cao c ủa âm thanh ph ụ thu ộc vào t ần s ố dao 
th ống nh ận bi ết độ t ươ ng t ự âm thanh theo động. Đố i v ới ti ếng nói, t ần s ố dao độ ng c ủa 
cách g ần gi ống nh ư h ệ th ống nghe c ủa con dây thanh quy định độ cao gi ọng nói c ủa con 
ng ười, và h ệ th ống thính giác c ủa con ng ười ng ười. M ỗi ng ười có m ột cao độ gi ọng nói 
dễ dàng thu và nh ận d ạng các nhóm âm thanh khác nhau, độ cao c ủa n ữ gi ới th ường cao h ơn 
hơn là t ừng n ốt nh ạc hay âm riêng l ẻ. nam gi ới và độ cao c ủa tr ẻ em th ường cao 
Bài báo này trình bày phươ ng pháp tìm ki ếm hơn c ủa ng ười l ớn. 
âm nh ạc theo n ội dung s ử d ụng theo hai đặ c Cao độ Pitch do đó là đại l ượng t ỷ l ệ ngh ịch 
tr ưng, th ứ nh ất là s ử d ụng đặ c tr ưng cao độ với t ần s ố c ơ b ản F0. 
(Pitch) và th ứ hai là s ử d ụng đặ c tr ưng đường 
 Pitch là thu ộc tính c ơ b ản c ủa ti ếng nói. Tai 
 ng ười nh ạy c ảm v ới s ự thay đổ i t ần s ố c ơ b ản 
* Tel: 0986060545; Email: pthientng@gmail.com 
 33 
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
hơn là các tham s ố khác c ủa tín hi ệu ti ếng cực đạ i khác ở m ức tr ễ 162, cho th ấy m ột s ự 
nói. Ước l ượng pitch khó do s ự thay đổ i c ủa kết h ợp t ốt khi d ịch chuy ển là hai l ần chu k ỳ 
sóng âm thanh. Sóng âm thanh thay đổi nh ỏ cao độ. Vì v ậy, để ước l ượng cao độ pitch, 
gi ữa các chu k ỳ, th ời điểm l ựa ch ọn để đo s ẽ cửa s ổ âm thanh nên ch ứa ít nh ất hai chu k ỳ 
ảnh h ưởng t ới chu k ỳ cao độ . Ước l ượng cao cao độ (N >2/Fo). 
độ thi ếu chính xác do s ự xu ất hi ện c ủa sóng Ước l ượng Cepstral Pitch 
hài ho ặc hài b ậc ba c ủa cao độ t ần s ố. 
 Khi m ột tín hi ệu tu ần hoàn v ới t ần s ố c ơ b ản 
Có r ất nhi ều thu ật toán và ph ươ ng th ức ước Fo ch ứa nhi ều sóng hài sát nhau thì đoạn ph ổ 
lượng cao độ . Các thu ật toán ước l ượng pitch tươ ng ứng th ể hi ện các đường g ợn sóng nh ư 
cố g ắng để đị nh v ị chu k ỳ trong mi ền th ời cấu trúc hài c ủa nó. Cepstrum c ủa tín hi ệu này 
gian c ủa tín hi ệu ti ếng nói ho ặc mi ền t ần s ố sẽ th ể hi ện b ằng m ột chóp cao t ại t ần số 1/F0. 
của tín hi ệu âm thanh. Các cách tính Pitch h ầu 
 Cepstrum được đị nh ngh ĩa là m ột bi ến đổ i 
hết d ựa vào ph ươ ng pháp t ự t ươ ng quan ho ặc 
 Fourier rời r ạc ng ược v ề c ường độ v ới tín 
bi ến th ể c ủa nó. 
 hi ệu vào s(n). 
Ước l ượng Pitch b ằng ph ươ ng pháp t ự 
 Cepstrum được  ...  là các thành 
tự t ươ ng quan đo độ t ươ ng t ự gi ữa chính nó ph ần tu ần hoàn c ủa tín hi ệu g ốc. Thông tin 
và bi ến đổ i theo th ời gian c ủa chính nó. cao độ được trích ra b ởi vì m ột tín hi ệu âm 
Ph ươ ng th ức t ự t ươ ng quan trong m ột kho ảng thanh không ch ỉ ch ứa các thành ph ần ph ổ có 
th ời gian ng ắn c ủa m ột đoạn s(m), c ủa m ột tín tần s ố c ơ b ản mà còn ch ứa các hài. Cepstrum 
hi ệu r ời r ạc theo th ời gian s(n) có th ể được thu được có c ấu trúc l ặp l ại theo c ường độ 
bi ểu di ễn là: ph ổ. Mi ền t ần s ố th ấp c ủa cepstrum thể hi ện 
 N −1 −k dạng vocal tract c ủa h ệ th ống ti ếng nói con 
 r() k = ∑ s(m)(s m + k) ng ười. T ần s ố cao c ủa cepstrum mô t ả thông 
 m=0 [1] tin kích thích trong ti ếng nói – pitch. 
k là độ tr ễ và N là độ dài đoạn, s(m) = 0 ngoài Hình 2 th ể hi ện c ường độ ph ổ và cepstrum 
mi ền (0≤m ≤ N − 1) . tươ ng ứng v ới đoạn ti ếng nói trong hình 1. 
 Giá tr ị t ại Cepstrum(0), được b ỏ đi để thu 
 được gi ải độ ng t ốt h ơn. Đỉnh nhô lên t ại t ần 
 số 82 bi ểu th ị chu k ỳ cao độ . T ần s ố này 
 tươ ng ứng v ới t ỷ l ệ m ẫu c ủa tín hi ệu g ốc, 
 8000Hz. Vì v ậy t ần s ố 82 th ể hi ện t ần s ố cao 
 độ 8000/82 = 97.2 Hz. 
 Cấu trúc quan tr ọng trong mi ền t ần s ố 
 frequency th ấp, t ừ 1 t ới 16 miêu t ả thông tin 
 Hình 1: Dạng sóng và t ự t ươ ng quan trên mi ền vocal tract. 
 th ời gian c ủa m ột đoạn ti ếng nói ng ắn 
 Với âm h ữu thanh, phép phân tích Cepstral 
Hình 1 th ể hi ện m ột đoạn âm thanh ng ắn và của m ột đoạn ti ếng nói ng ắn s ẽ t ạo ra m ột 
tính t ự t ươ ng quan c ủa đoạn đó. Chu k ỳ cao đỉnh c ủa chu k ỳ cao độ , nh ưng đối v ới nh ững 
độ được theo dõi trên kho ảng 80 m ẫu. Đỉ nh âm vô thanh thì không. Phép phân tích 
nhô lên trong sóng t ự t ươ ng quan bi ểu th ị Cepstral có th ể được s ử d ụng cho đoạn âm 
điều này. Giá trị c ực đạ i để xu ất hi ện quá thanh là h ữu thanh hay vô thanh để xác đị nh 
trình t ự t ươ ng quan là ở m ức tr ễ 0. M ột giá tr ị chu k ỳ cao độ , 1/F0 n ếu là đoạn h ữu thanh. 
34 
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
 Mô ph ỏng l ại quá trình t ạo âm c ủa c ơ quan 
 phát âm. 
 Cường độ log ph ổ c ủa hai tín hi ệu s1 và s2 là 
 sự t ổ h ợp tuy ến tính c ủa c ường độ ph ổ log 
 nh ư được th ể hi ện trong bi ểu th ức 3: 
 log 10 (|DFT[s1*s2](k)|) = log 10 (|s1(k)|) +log 10 (|s2(k)|) [3] 
 Gi ả s ử r ằng S1 và S2 là nh ững ph ần tách r ời 
 của ph ổ và quan sát c ường độ log ph ổ c ủa 2 
 tín hi ệu ch ập S1 và S2 ở trên, DFT có th ể 
 được tính toán để thu được s ự mô t ả các t ần 
 số riêng bi ệt theo log 10 (|s1(k)|) và 
 log (|s2(k)|). Tín hi ệu chuy ển đổ i được miêu 
 10
 tả trong mi ền t ần s ố vì v ậy 
 Hình 2: Cường độ Log c ủa DFT và t ần s ố 
 log10(|DFT[s1*s2](k)|) được chuy ển đổ i sang 
 Cepstrum c ủa đoạn ti ếng nói trong hình 1 
 mi ền t ần s ố dubbed, quá trình chuy ển đổ i này 
Sử d ụng đặ c tr ưng đường bao ph ổ MFCC 
 được g ọi là phân tích cepstral và ph ổ thu 
Tần s ố c ảm th ụ có ngh ĩa được được g ọi là cepstrum. 
Tai c ủa con ng ười nh ận bi ết được nh ững âm 
 Xử lý Cepstral theo thang đo t ần s ố Mel 
thanh có t ần s ố th ấp (<1kHz) t ốt h ơn nh ững 
âm thanh có t ần s ố cao. Vì v ậy điều quan Các đặc tr ưng c ủa Mel Cepstral r ất thành 
tr ọng là c ần làm n ổi b ật lên nh ững âm thanh công trong các ứng d ụng x ử lý ti ếng nói và 
có t ần s ố th ấp h ơn là t ần s ố cao. ph ục h ồi âm nh ạc v ới độ chính xác cao. Các 
Dải thông c ủa tín hi ệu ti ếng nói là kho ảng đặc tr ưng này t ạo s ự uy ển chuy ển c ủa c ường 
10kHz. Không có thành phần t ần s ố nào t ồn độ ph ổ c ủa những đoạn tín hi ệu âm thanh, vì 
tại d ưới 50kHz. T ần s ố ti ếng nói là d ưới vậy nó là công c ụ m ạnh khi có nh ững thay 
3kHz, cao h ơn các thành ph ần t ần s ố chính đổi nh ỏ trong giai điệu ho ặc ki ểu ph ối nh ạc. 
liên quan đến ng ười nói, âm nh ạc, d ụng c ụ âm 
 MFCC có nhi ều đặ c tr ưng v ượt tr ội khi s ử 
thanh ho ặc hi ệu ứng. Formants c ũng là thông 
tin quan tr ọng. T ần s ố formants c ủa âm h ữu dụng để nh ận d ạng ti ếng nói theo th ời gian. 
thanh được tìm th ấy d ưới 5kHz trong khi c ủa Mỗi b ước c ủa quá trình t ạo các đặ c tr ưng 
âm vô thanh bi ến m ất. MFCC được thực hi ện b ằng h ệ th ống c ảm 
 th ụ âm thanh c ủa con ng ười. T ức là nh ững gì 
 không liên quan có th ể b ỏ đi kh ỏi c ơ s ở d ữ 
 li ệu g ốc d ựa trên quá trình c ảm th ụ âm thanh 
 dạng sóng c ủa con ng ười, và ti ếp theo là yêu 
 cầu gi ảm kích th ước d ữ li ệu và t ăng t ốc độ 
 Hình 3: Cường độ âm h ữu thanh và vô thanh tính toán. 
 A: C ường độ c ủa tín hi ệu âm vô thanh Quá trình l ọc theo thang Mel Cepstral: 
 B: C ường độ c ủa tín hi ệu âm h ữu thanh Theo Beth Logan, MFCC g ồm 5 b ước: 
Phép phân tích Cepstral 1. Chia tín hi ệu thành các khung 
Cepstral là m ột ph ươ ng pháp để trích ch ọn 2. V ới m ỗi khung, ta thu được biên độ ph ổ. 
đặc tr ưng âm thanh. Trích ch ọn tham s ố đặ c 
 3. L ấy log c ủa biên độ 
tr ưng âm thanh d ựa trên hai c ơ ch ế: 
 4. Chuy ển đổ i sang thang Mel 
Mô ph ỏng l ại quá trình c ảm nh ận âm thanh 
của tai ng ười. 5. Th ực hi ện bi ến đổ i Cosine r ời r ạc. 
 35 
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
 Một ph ươ ng pháp để chuy ển đổ i sang thang 
 mel là s ử d ụng b ăng l ọc. Kho ảng cách c ủa 
 băng l ọc được đị nh ngh ĩa b ởi m ột h ằng s ố t ần 
 số mel theo th ời gian. B ăng l ọc này được áp 
 Hình 4 : Quá trình t ạo các đặ c tính MFCC dụng trong mi ền t ần s ố, nó có th ể xem nh ư 
Quan sát quá trình trên ta th ấy, âm thanh các điểm thu được c ủa b ộ l ọc chính. V ới các 
được chia thành nh ững khung có độ dài c ố khung nh ỏ t ốt nh ất là s ử d ụng các b ộ l ọc d ạng 
định. M ục đích là để l ấy m ẫu nh ững đoạn tín tam giác ho ặc th ậm chí hình ch ữ nh ật vì độ 
hi ệu nh ỏ (theo lý thuy ết là ổn đị nh). Hàm c ửa phân gi ải là quá th ấp trong mi ền t ần s ố th ấp. 
sổ b ỏ đi nh ững hi ệu ứng ph ụ và vector đặc 
tr ưng cepstral được th ực hi ện trên m ỗi khung 
cửa s ổ. Bi ến đổ i Fourier r ời r ạc c ủa m ỗi 
khung được tính toán và l ấy logarithm biên 
độ ph ổ. Thông tin v ề pha b ị b ỏ qua do biên độ 
ph ổ là quan tr ọng h ơn pha. Th ực hi ện l ấy 
logarithm biên độ ph ổ do âm l ượng c ủa tín 
hi ệu là xấp x ỉ logarith. Ti ếp theo bi ến đổ i ph ổ 
theo thang Mel. T ừ k ết qu ả này, trong vector 
Mel – spectral c ủa các thành ph ần t ươ ng quan 
cao, b ước cu ối cùng là th ực hi ện bi ến đổ i 
cosine r ời r ạc để t ổng h ợp vector ph ổ Mel để Hình 5: Băng l ọc kho ảng cách theo t ần s ố Mel 
tươ ng quan l ại các thành ph ần này Mỗi b ộ l ọc trong b ăng l ọc được nhân v ới ph ổ 
Độ l ệch t ần s ố Mel tín hi ệu vì v ậy ch ỉ có m ột giá tr ị đơn c ủa 
Độ l ệch t ần s ố Mel làm nh ẵn ph ổ và làm n ổi cường độ trên b ộ l ọc được tr ả l ại. Điều này có 
lên các t ần s ố c ảm th ụ có ngh ĩa. Bi ến đổ i th ể đạ t được qua các tính toán c ủa ma tr ận 
Fourier lên tín hi ệu qua b ộ l ọc thông d ải để đơ n. K ết qu ả là t ổng c ủa biên độ trong d ải l ọc 
làm đơ n gi ản ph ổ mà không làm m ất d ữ li ệu. và vì vậy làm gi ảm độ chính xác t ới m ức tai 
Điều này được th ực hi ện b ằng cách t ập h ợp của con ng ười. 
các thành ph ần ph ổ thành m ột d ải t ần s ố. Ph ổ 
được làm đơ n gi ản hóa do s ử d ụng m ột giàn 
bộ l ọc để tách ph ổ thành các kênh. Các b ộ l ọc 
được đặ t cách đề u nhau trên thang Mel và l ấy 
logarit trên thang t ần s ố, các kênh có t ần s ố 
th ấp là không gian tuy ến tính trong khi các Hình 6: Ph ổ sau khi l ọc theo thang Mel 
kênh có t ần s ố cao là không gian logarit. Quá trình độ l ệch t ần s ố mel được th ực hi ện 
Tai ng ười không c ảm nh ận s ự thay đổ i t ần s ố theo ba b ước sau: 
của ti ếng nói tuy ến tính mà theo thang mel. 1. Cố đị nh vùng giá tr ị d ưới m ỗi b ộ l ọc và 
Thang t ần s ố Mel tuy ến tính ở t ần s ố d ưới đôi khi đư a thang v ề 1. Đặ t M = s ố b ăng l ọc 
1kHz và logarit ở t ần s ố cao h ơn 1kHz. Ta yêu c ầu 
ch ọn t ần s ố 1kHz, 40 dB trên ng ưỡng nghe 2. Phân bố đề u trên thang t ần s ố Mel 
1000 Mel. Do đó công th ức g ần đúng bi ểu 3. Chuy ển đổ i t ừ Hz sang ωi' s trên thang 
di ễn quan h ệ t ần s ố ở thang mel và thang tuy ến tính. M ối quan h ệ gi ữa mel và frq được 
tuy ến tính nh ư sau: cho b ởi công th ức: 
 (4) m=ln(1+f/700)*1000/ln(1+1000/700) (5) 
36 
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
KẾT QU Ả TH ỰC NGHI ỆM Gi ống nh ư Beth Logan [8], phân l ớp b ằng 
Sử d ụng F0 cách phân h ệ s ố cepstral thành 16 c ụm theo 
Chu ẩn b ị d ữ li ệu thu ật toán K-means chu ẩn. S ử d ụng kho ảng 
 cách Euclidean để tính toán độ t ươ ng t ự. 
Dữ li ệu bao g ồm 20 bài hát thi ếu nhi n ổi ti ếng 
th ế gi ới  Kết qu ả th ực nghi ệm và đánh giá 
childSong4public/QBSH-corpus/ . Trong c ả 2 ch ươ ng trình th ử nghi ệm, k ết qu ả 
Trong các c ấu trúc file âm thanh thì MIDI là nh ận d ạng đúng cu ối cùng sau 20 l ần th ử 
định d ạng file đơn gi ản, kích c ỡ nh ỏ g ọn nghi ệm đề u là 100%. K ết qu ả này cao h ơn k ết 
nh ưng v ẫn bi ểu di ễn được giai điệu âm qu ả đã công b ố trong [8] và [4] dù dùng cùng 
nh ạc.Trong b ước hu ấn luy ện, ch ươ ng trình s ử thu ật toán. Lý do có th ể do ch ươ ng trình 
dụng 20 b ản nh ạc đị nh d ạng MIDI. Khi tìm demo m ới th ử nghi ệm trên b ộ c ơ s ở d ữ li ệu 
ki ếm ch ươ ng trình th ử nghi ệm trên 20 file âm rất nh ỏ. H ơn n ữa độ dài âm thanh đầu vào 
thanh PCM Wave t ần s ố l ấy m ẫu 8 KHz, mã (trích 1 đoạn t ừ file âm thanh c ần tìm ki ếm) 
hóa 8 bít / m ẫu, thu t ừ các điệu ngân nga đủ l ớn (so v ới âm thanh tìm ki ếm) trong 
không l ời (humming) ho ặc các đoạn hát ch ươ ng trình th ử nghi ệm 1, độ dài âm thanh 
không nh ạc (singing) v ới giai điệu t ươ ng ứng đầu vào và âm thanh c ần tìm ki ếm đề u là c ả 
với 45 b ản nh ạc MIDI đã hu ấn luy ện. bài hát trong ch ươ ng trình th ử nghi ệm 2. T ỷ 
Các tham s ố th ực nghi ệm lệ nh ận d ạng s ẽ gi ảm xu ống khi dùng c ơ s ở 
 dữ li ệu l ớn h ơn ( đặc bi ệt khi trong c ơ s ở d ữ 
Cao độ Pitch được tính theo ph ươ ng pháp t ự li ệu có các bài hát có nh ững ph ần t ươ ng t ự 
tươ ng quan ACF (AutoCorrelation Function) nhau), t ỷ l ệ nh ận d ạng và tìm ki ếm đúng c ũng 
với các tham s ố: kích c ỡ khung là 256 ms, sẽ gi ảm xu ống khi độ dài m ẫu âm thanh đầ u 
không ch ồng l ấp. Sau khi tính Pitch b ằng hàm vào là nh ỏ. 
ACF, pitch được làm tr ơn b ằng l ọc trung v ị. 
Ph ươ ng pháp phân l ớp s ử d ụng thu ật toán th ời Về m ặt th ời gian, ch ươ ng trình 1 th ực hi ện 
gian động DTW ti ến hành so sánh chu ỗi Pitch hu ấn luy ện và sau đó tìm ki ếm h ết ~ 4 s v ới 
đầu vào c ần tìm ki ếm tính t ừ file Wave v ới l ần một bài hát, ch ươ ng trình 2 th ực hi ện tìm 
lượt các chu ỗi Pitch c ủa các file MIDI trong c ơ ki ếm cho m ỗi file Wave trong kho ảng 0.2 s 
sở d ữ li ệu. Thu ật toán th ời gian độ ng cho phép với điều ki ện đã hu ấn luy ện tr ước. 
so sánh 2 chu ỗi Pitch có độ dài khác nhau v ới 
sai s ố nh ỏ nh ất. Độ t ươ ng t ự c ủa 2 chu ỗi pitch 
sau đó được tính toán b ằng kho ảng cách Euclid 
để tìm ra chu ỗi phù h ợp nh ất. 
Sử d ụng MFCC 
Chu ẩn b ị d ữ li ệu 
Vẫn s ử d ụng d ữ li ệu trên nh ưng được l ưu ở 
định d ạng PCM wave, t ần s ố l ấy m ẫu 44 
KHz, mã hóa 16 bit trên m ột m ẫu. M ỗi bài 
hát được trích ra m ột đoạn ng ắn < 5 s s ử d ụng 
làm m ẫu tìm ki ếm. Hình 7: Kết qu ả ch ạy ch ươ ng trình 
Các tham s ố th ực nghi ệm Với th ử nghi ệm trên c ả hai ph ươ ng pháp đều 
Đặc tr ưng MFCC được cài đặt v ới các tham cho k ết qu ả t ốt. Tuy nhiên, ph ươ ng pháp 
số sau : Kích c ỡ khung là 512 ms, không s ử MFCC t ốt h ơn khi d ữ li ệu được trích ra t ừ 
dụng khung ch ồng l ấp, s ố b ộ l ọc trong dãy chính bài hát c ủa tác gi ả. Còn ph ươ ng pháp 
băng l ọc Mel là 20, s ố h ệ s ố Ceptral là 12, cao độ pitch có th ể nh ận di ện được khi đoạn 
không s ử d ụng các h ệ s ố đạ o hàm Delta, k ết dữ li ệu tìm ki ếm có th ể là m ột ti ếng sáo, ti ếng 
hợp các h ệ s ố MFCC v ới 1 h ệ s ố n ăng l ượng. nh ạc ho ặc giai điệu c ủa bài hát. 
 37 
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38
Do đó, v ới các ứng d ụng yêu c ầu độ chính xác nội dung ”, Lu ận văn th ạc s ỹ Công ngh ệ thông tin, 
cao mà d ữ li ệu nh ỏ h ơn ta có th ể áp d ụng Đại h ọc Thái Nguyên, 12/2009. 
ph ươ ng pháp MFCC r ất t ốt còn trong tr ường [2]. Phùng Th ị Thu Hi ền, Thái Quang Vinh, 
 Phùng Trung Ngh ĩa, Lê Tu ấn Anh (2009), “ Tìm 
hợp khi b ộ d ữ li ệu l ớn, mà đoạn d ữ li ệu tìm 
 ki ếm âm nh ạc theo n ội dung s ử d ụng đặ c tr ưng 
ki ếm có th ể ch ỉ là m ột đoạn là giai điệu c ủa bài tần s ố c ơ b ản F0 và gi ải thu ật th ời gian độ ng 
hát ta có th ể áp d ụng ph ươ ng pháp cao độ Pitch. DTW ”, T ạp chí Khoa h ọc & Công ngh ệ ISSN, 
KẾT LU ẬN 1859 – 2171, T55 – 59. 
Để k ết qu ả th ực nghi ệm chính xác h ơn, c ần [3]. Beth Logan and Ariel Salomon (2002), “A 
xây dựng m ột c ơ s ở d ữ li ệu âm nh ạc đủ l ớn Music Similarity Function Based on Signal 
để th ử nghi ệm. Từ đó s ẽ đánh giá được độ Analysis ”, Cambridge Research Laboratory. 
chính xác, hi ệu qu ả c ủa các ph ươ ng pháp tìm [4]. S.Blackburn and D. De Roure (1998), “A tool 
ki ếm và có th ể đề xu ất các ph ươ ng pháp c ải for content based navigation of music”, in ACM 
ti ến thao tác trích đặ c tr ưng và phân l ớp c ủa Multimedia. 
hệ th ống tìm ki ếm. [5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson, 
 and S.Cunningham (1996), “ Towards the digital 
Hướng nghiên c ứu ti ếp theo s ẽ là tìm hi ểu sâu music library: Tune retrieval from acoustic input ,” 
hơn v ề các ph ươ ng pháp phân l ớp d ữ li ệu nh ư in Digital Libraries, pp.11-18 
mạng Neural, gi ải thu ật di truy ền GA, mô [6]. Beth Logan and Stephen Chu (2000), “Music 
hình Markov ẩn HMM, Summarization Using Key Phrases ”, Cambridge 
 TÀI LI ỆU THAM KH ẢO Research Laboratories. 
[1]. Phùng Th ị Thu Hi ền, “ Trích ch ọn đặ c tr ưng [7]. J.T. Foote (1997), “ Content-based retrieval 
âm thanh trong bài toán tìm ki ếm âm nh ạc theo of Music and Audio ,” in SPIE, p.p 138- 147 
 SUMMARY 
 COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC) 
 AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL 
 Phung Thi Thu Hien1*, Doan Xuan Ngoc2, Phung Trung Nghia3 
 1College of Technology – TNU 
 2Department of Tax – Thai Nguyen province 
 3College of Information Communication and Technology 
 In state of the art approaches, feature vectors of music signal are built based on their physical 
 characteristics as volume, energy, and spectrum. There are many methods to extract feature in 
 contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular 
 methods. This paper presens and compares these methods. 
 Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW. 
Ph ản bi ện khoa h ọc: TS. Vũ Vi ệt V ũ – Tr ường Đại h ọc Kỹ thu ật Công nghi ệp – ĐH Thái Nguyên 
* Tel: 0986060545; Email: pthientng@gmail.com 
38 

File đính kèm:

  • pdfso_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf