So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung
Hiện nay, có rất nhiều nghiên cứu về vấn đề
trích chọn đặc trưng âm thanh trong bài toán
tìm kiếm âm nhạc theo nội dung.
S.Blackburn và D.DeRoure [4] đã sử dụng kỹ
thuật hiệu chỉnh cao độ (F0) để xác định giai
điệu chính của đoạn nhạc. Trong nghiên cứu
của mình, S.Blackburn và D.DeRoure đã so
sánh tính toán độ tương tự của bài hát bằng
kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,
Smith, Witten, Henderson và Cunningham [5]
đã sử dụng phương thức tính toán giai điệu
bằng cách ước lượng cao độ Pitch để so sánh
giữa các bản phiên âm của mỗi bài hát.
Tuy nhiên, theo một nghiên cứu của Beth
Logan [3] thì cấu trúc âm thanh của âm nhạc
là quan trọng. Vì vậy cần phải có một hệ
thống nhận biết độ tương tự âm thanh theo
cách gần giống như hệ thống nghe của con
người, và hệ thống thính giác của con người
dễ dàng thu và nhận dạng các nhóm âm thanh
hơn là từng nốt nhạc hay âm riêng lẻ.
Bài báo này trình bày phương pháp tìm kiếm
âm nhạc theo nội dung sử dụng theo hai đặc
trưng, thứ nhất là sử dụng đặc trưng cao độ
(Pitch) và thứ hai là sử dụng đặc trưng đường
* Tel: 0986060545; Email: pthientng@gmail.com
bao phổ (MFCC), cuối cùng là đưa ra một số
kết quả thực nghiệm để so sánh hiệu quả của
hai phương pháp.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Tóm tắt nội dung tài liệu: So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung
Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 SO SÁNH HAI PH ƯƠ NG PHÁP TRÍCH CH ỌN ĐẶ C TR ƯNG ÂM THANH: ĐƯỜNG BAO PH Ổ (MFCC) VÀ CAO ĐỘ PITCH TRONG VI ỆC TÌM KI ẾM ÂM NH ẠC THEO N ỘI DUNG Phùng Th ị Thu Hi ền1*, Đoàn Xuân Ng ọc2, Phùng Trung Ngh ĩa3 1Tr ường Đại h ọc K ỹ thu ật Công nghi ệp - ĐH Thái Nguyên 2Cục thu ế t ỉnh Thái Nguyên 3Tr ường Đại h ọc CNTT&TT - ĐH Thái Nguyên TÓM T ẮT Trong cách ti ếp c ận truy ền th ống, các vector đặ c tr ưng c ủa tín hi ệu âm thanh được xây d ựng t ừ các đặc tr ưng v ật lý c ủa âm thanh nh ư độ to, độ cao, n ăng l ượng, ph ổ t ần s ố, Có r ất nhi ều ph ươ ng pháp trích ch ọn đặ c tr ưng âm thanh đã và đang được nghiên c ứu để áp d ụng vào bài toán tìm ki ếm âm nh ạc theo n ội dung. Tuy nhiên hai ph ươ ng pháp ph ổ bi ến nh ất và được đánh giá cao là ph ươ ng pháp s ử d ụng đường bao ph ổ (MFCC) và ph ươ ng pháp s ử d ụng cao độ (F0). Bài báo này nghiên c ứu v ề hai ph ươ ng pháp này đồng th ời so sánh đánh giá hi ệu qu ả c ủa t ừng ph ươ ng pháp. Từ khóa : Vector đặc tr ưng, Mel Cepstral, K-means, F0, pitch, DTW. ĐẶT V ẤN ĐỀ * bao ph ổ (MFCC), cu ối cùng là đư a ra m ột s ố kết qu ả th ực nghi ệm để so sánh hi ệu qu ả c ủa Hi ện nay, có r ất nhi ều nghiên c ứu v ề v ấn đề hai ph ươ ng pháp. trích ch ọn đặ c tr ưng âm thanh trong bài toán tìm ki ếm âm nh ạc theo n ội dung. CƠ S Ở LÝ THUY ẾT S.Blackburn và D.DeRoure [4] đã s ử d ụng k ỹ Sử d ụng đặ c tr ưng cao độ thu ật hi ệu ch ỉnh cao độ (F0) để xác đị nh giai Cao độ Pitch điệu chính c ủa đoạn nh ạc. Trong nghiên c ứu Không khí đi qua thanh qu ản làm thanh qu ản của mình, S.Blackburn và D.DeRoure đã so rung lên. S ự rung độ ng này v ới m ột t ỷ l ệ nào sánh tính toán độ t ươ ng t ự c ủa bài hát b ằng đó c ũng được g ọi là t ần s ố c ơ b ản – f0 . T ần kỹ thu ật so kh ớp xâu. Trong khi đó, Mc Nab, số c ơ b ản ph ụ thu ộc vào kích c ỡ và áp l ực c ủa Smith, Witten, Henderson và Cunningham [5] thanh qu ản. T ần s ố cơ b ản liên quan đến âm đã s ử d ụng ph ươ ng th ức tính toán giai điệu thanh v ề cao độ và nó có th ể được ước l ượng bằng cách ước l ượng cao độ Pitch để so sánh chính xác t ừ tín hi ệu âm thanh. gi ữa các b ản phiên âm c ủa m ỗi bài hát. Độ cao hay độ tr ầm b ổng c ủa âm thanh chính Tuy nhiên, theo m ột nghiên c ứu c ủa Beth là t ần s ố sóng c ơ h ọc c ủa âm thanh. Âm thanh Logan [3] thì c ấu trúc âm thanh c ủa âm nh ạc nào c ũng phát ra ở m ột độ cao nh ất đị nh. Độ là quan tr ọng. Vì vậy c ần ph ải có m ột h ệ cao c ủa âm thanh ph ụ thu ộc vào t ần s ố dao th ống nh ận bi ết độ t ươ ng t ự âm thanh theo động. Đố i v ới ti ếng nói, t ần s ố dao độ ng c ủa cách g ần gi ống nh ư h ệ th ống nghe c ủa con dây thanh quy định độ cao gi ọng nói c ủa con ng ười, và h ệ th ống thính giác c ủa con ng ười ng ười. M ỗi ng ười có m ột cao độ gi ọng nói dễ dàng thu và nh ận d ạng các nhóm âm thanh khác nhau, độ cao c ủa n ữ gi ới th ường cao h ơn hơn là t ừng n ốt nh ạc hay âm riêng l ẻ. nam gi ới và độ cao c ủa tr ẻ em th ường cao Bài báo này trình bày phươ ng pháp tìm ki ếm hơn c ủa ng ười l ớn. âm nh ạc theo n ội dung s ử d ụng theo hai đặ c Cao độ Pitch do đó là đại l ượng t ỷ l ệ ngh ịch tr ưng, th ứ nh ất là s ử d ụng đặ c tr ưng cao độ với t ần s ố c ơ b ản F0. (Pitch) và th ứ hai là s ử d ụng đặ c tr ưng đường Pitch là thu ộc tính c ơ b ản c ủa ti ếng nói. Tai ng ười nh ạy c ảm v ới s ự thay đổ i t ần s ố c ơ b ản * Tel: 0986060545; Email: pthientng@gmail.com 33 Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 hơn là các tham s ố khác c ủa tín hi ệu ti ếng cực đạ i khác ở m ức tr ễ 162, cho th ấy m ột s ự nói. Ước l ượng pitch khó do s ự thay đổ i c ủa kết h ợp t ốt khi d ịch chuy ển là hai l ần chu k ỳ sóng âm thanh. Sóng âm thanh thay đổi nh ỏ cao độ. Vì v ậy, để ước l ượng cao độ pitch, gi ữa các chu k ỳ, th ời điểm l ựa ch ọn để đo s ẽ cửa s ổ âm thanh nên ch ứa ít nh ất hai chu k ỳ ảnh h ưởng t ới chu k ỳ cao độ . Ước l ượng cao cao độ (N >2/Fo). độ thi ếu chính xác do s ự xu ất hi ện c ủa sóng Ước l ượng Cepstral Pitch hài ho ặc hài b ậc ba c ủa cao độ t ần s ố. Khi m ột tín hi ệu tu ần hoàn v ới t ần s ố c ơ b ản Có r ất nhi ều thu ật toán và ph ươ ng th ức ước Fo ch ứa nhi ều sóng hài sát nhau thì đoạn ph ổ lượng cao độ . Các thu ật toán ước l ượng pitch tươ ng ứng th ể hi ện các đường g ợn sóng nh ư cố g ắng để đị nh v ị chu k ỳ trong mi ền th ời cấu trúc hài c ủa nó. Cepstrum c ủa tín hi ệu này gian c ủa tín hi ệu ti ếng nói ho ặc mi ền t ần s ố sẽ th ể hi ện b ằng m ột chóp cao t ại t ần số 1/F0. của tín hi ệu âm thanh. Các cách tính Pitch h ầu Cepstrum được đị nh ngh ĩa là m ột bi ến đổ i hết d ựa vào ph ươ ng pháp t ự t ươ ng quan ho ặc Fourier rời r ạc ng ược v ề c ường độ v ới tín bi ến th ể c ủa nó. hi ệu vào s(n). Ước l ượng Pitch b ằng ph ươ ng pháp t ự Cepstrum được ... là các thành tự t ươ ng quan đo độ t ươ ng t ự gi ữa chính nó ph ần tu ần hoàn c ủa tín hi ệu g ốc. Thông tin và bi ến đổ i theo th ời gian c ủa chính nó. cao độ được trích ra b ởi vì m ột tín hi ệu âm Ph ươ ng th ức t ự t ươ ng quan trong m ột kho ảng thanh không ch ỉ ch ứa các thành ph ần ph ổ có th ời gian ng ắn c ủa m ột đoạn s(m), c ủa m ột tín tần s ố c ơ b ản mà còn ch ứa các hài. Cepstrum hi ệu r ời r ạc theo th ời gian s(n) có th ể được thu được có c ấu trúc l ặp l ại theo c ường độ bi ểu di ễn là: ph ổ. Mi ền t ần s ố th ấp c ủa cepstrum thể hi ện N −1 −k dạng vocal tract c ủa h ệ th ống ti ếng nói con r() k = ∑ s(m)(s m + k) ng ười. T ần s ố cao c ủa cepstrum mô t ả thông m=0 [1] tin kích thích trong ti ếng nói – pitch. k là độ tr ễ và N là độ dài đoạn, s(m) = 0 ngoài Hình 2 th ể hi ện c ường độ ph ổ và cepstrum mi ền (0≤m ≤ N − 1) . tươ ng ứng v ới đoạn ti ếng nói trong hình 1. Giá tr ị t ại Cepstrum(0), được b ỏ đi để thu được gi ải độ ng t ốt h ơn. Đỉnh nhô lên t ại t ần số 82 bi ểu th ị chu k ỳ cao độ . T ần s ố này tươ ng ứng v ới t ỷ l ệ m ẫu c ủa tín hi ệu g ốc, 8000Hz. Vì v ậy t ần s ố 82 th ể hi ện t ần s ố cao độ 8000/82 = 97.2 Hz. Cấu trúc quan tr ọng trong mi ền t ần s ố frequency th ấp, t ừ 1 t ới 16 miêu t ả thông tin Hình 1: Dạng sóng và t ự t ươ ng quan trên mi ền vocal tract. th ời gian c ủa m ột đoạn ti ếng nói ng ắn Với âm h ữu thanh, phép phân tích Cepstral Hình 1 th ể hi ện m ột đoạn âm thanh ng ắn và của m ột đoạn ti ếng nói ng ắn s ẽ t ạo ra m ột tính t ự t ươ ng quan c ủa đoạn đó. Chu k ỳ cao đỉnh c ủa chu k ỳ cao độ , nh ưng đối v ới nh ững độ được theo dõi trên kho ảng 80 m ẫu. Đỉ nh âm vô thanh thì không. Phép phân tích nhô lên trong sóng t ự t ươ ng quan bi ểu th ị Cepstral có th ể được s ử d ụng cho đoạn âm điều này. Giá trị c ực đạ i để xu ất hi ện quá thanh là h ữu thanh hay vô thanh để xác đị nh trình t ự t ươ ng quan là ở m ức tr ễ 0. M ột giá tr ị chu k ỳ cao độ , 1/F0 n ếu là đoạn h ữu thanh. 34 Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 Mô ph ỏng l ại quá trình t ạo âm c ủa c ơ quan phát âm. Cường độ log ph ổ c ủa hai tín hi ệu s1 và s2 là sự t ổ h ợp tuy ến tính c ủa c ường độ ph ổ log nh ư được th ể hi ện trong bi ểu th ức 3: log 10 (|DFT[s1*s2](k)|) = log 10 (|s1(k)|) +log 10 (|s2(k)|) [3] Gi ả s ử r ằng S1 và S2 là nh ững ph ần tách r ời của ph ổ và quan sát c ường độ log ph ổ c ủa 2 tín hi ệu ch ập S1 và S2 ở trên, DFT có th ể được tính toán để thu được s ự mô t ả các t ần số riêng bi ệt theo log 10 (|s1(k)|) và log (|s2(k)|). Tín hi ệu chuy ển đổ i được miêu 10 tả trong mi ền t ần s ố vì v ậy Hình 2: Cường độ Log c ủa DFT và t ần s ố log10(|DFT[s1*s2](k)|) được chuy ển đổ i sang Cepstrum c ủa đoạn ti ếng nói trong hình 1 mi ền t ần s ố dubbed, quá trình chuy ển đổ i này Sử d ụng đặ c tr ưng đường bao ph ổ MFCC được g ọi là phân tích cepstral và ph ổ thu Tần s ố c ảm th ụ có ngh ĩa được được g ọi là cepstrum. Tai c ủa con ng ười nh ận bi ết được nh ững âm Xử lý Cepstral theo thang đo t ần s ố Mel thanh có t ần s ố th ấp (<1kHz) t ốt h ơn nh ững âm thanh có t ần s ố cao. Vì v ậy điều quan Các đặc tr ưng c ủa Mel Cepstral r ất thành tr ọng là c ần làm n ổi b ật lên nh ững âm thanh công trong các ứng d ụng x ử lý ti ếng nói và có t ần s ố th ấp h ơn là t ần s ố cao. ph ục h ồi âm nh ạc v ới độ chính xác cao. Các Dải thông c ủa tín hi ệu ti ếng nói là kho ảng đặc tr ưng này t ạo s ự uy ển chuy ển c ủa c ường 10kHz. Không có thành phần t ần s ố nào t ồn độ ph ổ c ủa những đoạn tín hi ệu âm thanh, vì tại d ưới 50kHz. T ần s ố ti ếng nói là d ưới vậy nó là công c ụ m ạnh khi có nh ững thay 3kHz, cao h ơn các thành ph ần t ần s ố chính đổi nh ỏ trong giai điệu ho ặc ki ểu ph ối nh ạc. liên quan đến ng ười nói, âm nh ạc, d ụng c ụ âm MFCC có nhi ều đặ c tr ưng v ượt tr ội khi s ử thanh ho ặc hi ệu ứng. Formants c ũng là thông tin quan tr ọng. T ần s ố formants c ủa âm h ữu dụng để nh ận d ạng ti ếng nói theo th ời gian. thanh được tìm th ấy d ưới 5kHz trong khi c ủa Mỗi b ước c ủa quá trình t ạo các đặ c tr ưng âm vô thanh bi ến m ất. MFCC được thực hi ện b ằng h ệ th ống c ảm th ụ âm thanh c ủa con ng ười. T ức là nh ững gì không liên quan có th ể b ỏ đi kh ỏi c ơ s ở d ữ li ệu g ốc d ựa trên quá trình c ảm th ụ âm thanh dạng sóng c ủa con ng ười, và ti ếp theo là yêu cầu gi ảm kích th ước d ữ li ệu và t ăng t ốc độ Hình 3: Cường độ âm h ữu thanh và vô thanh tính toán. A: C ường độ c ủa tín hi ệu âm vô thanh Quá trình l ọc theo thang Mel Cepstral: B: C ường độ c ủa tín hi ệu âm h ữu thanh Theo Beth Logan, MFCC g ồm 5 b ước: Phép phân tích Cepstral 1. Chia tín hi ệu thành các khung Cepstral là m ột ph ươ ng pháp để trích ch ọn 2. V ới m ỗi khung, ta thu được biên độ ph ổ. đặc tr ưng âm thanh. Trích ch ọn tham s ố đặ c 3. L ấy log c ủa biên độ tr ưng âm thanh d ựa trên hai c ơ ch ế: 4. Chuy ển đổ i sang thang Mel Mô ph ỏng l ại quá trình c ảm nh ận âm thanh của tai ng ười. 5. Th ực hi ện bi ến đổ i Cosine r ời r ạc. 35 Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 Một ph ươ ng pháp để chuy ển đổ i sang thang mel là s ử d ụng b ăng l ọc. Kho ảng cách c ủa băng l ọc được đị nh ngh ĩa b ởi m ột h ằng s ố t ần số mel theo th ời gian. B ăng l ọc này được áp Hình 4 : Quá trình t ạo các đặ c tính MFCC dụng trong mi ền t ần s ố, nó có th ể xem nh ư Quan sát quá trình trên ta th ấy, âm thanh các điểm thu được c ủa b ộ l ọc chính. V ới các được chia thành nh ững khung có độ dài c ố khung nh ỏ t ốt nh ất là s ử d ụng các b ộ l ọc d ạng định. M ục đích là để l ấy m ẫu nh ững đoạn tín tam giác ho ặc th ậm chí hình ch ữ nh ật vì độ hi ệu nh ỏ (theo lý thuy ết là ổn đị nh). Hàm c ửa phân gi ải là quá th ấp trong mi ền t ần s ố th ấp. sổ b ỏ đi nh ững hi ệu ứng ph ụ và vector đặc tr ưng cepstral được th ực hi ện trên m ỗi khung cửa s ổ. Bi ến đổ i Fourier r ời r ạc c ủa m ỗi khung được tính toán và l ấy logarithm biên độ ph ổ. Thông tin v ề pha b ị b ỏ qua do biên độ ph ổ là quan tr ọng h ơn pha. Th ực hi ện l ấy logarithm biên độ ph ổ do âm l ượng c ủa tín hi ệu là xấp x ỉ logarith. Ti ếp theo bi ến đổ i ph ổ theo thang Mel. T ừ k ết qu ả này, trong vector Mel – spectral c ủa các thành ph ần t ươ ng quan cao, b ước cu ối cùng là th ực hi ện bi ến đổ i cosine r ời r ạc để t ổng h ợp vector ph ổ Mel để Hình 5: Băng l ọc kho ảng cách theo t ần s ố Mel tươ ng quan l ại các thành ph ần này Mỗi b ộ l ọc trong b ăng l ọc được nhân v ới ph ổ Độ l ệch t ần s ố Mel tín hi ệu vì v ậy ch ỉ có m ột giá tr ị đơn c ủa Độ l ệch t ần s ố Mel làm nh ẵn ph ổ và làm n ổi cường độ trên b ộ l ọc được tr ả l ại. Điều này có lên các t ần s ố c ảm th ụ có ngh ĩa. Bi ến đổ i th ể đạ t được qua các tính toán c ủa ma tr ận Fourier lên tín hi ệu qua b ộ l ọc thông d ải để đơ n. K ết qu ả là t ổng c ủa biên độ trong d ải l ọc làm đơ n gi ản ph ổ mà không làm m ất d ữ li ệu. và vì vậy làm gi ảm độ chính xác t ới m ức tai Điều này được th ực hi ện b ằng cách t ập h ợp của con ng ười. các thành ph ần ph ổ thành m ột d ải t ần s ố. Ph ổ được làm đơ n gi ản hóa do s ử d ụng m ột giàn bộ l ọc để tách ph ổ thành các kênh. Các b ộ l ọc được đặ t cách đề u nhau trên thang Mel và l ấy logarit trên thang t ần s ố, các kênh có t ần s ố th ấp là không gian tuy ến tính trong khi các Hình 6: Ph ổ sau khi l ọc theo thang Mel kênh có t ần s ố cao là không gian logarit. Quá trình độ l ệch t ần s ố mel được th ực hi ện Tai ng ười không c ảm nh ận s ự thay đổ i t ần s ố theo ba b ước sau: của ti ếng nói tuy ến tính mà theo thang mel. 1. Cố đị nh vùng giá tr ị d ưới m ỗi b ộ l ọc và Thang t ần s ố Mel tuy ến tính ở t ần s ố d ưới đôi khi đư a thang v ề 1. Đặ t M = s ố b ăng l ọc 1kHz và logarit ở t ần s ố cao h ơn 1kHz. Ta yêu c ầu ch ọn t ần s ố 1kHz, 40 dB trên ng ưỡng nghe 2. Phân bố đề u trên thang t ần s ố Mel 1000 Mel. Do đó công th ức g ần đúng bi ểu 3. Chuy ển đổ i t ừ Hz sang ωi' s trên thang di ễn quan h ệ t ần s ố ở thang mel và thang tuy ến tính. M ối quan h ệ gi ữa mel và frq được tuy ến tính nh ư sau: cho b ởi công th ức: (4) m=ln(1+f/700)*1000/ln(1+1000/700) (5) 36 Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 KẾT QU Ả TH ỰC NGHI ỆM Gi ống nh ư Beth Logan [8], phân l ớp b ằng Sử d ụng F0 cách phân h ệ s ố cepstral thành 16 c ụm theo Chu ẩn b ị d ữ li ệu thu ật toán K-means chu ẩn. S ử d ụng kho ảng cách Euclidean để tính toán độ t ươ ng t ự. Dữ li ệu bao g ồm 20 bài hát thi ếu nhi n ổi ti ếng th ế gi ới Kết qu ả th ực nghi ệm và đánh giá childSong4public/QBSH-corpus/ . Trong c ả 2 ch ươ ng trình th ử nghi ệm, k ết qu ả Trong các c ấu trúc file âm thanh thì MIDI là nh ận d ạng đúng cu ối cùng sau 20 l ần th ử định d ạng file đơn gi ản, kích c ỡ nh ỏ g ọn nghi ệm đề u là 100%. K ết qu ả này cao h ơn k ết nh ưng v ẫn bi ểu di ễn được giai điệu âm qu ả đã công b ố trong [8] và [4] dù dùng cùng nh ạc.Trong b ước hu ấn luy ện, ch ươ ng trình s ử thu ật toán. Lý do có th ể do ch ươ ng trình dụng 20 b ản nh ạc đị nh d ạng MIDI. Khi tìm demo m ới th ử nghi ệm trên b ộ c ơ s ở d ữ li ệu ki ếm ch ươ ng trình th ử nghi ệm trên 20 file âm rất nh ỏ. H ơn n ữa độ dài âm thanh đầu vào thanh PCM Wave t ần s ố l ấy m ẫu 8 KHz, mã (trích 1 đoạn t ừ file âm thanh c ần tìm ki ếm) hóa 8 bít / m ẫu, thu t ừ các điệu ngân nga đủ l ớn (so v ới âm thanh tìm ki ếm) trong không l ời (humming) ho ặc các đoạn hát ch ươ ng trình th ử nghi ệm 1, độ dài âm thanh không nh ạc (singing) v ới giai điệu t ươ ng ứng đầu vào và âm thanh c ần tìm ki ếm đề u là c ả với 45 b ản nh ạc MIDI đã hu ấn luy ện. bài hát trong ch ươ ng trình th ử nghi ệm 2. T ỷ Các tham s ố th ực nghi ệm lệ nh ận d ạng s ẽ gi ảm xu ống khi dùng c ơ s ở dữ li ệu l ớn h ơn ( đặc bi ệt khi trong c ơ s ở d ữ Cao độ Pitch được tính theo ph ươ ng pháp t ự li ệu có các bài hát có nh ững ph ần t ươ ng t ự tươ ng quan ACF (AutoCorrelation Function) nhau), t ỷ l ệ nh ận d ạng và tìm ki ếm đúng c ũng với các tham s ố: kích c ỡ khung là 256 ms, sẽ gi ảm xu ống khi độ dài m ẫu âm thanh đầ u không ch ồng l ấp. Sau khi tính Pitch b ằng hàm vào là nh ỏ. ACF, pitch được làm tr ơn b ằng l ọc trung v ị. Ph ươ ng pháp phân l ớp s ử d ụng thu ật toán th ời Về m ặt th ời gian, ch ươ ng trình 1 th ực hi ện gian động DTW ti ến hành so sánh chu ỗi Pitch hu ấn luy ện và sau đó tìm ki ếm h ết ~ 4 s v ới đầu vào c ần tìm ki ếm tính t ừ file Wave v ới l ần một bài hát, ch ươ ng trình 2 th ực hi ện tìm lượt các chu ỗi Pitch c ủa các file MIDI trong c ơ ki ếm cho m ỗi file Wave trong kho ảng 0.2 s sở d ữ li ệu. Thu ật toán th ời gian độ ng cho phép với điều ki ện đã hu ấn luy ện tr ước. so sánh 2 chu ỗi Pitch có độ dài khác nhau v ới sai s ố nh ỏ nh ất. Độ t ươ ng t ự c ủa 2 chu ỗi pitch sau đó được tính toán b ằng kho ảng cách Euclid để tìm ra chu ỗi phù h ợp nh ất. Sử d ụng MFCC Chu ẩn b ị d ữ li ệu Vẫn s ử d ụng d ữ li ệu trên nh ưng được l ưu ở định d ạng PCM wave, t ần s ố l ấy m ẫu 44 KHz, mã hóa 16 bit trên m ột m ẫu. M ỗi bài hát được trích ra m ột đoạn ng ắn < 5 s s ử d ụng làm m ẫu tìm ki ếm. Hình 7: Kết qu ả ch ạy ch ươ ng trình Các tham s ố th ực nghi ệm Với th ử nghi ệm trên c ả hai ph ươ ng pháp đều Đặc tr ưng MFCC được cài đặt v ới các tham cho k ết qu ả t ốt. Tuy nhiên, ph ươ ng pháp số sau : Kích c ỡ khung là 512 ms, không s ử MFCC t ốt h ơn khi d ữ li ệu được trích ra t ừ dụng khung ch ồng l ấp, s ố b ộ l ọc trong dãy chính bài hát c ủa tác gi ả. Còn ph ươ ng pháp băng l ọc Mel là 20, s ố h ệ s ố Ceptral là 12, cao độ pitch có th ể nh ận di ện được khi đoạn không s ử d ụng các h ệ s ố đạ o hàm Delta, k ết dữ li ệu tìm ki ếm có th ể là m ột ti ếng sáo, ti ếng hợp các h ệ s ố MFCC v ới 1 h ệ s ố n ăng l ượng. nh ạc ho ặc giai điệu c ủa bài hát. 37 Phùng Th ị Thu Hi ền và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 33 - 38 Do đó, v ới các ứng d ụng yêu c ầu độ chính xác nội dung ”, Lu ận văn th ạc s ỹ Công ngh ệ thông tin, cao mà d ữ li ệu nh ỏ h ơn ta có th ể áp d ụng Đại h ọc Thái Nguyên, 12/2009. ph ươ ng pháp MFCC r ất t ốt còn trong tr ường [2]. Phùng Th ị Thu Hi ền, Thái Quang Vinh, Phùng Trung Ngh ĩa, Lê Tu ấn Anh (2009), “ Tìm hợp khi b ộ d ữ li ệu l ớn, mà đoạn d ữ li ệu tìm ki ếm âm nh ạc theo n ội dung s ử d ụng đặ c tr ưng ki ếm có th ể ch ỉ là m ột đoạn là giai điệu c ủa bài tần s ố c ơ b ản F0 và gi ải thu ật th ời gian độ ng hát ta có th ể áp d ụng ph ươ ng pháp cao độ Pitch. DTW ”, T ạp chí Khoa h ọc & Công ngh ệ ISSN, KẾT LU ẬN 1859 – 2171, T55 – 59. Để k ết qu ả th ực nghi ệm chính xác h ơn, c ần [3]. Beth Logan and Ariel Salomon (2002), “A xây dựng m ột c ơ s ở d ữ li ệu âm nh ạc đủ l ớn Music Similarity Function Based on Signal để th ử nghi ệm. Từ đó s ẽ đánh giá được độ Analysis ”, Cambridge Research Laboratory. chính xác, hi ệu qu ả c ủa các ph ươ ng pháp tìm [4]. S.Blackburn and D. De Roure (1998), “A tool ki ếm và có th ể đề xu ất các ph ươ ng pháp c ải for content based navigation of music”, in ACM ti ến thao tác trích đặ c tr ưng và phân l ớp c ủa Multimedia. hệ th ống tìm ki ếm. [5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson, and S.Cunningham (1996), “ Towards the digital Hướng nghiên c ứu ti ếp theo s ẽ là tìm hi ểu sâu music library: Tune retrieval from acoustic input ,” hơn v ề các ph ươ ng pháp phân l ớp d ữ li ệu nh ư in Digital Libraries, pp.11-18 mạng Neural, gi ải thu ật di truy ền GA, mô [6]. Beth Logan and Stephen Chu (2000), “Music hình Markov ẩn HMM, Summarization Using Key Phrases ”, Cambridge TÀI LI ỆU THAM KH ẢO Research Laboratories. [1]. Phùng Th ị Thu Hi ền, “ Trích ch ọn đặ c tr ưng [7]. J.T. Foote (1997), “ Content-based retrieval âm thanh trong bài toán tìm ki ếm âm nh ạc theo of Music and Audio ,” in SPIE, p.p 138- 147 SUMMARY COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC) AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL Phung Thi Thu Hien1*, Doan Xuan Ngoc2, Phung Trung Nghia3 1College of Technology – TNU 2Department of Tax – Thai Nguyen province 3College of Information Communication and Technology In state of the art approaches, feature vectors of music signal are built based on their physical characteristics as volume, energy, and spectrum. There are many methods to extract feature in contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular methods. This paper presens and compares these methods. Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW. Ph ản bi ện khoa h ọc: TS. Vũ Vi ệt V ũ – Tr ường Đại h ọc Kỹ thu ật Công nghi ệp – ĐH Thái Nguyên * Tel: 0986060545; Email: pthientng@gmail.com 38
File đính kèm:
- so_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf