Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
TÓM TẮT
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.
Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việ
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Tóm tắt nội dung tài liệu: Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 NGHIÊN C ỨU PH ƯƠ NG PHÁP NH ẬN D ẠNG PHÂN BI ỆT TI ẾNG NÓI V ỚI ÂM NH ẠC Đỗ Th ị Loan, L ưu Th ị Li ễu, Nguy ễn Th ị Hi ền Tr ường Đạ i h ọc Công ngh ệ thông tin và Truy ền thông – ĐH Thái Nguyên TÓM T ẮT Tự độ ng nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là công c ụ quan tr ọng trong nhi ều ứng d ụng đa ph ươ ng ti ện. Để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc, chúng tôi đã s ử d ụng ba đặ c tr ưng: t ần su ất v ượt điểm không cao (HZCRR), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn th ấp (LSTER), độ bi ến thiên ph ổ (SF) và thu ật toán s ử d ụng để hu ấn luy ện c ũng nh ư nh ận d ạng là K-NN (K Nearest Neighbor). D ữ li ệu là các đoạn nh ạc g ồm nhi ều th ể lo ại t ừ nh ạc không l ời t ới nh ạc có l ời (nh ạc Vi ệt Nam, nh ạc Rock, nh ạc Pop, Đồng quê), các đoạn ti ếng nói c ủa gi ọng nam và n ữ b ằng ti ếng Vi ệt. Trong bài báo này m ục đích nghiên c ứu ban đầ u c ủa chúng tôi ch ủ y ếu là nh ận d ạng phân bi ệt hai lo ại âm thanh: ti ếng nói và âm nh ạc v ới k ết qu ả thu được có độ chính xác khá cao, v ới tiếng nói có độ chính xác x ấp x ỉ 84%, âm nh ạc là 92%. Trong t ươ ng lai chúng tôi mong mu ốn phát tri ển h ệ th ống có kh ả n ăng nh ận d ạng phân bi ệt nhi ều l ớp âm thanh h ơn. Từ khóa : Phân bi ệt, ti ếng nói, âm nh ạc, nh ạc Vi ệt Nam, ti ếng Vi ệt. GI ỚI THI ỆU* tra tín hi ệu âm thanh trong kho ảng th ời gian Nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là đủ ng ắn (gi ữa 5 và 100msec), ta có th ể nh ận một ph ần trong h ệ th ống phân lo ại âm thanh th ấy đặ c điểm c ủa nó là khá c ụ th ể. Tuy nhiên ASC (Audio Signal Classifier) [1] hay trong trong th ời gian dài, các đặc tính c ủa tín hi ệu hệ th ống nh ận d ạng các khung c ảnh âm thanh thay đổi để ph ản ánh đặ c điểm c ủa chu ỗi tín CASR (Computeral Audio Scence hi ệu nh ư m ột bài phát bi ểu hay m ột đoạn Recognizer) [2], nh ận d ạng các ch ươ ng trình nh ạc. Trong ph ần này, chúng tôi đư a ra m ột trên ti vi [3], [4], hay h ệ th ống phiên d ịch n ốt số nh ận đị nh v ề s ự khác bi ệt gi ữa ti ếng nói và nh ạc AMTS [5]. Để xây d ựng m ột h ệ th ống âm nh ạc nh ư sau: hoàn ch ỉnh thì r ất khó kh ăn vì âm thanh r ất - Thanh điệu: Giai điệu có ý ngh ĩa s ự bi ểu phong phú, đa d ạng và m ỗi lo ại có nh ững đặ c th ị c ủa d ạng sóng âm thanh. Âm nh ạc có xu tr ưng riêng, s ự k ết h ợp gi ữa chúng t ạo nên vô hướng được t ạo ra t ừ s ự đa d ạng c ủa các t ần vàn các d ạng âm thanh khác nhau, điều này số. Còn ti ếng nói có giai điệu t ừ chính s ắc ảnh h ưởng l ớn đế n vi ệc phân lo ại các khung điệu và gi ọng nói c ủa ng ười nói. cảnh âm thanh. H ầu h ết các nghiên c ứu nh ận - Chu ỗi thay th ế: Ti ếng nói cho ta m ột chu ỗi dạng phân bi ệt các l ớp âm thanh đề u c ăn c ứ các ti ếng ồn, kho ảng l ặng xem k ẽ t ừng đoạn theo t ừng tr ường h ợp mà b ạn đưa v ề s ố l ớp, trong khi âm nh ạc không có. Nói cách khác, và m ột vài điều ki ện ràng bu ộc khác. Ch ẳng lời nói có tín hi ệu phân ph ối thông qua quang hạn phân lo ại âm thanh thành b ốn l ớp: âm ph ổ ng ẫu nhiên h ơn so v ới âm nh ạc. nh ạc, ti ếng nói, nhi ễu, kho ảng l ặng [4], [6] - Băng thông: Ti ếng nói th ường có 90% ho ặc ch ỉ phân thành ti ếng nói và âm nh ạc năng l ượng t ập trung ở t ần s ố th ấp h ơn 4kHz không thôi [3], [7]. (và h ạn ch ế đế n 8kHz), trong khi âm nh ạc có SỰ KHÁC NHAU GI ỮA TI ẾNG NÓI VÀ th ể m ở r ộng thông qua các gi ới h ạn trên ÂM NH ẠC kho ảng 20kHz. - Phân ph ối: N ăng l ượng c ủa ti ếng nói Các tín hi ệu âm thanh là m ột tín hi ệu có ý th ường t ập trung ở t ần s ố th ấp sau đó gi ảm r ất ngh ĩa trong kho ảng th ời gian ng ắn. Khi ki ểm nhanh trong các mi ền t ần s ố cao h ơn. Còn tín hi ệu âm nh ạc thì tr ải đề u h ơn. * Tel: 0972998865; Email:dtloan@ictu.edu.vn 89 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 - Tần s ố c ơ b ản: v ới ti ếng nói c ụ th ể, ta có phân b ố n ăng l ượng, chúng tôi đã l ựa ch ọn ba th ể xác đị nh được t ần s ố c ơ b ản nh ưng v ới âm đặc tr ưng: T ỷ l ệ t ần su ất v ượt qua điểm không nh ạc thì không. cao HZCRR (Hight Zero Crossing Rate - Kho ảng âm điệu: Th ời h ạn c ủa nguyên âm Ratio), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn trong ti ếng nói là r ất th ường xuyên. Âm nh ạc th ấp LSTER (Low Short Time Energy Ratio) th ể hi ện m ột bi ến th ể r ộng l ớn h ơn chi ều dài và độ bi ến thiên ph ổ SF (Spectrum Flux). Còn của giai điệu, không được h ạn ch ế do quá ph ươ ng pháp nh ận d ạng phân bi ệt chúng tôi trình phát âm nh ạc. sử d ụng là thu ật toán K láng giêng g ần nh ất - Năng l ượng ng ắn h ạn: N ăng l ượng c ủa tín K-NN (K Nearest Neighbor) [8]. hi ệu ti ếng nói có s ự bi ến thiên nhi ều h ơn so Lựa ch ọn đặ c tr ưng với tín hi ệu âm nh ạc. Đặc tr ưng t ần su ất v ượt qua điểm không cao - Tỷ l ệ v ượt điểm không: Tùy thu ộc vào tín - HZCRR hiệu âm nh ạc và ti ếng nói nh ưng thông th ường t ỷ l ệ v ượt điểm không c ủa tín hi ệu ti ếng nói s ẽ l ớn h ơn tín hi ệu âm nh ạc. LỰA CH ỌN ĐẶ C TR ƯNG VÀ PH ƯƠ NG PHÁP NH ẬN D ẠNG PHÂN BI ỆT TI ẾNG NÓI V ỚI ÂM NH ẠC Cho t ới nay có khá nhi ều đặ c tính c ủa tín hi ệu âm thanh để nh ận d ạng, phân bi ệt ti ếng nói và âm nh ạc hay các h ệ th ống nh ận d ạng phân lo ại khác nhau. M ỗi nghiên c ứu đề u đưa ra Hình 1 : Bi ểu đồ t ần su ất v ượt điểm không một s ố l ượng các đặ c tính c ủa tín hi ệu âm của tín hi ệu âm thanh thanh và ph ươ ng th ức s ử d ụng để phân lo ại. Các đặc tính c ủa tín hi ệu âm thanh th ường Công th ức c ủa HZCRR nh ư sau: được chia làm hai lo ại chính là: các đặc tính 1 N −1 HZCRR = [ sign (ZCR – THL) +1 vật lý và các đặc tính c ảm th ụ âm thanh c ủa ∑ n 2 N n = 0 con ng ười. Trong đó: Đặc tính v ật lý là các đặc tính đặ c tr ưng trong - n là th ứ t ự c ủa c ửa s ổ trích ch ọn đặ c tr ưng mi ền t ần s ố và đặc tr ưng trong mi ền th ời gian nh ư: biên độ, t ần s ố v ượt điểm không ZCR, - N là độ r ộng c ủa c ửa s ổ trích ch ọn đặ c tr ưng năng l ượng ng ắn h ạn, h ệ s ố ph ổ MFCC, c ặp - ZCR là t ần su ất v ượt điểm không trong ph ổ tuy ến tính LSP (Linear Spectrum Pair) kho ảng ng ắn theo công th ức : [6], độ bi ến thiên ph ổ SF. k 1 − Đặc tính v ề c ảm th ụ âm thanh c ủa con ng ười ZCR k = ∑ [sign ( xm ) sign ( xm −1 )] là các đặc tính được con ng ười c ảm nh ận nh ư 2 F m= k − F +1 nh ịp điệu, độ cao c ủa âm (Pitch), độ ngân, âm F: độ dài kho ảng ng ắn - th ường là 1 frame sắc,. C ũng nh ư nhi ều nghiên c ứu tr ước đây, - THL là t ần su ất v ượt điểm không trung để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc bình trong c ửa s ổ theo công th ức: nói riêng hay nh ận d ạng phân bi ệt các l ớp âm N −1 = 1 thanh khác nói chung h ầu nh ư ch ỉ s ử d ụng các THL ∑ [ ZCR n ] đặc tr ưng v ật lý là đủ. B ởi v ậy trong bài báo N n = 0 này, chúng tôi c ũng ch ỉ dùng các đặc tr ưng Đặc tr ưng n ăng l ượng ng ắn h ạn c ủa tín liên quan t ới mi ền t ần s ố và mi ền th ời gian hi ệu - LSTER (đặc tr ưng v ật lý). Công th ức tính LSTER nh ư sau: Dựa trên các phân tích, đánh giá v ề đặ c điểm N −1 = 1 − + của tín hi ệu âm thanh, gi ữa âm nh ạc và ti ếng LSTER ∑ [sign (THL STE n ) ]1 2 N = nói v ề đặ c điểm âm h ọc, d ải t ần, đặ c điểm v ề n 0 90 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 Trong đó: Mahalanobis hay ph ươ ng pháp đo kho ảng - STE là n ăng l ượng trong kho ảng ng ắn cách City Block. (trong 1 frame) theo công th ức: Bài toán: Gi ả s ử ta có m ột không gian đa chi ều (Y , Y ,,Y ) và có m ột t ập h ợp các k 1 2 n = 2 2 khu vực A, B trong đó: STE ∑ ( x .w − ) k m k m - Khu v ực A ta bi ết được s ự t ồn t ại c ủa các m = k − F + 1 đối t ượng X X , X với X ={ Y , W là c ửa s ổ (có th ể là ch ữ nh ật ho ặc A1, A2 An Ai Ai1 Y ,, Y } hamming) Ai2 Ain - Khu v ực B ta ch ỉ bi ết s ự t ồn t ại c ủa các - THL là n ăng lượng trung bình theo công đối t ượng X X , X với X ={ Y , th ức: B1, B2 Bn Bi Bi1 YBi2 ,, Y Bin } 1 N −1 = Có m ột đố i t ượng X i ( Y i1 , Y i2 ,, Y in ) b ất kì THL ∑[STE n ] 2N n=0 ta c ần xác đị nh đố i t ượng X i này thu ộc khu Đặc tr ưng độ bi ến thiên ph ổ - SF vực A hay B. Trong đó: - K là b ậc c ủa ph ổ DFT. - δ là h ằng s ố bé (=0.01) để lo ại tr ường h ợp log(0). - A(n,m) là bi ến đổ i Fourier r ời r ạc(DFT) Hình 3: Mô t ả thu ật toán K-NN theo công th ức: Gi ải thu ật: Trong t ất c ả các đố i t ượng đã xác 2π định rõ khu v ực A và B, ta tìm K đối t ượng ∞ j mi | A = ∑ x() i w ( nL − i). e L | gần v ới X i nh ất, trong K đố i t ượng này s ẽ xác (,n m ) định xem có bao nhiêu đối t ượng thu ộc khu i = −∞ vực A, bao nhiêu đối t ượng thu ộc khu v ực B, khu v ực nào nhi ều đố i t ượng g ần X i hơn thì Xi có kh ả n ăng thu ộc khu v ực đó. Để tính kho ảng cách gi ữa các vect ơ dùng công th ức: D(X,X’)= TH ỰC HI ỆN H Ệ TH ỐNG NH ẬN D ẠNG Hình 2. Bi ểu đồ histogram độ bi ến thiên ph ổ PHÂN BI ỆT TI ẾNG NÓI VỚI ÂM NH ẠC theo không gian 3 chi ều (a): music (b) :speech Hệ th ống có d ạng t ổng quát nh ư hình 4. Thu ật toán KNN Ho ạt độ ng c ủa h ệ th ống g ồm hai quá trình Thu ật toán K-NN [8] là ph ươ ng pháp phân riêng bi ệt: th ứ nh ất là quá trình h ọc (hu ấn lo ại d ựa trên ch ỉ tiêu không gian kho ảng cách. luy ện) và th ứ hai là quá trình nh ận d ạng phân Xác định m ột điểm thu ộc mi ền nào b ằng cách bi ệt v ới tín hi ệu đầ u vào. tính toán d ựa trên kho ảng cách không gian. Quá trình hu ấn luy ện: Tín hi ệu đầ u vào Có nhi ều ph ươ ng pháp để tính kho ảng cách được đưa vào phân tích đặc tr ưng. T ại đây gi ữa các vect ơ nh ư ph ươ ng pháp đo kho ảng chúng được x ử lý, tính toán và l ấy ra giá tr ị cách Euclidean, ph ươ ng pháp đo kho ảng cách các đặc tr ưng c ần trích ch ọn ph ục v ụ cho vi ệc Hamming, ph ươ ng pháp đo kho ảng cách xây d ựng h ệ th ống. Sau đó t ới kh ối hu ấn 91 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 luy ện được x ử lý và l ưu vào c ơ s ở d ữ li ệu Tuy nhiên v ấn đề khi phân khung c ủa tín hi ệu (CSDL) m ẫu. Quá trình hu ấn luy ện dùng đó chính là sai s ố c ủa c ả phép bi ến đổ i so v ới ph ươ ng pháp h ọc có giám sát ngh ĩa là chúng tín hi ệu g ốc, do đó nên s ử d ụng hàm c ửa s ổ ta đã bi ết rõ s ự phân l ớp trên t ập d ữ li ệu m ẫu để h ạn ch ế các sai s ố do độ dài h ữu h ạn c ủa dùng để h ọc, ở đây ch ỉ có hai l ớp: ti ếng nói và các tín hi ệu gây ra trong các phép bi ến đổ i. âm nh ạc. Các đặ c tr ưng m ẫu c ủa t ừng l ớp Hàm c ửa s ổ th ường được dùng là Hamming được trích ch ọn l ưu riêng vào CSDL. được cho b ởi công th ức sau: Π = − 2 n W n 0.54 0.46 * cos( ) N − 1 KẾT QU Ả Cài đặt h ệ th ống Chúng tôi th ực hi ện h ệ th ống nh ận d ạng phân bi ệt v ới tín hi ệu đầ u vào là các file âm thanh chu ẩn d ạng WAVE (*.wav), vi ệc tính toán, xử lý, phân bi ệt đề u thực hi ện d ựa trên file wave này. Nh ư đã phân tích ở trên quá trình hu ấn luy ện g ồm các b ước c ơ b ản sau: Hình 4: Mô hình t ổng quát c ủa h ệ th ống Quá trình nhận d ạng phân bi ệt: Trình t ự th ực hi ện c ũng nh ư trên nh ưng ch ỉ khác là tín hi ệu sau khi được trích ch ọn đặ c tr ưng s ẽ được đưa vào kh ối nh ận d ạng phân bi ệt. T ại kh ối này chúng ta phân tích đánh giá v ới CSDL m ẫu đã được hu ấn luy ện thông qua thu ật toán K-NN. Kết qu ả này sau đó được chuy ển t ới b ộ ra quy ết đị nh để xác đị nh xem Hình 6: Mô hình quá trình hu ấn luy ện tín hi ệu hi ệu đó thu ộc l ớp tín hi ệu nào. Vect ơ Với m ỗi dãy tín hi ệu âm thanh đọ c được, ta đặc tr ưng là vect ơ 3 chi ều vì ta ch ỉ ch ọn 3 đặ c th ực hi ện xác đị nh khung tín hi ệu, tính các tr ưng nh ư đã trình bày ở trên. thông s ố c ơ b ản STE, ZCR, A c ủa dãy tín hi ệu. Phân khung tín hi ệu: Do tín hi ệu ti ếng nói Giao di ện cài đặt c ủa quá trình hu ấn luy ện: ổn đị nh trong kho ảng vài ch ục ms, nên khi ti ến hành các phép phân tích, bi ến đổ i ng ười ta th ường chia tín hi ệu thành có đoạn nh ỏ kho ảng 10 đế n 30ms, đó được g ọi là phân khung, các khung tín hi ệu liên ti ếp có th ể ch ồng nhau kho ảng ½ độ dài. Hình 5: Phân khung tín hi ệu Hình 7: Giao di ện hu ấn luy ện, t ạo d ữ li ệu m ẫu 92 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 - Bên ph ải là đồ th ị c ủa tín hi ệu: t ại khung c ửa khung c ửa s ổ th ứ 4 th ể hi ện đây là ti ếng nói sổ th ứ nh ất là d ạng tín hi ệu âm thanh, ti ếp theo hay âm nh ạc (ti ếng nói có biên độ b ằng 2/3 là n ăng l ượng trong kho ảng ng ắn h ạn và t ần khung còn âm nh ạc có biên độ = 1/3 khung). su ất vượt điểm không c ủa tín hi ệu âm thanh. - Bên trái c ũng là khung điều khi ển m ở, - Bên trái là các điều khi ển: m ở file wave, ch ọn tín hi ệu file wave. Ngoài ra còn có s ự nghe th ử, xác đị nh ti ếng nói hay âm nh ạc, l ưu lựa ch ọn tham s ố K (K là s ố ph ần t ử thu ộc l ớp dữ li ệu. đặc tr ưng m ẫu g ần v ới m ẫu c ần nh ận d ạng Quá trình nh ận d ạng: phân bi ệt nh ất). Đánh giá Ch ươ ng trình th ực hi ện phân bi ệt ti ếng nói và âm nh ạc d ựa trên m ột t ập các tín hi ệu âm thanh m ẫu mà tôi s ưu t ầm có được : t ập h ợp ti ếng nói là ti ếng Việt, t ập h ợp âm nh ạc là các th ể lo ại nh ạc không l ời c ủa m ột s ố tr ường phái âm nh ạc. Tập h ợp ti ếng nói g ồm có 1037 file là các file phát âm các t ừ c ủa ti ếng Việt, m ỗi file có độ Hình 8: Mô hình quá trình nh ận d ạng dài < 1s, có t ần s ố l ấy m ẫu 16000Hz, bit rate là 16bit/m ẫu. Quá trình nh ận d ạng có m ột s ố b ước trùng với quá trình hu ấn luy ện nh ư vi ệc đọ c d ữ Tập h ợp âm nh ạc g ồm có 77 file là các file li ệu file wave, thông s ố c ơ b ản, tính các nh ạc không l ời c ủa các th ể lo ại R&B, Rock, thông s ố đặ c tr ưng. Country. M ỗi file có độ dài < 30s và có cùng t ần s ố l ấy m ẫu 16000Hz, bit rate 16bit/m ẫu. Các file d ữ li ệu m ẫu trên đều là các file âm thanh mono (m ột kênh). Qua th ử nghi ệm, th ống kê tôi th ấy ch ươ ng trình đã th ực hi ện vi ệc phân bi ệt ti ếng nói và âm nh ạc v ới t ỉ l ệ chính xác t ốt v ới các tr ường hợp ti ếng nói và âm nh ạc riêng bi ệt. Sau đây là k ết qu ả thu được khi th ử nghi ệm: Bảng 1: Kết qu ả th ống kê c ơ s ở d ữ li ệu Hình 9 : Giao di ện nh ận d ạng phân bi ệt Âm Ti ếng Tươ ng t ự nh ư giao di ện hu ấn luy ện, giao di ện nh ạc nói nh ận d ạng c ũng có các ph ần: Giá tr ị trung bình c ủa 0.2048 0.14599 - Bên ph ải là đồ thì bi ểu di ễn c ủa tín hi ệu: t ại LSTER khung c ửa s ổ th ứ nh ất là d ạng tín hi ệu c ủa âm Giá tr ị trung bình c ủa thanh, ti ếp theo là n ăng l ượng trong kho ảng 0.3942 0.2632 ng ắn h ạn và t ần su ất v ượt điểm không c ủa tín HZCRR hi ệu âm thanh, tuy nhiên khác v ới giao di ện Giá trị trung bình c ủa SF 0.3885 0.22 hu ấn luy ện, giao di ện nh ận d ạng còn có thêm 93 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 Bảng 2: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố tế ( ứng d ụng t ự độ ng thu th ập thông tin, đánh lượng đầ u vào là ti ếng nói và âm nh ạc với K=3 giá ch ỉ m ục cho d ữ li ệu đa ph ươ ng ti ện. Âm nh ạc Ti ếng nói TÀI LI ỆU THAM KH ẢO Nh ận d ạng là âm 10838432 945553 [1]. David Gerhard, (2000), “Audio Signal nh ạc (92.36%) (15.56%) classification: an overview ” , Canadian Artificical Intelligence, 45:4-6, Winter. Nh ận d ạng là 897324 5131722 ti ếng nói (7,64%) (84.44%) [2]. Peltonen, V., (2001) “Computational Auditory Scene Recognition”. MSc Thesis, 11735756 6077275 Tổng Tampere University. (100%) (100% [3]. Saunders, J., “ Real-Time Discrimi-nation Bảng 3: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố of Broadcast Speech/Music ”, Proc. ICASSP, lượng đầ u vào là ti ếng nói và âm nh ạc với K=5 pp993-996 [4]. Srinivasan, S., (1999), Petkovic, D., Âm nh ạc Ti ếng nói Poncelcon, D, “Toward robust features for Nh ận d ạng là 10878964 974188 classifying audio in the CueVideo System”, Proc âm nh ạc (92.7%) (16.03%) th Nh ận d ạng là 856792 5103087 7 ACM Int, Conf Multimedia, pp. 393-400. ti ếng nói (7,3%) (83.97%) [5]. M.D. Plumbley, S.A Abdallah, J.P. Bello, 11735756 6077275 M.F. Davies, G, Monti , M.B. Sandler (2002), Tổng (100%) (100%) “Automatic music transcription and audio source KẾT LU ẬN separation ”, Cybernetics and System, 33(6):603-627. Trong nghiên c ứu này chúng tôi ch ủ y ếu t ập [6]. Lu, L., Jiang, H., and Zhang, H. J., (2001), trung phân tích đánh giá các đặc điểm v ật lý, “A robust audio classification and Segmentation đặc điểm v ề c ảm th ụ âm thanh c ủa hai tín method ”, in Proc. 9 th ACM Int Conf Multimedia, hi ệu: âm nh ạc và ti ếng nói: sau khi th ử pp 203-211. nghi ệm dùng ba đặc tr ưng HZCRR, LSTER, [7]. Scheier, E., Slaney, M., (1997), SF v ới thu ật toán phân lo ại K-NN chúng tôi “Construction and Evaluation of a Robust th ấy k ết qu ả thu được là khá t ốt. Trong t ươ ng lai, chúng tôi s ẽ ti ếp t ục hoàn thi ện h ệ th ống Multifeature Speech/Music Discrimination”. Proc. sao cho có được m ột h ệ th ống hoàn ch ỉnh để ICASSP, pp1331-1334. có th ể th ực hi ện t ự độ ng nh ận d ạng phân bi ệt [8]. S. Theodoridis, K. Kontroumbas (1999), ti ếng nói v ới âm nh ạc đem áp d ụng vào th ực “Pattern Recognition ”, Academic Press. 94 Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95 SUMMARY RESEARCH INTO METHOD OF DISCRIMINATION BETWEEN SPEECH AND MUSIC Do Thi Loan *, Luu Thi Lieu, Nguyen Thi Hien College of Information Communication and Technology – TNU Automatic discrimination of speech and music is an important tool in many multimedia applications. For the discrimination of speech and music we have used three characteristics: HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and speech segments of male and female voices for Vietnamese. In the article the major objective of our research is to discriminate two audio signals: speech and music. We have got results with rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to develop the system to classify more classes of audio signal. Key words : Discrimination, speech, music, Vietnamese music, Vietnamese Ph ản bi ện khoa h ọc: TS. Ph ạm Đứ c Long – Tr ường Đạ i h ọc CNTT & TT – ĐH Thái Nguyên * Tel: 0972998865; Email:dtloan@ictu.edu.vn
File đính kèm:
- nghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf