Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

TÓM TẮT
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.
Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việ
Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
7 trang baonam 18980
Download
Bạn đang xem tài liệu "Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
NGHIÊN C ỨU PH ƯƠ NG PHÁP NH ẬN D ẠNG PHÂN BI ỆT 
TI ẾNG NÓI V ỚI ÂM NH ẠC 
 Đỗ Th ị Loan, L ưu Th ị Li ễu, Nguy ễn Th ị Hi ền 
 Tr ường Đạ i h ọc Công ngh ệ thông tin và Truy ền thông – ĐH Thái Nguyên 
TÓM T ẮT 
 Tự độ ng nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là công c ụ quan tr ọng trong nhi ều ứng d ụng đa 
 ph ươ ng ti ện. Để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc, chúng tôi đã s ử d ụng ba đặ c tr ưng: t ần 
 su ất v ượt điểm không cao (HZCRR), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn th ấp (LSTER), độ bi ến 
 thiên ph ổ (SF) và thu ật toán s ử d ụng để hu ấn luy ện c ũng nh ư nh ận d ạng là K-NN (K Nearest 
 Neighbor). D ữ li ệu là các đoạn nh ạc g ồm nhi ều th ể lo ại t ừ nh ạc không l ời t ới nh ạc có l ời (nh ạc 
 Vi ệt Nam, nh ạc Rock, nh ạc Pop, Đồng quê), các đoạn ti ếng nói c ủa gi ọng nam và n ữ b ằng ti ếng 
 Vi ệt. Trong bài báo này m ục đích nghiên c ứu ban đầ u c ủa chúng tôi ch ủ y ếu là nh ận d ạng phân 
 bi ệt hai lo ại âm thanh: ti ếng nói và âm nh ạc v ới k ết qu ả thu được có độ chính xác khá cao, v ới 
 tiếng nói có độ chính xác x ấp x ỉ 84%, âm nh ạc là 92%. Trong t ươ ng lai chúng tôi mong mu ốn phát 
 tri ển h ệ th ống có kh ả n ăng nh ận d ạng phân bi ệt nhi ều l ớp âm thanh h ơn. 
 Từ khóa : Phân bi ệt, ti ếng nói, âm nh ạc, nh ạc Vi ệt Nam, ti ếng Vi ệt. 
GI ỚI THI ỆU* tra tín hi ệu âm thanh trong kho ảng th ời gian 
Nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là đủ ng ắn (gi ữa 5 và 100msec), ta có th ể nh ận 
một ph ần trong h ệ th ống phân lo ại âm thanh th ấy đặ c điểm c ủa nó là khá c ụ th ể. Tuy nhiên 
ASC (Audio Signal Classifier) [1] hay trong trong th ời gian dài, các đặc tính c ủa tín hi ệu 
hệ th ống nh ận d ạng các khung c ảnh âm thanh thay đổi để ph ản ánh đặ c điểm c ủa chu ỗi tín 
CASR (Computeral Audio Scence hi ệu nh ư m ột bài phát bi ểu hay m ột đoạn 
Recognizer) [2], nh ận d ạng các ch ươ ng trình nh ạc. Trong ph ần này, chúng tôi đư a ra m ột 
trên ti vi [3], [4], hay h ệ th ống phiên d ịch n ốt số nh ận đị nh v ề s ự khác bi ệt gi ữa ti ếng nói và 
nh ạc AMTS [5]. Để xây d ựng m ột h ệ th ống âm nh ạc nh ư sau: 
hoàn ch ỉnh thì r ất khó kh ăn vì âm thanh r ất - Thanh điệu: Giai điệu có ý ngh ĩa s ự bi ểu 
phong phú, đa d ạng và m ỗi lo ại có nh ững đặ c th ị c ủa d ạng sóng âm thanh. Âm nh ạc có xu 
tr ưng riêng, s ự k ết h ợp gi ữa chúng t ạo nên vô hướng được t ạo ra t ừ s ự đa d ạng c ủa các t ần 
vàn các d ạng âm thanh khác nhau, điều này số. Còn ti ếng nói có giai điệu t ừ chính s ắc 
ảnh h ưởng l ớn đế n vi ệc phân lo ại các khung điệu và gi ọng nói c ủa ng ười nói. 
cảnh âm thanh. H ầu h ết các nghiên c ứu nh ận - Chu ỗi thay th ế: Ti ếng nói cho ta m ột chu ỗi 
dạng phân bi ệt các l ớp âm thanh đề u c ăn c ứ các ti ếng ồn, kho ảng l ặng xem k ẽ t ừng đoạn 
theo t ừng tr ường h ợp mà b ạn đưa v ề s ố l ớp, trong khi âm nh ạc không có. Nói cách khác, 
và m ột vài điều ki ện ràng bu ộc khác. Ch ẳng lời nói có tín hi ệu phân ph ối thông qua quang 
hạn phân lo ại âm thanh thành b ốn l ớp: âm ph ổ ng ẫu nhiên h ơn so v ới âm nh ạc. 
nh ạc, ti ếng nói, nhi ễu, kho ảng l ặng [4], [6] - Băng thông: Ti ếng nói th ường có 90% 
ho ặc ch ỉ phân thành ti ếng nói và âm nh ạc năng l ượng t ập trung ở t ần s ố th ấp h ơn 4kHz 
không thôi [3], [7]. (và h ạn ch ế đế n 8kHz), trong khi âm nh ạc có 
SỰ KHÁC NHAU GI ỮA TI ẾNG NÓI VÀ th ể m ở r ộng thông qua các gi ới h ạn trên 
ÂM NH ẠC kho ảng 20kHz. 
 - Phân ph ối: N ăng l ượng c ủa ti ếng nói 
Các tín hi ệu âm thanh là m ột tín hi ệu có ý 
 th ường t ập trung ở t ần s ố th ấp sau đó gi ảm r ất 
ngh ĩa trong kho ảng th ời gian ng ắn. Khi ki ểm 
 nhanh trong các mi ền t ần s ố cao h ơn. Còn tín 
 hi ệu âm nh ạc thì tr ải đề u h ơn. 
* Tel: 0972998865; Email:dtloan@ictu.edu.vn 
 89 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
- Tần s ố c ơ b ản: v ới ti ếng nói c ụ th ể, ta có phân b ố n ăng l ượng, chúng tôi đã l ựa ch ọn ba 
th ể xác đị nh được t ần s ố c ơ b ản nh ưng v ới âm đặc tr ưng: T ỷ l ệ t ần su ất v ượt qua điểm không 
nh ạc thì không. cao HZCRR (Hight Zero Crossing Rate 
- Kho ảng âm điệu: Th ời h ạn c ủa nguyên âm Ratio), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn 
trong ti ếng nói là r ất th ường xuyên. Âm nh ạc th ấp LSTER (Low Short Time Energy Ratio) 
th ể hi ện m ột bi ến th ể r ộng l ớn h ơn chi ều dài và độ bi ến thiên ph ổ SF (Spectrum Flux). Còn 
của giai điệu, không được h ạn ch ế do quá ph ươ ng pháp nh ận d ạng phân bi ệt chúng tôi 
trình phát âm nh ạc. sử d ụng là thu ật toán K láng giêng g ần nh ất 
- Năng l ượng ng ắn h ạn: N ăng l ượng c ủa tín K-NN (K Nearest Neighbor) [8]. 
hi ệu ti ếng nói có s ự bi ến thiên nhi ều h ơn so Lựa ch ọn đặ c tr ưng 
với tín hi ệu âm nh ạc. 
 Đặc tr ưng t ần su ất v ượt qua điểm không cao 
- Tỷ l ệ v ượt điểm không: Tùy thu ộc vào tín 
 - HZCRR 
hiệu âm nh ạc và ti ếng nói nh ưng thông 
th ường t ỷ l ệ v ượt điểm không c ủa tín hi ệu 
ti ếng nói s ẽ l ớn h ơn tín hi ệu âm nh ạc. 
LỰA CH ỌN ĐẶ C TR ƯNG VÀ PH ƯƠ NG 
PHÁP NH ẬN D ẠNG PHÂN BI ỆT TI ẾNG 
NÓI V ỚI ÂM NH ẠC 
Cho t ới nay có khá nhi ều đặ c tính c ủa tín hi ệu 
âm thanh để nh ận d ạng, phân bi ệt ti ếng nói và 
âm nh ạc hay các h ệ th ống nh ận d ạng phân 
lo ại khác nhau. M ỗi nghiên c ứu đề u đưa ra Hình 1 : Bi ểu đồ t ần su ất v ượt điểm không 
một s ố l ượng các đặ c tính c ủa tín hi ệu âm của tín hi ệu âm thanh 
thanh và ph ươ ng th ức s ử d ụng để phân lo ại. 
Các đặc tính c ủa tín hi ệu âm thanh th ường Công th ức c ủa HZCRR nh ư sau: 
được chia làm hai lo ại chính là: các đặc tính 1 N −1
 HZCRR = [ sign (ZCR – THL) +1 
vật lý và các đặc tính c ảm th ụ âm thanh c ủa ∑ n
 2 N n = 0 
con ng ười. Trong đó: 
Đặc tính v ật lý là các đặc tính đặ c tr ưng trong 
 - n là th ứ t ự c ủa c ửa s ổ trích ch ọn đặ c tr ưng 
mi ền t ần s ố và đặc tr ưng trong mi ền th ời gian 
nh ư: biên độ, t ần s ố v ượt điểm không ZCR, - N là độ r ộng c ủa c ửa s ổ trích ch ọn đặ c tr ưng 
năng l ượng ng ắn h ạn, h ệ s ố ph ổ MFCC, c ặp - ZCR là t ần su ất v ượt điểm không trong 
ph ổ tuy ến tính LSP (Linear Spectrum Pair) kho ảng ng ắn theo công th ức : 
[6], độ bi ến thiên ph ổ SF. k
 1 −
Đặc tính v ề c ảm th ụ âm thanh c ủa con ng ười ZCR k = ∑ [sign ( xm ) sign ( xm −1 )]
là các đặc tính được con ng ười c ảm nh ận nh ư 2 F m= k − F +1 
nh ịp điệu, độ cao c ủa âm (Pitch), độ ngân, âm F: độ dài kho ảng ng ắn - th ường là 1 frame 
sắc,. C ũng nh ư nhi ều nghiên c ứu tr ước đây, - THL là t ần su ất v ượt điểm không trung 
để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc bình trong c ửa s ổ theo công th ức: 
nói riêng hay nh ận d ạng phân bi ệt các l ớp âm N −1
 = 1
thanh khác nói chung h ầu nh ư ch ỉ s ử d ụng các THL ∑ [ ZCR n ]
đặc tr ưng v ật lý là đủ. B ởi v ậy trong bài báo N n = 0 
này, chúng tôi c ũng ch ỉ dùng các đặc tr ưng Đặc tr ưng n ăng l ượng ng ắn h ạn c ủa tín 
liên quan t ới mi ền t ần s ố và mi ền th ời gian hi ệu - LSTER 
(đặc tr ưng v ật lý). Công th ức tính LSTER nh ư sau: 
Dựa trên các phân tích, đánh giá v ề đặ c điểm N −1
 = 1 − +
của tín hi ệu âm thanh, gi ữa âm nh ạc và ti ếng LSTER ∑ [sign (THL STE n ) ]1
 2 N =
nói v ề đặ c điểm âm h ọc, d ải t ần, đặ c điểm v ề n 0 
90 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
Trong đó: Mahalanobis hay ph ươ ng pháp đo kho ảng 
- STE là n ăng l ượng trong kho ảng ng ắn cách City Block. 
(trong 1 frame) theo công th ức: Bài toán: Gi ả s ử ta có m ột không gian đa 
 chi ều (Y , Y ,,Y ) và có m ột t ập h ợp các 
 k 1 2 n
 = 2 2 khu vực A, B trong đó: 
 STE ∑ ( x .w − )
 k m k m - Khu v ực A ta bi ết được s ự t ồn t ại c ủa các 
 m = k − F + 1 
 đối t ượng X X ,  X với X ={ Y , 
W là c ửa s ổ (có th ể là ch ữ nh ật ho ặc A1, A2 An Ai Ai1
 Y ,, Y } 
hamming) Ai2 Ain
 - Khu v ực B ta ch ỉ bi ết s ự t ồn t ại c ủa các 
- THL là n ăng lượng trung bình theo công 
 đối t ượng X X ,  X với X ={ Y , 
th ức: B1, B2 Bn Bi Bi1
 YBi2 ,, Y Bin } 
 1 N −1
 = Có m ột đố i t ượng X i ( Y i1 , Y i2 ,, Y in ) b ất kì 
 THL ∑[STE n ]
 2N n=0 ta c ần xác đị nh đố i t ượng X i này thu ộc khu 
Đặc tr ưng độ bi ến thiên ph ổ - SF vực A hay B. 
Trong đó: 
- K là b ậc c ủa ph ổ DFT. 
- δ là h ằng s ố bé (=0.01) để lo ại tr ường h ợp 
log(0). 
- A(n,m) là bi ến đổ i Fourier r ời r ạc(DFT) Hình 3: Mô t ả thu ật toán K-NN 
theo công th ức: Gi ải thu ật: Trong t ất c ả các đố i t ượng đã xác 
 2π định rõ khu v ực A và B, ta tìm K đối t ượng 
 ∞ j mi
| A = ∑ x() i w ( nL − i). e L | gần v ới X i nh ất, trong K đố i t ượng này s ẽ xác 
 (,n m ) định xem có bao nhiêu đối t ượng thu ộc khu 
 i = −∞ 
 vực A, bao nhiêu đối t ượng thu ộc khu v ực B, 
 khu v ực nào nhi ều đố i t ượng g ần X i hơn thì 
 Xi có kh ả n ăng thu ộc khu v ực đó. 
 Để tính kho ảng cách gi ữa các vect ơ dùng 
 công th ức: 
 D(X,X’)= 
 TH ỰC HI ỆN H Ệ TH ỐNG NH ẬN D ẠNG 
 Hình 2. Bi ểu đồ histogram độ bi ến thiên ph ổ PHÂN BI ỆT TI ẾNG NÓI VỚI ÂM NH ẠC 
 theo không gian 3 chi ều (a): music (b) :speech Hệ th ống có d ạng t ổng quát nh ư hình 4. 
Thu ật toán KNN Ho ạt độ ng c ủa h ệ th ống g ồm hai quá trình 
Thu ật toán K-NN [8] là ph ươ ng pháp phân riêng bi ệt: th ứ nh ất là quá trình h ọc (hu ấn 
lo ại d ựa trên ch ỉ tiêu không gian kho ảng cách. luy ện) và th ứ hai là quá trình nh ận d ạng phân 
Xác định m ột điểm thu ộc mi ền nào b ằng cách bi ệt v ới tín hi ệu đầ u vào. 
tính toán d ựa trên kho ảng cách không gian. Quá trình hu ấn luy ện: Tín hi ệu đầ u vào 
Có nhi ều ph ươ ng pháp để tính kho ảng cách được đưa vào phân tích đặc tr ưng. T ại đây 
gi ữa các vect ơ nh ư ph ươ ng pháp đo kho ảng chúng được x ử lý, tính toán và l ấy ra giá tr ị 
cách Euclidean, ph ươ ng pháp đo kho ảng cách các đặc tr ưng c ần trích ch ọn ph ục v ụ cho vi ệc 
Hamming, ph ươ ng pháp đo kho ảng cách xây d ựng h ệ th ống. Sau đó t ới kh ối hu ấn 
 91 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
luy ện được x ử lý và l ưu vào c ơ s ở d ữ li ệu Tuy nhiên v ấn đề khi phân khung c ủa tín hi ệu 
(CSDL) m ẫu. Quá trình hu ấn luy ện dùng đó chính là sai s ố c ủa c ả phép bi ến đổ i so v ới 
ph ươ ng pháp h ọc có giám sát ngh ĩa là chúng tín hi ệu g ốc, do đó nên s ử d ụng hàm c ửa s ổ 
ta đã bi ết rõ s ự phân l ớp trên t ập d ữ li ệu m ẫu để h ạn ch ế các sai s ố do độ dài h ữu h ạn c ủa 
dùng để h ọc, ở đây ch ỉ có hai l ớp: ti ếng nói và các tín hi ệu gây ra trong các phép bi ến đổ i. 
âm nh ạc. Các đặ c tr ưng m ẫu c ủa t ừng l ớp Hàm c ửa s ổ th ường được dùng là Hamming 
được trích ch ọn l ưu riêng vào CSDL. được cho b ởi công th ức sau: 
 Π
 = − 2 n
 W n 0.54 0.46 * cos( )
 N − 1 
 KẾT QU Ả 
 Cài đặt h ệ th ống 
 Chúng tôi th ực hi ện h ệ th ống nh ận d ạng phân 
 bi ệt v ới tín hi ệu đầ u vào là các file âm thanh 
 chu ẩn d ạng WAVE (*.wav), vi ệc tính toán, 
 xử lý, phân bi ệt đề u thực hi ện d ựa trên file 
 wave này. Nh ư đã phân tích ở trên quá trình 
 hu ấn luy ện g ồm các b ước c ơ b ản sau: 
 Hình 4: Mô hình t ổng quát c ủa h ệ th ống 
Quá trình nhận d ạng phân bi ệt: Trình t ự 
th ực hi ện c ũng nh ư trên nh ưng ch ỉ khác là tín 
hi ệu sau khi được trích ch ọn đặ c tr ưng s ẽ 
được đưa vào kh ối nh ận d ạng phân bi ệt. T ại 
kh ối này chúng ta phân tích đánh giá v ới 
CSDL m ẫu đã được hu ấn luy ện thông qua 
thu ật toán K-NN. Kết qu ả này sau đó được 
chuy ển t ới b ộ ra quy ết đị nh để xác đị nh xem Hình 6: Mô hình quá trình hu ấn luy ện 
tín hi ệu hi ệu đó thu ộc l ớp tín hi ệu nào. Vect ơ Với m ỗi dãy tín hi ệu âm thanh đọ c được, ta 
đặc tr ưng là vect ơ 3 chi ều vì ta ch ỉ ch ọn 3 đặ c th ực hi ện xác đị nh khung tín hi ệu, tính các 
tr ưng nh ư đã trình bày ở trên. thông s ố c ơ b ản STE, ZCR, A c ủa dãy tín hi ệu. 
Phân khung tín hi ệu: Do tín hi ệu ti ếng nói Giao di ện cài đặt c ủa quá trình hu ấn luy ện: 
ổn đị nh trong kho ảng vài ch ục ms, nên khi 
ti ến hành các phép phân tích, bi ến đổ i ng ười 
ta th ường chia tín hi ệu thành có đoạn nh ỏ 
kho ảng 10 đế n 30ms, đó được g ọi là phân 
khung, các khung tín hi ệu liên ti ếp có th ể 
ch ồng nhau kho ảng ½ độ dài. 
 Hình 5: Phân khung tín hi ệu Hình 7: Giao di ện hu ấn luy ện, t ạo d ữ li ệu m ẫu 
92 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
- Bên ph ải là đồ th ị c ủa tín hi ệu: t ại khung c ửa khung c ửa s ổ th ứ 4 th ể hi ện đây là ti ếng nói 
sổ th ứ nh ất là d ạng tín hi ệu âm thanh, ti ếp theo hay âm nh ạc (ti ếng nói có biên độ b ằng 2/3 
là n ăng l ượng trong kho ảng ng ắn h ạn và t ần khung còn âm nh ạc có biên độ = 1/3 khung). 
su ất vượt điểm không c ủa tín hi ệu âm thanh. - Bên trái c ũng là khung điều khi ển m ở, 
- Bên trái là các điều khi ển: m ở file wave, ch ọn tín hi ệu file wave. Ngoài ra còn có s ự 
nghe th ử, xác đị nh ti ếng nói hay âm nh ạc, l ưu 
 lựa ch ọn tham s ố K (K là s ố ph ần t ử thu ộc l ớp 
dữ li ệu. 
 đặc tr ưng m ẫu g ần v ới m ẫu c ần nh ận d ạng 
Quá trình nh ận d ạng: 
 phân bi ệt nh ất). 
 Đánh giá 
 Ch ươ ng trình th ực hi ện phân bi ệt ti ếng nói và 
 âm nh ạc d ựa trên m ột t ập các tín hi ệu âm 
 thanh m ẫu mà tôi s ưu t ầm có được : t ập h ợp 
 ti ếng nói là ti ếng Việt, t ập h ợp âm nh ạc là các 
 th ể lo ại nh ạc không l ời c ủa m ột s ố tr ường 
 phái âm nh ạc. 
 Tập h ợp ti ếng nói g ồm có 1037 file là các file 
 phát âm các t ừ c ủa ti ếng Việt, m ỗi file có độ 
 Hình 8: Mô hình quá trình nh ận d ạng dài < 1s, có t ần s ố l ấy m ẫu 16000Hz, bit rate 
 là 16bit/m ẫu. 
Quá trình nh ận d ạng có m ột s ố b ước trùng 
với quá trình hu ấn luy ện nh ư vi ệc đọ c d ữ Tập h ợp âm nh ạc g ồm có 77 file là các file 
li ệu file wave, thông s ố c ơ b ản, tính các nh ạc không l ời c ủa các th ể lo ại R&B, Rock, 
thông s ố đặ c tr ưng. Country. M ỗi file có độ dài < 30s và có 
 cùng t ần s ố l ấy m ẫu 16000Hz, bit rate 
 16bit/m ẫu. 
 Các file d ữ li ệu m ẫu trên đều là các file âm 
 thanh mono (m ột kênh). 
 Qua th ử nghi ệm, th ống kê tôi th ấy ch ươ ng 
 trình đã th ực hi ện vi ệc phân bi ệt ti ếng nói và 
 âm nh ạc v ới t ỉ l ệ chính xác t ốt v ới các tr ường 
 hợp ti ếng nói và âm nh ạc riêng bi ệt. 
 Sau đây là k ết qu ả thu được khi th ử nghi ệm: 
 Bảng 1: Kết qu ả th ống kê c ơ s ở d ữ li ệu 
 Hình 9 : Giao di ện nh ận d ạng phân bi ệt 
 Âm Ti ếng 
Tươ ng t ự nh ư giao di ện hu ấn luy ện, giao di ện nh ạc nói 
nh ận d ạng c ũng có các ph ần: Giá tr ị trung bình c ủa 
 0.2048 0.14599 
- Bên ph ải là đồ thì bi ểu di ễn c ủa tín hi ệu: t ại LSTER 
khung c ửa s ổ th ứ nh ất là d ạng tín hi ệu c ủa âm 
 Giá tr ị trung bình c ủa 
thanh, ti ếp theo là n ăng l ượng trong kho ảng 0.3942 0.2632 
ng ắn h ạn và t ần su ất v ượt điểm không c ủa tín HZCRR 
hi ệu âm thanh, tuy nhiên khác v ới giao di ện Giá trị trung bình c ủa SF 0.3885 0.22 
hu ấn luy ện, giao di ện nh ận d ạng còn có thêm 
 93 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
 Bảng 2: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố tế ( ứng d ụng t ự độ ng thu th ập thông tin, đánh 
 lượng đầ u vào là ti ếng nói và âm nh ạc với K=3 giá ch ỉ m ục cho d ữ li ệu đa ph ươ ng ti ện. 
 Âm nh ạc Ti ếng nói TÀI LI ỆU THAM KH ẢO 
 Nh ận d ạng là âm 10838432 945553 [1]. David Gerhard, (2000), “Audio Signal 
 nh ạc (92.36%) (15.56%) classification: an overview ” , Canadian Artificical 
 Intelligence, 45:4-6, Winter. 
 Nh ận d ạng là 897324 5131722 
 ti ếng nói (7,64%) (84.44%) [2]. Peltonen, V., (2001) “Computational 
 Auditory Scene Recognition”. MSc Thesis, 
 11735756 6077275 
 Tổng Tampere University. 
 (100%) (100% 
 [3]. Saunders, J., “ Real-Time Discrimi-nation 
 Bảng 3: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố of Broadcast Speech/Music ”, Proc. ICASSP, 
 lượng đầ u vào là ti ếng nói và âm nh ạc với K=5 pp993-996 
 [4]. Srinivasan, S., (1999), Petkovic, D., 
 Âm nh ạc Ti ếng nói 
 Poncelcon, D, “Toward robust features for 
 Nh ận d ạng là 10878964 974188 
 classifying audio in the CueVideo System”, Proc 
 âm nh ạc (92.7%) (16.03%) th
 Nh ận d ạng là 856792 5103087 7 ACM Int, Conf Multimedia, pp. 393-400. 
 ti ếng nói (7,3%) (83.97%) [5]. M.D. Plumbley, S.A Abdallah, J.P. Bello, 
 11735756 6077275 M.F. Davies, G, Monti , M.B. Sandler (2002), 
 Tổng 
 (100%) (100%) “Automatic music transcription and audio source 
KẾT LU ẬN separation ”, Cybernetics and System, 33(6):603-627. 
Trong nghiên c ứu này chúng tôi ch ủ y ếu t ập [6]. Lu, L., Jiang, H., and Zhang, H. J., (2001), 
trung phân tích đánh giá các đặc điểm v ật lý, “A robust audio classification and Segmentation 
đặc điểm v ề c ảm th ụ âm thanh c ủa hai tín method ”, in Proc. 9 th ACM Int Conf Multimedia, 
hi ệu: âm nh ạc và ti ếng nói: sau khi th ử pp 203-211. 
nghi ệm dùng ba đặc tr ưng HZCRR, LSTER, [7]. Scheier, E., Slaney, M., (1997), 
SF v ới thu ật toán phân lo ại K-NN chúng tôi 
 “Construction and Evaluation of a Robust 
th ấy k ết qu ả thu được là khá t ốt. Trong t ươ ng 
lai, chúng tôi s ẽ ti ếp t ục hoàn thi ện h ệ th ống Multifeature Speech/Music Discrimination”. Proc. 
sao cho có được m ột h ệ th ống hoàn ch ỉnh để ICASSP, pp1331-1334. 
có th ể th ực hi ện t ự độ ng nh ận d ạng phân bi ệt [8]. S. Theodoridis, K. Kontroumbas (1999), 
ti ếng nói v ới âm nh ạc đem áp d ụng vào th ực “Pattern Recognition ”, Academic Press. 
94 
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
 SUMMARY 
 RESEARCH INTO METHOD OF DISCRIMINATION 
 BETWEEN SPEECH AND MUSIC 
 Do Thi Loan *, Luu Thi Lieu, Nguyen Thi Hien 
 College of Information Communication and Technology – TNU 
 Automatic discrimination of speech and music is an important tool in many multimedia 
 applications. For the discrimination of speech and music we have used three characteristics: 
 HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum 
 Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical 
 segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and 
 speech segments of male and female voices for Vietnamese. In the article the major objective of 
 our research is to discriminate two audio signals: speech and music. We have got results with 
 rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to 
 develop the system to classify more classes of audio signal. 
 Key words : Discrimination, speech, music, Vietnamese music, Vietnamese 
Ph ản bi ện khoa h ọc: TS. Ph ạm Đứ c Long – Tr ường Đạ i h ọc CNTT & TT – ĐH Thái Nguyên 
* Tel: 0972998865; Email:dtloan@ictu.edu.vn
File đính kèm:
nghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf