Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
TÓM TẮT
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.
Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việ

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7
Tóm tắt nội dung tài liệu: Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
NGHIÊN C ỨU PH ƯƠ NG PHÁP NH ẬN D ẠNG PHÂN BI ỆT
TI ẾNG NÓI V ỚI ÂM NH ẠC
Đỗ Th ị Loan, L ưu Th ị Li ễu, Nguy ễn Th ị Hi ền
Tr ường Đạ i h ọc Công ngh ệ thông tin và Truy ền thông – ĐH Thái Nguyên
TÓM T ẮT
Tự độ ng nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là công c ụ quan tr ọng trong nhi ều ứng d ụng đa
ph ươ ng ti ện. Để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc, chúng tôi đã s ử d ụng ba đặ c tr ưng: t ần
su ất v ượt điểm không cao (HZCRR), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn th ấp (LSTER), độ bi ến
thiên ph ổ (SF) và thu ật toán s ử d ụng để hu ấn luy ện c ũng nh ư nh ận d ạng là K-NN (K Nearest
Neighbor). D ữ li ệu là các đoạn nh ạc g ồm nhi ều th ể lo ại t ừ nh ạc không l ời t ới nh ạc có l ời (nh ạc
Vi ệt Nam, nh ạc Rock, nh ạc Pop, Đồng quê), các đoạn ti ếng nói c ủa gi ọng nam và n ữ b ằng ti ếng
Vi ệt. Trong bài báo này m ục đích nghiên c ứu ban đầ u c ủa chúng tôi ch ủ y ếu là nh ận d ạng phân
bi ệt hai lo ại âm thanh: ti ếng nói và âm nh ạc v ới k ết qu ả thu được có độ chính xác khá cao, v ới
tiếng nói có độ chính xác x ấp x ỉ 84%, âm nh ạc là 92%. Trong t ươ ng lai chúng tôi mong mu ốn phát
tri ển h ệ th ống có kh ả n ăng nh ận d ạng phân bi ệt nhi ều l ớp âm thanh h ơn.
Từ khóa : Phân bi ệt, ti ếng nói, âm nh ạc, nh ạc Vi ệt Nam, ti ếng Vi ệt.
GI ỚI THI ỆU* tra tín hi ệu âm thanh trong kho ảng th ời gian
Nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc là đủ ng ắn (gi ữa 5 và 100msec), ta có th ể nh ận
một ph ần trong h ệ th ống phân lo ại âm thanh th ấy đặ c điểm c ủa nó là khá c ụ th ể. Tuy nhiên
ASC (Audio Signal Classifier) [1] hay trong trong th ời gian dài, các đặc tính c ủa tín hi ệu
hệ th ống nh ận d ạng các khung c ảnh âm thanh thay đổi để ph ản ánh đặ c điểm c ủa chu ỗi tín
CASR (Computeral Audio Scence hi ệu nh ư m ột bài phát bi ểu hay m ột đoạn
Recognizer) [2], nh ận d ạng các ch ươ ng trình nh ạc. Trong ph ần này, chúng tôi đư a ra m ột
trên ti vi [3], [4], hay h ệ th ống phiên d ịch n ốt số nh ận đị nh v ề s ự khác bi ệt gi ữa ti ếng nói và
nh ạc AMTS [5]. Để xây d ựng m ột h ệ th ống âm nh ạc nh ư sau:
hoàn ch ỉnh thì r ất khó kh ăn vì âm thanh r ất - Thanh điệu: Giai điệu có ý ngh ĩa s ự bi ểu
phong phú, đa d ạng và m ỗi lo ại có nh ững đặ c th ị c ủa d ạng sóng âm thanh. Âm nh ạc có xu
tr ưng riêng, s ự k ết h ợp gi ữa chúng t ạo nên vô hướng được t ạo ra t ừ s ự đa d ạng c ủa các t ần
vàn các d ạng âm thanh khác nhau, điều này số. Còn ti ếng nói có giai điệu t ừ chính s ắc
ảnh h ưởng l ớn đế n vi ệc phân lo ại các khung điệu và gi ọng nói c ủa ng ười nói.
cảnh âm thanh. H ầu h ết các nghiên c ứu nh ận - Chu ỗi thay th ế: Ti ếng nói cho ta m ột chu ỗi
dạng phân bi ệt các l ớp âm thanh đề u c ăn c ứ các ti ếng ồn, kho ảng l ặng xem k ẽ t ừng đoạn
theo t ừng tr ường h ợp mà b ạn đưa v ề s ố l ớp, trong khi âm nh ạc không có. Nói cách khác,
và m ột vài điều ki ện ràng bu ộc khác. Ch ẳng lời nói có tín hi ệu phân ph ối thông qua quang
hạn phân lo ại âm thanh thành b ốn l ớp: âm ph ổ ng ẫu nhiên h ơn so v ới âm nh ạc.
nh ạc, ti ếng nói, nhi ễu, kho ảng l ặng [4], [6] - Băng thông: Ti ếng nói th ường có 90%
ho ặc ch ỉ phân thành ti ếng nói và âm nh ạc năng l ượng t ập trung ở t ần s ố th ấp h ơn 4kHz
không thôi [3], [7]. (và h ạn ch ế đế n 8kHz), trong khi âm nh ạc có
SỰ KHÁC NHAU GI ỮA TI ẾNG NÓI VÀ th ể m ở r ộng thông qua các gi ới h ạn trên
ÂM NH ẠC kho ảng 20kHz.
- Phân ph ối: N ăng l ượng c ủa ti ếng nói
Các tín hi ệu âm thanh là m ột tín hi ệu có ý
th ường t ập trung ở t ần s ố th ấp sau đó gi ảm r ất
ngh ĩa trong kho ảng th ời gian ng ắn. Khi ki ểm
nhanh trong các mi ền t ần s ố cao h ơn. Còn tín
hi ệu âm nh ạc thì tr ải đề u h ơn.
* Tel: 0972998865; Email:dtloan@ictu.edu.vn
89
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
- Tần s ố c ơ b ản: v ới ti ếng nói c ụ th ể, ta có phân b ố n ăng l ượng, chúng tôi đã l ựa ch ọn ba
th ể xác đị nh được t ần s ố c ơ b ản nh ưng v ới âm đặc tr ưng: T ỷ l ệ t ần su ất v ượt qua điểm không
nh ạc thì không. cao HZCRR (Hight Zero Crossing Rate
- Kho ảng âm điệu: Th ời h ạn c ủa nguyên âm Ratio), t ỷ l ệ khung có n ăng l ượng ng ắn h ạn
trong ti ếng nói là r ất th ường xuyên. Âm nh ạc th ấp LSTER (Low Short Time Energy Ratio)
th ể hi ện m ột bi ến th ể r ộng l ớn h ơn chi ều dài và độ bi ến thiên ph ổ SF (Spectrum Flux). Còn
của giai điệu, không được h ạn ch ế do quá ph ươ ng pháp nh ận d ạng phân bi ệt chúng tôi
trình phát âm nh ạc. sử d ụng là thu ật toán K láng giêng g ần nh ất
- Năng l ượng ng ắn h ạn: N ăng l ượng c ủa tín K-NN (K Nearest Neighbor) [8].
hi ệu ti ếng nói có s ự bi ến thiên nhi ều h ơn so Lựa ch ọn đặ c tr ưng
với tín hi ệu âm nh ạc.
Đặc tr ưng t ần su ất v ượt qua điểm không cao
- Tỷ l ệ v ượt điểm không: Tùy thu ộc vào tín
- HZCRR
hiệu âm nh ạc và ti ếng nói nh ưng thông
th ường t ỷ l ệ v ượt điểm không c ủa tín hi ệu
ti ếng nói s ẽ l ớn h ơn tín hi ệu âm nh ạc.
LỰA CH ỌN ĐẶ C TR ƯNG VÀ PH ƯƠ NG
PHÁP NH ẬN D ẠNG PHÂN BI ỆT TI ẾNG
NÓI V ỚI ÂM NH ẠC
Cho t ới nay có khá nhi ều đặ c tính c ủa tín hi ệu
âm thanh để nh ận d ạng, phân bi ệt ti ếng nói và
âm nh ạc hay các h ệ th ống nh ận d ạng phân
lo ại khác nhau. M ỗi nghiên c ứu đề u đưa ra Hình 1 : Bi ểu đồ t ần su ất v ượt điểm không
một s ố l ượng các đặ c tính c ủa tín hi ệu âm của tín hi ệu âm thanh
thanh và ph ươ ng th ức s ử d ụng để phân lo ại.
Các đặc tính c ủa tín hi ệu âm thanh th ường Công th ức c ủa HZCRR nh ư sau:
được chia làm hai lo ại chính là: các đặc tính 1 N −1
HZCRR = [ sign (ZCR – THL) +1
vật lý và các đặc tính c ảm th ụ âm thanh c ủa ∑ n
2 N n = 0
con ng ười. Trong đó:
Đặc tính v ật lý là các đặc tính đặ c tr ưng trong
- n là th ứ t ự c ủa c ửa s ổ trích ch ọn đặ c tr ưng
mi ền t ần s ố và đặc tr ưng trong mi ền th ời gian
nh ư: biên độ, t ần s ố v ượt điểm không ZCR, - N là độ r ộng c ủa c ửa s ổ trích ch ọn đặ c tr ưng
năng l ượng ng ắn h ạn, h ệ s ố ph ổ MFCC, c ặp - ZCR là t ần su ất v ượt điểm không trong
ph ổ tuy ến tính LSP (Linear Spectrum Pair) kho ảng ng ắn theo công th ức :
[6], độ bi ến thiên ph ổ SF. k
1 −
Đặc tính v ề c ảm th ụ âm thanh c ủa con ng ười ZCR k = ∑ [sign ( xm ) sign ( xm −1 )]
là các đặc tính được con ng ười c ảm nh ận nh ư 2 F m= k − F +1
nh ịp điệu, độ cao c ủa âm (Pitch), độ ngân, âm F: độ dài kho ảng ng ắn - th ường là 1 frame
sắc,. C ũng nh ư nhi ều nghiên c ứu tr ước đây, - THL là t ần su ất v ượt điểm không trung
để nh ận d ạng phân bi ệt ti ếng nói v ới âm nh ạc bình trong c ửa s ổ theo công th ức:
nói riêng hay nh ận d ạng phân bi ệt các l ớp âm N −1
= 1
thanh khác nói chung h ầu nh ư ch ỉ s ử d ụng các THL ∑ [ ZCR n ]
đặc tr ưng v ật lý là đủ. B ởi v ậy trong bài báo N n = 0
này, chúng tôi c ũng ch ỉ dùng các đặc tr ưng Đặc tr ưng n ăng l ượng ng ắn h ạn c ủa tín
liên quan t ới mi ền t ần s ố và mi ền th ời gian hi ệu - LSTER
(đặc tr ưng v ật lý). Công th ức tính LSTER nh ư sau:
Dựa trên các phân tích, đánh giá v ề đặ c điểm N −1
= 1 − +
của tín hi ệu âm thanh, gi ữa âm nh ạc và ti ếng LSTER ∑ [sign (THL STE n ) ]1
2 N =
nói v ề đặ c điểm âm h ọc, d ải t ần, đặ c điểm v ề n 0
90
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
Trong đó: Mahalanobis hay ph ươ ng pháp đo kho ảng
- STE là n ăng l ượng trong kho ảng ng ắn cách City Block.
(trong 1 frame) theo công th ức: Bài toán: Gi ả s ử ta có m ột không gian đa
chi ều (Y , Y ,,Y ) và có m ột t ập h ợp các
k 1 2 n
= 2 2 khu vực A, B trong đó:
STE ∑ ( x .w − )
k m k m - Khu v ực A ta bi ết được s ự t ồn t ại c ủa các
m = k − F + 1
đối t ượng X X , X với X ={ Y ,
W là c ửa s ổ (có th ể là ch ữ nh ật ho ặc A1, A2 An Ai Ai1
Y ,, Y }
hamming) Ai2 Ain
- Khu v ực B ta ch ỉ bi ết s ự t ồn t ại c ủa các
- THL là n ăng lượng trung bình theo công
đối t ượng X X , X với X ={ Y ,
th ức: B1, B2 Bn Bi Bi1
YBi2 ,, Y Bin }
1 N −1
= Có m ột đố i t ượng X i ( Y i1 , Y i2 ,, Y in ) b ất kì
THL ∑[STE n ]
2N n=0 ta c ần xác đị nh đố i t ượng X i này thu ộc khu
Đặc tr ưng độ bi ến thiên ph ổ - SF vực A hay B.
Trong đó:
- K là b ậc c ủa ph ổ DFT.
- δ là h ằng s ố bé (=0.01) để lo ại tr ường h ợp
log(0).
- A(n,m) là bi ến đổ i Fourier r ời r ạc(DFT) Hình 3: Mô t ả thu ật toán K-NN
theo công th ức: Gi ải thu ật: Trong t ất c ả các đố i t ượng đã xác
2π định rõ khu v ực A và B, ta tìm K đối t ượng
∞ j mi
| A = ∑ x() i w ( nL − i). e L | gần v ới X i nh ất, trong K đố i t ượng này s ẽ xác
(,n m ) định xem có bao nhiêu đối t ượng thu ộc khu
i = −∞
vực A, bao nhiêu đối t ượng thu ộc khu v ực B,
khu v ực nào nhi ều đố i t ượng g ần X i hơn thì
Xi có kh ả n ăng thu ộc khu v ực đó.
Để tính kho ảng cách gi ữa các vect ơ dùng
công th ức:
D(X,X’)=
TH ỰC HI ỆN H Ệ TH ỐNG NH ẬN D ẠNG
Hình 2. Bi ểu đồ histogram độ bi ến thiên ph ổ PHÂN BI ỆT TI ẾNG NÓI VỚI ÂM NH ẠC
theo không gian 3 chi ều (a): music (b) :speech Hệ th ống có d ạng t ổng quát nh ư hình 4.
Thu ật toán KNN Ho ạt độ ng c ủa h ệ th ống g ồm hai quá trình
Thu ật toán K-NN [8] là ph ươ ng pháp phân riêng bi ệt: th ứ nh ất là quá trình h ọc (hu ấn
lo ại d ựa trên ch ỉ tiêu không gian kho ảng cách. luy ện) và th ứ hai là quá trình nh ận d ạng phân
Xác định m ột điểm thu ộc mi ền nào b ằng cách bi ệt v ới tín hi ệu đầ u vào.
tính toán d ựa trên kho ảng cách không gian. Quá trình hu ấn luy ện: Tín hi ệu đầ u vào
Có nhi ều ph ươ ng pháp để tính kho ảng cách được đưa vào phân tích đặc tr ưng. T ại đây
gi ữa các vect ơ nh ư ph ươ ng pháp đo kho ảng chúng được x ử lý, tính toán và l ấy ra giá tr ị
cách Euclidean, ph ươ ng pháp đo kho ảng cách các đặc tr ưng c ần trích ch ọn ph ục v ụ cho vi ệc
Hamming, ph ươ ng pháp đo kho ảng cách xây d ựng h ệ th ống. Sau đó t ới kh ối hu ấn
91
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
luy ện được x ử lý và l ưu vào c ơ s ở d ữ li ệu Tuy nhiên v ấn đề khi phân khung c ủa tín hi ệu
(CSDL) m ẫu. Quá trình hu ấn luy ện dùng đó chính là sai s ố c ủa c ả phép bi ến đổ i so v ới
ph ươ ng pháp h ọc có giám sát ngh ĩa là chúng tín hi ệu g ốc, do đó nên s ử d ụng hàm c ửa s ổ
ta đã bi ết rõ s ự phân l ớp trên t ập d ữ li ệu m ẫu để h ạn ch ế các sai s ố do độ dài h ữu h ạn c ủa
dùng để h ọc, ở đây ch ỉ có hai l ớp: ti ếng nói và các tín hi ệu gây ra trong các phép bi ến đổ i.
âm nh ạc. Các đặ c tr ưng m ẫu c ủa t ừng l ớp Hàm c ửa s ổ th ường được dùng là Hamming
được trích ch ọn l ưu riêng vào CSDL. được cho b ởi công th ức sau:
Π
= − 2 n
W n 0.54 0.46 * cos( )
N − 1
KẾT QU Ả
Cài đặt h ệ th ống
Chúng tôi th ực hi ện h ệ th ống nh ận d ạng phân
bi ệt v ới tín hi ệu đầ u vào là các file âm thanh
chu ẩn d ạng WAVE (*.wav), vi ệc tính toán,
xử lý, phân bi ệt đề u thực hi ện d ựa trên file
wave này. Nh ư đã phân tích ở trên quá trình
hu ấn luy ện g ồm các b ước c ơ b ản sau:
Hình 4: Mô hình t ổng quát c ủa h ệ th ống
Quá trình nhận d ạng phân bi ệt: Trình t ự
th ực hi ện c ũng nh ư trên nh ưng ch ỉ khác là tín
hi ệu sau khi được trích ch ọn đặ c tr ưng s ẽ
được đưa vào kh ối nh ận d ạng phân bi ệt. T ại
kh ối này chúng ta phân tích đánh giá v ới
CSDL m ẫu đã được hu ấn luy ện thông qua
thu ật toán K-NN. Kết qu ả này sau đó được
chuy ển t ới b ộ ra quy ết đị nh để xác đị nh xem Hình 6: Mô hình quá trình hu ấn luy ện
tín hi ệu hi ệu đó thu ộc l ớp tín hi ệu nào. Vect ơ Với m ỗi dãy tín hi ệu âm thanh đọ c được, ta
đặc tr ưng là vect ơ 3 chi ều vì ta ch ỉ ch ọn 3 đặ c th ực hi ện xác đị nh khung tín hi ệu, tính các
tr ưng nh ư đã trình bày ở trên. thông s ố c ơ b ản STE, ZCR, A c ủa dãy tín hi ệu.
Phân khung tín hi ệu: Do tín hi ệu ti ếng nói Giao di ện cài đặt c ủa quá trình hu ấn luy ện:
ổn đị nh trong kho ảng vài ch ục ms, nên khi
ti ến hành các phép phân tích, bi ến đổ i ng ười
ta th ường chia tín hi ệu thành có đoạn nh ỏ
kho ảng 10 đế n 30ms, đó được g ọi là phân
khung, các khung tín hi ệu liên ti ếp có th ể
ch ồng nhau kho ảng ½ độ dài.
Hình 5: Phân khung tín hi ệu Hình 7: Giao di ện hu ấn luy ện, t ạo d ữ li ệu m ẫu
92
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
- Bên ph ải là đồ th ị c ủa tín hi ệu: t ại khung c ửa khung c ửa s ổ th ứ 4 th ể hi ện đây là ti ếng nói
sổ th ứ nh ất là d ạng tín hi ệu âm thanh, ti ếp theo hay âm nh ạc (ti ếng nói có biên độ b ằng 2/3
là n ăng l ượng trong kho ảng ng ắn h ạn và t ần khung còn âm nh ạc có biên độ = 1/3 khung).
su ất vượt điểm không c ủa tín hi ệu âm thanh. - Bên trái c ũng là khung điều khi ển m ở,
- Bên trái là các điều khi ển: m ở file wave, ch ọn tín hi ệu file wave. Ngoài ra còn có s ự
nghe th ử, xác đị nh ti ếng nói hay âm nh ạc, l ưu
lựa ch ọn tham s ố K (K là s ố ph ần t ử thu ộc l ớp
dữ li ệu.
đặc tr ưng m ẫu g ần v ới m ẫu c ần nh ận d ạng
Quá trình nh ận d ạng:
phân bi ệt nh ất).
Đánh giá
Ch ươ ng trình th ực hi ện phân bi ệt ti ếng nói và
âm nh ạc d ựa trên m ột t ập các tín hi ệu âm
thanh m ẫu mà tôi s ưu t ầm có được : t ập h ợp
ti ếng nói là ti ếng Việt, t ập h ợp âm nh ạc là các
th ể lo ại nh ạc không l ời c ủa m ột s ố tr ường
phái âm nh ạc.
Tập h ợp ti ếng nói g ồm có 1037 file là các file
phát âm các t ừ c ủa ti ếng Việt, m ỗi file có độ
Hình 8: Mô hình quá trình nh ận d ạng dài < 1s, có t ần s ố l ấy m ẫu 16000Hz, bit rate
là 16bit/m ẫu.
Quá trình nh ận d ạng có m ột s ố b ước trùng
với quá trình hu ấn luy ện nh ư vi ệc đọ c d ữ Tập h ợp âm nh ạc g ồm có 77 file là các file
li ệu file wave, thông s ố c ơ b ản, tính các nh ạc không l ời c ủa các th ể lo ại R&B, Rock,
thông s ố đặ c tr ưng. Country. M ỗi file có độ dài < 30s và có
cùng t ần s ố l ấy m ẫu 16000Hz, bit rate
16bit/m ẫu.
Các file d ữ li ệu m ẫu trên đều là các file âm
thanh mono (m ột kênh).
Qua th ử nghi ệm, th ống kê tôi th ấy ch ươ ng
trình đã th ực hi ện vi ệc phân bi ệt ti ếng nói và
âm nh ạc v ới t ỉ l ệ chính xác t ốt v ới các tr ường
hợp ti ếng nói và âm nh ạc riêng bi ệt.
Sau đây là k ết qu ả thu được khi th ử nghi ệm:
Bảng 1: Kết qu ả th ống kê c ơ s ở d ữ li ệu
Hình 9 : Giao di ện nh ận d ạng phân bi ệt
Âm Ti ếng
Tươ ng t ự nh ư giao di ện hu ấn luy ện, giao di ện nh ạc nói
nh ận d ạng c ũng có các ph ần: Giá tr ị trung bình c ủa
0.2048 0.14599
- Bên ph ải là đồ thì bi ểu di ễn c ủa tín hi ệu: t ại LSTER
khung c ửa s ổ th ứ nh ất là d ạng tín hi ệu c ủa âm
Giá tr ị trung bình c ủa
thanh, ti ếp theo là n ăng l ượng trong kho ảng 0.3942 0.2632
ng ắn h ạn và t ần su ất v ượt điểm không c ủa tín HZCRR
hi ệu âm thanh, tuy nhiên khác v ới giao di ện Giá trị trung bình c ủa SF 0.3885 0.22
hu ấn luy ện, giao di ện nh ận d ạng còn có thêm
93
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
Bảng 2: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố tế ( ứng d ụng t ự độ ng thu th ập thông tin, đánh
lượng đầ u vào là ti ếng nói và âm nh ạc với K=3 giá ch ỉ m ục cho d ữ li ệu đa ph ươ ng ti ện.
Âm nh ạc Ti ếng nói TÀI LI ỆU THAM KH ẢO
Nh ận d ạng là âm 10838432 945553 [1]. David Gerhard, (2000), “Audio Signal
nh ạc (92.36%) (15.56%) classification: an overview ” , Canadian Artificical
Intelligence, 45:4-6, Winter.
Nh ận d ạng là 897324 5131722
ti ếng nói (7,64%) (84.44%) [2]. Peltonen, V., (2001) “Computational
Auditory Scene Recognition”. MSc Thesis,
11735756 6077275
Tổng Tampere University.
(100%) (100%
[3]. Saunders, J., “ Real-Time Discrimi-nation
Bảng 3: Kết qu ả th ống kê nh ận d ạng v ới m ột s ố of Broadcast Speech/Music ”, Proc. ICASSP,
lượng đầ u vào là ti ếng nói và âm nh ạc với K=5 pp993-996
[4]. Srinivasan, S., (1999), Petkovic, D.,
Âm nh ạc Ti ếng nói
Poncelcon, D, “Toward robust features for
Nh ận d ạng là 10878964 974188
classifying audio in the CueVideo System”, Proc
âm nh ạc (92.7%) (16.03%) th
Nh ận d ạng là 856792 5103087 7 ACM Int, Conf Multimedia, pp. 393-400.
ti ếng nói (7,3%) (83.97%) [5]. M.D. Plumbley, S.A Abdallah, J.P. Bello,
11735756 6077275 M.F. Davies, G, Monti , M.B. Sandler (2002),
Tổng
(100%) (100%) “Automatic music transcription and audio source
KẾT LU ẬN separation ”, Cybernetics and System, 33(6):603-627.
Trong nghiên c ứu này chúng tôi ch ủ y ếu t ập [6]. Lu, L., Jiang, H., and Zhang, H. J., (2001),
trung phân tích đánh giá các đặc điểm v ật lý, “A robust audio classification and Segmentation
đặc điểm v ề c ảm th ụ âm thanh c ủa hai tín method ”, in Proc. 9 th ACM Int Conf Multimedia,
hi ệu: âm nh ạc và ti ếng nói: sau khi th ử pp 203-211.
nghi ệm dùng ba đặc tr ưng HZCRR, LSTER, [7]. Scheier, E., Slaney, M., (1997),
SF v ới thu ật toán phân lo ại K-NN chúng tôi
“Construction and Evaluation of a Robust
th ấy k ết qu ả thu được là khá t ốt. Trong t ươ ng
lai, chúng tôi s ẽ ti ếp t ục hoàn thi ện h ệ th ống Multifeature Speech/Music Discrimination”. Proc.
sao cho có được m ột h ệ th ống hoàn ch ỉnh để ICASSP, pp1331-1334.
có th ể th ực hi ện t ự độ ng nh ận d ạng phân bi ệt [8]. S. Theodoridis, K. Kontroumbas (1999),
ti ếng nói v ới âm nh ạc đem áp d ụng vào th ực “Pattern Recognition ”, Academic Press.
94
Đỗ Th ị Loan và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 112(12)/2: 89 - 95
SUMMARY
RESEARCH INTO METHOD OF DISCRIMINATION
BETWEEN SPEECH AND MUSIC
Do Thi Loan *, Luu Thi Lieu, Nguyen Thi Hien
College of Information Communication and Technology – TNU
Automatic discrimination of speech and music is an important tool in many multimedia
applications. For the discrimination of speech and music we have used three characteristics:
HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum
Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical
segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and
speech segments of male and female voices for Vietnamese. In the article the major objective of
our research is to discriminate two audio signals: speech and music. We have got results with
rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to
develop the system to classify more classes of audio signal.
Key words : Discrimination, speech, music, Vietnamese music, Vietnamese
Ph ản bi ện khoa h ọc: TS. Ph ạm Đứ c Long – Tr ường Đạ i h ọc CNTT & TT – ĐH Thái Nguyên
* Tel: 0972998865; Email:dtloan@ictu.edu.vn
File đính kèm:
nghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf

