Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc

TÓM TẮT— Cùng với sự bùng nổ về công nghệ thông tin và sự gia tăng nhu cầu sưu tập nhạc số của mỗi cá nhân hay tổ chức, việc

phân loại các bản nhạc để dễ dàng quản lý là một nhu cầu tất yếu. Tuy nhiên, do việc sưu tầm từ nhiều nguồn khác nhau nên việc

phân loại chỉ dựa trên thông tin ghi trên tập tin lưu trữ còn gặp nhiều hạn chế. Với một số lượng đồ sộ các bản nhạc thì việc phân

loại các bản nhạc là một thách thức đối với người nghe nhạc và các hệ thống lưu trữ âm nhạc. Điều này làm cho nhu cầu xây dựng

hệ thống phân loại nhạc tự động trở nên cần thiết. Trong bài báo này, chúng tôi đề xuất một hệ thống phân loại nhạc theo thể loại

sử dụng các phương pháp rút trích tập các đặc trưng của tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic

content) và cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại. Trong đó, phép biến đổi wavelet rời rạc để phân

tích tín hiệu audio thành các băng tần con dùng cho việc xác định các đặc trưng về nhịp điệu. Nghiên cứu của chúng tôi thực hiện

minh hoạ trên bốn thể loại Classical, Rock, Jazz và Pop. Nghiên cứu này có thể áp dụng mở rộng đối với các thể loại nhạc khác

hoặc xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc,.

Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

11 trang baonam 15520

Download

Bạn đang xem 10 trang mẫu của tài liệu "Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016
DOI: 10.15625/vap.2016.00064
PHÂN LOẠI NHẠC THEO THỂ LOẠI
DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC
Phan Anh Cang 1, Phan Thượng Cang2
1 Khoa Công Nghệ Thông Tin, Trường Đại học Sư Phạm Kỹ Thuật Vĩnh Long
2 Khoa Công Nghệ Thông Tin, Trường Đại học Cần Thơ
cangpa@vlute.edu.vn, ptcang@cit.ctu.edu.vn
TÓM TẮT— Cùng với sự bùng nổ về công nghệ thông tin và sự gia tăng nhu cầu sưu tập nhạc số của mỗi cá nhân hay tổ chức, việc
phân loại các bản nhạc để dễ dàng quản lý là một nhu cầu tất yếu. Tuy nhiên, do việc sưu tầm từ nhiều nguồn khác nhau nên việc
phân loại chỉ dựa trên thông tin ghi trên tập tin lưu trữ còn gặp nhiều hạn chế. Với một số lượng đồ sộ các bản nhạc thì việc phân
loại các bản nhạc là một thách thức đối với người nghe nhạc và các hệ thống lưu trữ âm nhạc. Điều này làm cho nhu cầu xây dựng
hệ thống phân loại nhạc tự động trở nên cần thiết. Trong bài báo này, chúng tôi đề xuất một hệ thống phân loại nhạc theo thể loại
sử dụng các phương pháp rút trích tập các đặc trưng của tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic
content) và cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại. Trong đó, phép biến đổi wavelet rời rạc để phân
tích tín hiệu audio thành các băng tần con dùng cho việc xác định các đặc trưng về nhịp điệu. Nghiên cứu của chúng tôi thực hiện
minh hoạ trên bốn thể loại Classical, Rock, Jazz và Pop. Nghiên cứu này có thể áp dụng mở rộng đối với các thể loại nhạc khác
hoặc xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc,....
Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio.
I. GIỚI THIỆU
Trong những năm gần đây, cùng với sự phát triển của công nghệ thông tin, số lượng bản nhạc dưới hình thức
dữ liệu audio trong các kho dữ liệu lớn, trên Internet, đang ngày càng gia tăng nhanh chóng. Điều này làm cho việc sở
hữu những bản nhạc trở nên dễ dàng hơn bao giờ hết, kéo theo đó là sự gia tăng nhu cầu sưu tập nhạc số ở mỗi cá nhân
hay tổ chức. Hiện nay, hầu hết các hệ thống lưu trữ nhạc số sắp xếp các bản nhạc theo tên nhạc sĩ hoặc theo tên bài hát
trong khi người nghe nhạc chỉ quan tâm đến các thể loại nhạc. Điều này đã nảy sinh nhu cầu phân loại nhạc tự động
theo thể loại trong các hệ thống lưu trữ nhạc số để cho phép người nghe nhạc có thể tìm kiếm bản nhạc theo yêu cầu.
Tuy nhiên, với số lượng lớn nhạc số sưu tầm được, việc phân loại chúng để dễ dàng quản lý trở thành một thách thức
đối với các hệ thống phân loại nhạc tự động. Điều này là do việc sưu tầm nhạc thực hiện từ nhiều nguồn nên nó có thể
có nhiều thông tin khác nhau cho từng bản nhạc tải về. Bên cạnh đó, người sưu tầm có thể tự nghe lại từng bản nhạc rồi
tự phân loại chúng thay vì chỉ dựa vào các thông tin có sẵn được lưu trữ trên tập tin nhạc. Theo cách này, độ chính xác
về phân loại đối với các bản nhạc sẽ tùy thuộc vào khả năng hiểu biết về âm nhạc của người phân loại. Điều này cho
thấy, việc phân loại các bản nhạc với các phương pháp truyền thống trên còn nhiều hạn chế về độ chính xác và không
khả thi với một số lượng lớn các bản nhạc số. Do đó, các hệ thống phân loại nhạc tự động là rất cần thiết đối với các hệ
thống lưu trữ nhạc số, phát hiện sao chép bản quyền, tìm kiếm thông tin nhạc trên Internet,... bởi vì chúng cung cấp cơ
sở khoa học cho việc phân tích các tín hiệu nhạc dựa vào nội dung.
Nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động trong thời gian gần
đây. Anan et al. đề xuất một tiếp cận phân loại nhạc dựa trên độ đo tương đồng và máy học véctơ hỗ trợ (Support
vector machines - SVM) [1]. Để xác định mức độ tương đồng giữa các tín hiệu audio, phương pháp này biến đổi các
file audio dưới định dạng MIDI thành ba tập dữ liệu dạng chuỗi bao gồm cao độ, nhịp điệu, và nốt nhạc (Pitch string,
Rhythm string and Note string). Tuy nhiên, phương pháp này là không thực tế vì nó đòi hỏi tất cả các file audio dưới
định dạng MIDI và hệ thống phiên âm đa âm là một bài toán khó giải quyết hơn là phân loại. Một số phương pháp khác
phân tích dựa trên hình dạng của tín hiệu audio và ảnh phổ. Costa et al. đã đề xuất cách tiếp cận dựa vào ảnh phổ để
phân loại nhạc [2]. Phương pháp này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng từ ảnh
này. Tuy nhiên, chúng ta rất khó để nhận biết thể loại nhạc một cách chính xác nếu chỉ dựa trên việc xem ảnh phổ này
mà không có sự phân tích dựa trên tiết tấu, cao độ, của âm thanh. Một cách tiếp cận khác cho việc phân loại nhạc
dựa trên việc rút trích và lựa chọn đặc trưng được đề xuất bởi nhiều nghiên cứu được trình bày trong [3], [4]. Trong đó,
Matsui et al. đã sử dụng các đặc trưng hướng được rút trích dựa trên thuật toán SIFT [4]. Đặc trưng này cung cấp các
thông tin về tần số c ... xuất) Tổng
Classical Rock Jazz Pop cộng
Classical C C1 C2 C3 197
Thể loại Rock R1 R R2 R3 74
thực tế Jazz J1 J2 J J3 104
Pop P1 P2 P3 P 93
Trong ma trận này, các giá trị trong ma trận là số lượng tập tin audio trong tập dữ liệu kiểm tra. Các phần tử
trong ma trận được giải thích như sau:
- C, R, J, P: số tiên đoán đúng đối với các file nhạc có nhãn thể loại Classical, Rock, Jazz, Pop tương ứng.
- Ci, Ri, Ji, Pi (i = 1,..,4): số tiên đoán sai đối với các file nhạc được gán nhãn thể loại Classical, Rock, Jazz,
Pop tương ứng.
Như vậy, dòng tương ứng với thể loại thật sự của các file nhạc và cột tương ứng với thể loại tiên đoán của các
file nhạc sau khi hệ thống đề xuất thực hiện phân loại. Số tập tin nhạc được gán nhãn thể loại đúng nằm trên đường
chéo của ma trận (các giá trị in đậm: C, R, J, P). Để đánh giá hiệu quả của phương pháp đề xuất, độ chính xác phân loại
A (Accuracy) được sử dụng và được xác định bởi công thức (14):
C R J P
A(%) 4 x100%
(C R J P) Ci Ri Ji Pi (14)
i 1
V. KẾT QUẢ
Phương pháp của chúng tôi được thực hiện trong môi trường Visual C++ trên máy tính PC 2.27GHz CPU
Core i5 với 3GB Ram để thực hiện cài đặt hệ thống phân loại nhạc theo thể loại. Các kết quả trong nghiên cứu này sẽ
sử dụng hai tập dữ liệu huấn luyện (379 files audio) và kiểm tra (468 files audio) tương ứng với 4 thể loại Classical,
Rock, Jazz, Pop. Các file này được chọn ngẫu nhiên từ bộ sưu tập GTZAN. Để đánh giá độ chính xác phân loại của
phương pháp đề xuất, chúng tôi sử dụng ma trận đánh giá độ chính xác phân loại như Bảng 2.
Việc phân loại nhạc được thực hiện chủ yếu dựa vào 3 tập đặc trưng được rút trích từ tín hiệu audio như sau:
- Tập đặc trưng 1 (ĐT1): 19 đặc trưng về âm sắc.
- Tập đặc trưng 2 (ĐT2): 6 đặc trưng về nhịp điệu.
- Tập đặc trưng 3 (ĐT3): 5 đặc trưng về cao độ.
Chúng tôi kiểm tra trên hệ thống với việc rút trích đặc trưng dựa trên một trong các tập đặc trưng trên hoặc kết
hợp chúng với nhau và sau đó tìm giá trị tham số k (số láng giềng gần nhất) sao cho hệ thống đạt hiệu quả về độ chính
xác phân loại cao nhất. Sau đây là các kết quả thực nghiệm trên hệ thống trong một số trường hợp:
5.1. Phân loại dựa trên 1 hoặc 2 tập đặc trưng
Chúng tôi thực nghiệm trên hệ thống với việc phân loại dựa trên chỉ một hoặc 2 tập đặc trưng. Chúng tôi cũng
kiểm tra trên 1 số giá trị tham số k (k = 3,, 7). Trong đó, với giá trị k = 4, hệ thống cho kết quả phân loại tốt nhất. Vì
vậy, chúng tôi chọn trình bày trong trường hợp này. Sau đây là kết quả đánh giá độ chính xác của việc phân loại.
Bảng 3. Độ chính xác phân loại dựa trên 1 tập đặc trưng với giá trị Bảng 4. Độ chính xác phân loại dựa trên 2 tập đặc trưng với
tham số k = 4 giá trị tham số k = 4
Tập các đặc trưng Tập các đặc trưng
ĐT1 (âm sắc) ĐT2 (nhịp điệu) ĐT3 (cao độ) ĐT1 và ĐT2 ĐT1 và ĐT3 ĐT2 và ĐT3
A (%) 75,2% 63% 59,6% A (%) 79,7% 79,5% 63,5%
Từ kết quả trình bày trong Bảng 3 và Bảng 4, chúng tôi nhận xét: Nếu chúng tôi chỉ sử dụng 1 hoặc 2 tập đặc
trưng thì việc phân loại nhạc theo thể loại từ tín hiệu audio đạt độ chính xác thấp. Kết quả này khó có thể chấp nhận
được. Vì vậy, chúng tôi tiếp tục kiểm tra trên hệ thống mà trong đó sử dụng cả 3 tập đặc trưng 1, 2 và 3 trong việc phân
loại nhạc (tạo nên một vectơ đặc trưng 30 chiều) với mong muốn làm tăng độ chính xác của việc phân loại.
Phan Anh Cang, Phan Thượng Cang 529
5.2. Phân loại dựa trên cả 3 tập đặc trưng
Chúng tôi thực nghiệm trên hệ thống với việc phân loại Bảng 5. Ma trận đánh giá độ chính xác phân loại
dựa trên cả 3 tập đặc trưng: âm sắc, nhịp điệu và cao độ. Từ Bảng 5, dùng cả 3 tập đặc trưng với k = 4
chúng tôi nhận thấy kết quả phân loại của hệ thống dựa trên cả 3 tập Classical Rock Jazz Pop
đặc trưng với giá trị tham số k = 4 như sau: tổng số file audio kiểm Classical 195 2 0 0
tra: 468, số trường hợp hệ thống tiên đoán đúng: 391 (A=83,5%), số Rock 6 58 9 1
trường hợp tiên đoán sai: 77 (16,5%). Jazz 23 10 59 12
Pop 1 4 9 79
Chúng tôi cũng kiểm tra trên 1 số giá trị k khác nhau
(k=3,5,6,7). Hình 8 biểu diễn độ chính xác phân loại sử dụng cả 3
tập đặc trưng với các giá trị k khác nhau, trong đó hệ thống cho kết quả phân loại tốt nhất với k = 4. Nguyên nhân là
với k = 4 hệ thống phân loại nhạc theo thể loại đề xuất đạt độ chính xác là: 83,5%. Với các giá trị khác của k, kết quả
độ chính xác phân loại thấp hơn. Chẳng hạn: k = 3 độ chính xác chỉ đạt 80,3%.
84 83.5
83
82 81.4 81.4
80.8
% 81 80.3
80
79
78
3 4 5 6 7
k
Hình 8. Đồ thị biểu diễn độ chính xác phân loại sử Hình 9. Đồ thị biểu diễn độ chính xác trung bình phân loại nhạc dựa vào
dụng kết hợp cả 3 tập đặc trưng các tập đặc trưng
Từ các kết quả thực nghiệm trên tập dữ liệu kiểm tra biểu diễn trong Hình 9 cho thấy: nếu hệ thống chỉ sử
dụng một trong 3 tập đặc trưng về âm sắc, nhịp điệu hoặc cao độ, thì việc phân loại nhạc theo thể loại từ tín hiệu audio
được thực hiện nhanh hơn (thời gian thực hiện trung bình là 30,7 giây) do số chiều của vectơ đặc trưng nhỏ hơn, nhưng
độ chính xác của việc phân loại sẽ thấp hơn (đạt khoảng 60,2% - 74,6%) so với trường hợp phân loại nhạc dựa trên cả
3 tập đặc trưng này. Tương tự, nếu hệ thống phân loại chỉ dựa trên việc kết hợp 2 tập đặc trưng: âm sắc và nhịp điệu;
âm sắc và cao độ; nhịp điệu và cao độ thì cũng cho kết quả thời gian thực hiện nhanh hơn (trung bình là 63,1giây),
trong khi kết quả độ chính xác của việc phân loại thấp hơn (đạt 64,1% - 79,8%) so với kết quả phân loại trong trường
hợp hệ thống sử dụng kết hợp cả 3 tập đặc trưng với độ chính xác phân loại trung bình 81,5% và thời gian thực hiện
trung bình là 97,4 giây. Vì vậy, việc sử dụng kết hợp cả 3 tập đặc trưng âm sắc, nhịp điệu, cao độ là rất cần thiết đối
với hệ thống phân loại nhạc theo thể loại vì nó cho kết quả phân loại khá chính xác.
Như vậy, phương pháp đề xuất của chúng tôi là kết hợp cả 3 tập đặc trưng âm sắc, nhịp điệu và cao độ trong
việc phân loại nhạc theo thể loại bởi vì hệ thống đưa ra kết quả phân loại với độ chính xác cao (trung bình 81,5%). Kết
quả của phương pháp đề xuất này là tốt hơn so với một số phương pháp đã nghiên cứu trước đây với độ chính xác
trung bình dưới 80%. Chẳng hạn, trong nghiên cứu của Marco Grimaldi et al. [17] sử dụng 182 file nhạc với 7 thể loại
khác nhau để kiểm tra hệ thống cho kết quả độ chính xác phân loại là 52,75% trong trường hợp dùng phép biến đổi
wavelet rời rạc và kỹ thuật phân loại KNN. Phương pháp đề xuất cũng có kết quả tốt hơn so với phương pháp của
Panagakis et al. [18] vì độ chính xác phân loại đạt 78,2%, 77,9% và 75,01% khi rút trích các tập đặc trưng khác nhau từ
cùng bộ sưu tập nhạc GTZAN với bộ phân loại SVM. Mặt khác, kết quả nghiên cứu của chúng tôi cũng có độ chính
xác phân loại cao hơn so với phương pháp đề xuất bởi Tao et al. [19] vì độ chính xác phân loại đạt 78,6% thực hiện
trên cùng tập dữ liệu GTZAN và máy học SVM. Bên cạnh đó, Chathuranga et al. [6] đã đề xuất phương pháp phân loại
nhạc theo thể loại với tiếp cận máy học SVM. Kết quả phân loại đạt độ chính xác thấp hơn phương pháp đề xuất vì nó
chỉ đạt 78% khi thực hiện trên tập dữ liệu GTZAN.
VI. KẾT LUẬN
Một phương pháp phân loại nhạc theo thể loại nhanh và chính xác là rất cần thiết đối với các hệ thống quản lý
một số lượng lớn nhạc số. Tuy nhiên, đây là một công việc không đơn giản vì các thể loại nhạc vẫn còn là một khái
niệm mở, tùy thuộc vào ý kiến chủ quan của con người. Trong nghiên cứu thực nghiệm này, chúng tôi đề xuất sử dụng
các tập đặc trưng được rút trích bởi các công cụ STFT, DWT và bộ phân loại KNN. DWT là một kỹ thuật phân tích tín
hiệu, cung cấp một cách biểu diễn tín hiệu trong miền thời gian và tần số dưới dạng nén làm cho việc tính toán nhanh
và hiệu quả. Nghiên cứu này tập trung vào việc phân loại 4 thể loại nhạc: Classical, Rock, Jazz và Pop bằng cách sử
530 PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC
dụng kết hợp cả 3 tập đặc trưng về âm sắc, nhịp điệu và cao độ tạo nên một vectơ đặc trưng 30 chiều. Tập dữ liệu được
sử dụng trong nghiên cứu này lấy từ bộ sưu tập nhạc GTZAN. Dựa trên các kết quả thực nghiệm, phương pháp đề xuất
của chúng tôi đạt độ chính xác trung bình 81,5%. Kết quả nghiên cứu này cho độ chính xác phân loại cao hơn một số
nghiên cứu trước đó mà chỉ đạt độ chính xác dưới 80%.
Việc phân loại nhạc theo thể loại được thực hiện một cách tự động bằng máy tính và cho kết quả khá chính
xác là hoàn toàn có thể. Nghiên cứu này cung cấp cơ sở khoa học cho phát triển các hệ thống: truy vấn thông tin nhạc
dựa vào nội dung, phát hiện sao chép bản quyền nhạc, tìm các bản nhạc có các đặc trưng gần giống với các đặc trưng
mà người sử dụng mong muốn, phân tích nhạc và lời bài hát, phân loại bản nhạc theo ca sĩ - nhạc sĩ, chú thích tự động
các tập tin nhạc với những mô tả,... Phương pháp đề xuất có thể áp dụng mở rộng trên các thể loại nhạc khác: Opera,
Rap, Blues, Country, Hip Hop, Ngoài ra, nó có thể áp dụng cho việc phân loại nhạc truyền thống của Việt Nam như:
dân ca Bắc bộ, dân ca Nam bộ, Chèo, Bội, Cải lương. Hệ thống đề xuất cũng có thể áp dụng với các bộ phân loại kết
hợp khác như: SVM, Gaussian, mạng Neural, Chúng tôi dự định thực nghiệm hệ thống đề xuất trên một tập dữ liệu
lớn (Big Data); nghiên cứu và sử dụng các đặc trưng mới để có thể trích xuất các thông tin âm nhạc có ý nghĩa từ các
tín hiệu âm thanh. Đó chính là những hướng nghiên cứu của chúng tôi trong thời gian sắp tới.
VII. TÀI LIỆU THAM KHẢO
[1] Anan, Yoko, Hatano, Kohei, Bannai, Hideo, and Takeda, Masayuki, “Music Genre Classification Using Similarity Functions”,
Proceedings of the 12th International Society for Music Information Retrieval Conference (Miami (Florida), USA, pp. 693-698,
2011.
[2] Costa, Y. M. G., Oliveira, L. S., Koericb, A. L., and Gouyon, F., “Music genre recognition using spectrograms”, 18th
International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 1-4, 2011.
[3] Jang, Dalwon, Jin, Minho, and Yoo, Chang Dong, “Music genre classification using novel features and a weighted voting
method”, Proceedings of International Conference on Multimedia and Expo, Hannover, Germany, pp. 1377-1380, 2008.
[4] Matsui, Tomoko, Goto, Masataka, Vert, Jean-Philippe, and Uchiyama, Yuji, “Gradient-based musical feature extraction based
on scale-invariant feature transform". EUSIPCO, IEEE, pp. 724-728, 2011.
[5] Mckay, Cory, Burgoyne, John Ashley, Hockman, Jason, Smith, Jordan B.L., Vigliensoni, Gabriel, and Fujinaga, Ichiro,
“Evaluating the Genre Classification Performance of Lyrical Features Relative to Audio, Symbolic and Cultural Features”,
Proceedings of the 11th International Society for Music Information Retrieval Conference (Utrecht, The Netherlands August 9-
13 2010), pp. 213-218, 2010.
[6] Chathuranga, Dhanith and Jayaratne, Lakshman, “Automatic Music Genre Classification of Audio Signals with Machine
Learning Approaches”, GSTF Journal on Computing (JoC), Vol. 3, No. 2, pp. 1-12, 2013.
[7] Rini Wongso, Diaz D. Santika, “Automatic music genre classification using dual tree complex wavelet transform and support
vector machine”, Journal of Theoretical and Applied Information Technology, Vol. 63, No. 1, pp. 61-68, 2014.
[8] Mallat, S. G., “A Theory for Multiresolution Signal Decomposition: The Wavelet Representation”, IEEE Trans. Pattern Anal.
Mach. Intell., Vol. 11, pp. 674-693, 1989.
[9] Daubechies, Ingrid, “Orthonormal bases of compactly supported wavelets”, Journal of Communications on Pure and Applied
Mathematics, Vol. 41, No. 7, pp. 909-996, 1988.
[10] Altman, N. S., “An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression”, the American Statistician, Vol.
46, No. 3, pp. 175-185, 1992.
[11] Theodoridis, Sergios and Koutroumbas, Konstantinos, “Pattern Recognition”, Third Edition, Academic Press, Inc., Orlando,
FL, USA, 2006.
[12] Logan, Beth. “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceedings of the 1st International Conference on
Music Information Retrieval (Plymouth (Massachusetts), USA October 23, 2000.
[13] Li, Tao and Tzanetakis, G. , “Factors in automatic musical genre classification of audio signals”, Applications of Signal
Processing to Audio and Acoustics, IEEE Workshop, pp. 143-146, 2003.
[14] Cataltepe, Zehra, Yaslan, Yusuf, and Sonmez, Abdullah, “Music Genre Classification Using MIDI and Audio Features”,
EURASIP Journal on Advances in Signal Processing, Vol. 1, pp. 1-8, 2007.
[15] Tzanetakis, George, Essl, Georg, and Cook, Perry, “Automatic Musical Genre Classification of Audio Signals”, Proceedings of
the 2nd Annual International Symposium on Music Information Retrieval (Bloomington (Indiana), USA, pp. 205-210, 2001.
[16] Tolonen, Tero and Karjalainen, Matti. “A computationally efficient multipitch analysis model”, IEEE Trans. Speech and Audio
Processing, Vol. 8, No. 6, pp. 708-716, 2000.
[17] Grimaldi, Marco, Kokaram, Anil, and Cunningham, Pádraig, “Classifying music by genre using a discrete wavelet transform
and a round-robin ensemble”, Computer Science Dept, Trinity College Dublin, Ireland, 2003.
[18] Panagakis, Ioannis, Benetos, Emmanouil, and Kotropoulos, Constantine, “Music Genre Classification: A Multilinear
Approach”, Proceedings of the 9th International Conference on Music Information Retrieval, pp. 583-588, 2008.
Phan Anh Cang, Phan Thượng Cang 531
[19] Ran Tao, Zhenyang Li, Ye Ji, “Music genre classification using temporal information and support vector machine”, ASCI
Conference, Vol. 77, 2010.
MUSIC CLASSIFICATION BY GENRE
USING DISCRETE WAVELET TRANSFORM
Phan Anh Cang, Phan Thượng Cang
ABSTRACT— As the demand for multimedia grows, the development of musical genre classification systems including information
about musical genre is of increasing concern. However, due to the collection of audio files from various sources, the musical genre
classification based on information recorded on file may encounter limitations. To automate searching, organizing and classifying a
huge number of audio files based on their genre is a challenging task. In this paper, we present an approach to identifying musical
genres based on their content including three feature sets for representing timbral texture, rhythmic content and pitch content. We
apply the discrete wavelet transform for decomposing audio signals to determine their rhythmical features. Our method is applied to
identify four musical genres including Classical, Rock, Jazz and Pop. It can be extended to applications related to the different
musical genres or the music information retrieval systems, the music copyright matching systems, We present experimental results
that show that our approach is effective in identifying the musical genre of the audio file with acceptable level of confidence.

File đính kèm:

phan_loai_nhac_theo_the_loai_dung_phep_bien_doi_wavelet_roi.pdf