Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc
TÓM TẮT— Cùng với sự bùng nổ về công nghệ thông tin và sự gia tăng nhu cầu sưu tập nhạc số của mỗi cá nhân hay tổ chức, việc
phân loại các bản nhạc để dễ dàng quản lý là một nhu cầu tất yếu. Tuy nhiên, do việc sưu tầm từ nhiều nguồn khác nhau nên việc
phân loại chỉ dựa trên thông tin ghi trên tập tin lưu trữ còn gặp nhiều hạn chế. Với một số lượng đồ sộ các bản nhạc thì việc phân
loại các bản nhạc là một thách thức đối với người nghe nhạc và các hệ thống lưu trữ âm nhạc. Điều này làm cho nhu cầu xây dựng
hệ thống phân loại nhạc tự động trở nên cần thiết. Trong bài báo này, chúng tôi đề xuất một hệ thống phân loại nhạc theo thể loại
sử dụng các phương pháp rút trích tập các đặc trưng của tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic
content) và cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại. Trong đó, phép biến đổi wavelet rời rạc để phân
tích tín hiệu audio thành các băng tần con dùng cho việc xác định các đặc trưng về nhịp điệu. Nghiên cứu của chúng tôi thực hiện
minh hoạ trên bốn thể loại Classical, Rock, Jazz và Pop. Nghiên cứu này có thể áp dụng mở rộng đối với các thể loại nhạc khác
hoặc xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc,.
Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00064 PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC Phan Anh Cang 1, Phan Thượng Cang2 1 Khoa Công Nghệ Thông Tin, Trường Đại học Sư Phạm Kỹ Thuật Vĩnh Long 2 Khoa Công Nghệ Thông Tin, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, ptcang@cit.ctu.edu.vn TÓM TẮT— Cùng với sự bùng nổ về công nghệ thông tin và sự gia tăng nhu cầu sưu tập nhạc số của mỗi cá nhân hay tổ chức, việc phân loại các bản nhạc để dễ dàng quản lý là một nhu cầu tất yếu. Tuy nhiên, do việc sưu tầm từ nhiều nguồn khác nhau nên việc phân loại chỉ dựa trên thông tin ghi trên tập tin lưu trữ còn gặp nhiều hạn chế. Với một số lượng đồ sộ các bản nhạc thì việc phân loại các bản nhạc là một thách thức đối với người nghe nhạc và các hệ thống lưu trữ âm nhạc. Điều này làm cho nhu cầu xây dựng hệ thống phân loại nhạc tự động trở nên cần thiết. Trong bài báo này, chúng tôi đề xuất một hệ thống phân loại nhạc theo thể loại sử dụng các phương pháp rút trích tập các đặc trưng của tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic content) và cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại. Trong đó, phép biến đổi wavelet rời rạc để phân tích tín hiệu audio thành các băng tần con dùng cho việc xác định các đặc trưng về nhịp điệu. Nghiên cứu của chúng tôi thực hiện minh hoạ trên bốn thể loại Classical, Rock, Jazz và Pop. Nghiên cứu này có thể áp dụng mở rộng đối với các thể loại nhạc khác hoặc xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc,.... Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio. I. GIỚI THIỆU Trong những năm gần đây, cùng với sự phát triển của công nghệ thông tin, số lượng bản nhạc dưới hình thức dữ liệu audio trong các kho dữ liệu lớn, trên Internet, đang ngày càng gia tăng nhanh chóng. Điều này làm cho việc sở hữu những bản nhạc trở nên dễ dàng hơn bao giờ hết, kéo theo đó là sự gia tăng nhu cầu sưu tập nhạc số ở mỗi cá nhân hay tổ chức. Hiện nay, hầu hết các hệ thống lưu trữ nhạc số sắp xếp các bản nhạc theo tên nhạc sĩ hoặc theo tên bài hát trong khi người nghe nhạc chỉ quan tâm đến các thể loại nhạc. Điều này đã nảy sinh nhu cầu phân loại nhạc tự động theo thể loại trong các hệ thống lưu trữ nhạc số để cho phép người nghe nhạc có thể tìm kiếm bản nhạc theo yêu cầu. Tuy nhiên, với số lượng lớn nhạc số sưu tầm được, việc phân loại chúng để dễ dàng quản lý trở thành một thách thức đối với các hệ thống phân loại nhạc tự động. Điều này là do việc sưu tầm nhạc thực hiện từ nhiều nguồn nên nó có thể có nhiều thông tin khác nhau cho từng bản nhạc tải về. Bên cạnh đó, người sưu tầm có thể tự nghe lại từng bản nhạc rồi tự phân loại chúng thay vì chỉ dựa vào các thông tin có sẵn được lưu trữ trên tập tin nhạc. Theo cách này, độ chính xác về phân loại đối với các bản nhạc sẽ tùy thuộc vào khả năng hiểu biết về âm nhạc của người phân loại. Điều này cho thấy, việc phân loại các bản nhạc với các phương pháp truyền thống trên còn nhiều hạn chế về độ chính xác và không khả thi với một số lượng lớn các bản nhạc số. Do đó, các hệ thống phân loại nhạc tự động là rất cần thiết đối với các hệ thống lưu trữ nhạc số, phát hiện sao chép bản quyền, tìm kiếm thông tin nhạc trên Internet,... bởi vì chúng cung cấp cơ sở khoa học cho việc phân tích các tín hiệu nhạc dựa vào nội dung. Nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động trong thời gian gần đây. Anan et al. đề xuất một tiếp cận phân loại nhạc dựa trên độ đo tương đồng và máy học véctơ hỗ trợ (Support vector machines - SVM) [1]. Để xác định mức độ tương đồng giữa các tín hiệu audio, phương pháp này biến đổi các file audio dưới định dạng MIDI thành ba tập dữ liệu dạng chuỗi bao gồm cao độ, nhịp điệu, và nốt nhạc (Pitch string, Rhythm string and Note string). Tuy nhiên, phương pháp này là không thực tế vì nó đòi hỏi tất cả các file audio dưới định dạng MIDI và hệ thống phiên âm đa âm là một bài toán khó giải quyết hơn là phân loại. Một số phương pháp khác phân tích dựa trên hình dạng của tín hiệu audio và ảnh phổ. Costa et al. đã đề xuất cách tiếp cận dựa vào ảnh phổ để phân loại nhạc [2]. Phương pháp này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng từ ảnh này. Tuy nhiên, chúng ta rất khó để nhận biết thể loại nhạc một cách chính xác nếu chỉ dựa trên việc xem ảnh phổ này mà không có sự phân tích dựa trên tiết tấu, cao độ, của âm thanh. Một cách tiếp cận khác cho việc phân loại nhạc dựa trên việc rút trích và lựa chọn đặc trưng được đề xuất bởi nhiều nghiên cứu được trình bày trong [3], [4]. Trong đó, Matsui et al. đã sử dụng các đặc trưng hướng được rút trích dựa trên thuật toán SIFT [4]. Đặc trưng này cung cấp các thông tin về tần số c ... xuất) Tổng Classical Rock Jazz Pop cộng Classical C C1 C2 C3 197 Thể loại Rock R1 R R2 R3 74 thực tế Jazz J1 J2 J J3 104 Pop P1 P2 P3 P 93 Trong ma trận này, các giá trị trong ma trận là số lượng tập tin audio trong tập dữ liệu kiểm tra. Các phần tử trong ma trận được giải thích như sau: - C, R, J, P: số tiên đoán đúng đối với các file nhạc có nhãn thể loại Classical, Rock, Jazz, Pop tương ứng. - Ci, Ri, Ji, Pi (i = 1,..,4): số tiên đoán sai đối với các file nhạc được gán nhãn thể loại Classical, Rock, Jazz, Pop tương ứng. Như vậy, dòng tương ứng với thể loại thật sự của các file nhạc và cột tương ứng với thể loại tiên đoán của các file nhạc sau khi hệ thống đề xuất thực hiện phân loại. Số tập tin nhạc được gán nhãn thể loại đúng nằm trên đường chéo của ma trận (các giá trị in đậm: C, R, J, P). Để đánh giá hiệu quả của phương pháp đề xuất, độ chính xác phân loại A (Accuracy) được sử dụng và được xác định bởi công thức (14): C R J P A(%) 4 x100% (C R J P) Ci Ri Ji Pi (14) i 1 V. KẾT QUẢ Phương pháp của chúng tôi được thực hiện trong môi trường Visual C++ trên máy tính PC 2.27GHz CPU Core i5 với 3GB Ram để thực hiện cài đặt hệ thống phân loại nhạc theo thể loại. Các kết quả trong nghiên cứu này sẽ sử dụng hai tập dữ liệu huấn luyện (379 files audio) và kiểm tra (468 files audio) tương ứng với 4 thể loại Classical, Rock, Jazz, Pop. Các file này được chọn ngẫu nhiên từ bộ sưu tập GTZAN. Để đánh giá độ chính xác phân loại của phương pháp đề xuất, chúng tôi sử dụng ma trận đánh giá độ chính xác phân loại như Bảng 2. Việc phân loại nhạc được thực hiện chủ yếu dựa vào 3 tập đặc trưng được rút trích từ tín hiệu audio như sau: - Tập đặc trưng 1 (ĐT1): 19 đặc trưng về âm sắc. - Tập đặc trưng 2 (ĐT2): 6 đặc trưng về nhịp điệu. - Tập đặc trưng 3 (ĐT3): 5 đặc trưng về cao độ. Chúng tôi kiểm tra trên hệ thống với việc rút trích đặc trưng dựa trên một trong các tập đặc trưng trên hoặc kết hợp chúng với nhau và sau đó tìm giá trị tham số k (số láng giềng gần nhất) sao cho hệ thống đạt hiệu quả về độ chính xác phân loại cao nhất. Sau đây là các kết quả thực nghiệm trên hệ thống trong một số trường hợp: 5.1. Phân loại dựa trên 1 hoặc 2 tập đặc trưng Chúng tôi thực nghiệm trên hệ thống với việc phân loại dựa trên chỉ một hoặc 2 tập đặc trưng. Chúng tôi cũng kiểm tra trên 1 số giá trị tham số k (k = 3,, 7). Trong đó, với giá trị k = 4, hệ thống cho kết quả phân loại tốt nhất. Vì vậy, chúng tôi chọn trình bày trong trường hợp này. Sau đây là kết quả đánh giá độ chính xác của việc phân loại. Bảng 3. Độ chính xác phân loại dựa trên 1 tập đặc trưng với giá trị Bảng 4. Độ chính xác phân loại dựa trên 2 tập đặc trưng với tham số k = 4 giá trị tham số k = 4 Tập các đặc trưng Tập các đặc trưng ĐT1 (âm sắc) ĐT2 (nhịp điệu) ĐT3 (cao độ) ĐT1 và ĐT2 ĐT1 và ĐT3 ĐT2 và ĐT3 A (%) 75,2% 63% 59,6% A (%) 79,7% 79,5% 63,5% Từ kết quả trình bày trong Bảng 3 và Bảng 4, chúng tôi nhận xét: Nếu chúng tôi chỉ sử dụng 1 hoặc 2 tập đặc trưng thì việc phân loại nhạc theo thể loại từ tín hiệu audio đạt độ chính xác thấp. Kết quả này khó có thể chấp nhận được. Vì vậy, chúng tôi tiếp tục kiểm tra trên hệ thống mà trong đó sử dụng cả 3 tập đặc trưng 1, 2 và 3 trong việc phân loại nhạc (tạo nên một vectơ đặc trưng 30 chiều) với mong muốn làm tăng độ chính xác của việc phân loại. Phan Anh Cang, Phan Thượng Cang 529 5.2. Phân loại dựa trên cả 3 tập đặc trưng Chúng tôi thực nghiệm trên hệ thống với việc phân loại Bảng 5. Ma trận đánh giá độ chính xác phân loại dựa trên cả 3 tập đặc trưng: âm sắc, nhịp điệu và cao độ. Từ Bảng 5, dùng cả 3 tập đặc trưng với k = 4 chúng tôi nhận thấy kết quả phân loại của hệ thống dựa trên cả 3 tập Classical Rock Jazz Pop đặc trưng với giá trị tham số k = 4 như sau: tổng số file audio kiểm Classical 195 2 0 0 tra: 468, số trường hợp hệ thống tiên đoán đúng: 391 (A=83,5%), số Rock 6 58 9 1 trường hợp tiên đoán sai: 77 (16,5%). Jazz 23 10 59 12 Pop 1 4 9 79 Chúng tôi cũng kiểm tra trên 1 số giá trị k khác nhau (k=3,5,6,7). Hình 8 biểu diễn độ chính xác phân loại sử dụng cả 3 tập đặc trưng với các giá trị k khác nhau, trong đó hệ thống cho kết quả phân loại tốt nhất với k = 4. Nguyên nhân là với k = 4 hệ thống phân loại nhạc theo thể loại đề xuất đạt độ chính xác là: 83,5%. Với các giá trị khác của k, kết quả độ chính xác phân loại thấp hơn. Chẳng hạn: k = 3 độ chính xác chỉ đạt 80,3%. 84 83.5 83 82 81.4 81.4 80.8 % 81 80.3 80 79 78 3 4 5 6 7 k Hình 8. Đồ thị biểu diễn độ chính xác phân loại sử Hình 9. Đồ thị biểu diễn độ chính xác trung bình phân loại nhạc dựa vào dụng kết hợp cả 3 tập đặc trưng các tập đặc trưng Từ các kết quả thực nghiệm trên tập dữ liệu kiểm tra biểu diễn trong Hình 9 cho thấy: nếu hệ thống chỉ sử dụng một trong 3 tập đặc trưng về âm sắc, nhịp điệu hoặc cao độ, thì việc phân loại nhạc theo thể loại từ tín hiệu audio được thực hiện nhanh hơn (thời gian thực hiện trung bình là 30,7 giây) do số chiều của vectơ đặc trưng nhỏ hơn, nhưng độ chính xác của việc phân loại sẽ thấp hơn (đạt khoảng 60,2% - 74,6%) so với trường hợp phân loại nhạc dựa trên cả 3 tập đặc trưng này. Tương tự, nếu hệ thống phân loại chỉ dựa trên việc kết hợp 2 tập đặc trưng: âm sắc và nhịp điệu; âm sắc và cao độ; nhịp điệu và cao độ thì cũng cho kết quả thời gian thực hiện nhanh hơn (trung bình là 63,1giây), trong khi kết quả độ chính xác của việc phân loại thấp hơn (đạt 64,1% - 79,8%) so với kết quả phân loại trong trường hợp hệ thống sử dụng kết hợp cả 3 tập đặc trưng với độ chính xác phân loại trung bình 81,5% và thời gian thực hiện trung bình là 97,4 giây. Vì vậy, việc sử dụng kết hợp cả 3 tập đặc trưng âm sắc, nhịp điệu, cao độ là rất cần thiết đối với hệ thống phân loại nhạc theo thể loại vì nó cho kết quả phân loại khá chính xác. Như vậy, phương pháp đề xuất của chúng tôi là kết hợp cả 3 tập đặc trưng âm sắc, nhịp điệu và cao độ trong việc phân loại nhạc theo thể loại bởi vì hệ thống đưa ra kết quả phân loại với độ chính xác cao (trung bình 81,5%). Kết quả của phương pháp đề xuất này là tốt hơn so với một số phương pháp đã nghiên cứu trước đây với độ chính xác trung bình dưới 80%. Chẳng hạn, trong nghiên cứu của Marco Grimaldi et al. [17] sử dụng 182 file nhạc với 7 thể loại khác nhau để kiểm tra hệ thống cho kết quả độ chính xác phân loại là 52,75% trong trường hợp dùng phép biến đổi wavelet rời rạc và kỹ thuật phân loại KNN. Phương pháp đề xuất cũng có kết quả tốt hơn so với phương pháp của Panagakis et al. [18] vì độ chính xác phân loại đạt 78,2%, 77,9% và 75,01% khi rút trích các tập đặc trưng khác nhau từ cùng bộ sưu tập nhạc GTZAN với bộ phân loại SVM. Mặt khác, kết quả nghiên cứu của chúng tôi cũng có độ chính xác phân loại cao hơn so với phương pháp đề xuất bởi Tao et al. [19] vì độ chính xác phân loại đạt 78,6% thực hiện trên cùng tập dữ liệu GTZAN và máy học SVM. Bên cạnh đó, Chathuranga et al. [6] đã đề xuất phương pháp phân loại nhạc theo thể loại với tiếp cận máy học SVM. Kết quả phân loại đạt độ chính xác thấp hơn phương pháp đề xuất vì nó chỉ đạt 78% khi thực hiện trên tập dữ liệu GTZAN. VI. KẾT LUẬN Một phương pháp phân loại nhạc theo thể loại nhanh và chính xác là rất cần thiết đối với các hệ thống quản lý một số lượng lớn nhạc số. Tuy nhiên, đây là một công việc không đơn giản vì các thể loại nhạc vẫn còn là một khái niệm mở, tùy thuộc vào ý kiến chủ quan của con người. Trong nghiên cứu thực nghiệm này, chúng tôi đề xuất sử dụng các tập đặc trưng được rút trích bởi các công cụ STFT, DWT và bộ phân loại KNN. DWT là một kỹ thuật phân tích tín hiệu, cung cấp một cách biểu diễn tín hiệu trong miền thời gian và tần số dưới dạng nén làm cho việc tính toán nhanh và hiệu quả. Nghiên cứu này tập trung vào việc phân loại 4 thể loại nhạc: Classical, Rock, Jazz và Pop bằng cách sử 530 PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC dụng kết hợp cả 3 tập đặc trưng về âm sắc, nhịp điệu và cao độ tạo nên một vectơ đặc trưng 30 chiều. Tập dữ liệu được sử dụng trong nghiên cứu này lấy từ bộ sưu tập nhạc GTZAN. Dựa trên các kết quả thực nghiệm, phương pháp đề xuất của chúng tôi đạt độ chính xác trung bình 81,5%. Kết quả nghiên cứu này cho độ chính xác phân loại cao hơn một số nghiên cứu trước đó mà chỉ đạt độ chính xác dưới 80%. Việc phân loại nhạc theo thể loại được thực hiện một cách tự động bằng máy tính và cho kết quả khá chính xác là hoàn toàn có thể. Nghiên cứu này cung cấp cơ sở khoa học cho phát triển các hệ thống: truy vấn thông tin nhạc dựa vào nội dung, phát hiện sao chép bản quyền nhạc, tìm các bản nhạc có các đặc trưng gần giống với các đặc trưng mà người sử dụng mong muốn, phân tích nhạc và lời bài hát, phân loại bản nhạc theo ca sĩ - nhạc sĩ, chú thích tự động các tập tin nhạc với những mô tả,... Phương pháp đề xuất có thể áp dụng mở rộng trên các thể loại nhạc khác: Opera, Rap, Blues, Country, Hip Hop, Ngoài ra, nó có thể áp dụng cho việc phân loại nhạc truyền thống của Việt Nam như: dân ca Bắc bộ, dân ca Nam bộ, Chèo, Bội, Cải lương. Hệ thống đề xuất cũng có thể áp dụng với các bộ phân loại kết hợp khác như: SVM, Gaussian, mạng Neural, Chúng tôi dự định thực nghiệm hệ thống đề xuất trên một tập dữ liệu lớn (Big Data); nghiên cứu và sử dụng các đặc trưng mới để có thể trích xuất các thông tin âm nhạc có ý nghĩa từ các tín hiệu âm thanh. Đó chính là những hướng nghiên cứu của chúng tôi trong thời gian sắp tới. VII. TÀI LIỆU THAM KHẢO [1] Anan, Yoko, Hatano, Kohei, Bannai, Hideo, and Takeda, Masayuki, “Music Genre Classification Using Similarity Functions”, Proceedings of the 12th International Society for Music Information Retrieval Conference (Miami (Florida), USA, pp. 693-698, 2011. [2] Costa, Y. M. G., Oliveira, L. S., Koericb, A. L., and Gouyon, F., “Music genre recognition using spectrograms”, 18th International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 1-4, 2011. [3] Jang, Dalwon, Jin, Minho, and Yoo, Chang Dong, “Music genre classification using novel features and a weighted voting method”, Proceedings of International Conference on Multimedia and Expo, Hannover, Germany, pp. 1377-1380, 2008. [4] Matsui, Tomoko, Goto, Masataka, Vert, Jean-Philippe, and Uchiyama, Yuji, “Gradient-based musical feature extraction based on scale-invariant feature transform". EUSIPCO, IEEE, pp. 724-728, 2011. [5] Mckay, Cory, Burgoyne, John Ashley, Hockman, Jason, Smith, Jordan B.L., Vigliensoni, Gabriel, and Fujinaga, Ichiro, “Evaluating the Genre Classification Performance of Lyrical Features Relative to Audio, Symbolic and Cultural Features”, Proceedings of the 11th International Society for Music Information Retrieval Conference (Utrecht, The Netherlands August 9- 13 2010), pp. 213-218, 2010. [6] Chathuranga, Dhanith and Jayaratne, Lakshman, “Automatic Music Genre Classification of Audio Signals with Machine Learning Approaches”, GSTF Journal on Computing (JoC), Vol. 3, No. 2, pp. 1-12, 2013. [7] Rini Wongso, Diaz D. Santika, “Automatic music genre classification using dual tree complex wavelet transform and support vector machine”, Journal of Theoretical and Applied Information Technology, Vol. 63, No. 1, pp. 61-68, 2014. [8] Mallat, S. G., “A Theory for Multiresolution Signal Decomposition: The Wavelet Representation”, IEEE Trans. Pattern Anal. Mach. Intell., Vol. 11, pp. 674-693, 1989. [9] Daubechies, Ingrid, “Orthonormal bases of compactly supported wavelets”, Journal of Communications on Pure and Applied Mathematics, Vol. 41, No. 7, pp. 909-996, 1988. [10] Altman, N. S., “An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression”, the American Statistician, Vol. 46, No. 3, pp. 175-185, 1992. [11] Theodoridis, Sergios and Koutroumbas, Konstantinos, “Pattern Recognition”, Third Edition, Academic Press, Inc., Orlando, FL, USA, 2006. [12] Logan, Beth. “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceedings of the 1st International Conference on Music Information Retrieval (Plymouth (Massachusetts), USA October 23, 2000. [13] Li, Tao and Tzanetakis, G. , “Factors in automatic musical genre classification of audio signals”, Applications of Signal Processing to Audio and Acoustics, IEEE Workshop, pp. 143-146, 2003. [14] Cataltepe, Zehra, Yaslan, Yusuf, and Sonmez, Abdullah, “Music Genre Classification Using MIDI and Audio Features”, EURASIP Journal on Advances in Signal Processing, Vol. 1, pp. 1-8, 2007. [15] Tzanetakis, George, Essl, Georg, and Cook, Perry, “Automatic Musical Genre Classification of Audio Signals”, Proceedings of the 2nd Annual International Symposium on Music Information Retrieval (Bloomington (Indiana), USA, pp. 205-210, 2001. [16] Tolonen, Tero and Karjalainen, Matti. “A computationally efficient multipitch analysis model”, IEEE Trans. Speech and Audio Processing, Vol. 8, No. 6, pp. 708-716, 2000. [17] Grimaldi, Marco, Kokaram, Anil, and Cunningham, Pádraig, “Classifying music by genre using a discrete wavelet transform and a round-robin ensemble”, Computer Science Dept, Trinity College Dublin, Ireland, 2003. [18] Panagakis, Ioannis, Benetos, Emmanouil, and Kotropoulos, Constantine, “Music Genre Classification: A Multilinear Approach”, Proceedings of the 9th International Conference on Music Information Retrieval, pp. 583-588, 2008. Phan Anh Cang, Phan Thượng Cang 531 [19] Ran Tao, Zhenyang Li, Ye Ji, “Music genre classification using temporal information and support vector machine”, ASCI Conference, Vol. 77, 2010. MUSIC CLASSIFICATION BY GENRE USING DISCRETE WAVELET TRANSFORM Phan Anh Cang, Phan Thượng Cang ABSTRACT— As the demand for multimedia grows, the development of musical genre classification systems including information about musical genre is of increasing concern. However, due to the collection of audio files from various sources, the musical genre classification based on information recorded on file may encounter limitations. To automate searching, organizing and classifying a huge number of audio files based on their genre is a challenging task. In this paper, we present an approach to identifying musical genres based on their content including three feature sets for representing timbral texture, rhythmic content and pitch content. We apply the discrete wavelet transform for decomposing audio signals to determine their rhythmical features. Our method is applied to identify four musical genres including Classical, Rock, Jazz and Pop. It can be extended to applications related to the different musical genres or the music information retrieval systems, the music copyright matching systems, We present experimental results that show that our approach is effective in identifying the musical genre of the audio file with acceptable level of confidence.
File đính kèm:
- phan_loai_nhac_theo_the_loai_dung_phep_bien_doi_wavelet_roi.pdf