Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means

TÓM TẮT

Trong các cơ sở dữ liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung rất quan trọng.

Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thường dựa trên cơ sở tìm kiếm chỉ mục. Tuy

nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhược điểm. Nhiều khi người dùng có thể

không nhớ được các từ khóa text của bài hát như tên bài hát, tác giả, ca sĩ hoặc lời bài hát. Tìm kiếm

âm nhạc theo nội dung khắc phục được những nhược điểm này. Trong cách tiếp cận truyền thống,

các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh

như độ to, độ cao, năng lượng, phổ tần số, Gần đây, một số nghiên cứu trên thế giới tập trung

vào một cách tiếp cận khác, trong đó áp dụng các kiến thức về xử lý tín hiệu âm thanh, về phân

tích mô hình tạo âm thanh, mô hình cảm thụ âm thanh của con người có thể giúp việc tính toán

vector đặc trưng âm thanh được chính xác và hạn chế tối đa thông tin dư thừa. Bài báo này trình

bày phương pháp tìm kiếm âm nhạc theo nội dung dùng đặc trưng đường bao phổ Mel Cepstral, được

xây dựng dựa trên mô hình cảm thụ âm thanh của con ngườ, và thuật toán phân cụm K-means.

Từ khóa: Vector đặc trưng, Mel Cepstral, K-mean, MFCC.

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 1

Trang 1

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 2

Trang 2

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 3

Trang 3

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 4

Trang 4

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 5

Trang 5

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means trang 6

Trang 6

pdf 6 trang baonam 9640
Bạn đang xem tài liệu "Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-Means
 TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG ĐƢỜNG BAO PHỔ 
 VÀ PHƢƠNG PHÁP PHÂN CỤM K-MEANS 
 Phùng Thị Thu Hiền1, Vũ Tất Thắng2, 
 Thái Quang Vinh2, Nguyễn Văn Huy1 
 1Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên, 
 2Viện Công nghệ thông tin - Viện KHCN Việt nam 
 TÓM TẮT 
 Trong các cơ sở dữ liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung rất quan trọng. 
 Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thường dựa trên cơ sở tìm kiếm chỉ mục. Tuy 
 nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhược điểm. Nhiều khi người dùng có thể 
 không nhớ được các từ khóa text của bài hát như tên bài hát, tác giả, ca sĩ hoặc lời bài hát. Tìm kiếm 
 âm nhạc theo nội dung khắc phục được những nhược điểm này. Trong cách tiếp cận truyền thống, 
 các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh 
 như độ to, độ cao, năng lượng, phổ tần số, Gần đây, một số nghiên cứu trên thế giới tập trung 
 vào một cách tiếp cận khác, trong đó áp dụng các kiến thức về xử lý tín hiệu âm thanh, về phân 
 tích mô hình tạo âm thanh, mô hình cảm thụ âm thanh của con người có thể giúp việc tính toán 
 vector đặc trưng âm thanh được chính xác và hạn chế tối đa thông tin dư thừa. Bài báo này trình 
 bày phương pháp tìm kiếm âm nhạc theo nội dung dùng đặc trưng đường bao phổ Mel Cepstral, được 
 xây dựng dựa trên mô hình cảm thụ âm thanh của con ngườ, và thuật toán phân cụm K-means. 
 Từ khóa: Vector đặc trưng, Mel Cepstral, K-mean, MFCC. 
 ĐẶT VẤN ĐỀ dụng như là một hệ số cơ sở trong xử lý tiếng 
 nói. Những giá trị khác thể hiện một hệ thống 
 Tìm kiếm âm nhạc theo nội dung là một lĩnh 
 chỉ số dựa trên việc kết nối các đặc trưng như 
 vực nghiên cứu mới và được nhiều nhà 
 là độ cao, độ to hoặc hệ số tần số Mel [9]. 
 nghiên cứu quan tâm. Hiện có một số phương 
 Foote [9] đã thiết kế một hệ thống chỉ mục âm 
 thức đã được áp dụng tìm kiếm âm nhạc theo 
 nhạc dựa trên biểu đồ các đặc trưng MFCC 
 nội dung. 
 xuất phát từ vector lượng tử hóa. Beth Logan 
 Theo Bel Logan [3] cấu trúc âm thanh của âm [3] đã thực hiện theo cách của Foote sử dụng 
 nhạc là quan trọng. Vì vậy cần phải có một hệ các biểu đồ của các đặc trưng MFCC nhưng 
 thống nhận biết độ tương tự âm thanh theo sử dụng thêm giải thuật phân cụm K-means. 
 cách gần giống như hệ thống nghe của con Phương thức của ông thực hiện sau kỹ thuật 
 người, và hệ thống thính giác của con người phục hồi âm thanh thực hiện bởi Liu và 
 dễ dàng thu và nhận dạng các nhóm âm thanh Huang [11]. 
 hơn là từng nốt nhạc hay âm riêng lẻ. David 
 Trong các nghiên cứu về giác quan của con 
 Pye [7] áp dụng phương pháp nhận dạng sự 
 người, phương thức sử dụng hệ số tần Mel để 
 thay đổi phổ của tiếng nói với hai kỹ thuật 
 biểu hiện âm thanh bằng tham số cũng đã 
 chính, Gaussian Mixture Modelling (GMM) – 
 được chứng minh là rất thành công. MFCC 
 mô hình phân loại độ vang âm thanh và 
 tạo ra chữ ký hay dấu riêng cho mỗi bài hát. 
 phương thức Tree-Based Vector Quantization 
 Việc so sánh giữa chữ ký với nội dung âm 
 (TreeQ) (Lượng tử hoá vector dựa trên cấu 
 thanh là hiệu quả, bởi vì nó không liên quan 
 trúc cây). Các kỹ thuật này yêu cầu biểu hiện 
 tới dữ liệu đã được bỏ đi trong quá trình tính 
 các tham số của mẫu âm thanh thành các 
 toán chữ ký, kết quả là cải thiện được việc tìm 
 vector đặc trưng. Mel Frequency Cepstral 
 kiếm dữ liệu với tỷ lệ thiết lập dữ liệu nhỏ và 
 Coefficients (MFCC) - hệ số Mel được sử 
 yêu cầu lưu trữ bộ nhớ nhỏ. 
 Tel:0986060545, Email: pthientng@gmail.com 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 80 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 
Bài báo này trình bày phương pháp tìm kiếm khung. Quá trình phân khung được thể hiện 
âm nhạc theo nội dung sử dụng đặc trưng trong hình 2. 
đường bao phổ kết hợp phương pháp phân 
cụm K-means, cuối cùng là đưa ra một số kết 
quả thực nghiệm. 
CƠ SỞ LÝ THUYẾT 
Quá trình lọc theo thang Mel Cepstral Hình 2. Phân khung tín hiệu 
Theo Beth Logan [3], MFCC gồm 5 bước: 
 Hàm cửa sổ bỏ đi những hiệu ứng phụ và 
1. Chia tín hiệu thành các khung vector đặc trưng cepstral được thực hiện trên 
2. Với mỗi khung, ta thu được biên độ phổ. mỗi khung cửa sổ. Thông thường, cửa sổ 
 Hamming được sử dụng, cửa sổ này có dạng: 
3. Lấy log của biên độ 
 2 n
4. Chuyển đổi sang thang Mel w( n ) 0.54 0.46cos ,0 n N 1 (1) 
 N 1
5. Thực hiện biến đổi Cosine rời rạc. 
 Ý tưởng ở đây là giảm bớt sự méo phổ bằng 
 việc sử dụng các cửa sổ để giảm tín hiệu về 
 không tại điểm bắt đầu và kết thúc mỗi 
 khung. 
 Biến đổi Fourier rời rạc của mỗi khung được 
 Hình 1. Quá trình tạo các đặc tính MFCC 
 tính toán và lấy logarith biên độ phổ. Thông 
Quan sát quá trình trên ta thấy, âm thanh tin về pha bị bỏ qua do biên độ phổ là quan 
được chia thành những khung có độ dài cố trọng hơn pha. Thực hiện lấy logarith biên độ 
định. Mục đích là để lấy mẫu những đoạn tín phổ do âm lượng của tín hiệu là xấp xỉ 
hiệu nhỏ (theo lý thuyết là ổn định). Trong logarith. Bước tiếp theo là biến đổi phổ theo 
việc lấy mẫu dữ liệu, chúng ta xem xét đến tín thang Mel. Từ kết quả này, trong vector Mel 
hiệu âm thanh đã được số hóa bằng việc rời – spectral của các thành phần tương quan cao, 
rạc hóa các giá trị trên những khoảng đều bước cuối cùng là thực hiện biến đổi cosine 
nhau vì vậy cần phải chắc chắn rằng tốc độ rời rạc để tổng hợp vector phổ Mel để tương 
lấy mẫu là đủ lớn để mô tả tín hiệu dạng quan lại các thành phần này. 
sóng. Tấn số lấy mẫu nên ít nhất gấp đôi tần 
 Độ lệch tần số Mel 
số dạng sóng như trong định lý của Nyquist. 
Tốc độ lấy mẫu phổ biến là 8000, 11025, Để mô tả chính xác sự tiếp nhận tần số của hệ 
22050, 44000, thông thường sử dụng tần số thống thính giác, người ta xây dựng một 
trên 10kHz thang khác – thang Mel. 
Phân khung là quá trình chia mẫu tín hiệu Độ lệch tần số Mel làm nhẵn phổ và làm nổi 
thành một số khung chồng lấp lên nhau hoặc lên các tần số cảm thụ có nghĩa. Biến đổi 
 Fourier lên tín hiệu qua bộ lọc thông dải để 
không, mục đích của phân khung là để lấy 
 làm đơn giản phổ mà không làm mất dữ liệu. 
mẫu các đoạn tín hiệu nhỏ. Bản chất của âm 
 Điều này được thực hiện bằng cách tập hợp 
thanh là không ổn định, vì vậy, biến đổi các thành phần phổ thành một dải tần số. Phổ 
Fourier sẽ thể hiện tần số xảy ra trên toàn được làm đơn giản hóa do sử dụng một giàn 
miền thời gian thay vì thời gian cụ thể. Do đó bộ lọc để tách phổ thành các kênh. Các bộ lọc 
khi tín hiệu là không ổn định, thì nó nên được được đặt cách đều nhau trên thang Mel và lấy 
chia nhỏ thành các cửa sổ rời rạc, nhờ đó mỗi logarit trên thang tần số, các kênh có tần số 
tín hiệu trong một cửa sổ trở nên tĩnh và phép thấp là không gian tuyến tính trong khi các 
biến đổi Fourier có thể thực hiện trên mỗi kênh có tần số cao là không gian logarit. 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 81 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 
Tai người không cảm nhận sự thay đổi tần số 1. Cố định vùng giá trị dưới mỗi bộ lọc và đôi 
của tiếng nói tuyến tính mà theo thang Mel. khi đưa thang về 1. Đặt M bằng số băng lọc 
Thang tần số Mel tuyến tính ở tần số dưới yêu cầu 
1kHz và logarit ở tần số cao hơn 1kHz. Ta 2. Phân bố đều trên thang tần số Mel 
chọn tần số 1kHz, 40 dB trên ngưỡng nghe 
 3. Chuyển đổi từ Hz sang Wi trên thang tuyến 
1000 Mel. Do đó công thức gần đúng biểu 
 tính. Mối quan hệ giữa mel và frq được cho 
diễn quan hệ tần số ở thang Mel và thang 
 bởi công thức: 
tuyến tính như sau: 
 m=ln(1+f/700)*1000/ln(1+1000/700) (3) 
 (2) 
 Phƣơng pháp phân cụm K-means 
Một phương pháp để chuyển đổi sang thang K-means là một phương pháp phân cụm. 
Mel là sử dụng băng lọc. Khoảng cách của Phương pháp này quan sát k cụm trong dữ 
băng lọc được định nghĩa bởi một hằng số tần liệu, và trả lại vector chỉ số của K cụm đã 
số mel theo thời gian. Băng lọc này được áp quan sát. 
dụng trong miền tần số, nó có thể xem như K-means quan sát trong dữ liệu và tìm cách 
các điểm thu được của bộ lọc chính. Với các phân vùng dữ liệu sao cho dữ liệu trong một 
khung nhỏ tốt nhất là sử dụng các bộ lọc dạng cụm càng gần nhau càng tốt và so với dữ liệu 
tam giác hoặc thậm chí hình chữ nhật vì độ trong các cụm khác phải càng xa càng tốt. 
phân giải là quá thấp trong miền tần số thấp. Mỗi cụm được xác định bởi các thành phần 
 của nó và bởi thành phần trung tâm của nó. 
 Thành phần trung tâm của mỗi cụm là thành 
 phần mà có tổng khoảng cách từ các đối 
 tượng trong cụm đến nó là nhỏ nhất. Cụm 
 trung tâm được tính toán khác nhau với mỗi 
 thước đo khoảng cách, để tổng khoảng cách là 
 nhỏ nhất với mỗi tiêu chuẩn đánh giá. 
 Để thực hiện phương thức K-means ta sử 
 Hình 3. Băng lọc khoảng cách theo tần số mel dụng một thuật toán lặp để tính tổng khoảng 
 cách từ mỗi đối tượng tới cụm trung tâm là 
Mỗi bộ lọc trong băng lọc được nhân với phổ nhỏ nhất trên toàn bộ cụm. Thuật toán này di 
tín hiệu vì vậy chỉ có một giá trị đơn của chuyển các đối tượng giữa các cụm cho tới 
cường độ trên bộ lọc được trả lại. Điều này có khi tổng khoảng cách không thể giảm hơn 
thể đạt được qua các tính toán của ma trận được nữa. Kết quả là tạo được các cụm có 
đơn. Kết quả là tổng của biên độ trong dải lọc khoảng cách đủ nhỏ và có độ phân cách hợp 
và vì vậy làm giảm độ chính xác tới mức mà lý. Độ nhỏ của dữ liệu có thể được chỉ ra bằng 
tai của con người có thể cảm nhận được. việc thay đổi các tham số đầu vào giống với 
 số lượng cụm trung tâm và số lần lặp. 
 Ý tưởng chính ở đây là tìm cách xác định cụm 
 trung tâm k từ mỗi cụm. Nên lựa chọn điểm 
 trung tâm vì các vị trí khác nhau cho các kết 
 quả khác nhau. Trong điều kiện lý tưởng 
 chúng phải cách xa các điểm khác tối đa khả 
 Hình 4. Phổ sau khi lọc theo thang Mel năng có thể. Mỗi điểm trong dữ liệu được gắn 
Quá trình độ lệch tần số mel được thực hiện với điểm trung tâm gần nhất. Điểm trung tâm 
theo ba bước sau: thứ k mới sẽ được tính toán lại từ kết quả 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 82 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 
phân cụm của bước trước và quá trình nhóm 
các điểm dữ liệu với các điểm trung tâm gần 
nhất sẽ được thực hiện lặp đi lặp lại và điều 
đó sẽ tiếp tục cho tới khi xác định được điểm 
trung tâm chính. 
Phương pháp phân cụm K-means tìm nhóm 
có kích thước nhỏ nhất trong tổng bình 
phương các cụm, chúng ta sử dụng thuật toán Hình 6. Phương pháp phân cụm K-means 
sai số bình phương để tính bình phương KẾT QUẢ THỰC NGHIỆM 
khoảng cách Euclidean. 
Thuật toán K-means thực hiện theo các Chuẩn bị dữ liệu 
bước sau: Dữ liệu bao gồm 10 bài hát nhạc trẻ Việt nam 
1. Đặt K điểm vào vùng phân cụm các đối được lưu ở định dạng PCM wave, tần số lấy 
tượng. Các điểm này mô tả nhóm trung tâm mẫu 44 KHz, mã hóa 16 bit trên một mẫu. 
đầu tiên. Mỗi bài hát được trích ra một đoạn ngắn < 5 s 
2. Gán mỗi đối tượng vào một nhóm có điểm sử dụng làm mẫu tìm kiếm. 
trung tâm gần nhất. 
3. Khi tất cả các đối tượng đã được đưa vào Các tham số thực nghiệm 
các nhóm, tính toán lại vị trí của K điểm trung Đặc trưng MFCC được cài đặt với các tham 
tâm. số sau : Kích cỡ khung là 512 ms, không sử 
4. Thực hiện lặp lại bước 2 và 3 cho tới khi dụng khung chồng lấp, số bộ lọc trong dãy 
bỏ đi được các điểm trung tâm ở xa. Điều này băng lọc Mel là 20, số hệ số Ceptral là 12, 
giúp phân cách các đối tượng thành các nhóm 
 không sử dụng các hệ số đạo hàm Delta, kết 
có kích thước nhỏ nhất có thể. 
Thủ tục lặp sẽ luôn kết thúc khi điểm trung hợp các hệ số MFCC với 1 hệ số năng lượng 
tâm không thay đổi. Tuy nhiên, cần lưu ý Giống như Beth Logan [8], phân lớp bằng 
rằng các thuật toán không nhất thiết phải đưa cách phân hệ số cepstral thành 16 cụm theo 
ra những kết quả tối ưu. Hình 5 mô tả các thuật toán K-means chuẩn. Sử dụng khoảng 
bước đã nêu trên. Mỗi bước dưới đây tương cách Euclidean để tính toán độ tương tự. 
ứng với trình tự của biểu đồ. 
 Kết quả thực nghiệm và đánh giá 
 Chọn số lượng cụm k. Ví dụ k=5 
 Tạo ra ngẫu nhiên vị trí trung tâm cụm Chương trình demo tìm kiếm bài hát theo đặc 
 Tại mỗi Centre tìm điểm trung tâm của trưng đường bao phổ MFCC thử nghiệm trên 
chính nó cơ sở dữ liệu nhỏ (10 bài hát) nên được thiết 
 Thực hiện bước nhảy kế tích hợp cả thao tác huấn luyện và nhận 
 Thực hiện lặp lại cho tới khi kết thúc dạng cho trực quan. Thao tác tìm kiếm nhận 
 dạng được thử nghiệm với từng mẫu âm 
 thanh riêng rẽ và ghi lại kết quả thủ công. Kết 
 quả nhận dạng đúng sau đó được tổng hợp lại 
 để cho ra kết quả nhận dạng của hệ thống. 
 Trong thực tế khi lượng dữ liệu huấn luyện 
 lớn cần thực hiện huấn luyện trước và lưu 
 trong cơ sở dữ liệu. Thao tác nhận dạng và 
 tìm kiếm được tách ra độc lập so sánh với cơ 
 sở dữ liệu huấn luyện đã lưu. Việc tách riêng 
 Hình 5. Thủ tục K-means 2 thao tác huấn luyện và tìm kiếm sẽ làm 
Hình 6 minh họa phương thức phân cụm K giảm thời gian khi tiến hành thử nghiệm. 
trong hình 5. Chú ý rằng những dữ liệu tương 
tự được nhóm cùng nhau. 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 83 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 
Trong chương trình thử nghiệm, kết quả nhận nội dung”, Luận văn thạc sỹ công nghệ thông tin, 
dạng đúng cuối cùng sau 10 lần thử nghiệm là Đại học Thái Nguyên, 12/2009. 
 [2]. Phùng Thị Thu Hiền, PGS.TS. Thái Quang 
100%. Kết quả này cao hơn kết quả đã công 
 Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm 
bố trong [8] và [10] dù dùng cùng thuật toán. kiếm âm nhạc theo nội dung sử dụng đặc trưng 
Lý do có thể do chương trình demo mới thử tần số cơ bản F0 và giải thuật thời gian động 
nghiệm trên bộ cơ sở dữ liệu rất nhỏ. Hơn nữa DTW”, Tạp chí Khoa học & Công nghệ ISSN, 
độ dài âm thanh đầu vào (trích 1 đoạn từ file 1859 – 2171, 2009, T55 – 59. 
 [3]. Beth Logan and Ariel Salomon, “A Music 
âm thanh cần tìm kiếm) đủ lớn (so với âm 
 Similarity Function Based on Signal Analysis”, 
thanh tìm kiếm). Tỷ lệ nhận dạng sẽ giảm Cambridge Research Laboratory 
xuống khi dùng cơ sở dữ liệu lớn hơn (đặc [4]. S.Blackburn and D. De Roure, “A tool for 
biệt khi trong cơ sở dữ liệu có các bài hát có content based navigation of music”, in ACM 
những phần tương tự nhau), tỷ lệ nhận dạng Multimedia ,1998 
và tìm kiếm đúng cũng sẽ giảm xuống khi độ [5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson, 
 and S.Cunningham, “Towards the digital music 
dài mẫu âm thanh đầu vào là nhỏ. library: Tune retrieval from acoustic input,” in 
Về mặt thời gian, quá trình huấn luyện và sau Digital Libraries 1996, 1996, pp.11-18 
đó tìm kiếm hết ~ 4 s với một bài hát. [6]. A.Ghias, J.Logan, D. Chamberlin and 
 B.Smith, “Query by humming,” in ACM 
Chương trình mô phỏng được xây dựng trên Multimedia, 1995 
phần mềm matlab: [7]. David Pye, “Content Based Methods for the 
 Management of Digital Music” AT& T 
 Labaratories Cambridge 
 [8]. Beth Logan and Stephen Chu, “Music 
 Summarization Using Key Phrases”, Cambridge 
 Research Laboratories 
 [9]. J.T. Foote, “Content-based retrieval of Music 
 and Audio,” in SPIE, 1997, p.p 138- 147 
 [10]. J.-S. Roger Jang, Hong-Ru Lee, 
 "Hierarchical Filtering Method for Content-based 
 Music Retrieval via Acoustic Input", The 9th 
 ACM Multimedia Conference, PP. 401-410, 
 Ottawa, Ontario, Canada, September 2001. 
 [11]. Z.Liu and Q.Huang, “Content-based 
 indexing and retrieval by example in audio,” in 
 Hình 7. Kết quả chạy chương trình ICME 2000, 2000 
Hƣớng phát triển TÀI LIỆU THAM KHẢO 
Cần xây dựng một cơ sở dữ liệu âm nhạc đủ [1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng 
lớn để thử nghiệm. Từ đó sẽ đánh giá được độ âm thanh trong bài toán tìm kiếm âm nhạc theo 
 nội dung”, Luận văn thạc sỹ công nghệ thông tin, 
chính xác, hiệu quả của các phương pháp tìm Đại học Thái Nguyên, 12/2009. 
kiếm và có thể đề xuất các phương pháp cải [2]. Phùng Thị Thu Hiền, PGS.TS. Thái Quang 
tiến thao tác trích đặc trưng và phân lớp của Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm 
hệ thống tìm kiếm. kiếm âm nhạc theo nội dung sử dụng đặc trưng 
 tần số cơ bản F0 và giải thuật thời gian động 
Hướng nghiên cứu tiếp theo sẽ là tìm hiểu sâu DTW”, Tạp chí Khoa học & Công nghệ ISSN, 
hơn về các phương pháp phân lớp dữ liệu 1859 – 2171, 2009, T55 – 59. 
triển vọng như dùng mạng Neural, giải thuật 
di truyền GA, mô hình Markov ẩn HMM, 
 TÀI LIỆU THAM KHẢO 
[1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng 
âm thanh trong bài toán tìm kiếm âm nhạc theo 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 84 
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 
 SUMMARY 
 CONTENT-BASED MUSIC RETRIEVAL USING SPECTRAL ENVELOPE FEATURE 
 AND K-MEANS ALGORITHM 
 Phung Thi Thu Hien1 , Vu Tat Thang2, 
 Thai Quang Vinh2, Nguyen Van Huy1 
 1Thai Nguyen University of Technology 
 2Institute of Information Technology - VAST 
 In multimedia database, music retrieval is an important research topic. Current music searching is based on 
 text indexing. However, this kind of method has some drawbacks. It is difficult to remember the text 
 keywords such as song name, author name, singer name or the lyric of songs. Content-based music searching 
 overcomes these drawbacks. In state of the art approaches, feature vectors of music signal are built based on 
 their physical characteristics as volume, energy, and spectrum.Recently, some researches use another 
 approach, which based on the signal processing techniques incorporating with human auditory analysis. This 
 approach minimizes the redundant information as well as accurately represents the music signal. This paper 
 presens a method of song searching using Mel ceptral spectral envelope and K-means algorithm. 
 Tel: 0986060545, Email: pthientng@gmail.com 
 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  | 85 

File đính kèm:

  • pdftim_kiem_am_nhac_theo_noi_dung_su_dung_dac_trung_duong_bao_p.pdf