Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng

Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động. Nhiệm vụ chính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viết bằng ngôn ngữ tự nhiên. Trong các hệ thống hỏi đáp tự động, các câu hỏi với từ để hỏi What chiếm phần lớn, nhưng việc phân loại các câu hỏi này lại có nhiều khó khăn hơn so với việc phân loại các câu hỏi khác. Trong bài báo này chúng tôi đề xuất việc trích rút các đặc trưng phù hợp nhằm phân loại câu hỏi What đạt độ chính xác cao. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi như là một đặc trưng mới để kết hợp với các đặc trưng khác trong phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của mình bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và đã đạt được độ chính xác phân loại câu hỏi What cao hơn so với những nghiên cứu trước đó trên cùng nguyên tắc phân loại và tập dữ liệu.

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 1

Trang 1

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 2

Trang 2

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 3

Trang 3

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 4

Trang 4

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 5

Trang 5

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 6

Trang 6

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 7

Trang 7

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 8

Trang 8

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng trang 9

Trang 9

pdf 9 trang Trúc Khang 08/01/2024 2400
Bạn đang xem tài liệu "Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng

Phân loại câu hỏi kiểu “What” sử dụng nhiều loại đặc trưng
81 
TẠP CHÍ KHOA HỌC 
Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 81 - 89 
PHÂN LOẠI CÂU HỎI KIỂU “WHAT” 
SỬ DỤNG NHIỀU LOẠI ĐẶC TRƯNG 
Nguyễn Văn Tú 
Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc 
Tóm tắt: Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động. 
Nhiệm vụ chính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viết bằng 
ngôn ngữ tự nhiên. Trong các hệ thống hỏi đáp tự động, các câu hỏi với từ để hỏi What chiếm phần 
lớn, nhưng việc phân loại các câu hỏi này lại có nhiều khó khăn hơn so với việc phân loại các câu hỏi 
khác. Trong bài báo này chúng tôi đề xuất việc trích rút các đặc trưng phù hợp nhằm phân loại câu hỏi 
What đạt độ chính xác cao. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi như là một đặc trưng mới để 
kết hợp với các đặc trưng khác trong phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của mình 
bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và đã đạt được độ 
chính xác phân loại câu hỏi What cao hơn so với những nghiên cứu trước đó trên cùng nguyên tắc 
phân loại và tập dữ liệu. 
Từ khóa: Phân loại câu hỏi, hệ thống hỏi đáp, mẫu câu hỏi, máy hỗ trợ vectơ. 
1. Tổng quan 
Hệ thống hỏi đáp tự động đã trở thành hướng nghiên cứu quan trọng trong xử lý 
ngôn ngữ tự nhiên [4,9]. Mục đích của các hệ thống hỏi đáp tự động là tìm kiếm câu trả 
lời chính xác và ngắn gọn cho những câu hỏi viết bằng ngôn ngữ tự nhiên thay vì trả về 
một danh sách các tài liệu liên quan đến câu hỏi như trong các máy tìm kiếm. Phân loại 
câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động. Nhiệm vụ 
chính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viết 
bằng ngôn ngữ tự nhiên. Có nhiều cách tiếp cận khác nhau để phân loại câu hỏi như: 
tiếp cận dựa trên luật [2,3], tiếp cận dựa trên học máy [1,7,10]. Trong nghiên cứu của 
mình, chúng tôi sử dụng tiếp cận dựa trên học máy với việc sử dụng nhiều đặc trưng và 
sử dụng mẫu câu hỏi (Question pattern) như là một đặc trưng mới để kết hợp với các 
đặc trưng đã có. Chúng tôi nhận thấy rằng khi sử dụng mẫu câu hỏi như là một đặc 
trưng và kết hợp với các đặc trưng từ vựng, cú pháp, ngữ nghĩa khác có thể cải thiện 
đáng kể độ chính xác của phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của 
mình bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và 
đã đạt được độ chính xác phân loại câu hỏi What cao hơn so với những nghiên cứu 
trước đó trên cùng nguyên tắc phân loại và tập dữ liệu. 
2. Một số vấn đề cơ bản về phân loại câu hỏi 
2.1. Nguyên tắc phân loại câu hỏi 
Ngày nhận bài: 22/3/2016. Ngày nhận đăng: 25/9/2016 
Liên lạc: Nguyễn Văn Tú, e - mail thuandhtb@gmail.com 
82 
 Một tập các loại câu hỏi (các lớp) thường được đại diện như là nguyên tắc phân 
loại câu hỏi. Các nguyên tắc phân loại câu hỏi khác nhau được đề xuất trong các công 
trình nghiên cứu khác nhau, nhưng hầu hết trong các nghiên cứu gần đây đều dựa trên 
nguyên tắc phân loại hai lớp được đề xuất bởi Li và Roth (2002)1 [6]. Nguyên tắc phân 
loại này bao gồm 6 lớp thô và 50 lớp mịn. Bảng 1 là danh sách các lớp theo nguyên tắc 
phân loại này. 
Bảng 1. Các lớp câu hỏi thô và mịn 
Lớp câu hỏi thô Lớp câu hỏi mịn 
ABBREVIATION Abbreviation, expression 
ENTITY Animal, body, color, creative, currency, dis.med, event, food, 
instrument, lang, letter, other, plant, product, religion, sport, 
substance, symbol, technique, term, vehicle, word 
DESCRIPTION Definition, description, manner, reason 
HUMAN Group, individual, title, description 
LOCATION City, country, mountain, other, state 
NUMERIC 
Code, count, date, distance, money, order, other, period, percent, 
speed, temperature, size, weight 
2.2. Thuật toán phân loại câu hỏi 
Có nhiều bộ phân loại khác nhau đã được sử dụng trong phân loại câu hỏi như: 
Support Vector Machine, Naive Bayesian, Maximum Entropy Models, Sparse Network 
of Winnows,  Tuy nhiên trong các bộ phân loại đó thì Support Vector Machine với 
hàm nhân tuyến tính được xem là hiệu quả hơn cả [1,3,8] vì trong vấn đề phân loại câu 
hỏi các câu hỏi được biểu diễn trong không gian có số chiều rất lớn, điều này có thể 
được phân loại tốt bởi Support Vector Machine. Chính vì vậy trong nghiên cứu của 
mình, chúng tôi sử dụng bộ phân loại Support Vector Machine với hàm nhân tuyến tính. 
2.3. Hiệu suất trong phân loại câu hỏi 
 Thông thường hiệu suất của bộ phân loại câu hỏi được đo bằng việc tính toán 
chính xác trong đó phân loại vào một tập kiểm tra cụ thể. Độ chính xác (accuracy) của 
bộ phân loại câu hỏi được định nghĩa như sau: 
 Ngoài ra còn có độ chính xác của bộ phân loại trên một lớp cụ thể precision. 
Precision của một bộ phân loại trên một lớp cụ thể c được định nghĩa như sau: 
 Đối với các hệ thống trong đó một câu hỏi chỉ có thể thuộc về một lớp, một câu 
hỏi được phân loại đúng nếu như nhãn dự báo là tương tự như nhãn đúng. Nhưng đối 
vớ ... ng như sự biểu diễn tài liệu trong mô hình không 
gian vectơ. Một câu hỏi q có thể được biểu diễn như sau: 
q = {(t1, f1), , (tp, fp)} 
trong đó ti là từ thứ i trong câu hỏi q và fi là tần số xuất hiện của ti trong câu hỏi q. Bảng 
2 là danh sách các đặc trưng từ vựng của câu hỏi “Who was elected president of South 
Africa in 1994 ?”. 
Bảng 2. Ví dụ về các đặc trưng từ vựng 
Tên đặc trưng Đặc trưng 
Unigram {(Who, 1) (was, 1) (elected, 1) (president, 1) (of, 1) (South, 1) (Africa, 1) 
(in, 1) (1994, 1) (?, 1)} 
Bigram {(Who-was, 1), (was-elected, 1), (elected-president, 1), (president-of, 1), 
(of-South, 1), (South-Africa, 1), (Africa-in, 1), (in-1994, 1), (1994-?, 1)} 
Trigram {( Who-was-elected, 1), (was-elected-president, 1), , (in-1994-?, 1)} 
Word-Shapes {(lowercase, 5) (mix, 3) (digit, 1) (other, 1)} 
3.2 Trích rút các đặc trưng cú pháp 
Các đặc trưng cú pháp có thể được trích rút dựa vào việc phân tích cấu trúc cú 
pháp của câu hỏi. 
Tagged Unigrams 
 Tagged Unigrams cho biết thẻ từ loại của mỗi từ trong câu hỏi như NN (Noun - 
danh từ), NP (Noun Phrase - cụm danh từ), VP (Verb Phrase - cụm động từ), JJ 
(adjective - tính từ),  Ví dụ câu hỏi sau “Who was elected president of South Africa in 
1994 ?” với đặc trưng Tagged Unigrams của nó: {Who_WP, was_VBD, elected_VBN, 
president_NN, of_IN, South_NNP, Africa_NNP, in_IN, 1994_CD, ?_.} 
Head Word 
 Một head wor thường được định nghĩa như là các từ khóa hoặc từ trung tâm 
trong một câu. Nó được xác định dựa trên cây phân tích cú pháp của câu đầu vào. Như 
đã đề cập trong [3], head word là những từ chứa thông tin quan trọng cho việc xác định 
các đối tượng mà câu hỏi đó đang tìm kiếm. Do đó, việc xác định head word một cách 
chính xác có thể cải thiện đáng kể độ chính xác phân loại vì nó là từ thông tin nhất trong 
câu hỏi. Ví dụ cho câu hỏi “What is the oldest city in Spain ?” head word là “city”. Từ 
“city” trong câu hỏi này có thể có đóng góp cao cho bộ phân loại để phân loại câu hỏi 
84 
này là “LOCATION: city”. Bảng 3 là danh sách một số câu hỏi từ tập dữ liệu TREC 
cùng với nhãn lớp của chúng. 
Bảng 3. Danh sách các câu hỏi từ tập dữ liệu TREC cùng các nhãn lớp của nó. 
 Head word của mỗi câu hỏi là từ được gạch chân 
Câu hỏi Nhãn lớp 
What city has the zip code of 35824 ? LOCATION: city 
Who developed the vaccination against polio ? HUMAN: individual 
Who invented the slinky ? HUMAN: individual 
George Bush purchased a small interest in which baseball team ? HUMAN: group 
Mẫu câu hỏi (Question Pattern) 
 Qua nghiên cứu tập dữ liệu TREC chúng tôi nhận thấy một số câu hỏi không có 
đặc trưng head word. Ví dụ đối với câu hỏi “What is biosphere ?” không có đặc trưng 
head word nào phù hợp. Để định nghĩa một đặc trưng thay thế cho head word của câu 
hỏi chúng tôi đề xuất sử dụng mẫu câu hỏi như một kiểu đặc trưng từ vựng. Mỗi câu hỏi 
sẽ được ánh xạ tới một mẫu câu hỏi và sau đó sử dụng mẫu tương ứng như là một đặc 
trưng dùng để phân loại. Bảng 4 liệt kê danh sách một số mẫu câu hỏi2. 
Bảng 4. Ví dụ về một số mẫu câu hỏi 
Mẫu câu hỏi Nhãn lớp 
What (causes|caused) DESCRIPTION:reason 
How is .* defined DESCRIPTION:definition 
Where .* (M|m)ountai(n|ns) LOCATION:mountain 
How much .* weight NUMERIC:weight 
3.3. Trích rút các đặc trưng ngữ nghĩa 
 Các đặc trưng ngữ nghĩa là hữu ích cho các trường hợp dữ liệu thưa thớt. Từ 
khái niệm ngữ nghĩa mức độ cao hơn chúng ta có thể có được mối quan hệ giữa các từ 
khác nhau hay nói cách khác chúng ta có thể có được sự giống nhau giữa các từ. Có một 
số cách để trích xuất thông tin ngữ nghĩa và thiết kế đặc trưng ngữ nghĩa, như dưới đây. 
Hypernyms 
 WordNet là một cơ sở dữ liệu từ vựng của các từ trong tiếng Anh, nó cung cấp 
một hệ thống thứ bậc của từ vựng mà kết hợp một từ với các khái niệm ngữ nghĩa mức 
cao hơn gọi là hypernyms. Ví dụ hypernyms của từ “city” là “municipality”. 
Related Words 
 Đặc trưng ngữ nghĩa khác mà chúng tôi sử dụng là related words dựa trên ý tưởng 
của Li và Roth [7]. Họ định nghĩa một nhóm các từ, mỗi nhóm từ biểu diễn bởi một 
tên. Nếu một từ trong câu hỏi xuất hiện trong một hoặc nhiều nhóm, loại tương ứng của 
nó sẽ được bổ sung vào vectơ đặc trưng. Cho ví dụ nếu một trong số các từ {birthday, 
birthdate, day, decade, hour, week, month, year} xuất hiện trong câu hỏi, sau đó tên loại 
của nó, date sẽ được thêm vào vectơ đặc trưng. 
2 https://qa.l2f.inesc-id.pt/wiki/images/6/6a/QuestionPatterns.txt 
85 
Question Category 
 Sử dụng hệ thống phân cấp WordNet để tính toán độ tương tự của head word của 
câu hỏi với mỗi lớp. Lớp với độ tương tự cao nhất sẽ được xem xét như là một đặc 
trưng và được bổ sung vào vectơ đặc trưng. Xét câu hỏi: “What American composer 
wrote the music for “West Side Story” ?”. Head word của câu hỏi này là “composer”. 
Để tìm đặc trưng question category, xem sét sự giống nhau của từ “composer” với tất cả 
các lớp câu hỏi. Lớp nào với sự giống nhau cao nhất sẽ được thêm vào vectơ đặc trưng. 
Trong ví dụ này, lớp giống nhau cao nhất là “individual” và do đó đặc trưng loại câu hỏi 
sẽ là {(individual, 1)}. 
Query Expansion 
 Đặc trưng query expansion mà về cơ bản rất giống đặc trưng hypernym. Như 
chúng tôi đã trình bày trước đó, chúng ta thêm hypernym của head word vào vectơ đặc 
trưng với các từ lấy từ hệ thống phân cấp WordNet. Để đánh giá vai trò của các từ mới 
thêm này, người ta định nghĩa một tham số trọng số cho các từ mới thêm này. Bảng 5 
liệt kê danh sách các đặc trưng ngữ nghĩa được thảo luận trong phần này cho câu hỏi 
“What river flows between Fargo, North Dakota and Moorhead, Minnesota ?”. 
Bảng 5. Ví dụ về các đặc trưng ngữ nghĩa 
Tên đặc trưng Đặc trưng 
Hypernyms {(river, 1) (stream, 1) (body-of-water, 1) (thing, 1) 
(physical-entity, 1) (entity, 1)} 
Related Words {(rel:What, 1) (rel:list.tar, 2) (rel:loca, 2)} 
Question Category {(other, 1)} 
Query Expansion {(river, 1) (stream, 0.6) (body-of-water, 0.36) (thing, 0.22) 
(physical-entity, 0.13) (entity, 0.08)} 
4. Các thực nghiệm 
4.1 Tập dữ liệu 
 Để thực hiện các thực nghiệm của mình, chúng tôi sử dụng bộ dữ liệu chuẩn 
TREC3 và trích rút các đặc trưng cơ bản từ mỗi câu hỏi bao gồm: Unigrams (U), 
Bigrams (B), Trigram (Tri), Word-Shapes (WS), Tagged Unigrams (TgU), Head-Word 
(H), Hypernyms (HY), Query-Expansion (QE), Question-Category (QC), Related-
Words (R), Question-Pattern (QP). Tập dữ liệu huấn luyện bao gồm 5500 câu hỏi đã 
gán nhãn. Tập dữ liệu dùng để kiểm tra gồm 343 câu hỏi với từ để hỏi What trong tổng 
số 500 câu hỏi độc lập đã gán nhãn. Chúng tôi cũng sử dụng nguyên tắc phân loại của 
Li và Roth (2002) đã được giới thiệu trong phần 2.1. Bảng 6 trình bày các loại câu hỏi 
trong tập dữ liệu kiểm tra và độ chính xác của chúng trong phân loại khi chỉ sử dụng 
đặc trưng Unigram. 
3  
86 
Bảng 6. Số lượng mỗi loại câu hỏi và độ chính xác phân loại 
 trong tập dữ liệu kiểm tra TREC 
Câu hỏi với 
từ để hỏi 
Số lượng 
Độ chính xác phân 
loại lớp mịn (%) 
What 343 75,80 
Which 6 100 
Where 26 92,31 
When 26 100 
Why 4 100 
Who 47 93,62 
How 33 87,88 
Câu hỏi khác 15 53,33 
Từ Bảng 6 cho thấy số lượng câu hỏi với từ để hỏi What chiếm phần lớn (68.6%) 
nhưng độ chính xác phân loại lại chỉ đạt 75.8%, thấp hơn nhiều so với các câu hỏi với 
các từ để hỏi khác. Chính vì vậy để nâng cao độ chính xác trong phân loại câu hỏi trước 
tiên cần nâng cao độ chính xác trong phân loại câu hỏi với từ để hỏi What. 
4.2. Các thực nghiệm 
Trong thực nghiệm thứ nhất chúng tôi muốn kiểm tra sự đóng góp của đặc trưng 
từ vựng mà chúng tôi đã trình bày trong mục 3.1. Các kết quả của thực nghiệm này 
được cho trong Bảng 7. 
Bảng 7. Độ chính xác phân loại câu hỏi What khi sử dụng các đặc trưng từ vựng 
Tập đặc trưng 
Độ chính xác phân loại 
Lớp thô (%) Lớp mịn (%) 
Unigrams (U) 83,67 75,80 
Bigrams (B) 82,22 69,68 
Trigram (Tri) 59,18 52,77 
Word-Shapes (WS) 44,32 36,44 
U + B + Tri 85,71 74,64 
U + B + WS 87,46 75,51 
U + B + Tri + WS 88,05 75,22 
Trong thực nghiệm thứ hai chúng tôi muốn kiểm tra sự đóng góp của đặc trưng cú 
pháp mà chúng tôi đã trình bày trong mục 3.2. Các kết quả của thực nghiệm này được 
cho trong bảng 8. 
Bảng 8. Độ chính xác phân loại câu hỏi What khi sử dụng các đặc trưng cú pháp 
Tập đặc trưng 
Độ chính xác phân loại 
Lớp thô (%) Lớp mịn (%) 
Tagged Unigrams (TgU) 82,80 76,09 
Head-Word (H) 45,48 41,69 
Question-Pattern (QP) 50,44 40,23 
87 
H + QP 77,84 72,89 
TgU + H + QP 85,13 78,43 
Trong thực nghiệm thứ ba chúng tôi muốn kiểm tra sự đóng góp của đặc trưng 
ngữ nghĩa mà chúng tôi đã trình bày trong mục 3.3. Các kết quả của thực nghiệm này 
được cho trong Bảng 9. 
Bảng 9. Độ chính xác phân loại câu hỏi What khi sử dụng các đặc trưng ngữ nghĩa 
Tập đặc trưng 
Độ chính xác phân loại 
Lớp thô (%) Lớp mịn (%) 
H + Hypernyms (HY) 79,01 43,44 
H + Query-Expansion (QE) 78,43 44,32 
H + Question-Category (QC) 78,40 55,39 
H + Related-Words (R) 83,97 79,3 
H + HY + QE + QC + R 82,80 82,80 
H + QE + QC + R 83,67 82,81 
Trong thực nghiệm thứ tư chúng tôi muốn kiểm tra sự đóng góp của sự kết hợp 
các tập đặc trưng từ vựng, cú pháp và ngữ nghĩa nhằm đạt được kết quả phân loại tốt 
nhất. Các kết quả của thực nghiệm này được cho trong Bảng 10. 
Bảng 10. Độ chính xác phân loại câu hỏi What khi sử dụng sự kết hợp 
của các đặc trưng từ vựng, cú pháp, ngữ nghĩa 
Tập đặc trưng 
Độ chính xác phân loại 
Lớp thô (%) Lớp mịn (%) 
U + B + WS + H + QP 87,46 78,43 
U + B + WS + H + QE + QC + R 90,67 88,05 
U + B + WS + H + QE + QC + R + QP 92,25 89,21 
Từ các thực nghiệm trên chúng tôi nhận thấy đề xuất của chúng tôi coi mẫu câu 
hỏi như là một đặc trưng để phân loại sẽ cho hiệu quả cao hơn trong phân loại câu hỏi 
với từ để hỏi What trong cả lớp thô và lớp mịn. 
5. So sánh với các nghiên cứu khác 
Bây giờ chúng tôi so sánh các kết quả nghiên cứu của mình với các kết quả nghiên 
cứu của các tác giả trước đó. 
Bảng 11. Bảng so sánh độ chính xác của các nghiên cứu khác nhau về phân 
loại câu hỏi. Các đặc trưng: Unigrams (U), Bigrams (B), Word-Shapes (WS), POS-
tags (P), Head-Word (H), Hypernyms (HY),Query-Expansion (QE), Question-
Category (QC), Synonyms (S), Name-Entities (NE), Related-Words (R), Question-
Pattern (QP). 
Tác giả 
Bộ phân 
loại 
Đặc trưng 
Độ chính xác phân loại 
Lớp thô Lớp mịn 
Li and Roth (2004) [7] SEM U+P+HC+NE+R 
+S 
 85,79% 
Fangtao Li et al.(2008) CRF U+P+NE+HY 82,05% 
88 
[5] +Length 
Loni et al. (2011) [8] Linear 
SVM 
U+WS+B+H+QE 
+R+ QC 
90,50% 86,20% 
Nghiên cứu của chúng 
tôi 
Linear 
SVM 
U+WS+B+H+R 
+QE+QC+QP 
92,25% 89,21% 
Từ Bảng so sánh 11 cho thấy cách tiếp cận của chúng tôi cho độ chính xác phân 
loại cao nhất cho phân loại lớp thô và lớp mịn lần lượt là 92,25% và 89,21%. 
6. Kết luận và hướng phát triển 
 Chúng tôi đã trình bày một tiếp cận dựa trên học máy để phân loại câu hỏi với từ 
để hỏi What. Để huấn luyện một thuật toán học, chúng tôi đã trích rút một tập các đặc 
trưng tốt từ vựng, cú pháp và ngữ nghĩa. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi 
như một đặc trưng mới để kết hợp với các đặc trưng từ vựng, cú pháp và ngữ nghĩa. Các 
kết quả thực nghiệm đã chứng minh rằng các đề xuất của chúng tôi cho hiệu quả phân 
loại cao hơn so với các công trình nghiên cứu trước đó trên cùng nguyên tắc phân loại 
và tập dữ liệu. Chúng tôi cũng nhận thấy rằng việc kết hợp của tất cả các đặc trưng từ 
vựng, cú pháp và ngữ nghĩa của câu hỏi để phân loại là không cần thiết. Chính vì vậy 
trong nghiên cứu tiếp theo chúng tôi sẽ nghiên cứu làm thế nào để kết hợp các đặc trưng 
tốt hơn nhằm đạt được sự phân loại có độ chính xác cao hơn. 
TÀI LIỆU THAM KHẢO 
[1] Zhiheng Huang, Marcus Thint, and Zengchang Qin, 2008, Question 
classification using head words and their hypernyms, In Proceedings of the 
Conference on Empirical Methods in Natural Language Processing, (EMNLP 
’08), pp 927-936. 
[2] David A. Hull, 199, Xerox TREC-8 question answering track report, In In 
Voorhees and Harman. 
[3] Vijay Krishnan, Sujatha Das, and Soumen Chakrabarti, 2005, Enhanced answer 
type inference from questions using sequential models, In Proceedings of the 
conference on Human Language Technology and Empirical Methods in Natural 
Language Processing, HLT ’05, pp 315-322. 
[4] Wendy G. Lehnert, 1977, A conceptual theory of question answering, In 
Proceedings of the 5th international joint conference on Artificial intelligence, 
Volume 1, pp158-164. 
[5] Fangtao Li, Xian Zhang, Jinhui Yuan, and Xiaoyan Zhu, 2008, Classifying 
what-type questions by head noun tagging, In Proceedings of the 22nd 
International Conference on Computational Linguistics - Volume 1, COLING 
’08, pp 481-488. 
[6] Xin Li and Dan Roth, 2002, Learning question classifiers, In Proceedings of the 
19th international conference on Computational linguistics, COLING ’02, pp 1-7. 
[7] Xin Li and Dan Roth, 2004, Learning question classifiers: The role of semantic 
information, In Proc. International Conference on Computational Linguistics 
(COLING), pp 556-562. 
89 
[8] Babak Loni, Gijs van Tulder, Pascal Wiggers, David M.J. Tax, and Marco Loog, 
2011, Question classification with weighted combination of lexical, syntactical 
and semantic features, In Proceedings of the 15th international conference of 
Text, Dialog and Speech, pp 243-250. 
[9] Dan Moldovan, Marius Pasca, Sanda Harabagiu, and Mihai Surdeanu, 2003, 
Performance issues and error analysis in an open-domain question answering 
system, ACM Trans, Inf. Syst., pp 133-154. 
[10] João Silva, Luísa Coheur, Ana Mendes, and Andreas Wichert, 2011, From 
symbolic to subsymbolic information in question classification, Artificial 
Intelligence Review, 35(2): pp 137-154. 
CLASSIFYING WHAT-TYPE QUESTIONS BY USING 
MULTIPLE FEATURE TYPES 
Nguyen Van Tu 
Faculty of Mathematic, Physics and Informatics, Tay Bac University 
 Abstract: Question classification plays an important role in automatic question answering 
systems. The task of question classification is to predict the entity type for answering a natural language 
question. In automatic question answering systems, the questions with question word “What” accounts 
for the majority, but the classification of these questions is a lot more difficult than this of other questions. 
In this paper, we propose to extract the appropriate features to classify questions What-type with high 
accuracy. We also suggest a new feature type which we call question pattern and combining with 
other different features to question classification. We tested our proposed approach using a Support 
Vector Machines as the classifier and using TREC dataset and achieved classification what-type 
questions with higher accuracy than the previous studies on the same question taxonomy and dataset. 
Keywords: question classification, question answering systems, question pattern, support vector 
machines. 

File đính kèm:

  • pdfphan_loai_cau_hoi_kieu_what_su_dung_nhieu_loai_dac_trung.pdf