Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện

Ngày nay, chất lượng của các dịch vụ trong thư viện

không ngừng được nâng cao nhờ sự phát triển của công nghệ

và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp

khoảng cách về không gian, cũng như mở rộng thời gian hoạt

động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể

gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất

kỳ giới hạn nào về thời gian và không gian thông qua mạng

Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong

thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời

những thắc mắc của bạn đọc, chúng tôi đề xuất một phương

pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông

qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể

trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu

các câu trả lời có sẵn.

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 1

Trang 1

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 2

Trang 2

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 3

Trang 3

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 4

Trang 4

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 5

Trang 5

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 6

Trang 6

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 7

Trang 7

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 8

Trang 8

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện trang 9

Trang 9

pdf 9 trang baonam 10060
Bạn đang xem tài liệu "Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE 
VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
Vũ Đình Minh1* - Nguyễn Thị Thu Thủy2**
Tóm tắt: Ngày nay, chất lượng của các dịch vụ trong thư viện 
không ngừng được nâng cao nhờ sự phát triển của công nghệ 
và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp 
khoảng cách về không gian, cũng như mở rộng thời gian hoạt 
động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể 
gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất 
kỳ giới hạn nào về thời gian và không gian thông qua mạng 
Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong 
thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời 
những thắc mắc của bạn đọc, chúng tôi đề xuất một phương 
pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông 
qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể 
trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu 
các câu trả lời có sẵn.
1. GIỚI THIỆU
Trong những năm gần đây, sự ảnh hưởng của các công nghệ và 
thiết bị máy tính là vô cùng rõ ràng tới rất nhiều lĩnh vực. Trong lĩnh 
vực thư viện, dịch vụ thư viện truyền thống đang dần chuyển đổi sang 
thư viện điện tử vì những ưu điểm của nó. Thông qua mạng Internet, 
người dùng có thể dễ dàng gửi các yêu cầu của mình tới thư viện nhằm 
thu thập và truy xuất thông tin từ các hệ thống phần mềm. Với các ưu 
* Tiến sĩ, Trung tâm Mạng thông tin, Trường Đại học Bách Khoa Hà Nội.
** Thạc sĩ, Thư viện Tạ Quang Bửu, Trường Đại học Bách Khoa Hà Nội.
660
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
điểm về sự không bị giới hạn về không gian và thời gian, người dùng 
hiện nay có thể kết nối với các hệ thống một cách dễ dàng và thuận lợi. 
Bên cạnh nhu cầu sử dụng tài liệu, một trong các nhu cầu của bạn 
đọc là yêu cầu tư vấn và hỗ trợ để sử dụng thư viện hiệu quả. Để có 
thể sử dụng hệ thống phần mềm thư viện với những nghiệp vụ phức 
tạp, người dùng đôi khi có những thắc mắc cần được giải đáp. Có hai 
phương pháp được sử dụng để giải quyết vấn đề này là: trực tiếp liên 
hệ với cán bộ thư viện và gián tiếp liên hệ với cán bộ thư viện thông 
qua một hệ thống phần mềm. Phương pháp thứ nhất có ưu điểm về 
độ chính xác khi mọi thắc mắc về tình huống của bạn đọc sẽ được giải 
quyết trực tiếp với một nhân viên có những kiến thức về thư viện. Tuy 
nhiên, như đã phân tích ở trên, phương pháp này có hạn chế về mặt 
thời gian và không gian. Để thực hiện giải pháp này, bạn đọc bắt buộc 
phải có mặt tại thư viện trong khoảng thời gian phục vụ. Phương pháp 
thứ hai có thể giải quyết được vấn đề này khi mọi yêu cầu đều được 
phản hồi thông qua mạng Internet dưới các hình thức như một hệ 
thống phần mềm, fanpage, Tuy nhiên, phương pháp này có một hạn 
chế về nguồn nhân lực cho việc phản hồi thông tin. Thêm vào đó, các 
câu hỏi của nhiều người dùng đôi khi khá đơn giản và thường trùng 
lặp trong quá trình khai thác dữ liệu thông tin thư viện. 
Trong khi đó, một hệ thống tự động trả lời câu hỏi có thể giải quyết 
được vấn đề này dựa trên các kỹ thuật học sâu của lĩnh vực trí tuệ nhân 
tạo. Thông qua việc ánh xạ các câu hỏi tới các câu trả lời, hệ thống có 
thể nhanh chóng phản hồi các yêu cầu của người dùng mà không đòi 
hỏi bất kỳ sự trợ giúp nào từ con người. Trong bài viết này, chúng tôi 
đề xuất một phương pháp sử dụng kỹ thuật học máy để xây dựng một 
hệ thống tự động trả lời các câu hỏi của người dùng.
Cấu trúc của bài viết này được lần lượt trình bày gồm 7 mục. Trong 
mục tiếp theo, chúng tôi cung cấp một khảo sát về các nghiên cứu liên 
quan đến việc trả lời câu hỏi của người dùng. Trong mục 3, một cơ sở 
lý thuyết về các kỹ thuật trong lĩnh vực học máy được trình bày nhằm 
giúp người đọc dễ dàng hơn trong việc hiểu phương pháp đề xuất. 
Trong mục 4, phương pháp học máy được trình bày. Mục 5 mô tả về 
661
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN 
thí nghiệm của việc áp dụng mô hình đề xuất vào việc trả lời câu hỏi 
liên quan đến lĩnh vực thư viện của bạn đọc. Kết quả và thảo luận được 
trình bày trong mục 6. Cuối cùng, chúng tôi thống kê lại các vấn đề và 
đề xuất các hướng phát triển trong tương lai.
2. CÁC GIẢI PHÁP ĐỂ GIẢI QUYẾT VẤN ĐỀ
Như đã trình bày trong mục 1, nhu cầu giải đáp những thắc mắc của 
người dùng đối với các hoạt động thư viện là một trong các yếu tố cần 
được cải thiện để nâng cao chất lượng dịch vụ. Để giải quyết vấn đề này, 
có hai hướng tiếp cận chính: các phương pháp truyền thống được thực 
hiện bởi con người và hệ thống trả lời tự động các câu hỏi từ người dùng. 
•	 Đối với hướng tiếp cận thứ nhất, các câu trả lời sẽ được phản 
hồi bởi các cán bộ thư viện có trách nhiệm, được phân công cho nhiệm 
vụ trả lời câu hỏi. Các phương pháp trong hướng tiếp cận này có ưu 
điểm về độ chính xác cao trong các câu trả lời do được thực hiện bởi 
nguồn nhân lực chất lượng cao. Các phương pháp có thể được kể đến 
như là: fanpage của Facebook, Website của thư viện và các phương 
pháp khác. Tuy nhiên, các phương pháp này có nhược điểm về tính 
nhất quán trong câu trả lời do được thực hiện bởi nhiều người khác 
nhau. Bên cạnh đó, các yêu cầu của người dùng không thể thực hiện 
bên ngoài thời gian hoạt động của thư viện.
•	 Đối với hướng tiếp cận thứ hai, một hệ thống có thể tự động 
phản hồi các câu trả lời dựa trên kho dữ liệu câu hỏi của thư viện sẽ 
được xây dựng. Cụ thể là, thông qua việc tự động ánh xạ các câu hỏi 
tới câu trả lời, các yêu cầu của người dùng sẽ được thực hiện vào bất kỳ 
khoảng thời gian nào. Thêm vào đó, giải pháp này còn giúp giảm đi chi 
phí về nhân lực trong quá trình vận hành hệ thống thư viện. 
Với sự phát triển không ngừng của các ứng dụng trong công nghệ 
thông tin cũng như lợi ích của việc áp dụng hệ thống tự động trả lời 
câu hỏi, trong bài báo này, chúng tôi sẽ đề xuất một hệ thống trả lời câu 
hỏi tự động dựa trên trí tuệ nhân tạo được áp dụng cho Thư viện Tạ 
Quang Bửu của Trường Đại học Bách Khoa Hà Nội để góp phần nâng 
cao chất lượng phục vụ bạn đọc.
662
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
3. CƠ SỞ LÝ THUYẾT
3.1. Machine learning là gì?
.
Hình 1. Quy trình của mô hình trong học máy
Trong những năm gần đây, Machine learning (học máy) là một 
thuật ngữ phổ biến với sự bùng nổ về các ứng dụng công nghệ thông 
tin. Có rất nhiều các vấn đề đã được giải quyết như là: xe tự lái, dịch 
máy, hay phân loại dịch bệnh. Về mặt định nghĩa, học máy là một 
nhánh nhỏ của trí tuệ nhân tạo, nó giúp máy tính có thể tự học dựa 
trên dữ liệu mà không cần phải được lập trình cụ thể [1]. Nói cách 
khác, học máy bao gồm các mô hình thống kê để khái quát các đặc 
tính trong tập dữ liệu huấn luyện và thực hiện dự đoán cho các dữ liệu 
chưa biết trong tương lai.
Hình 1 mô tả một qui trình cơ bản của các mô hình trong học máy. Cụ 
thể là, mô hình học máy thường bao gồm hai giai đoạn cơ bản: giai đoạn 
huấn luyện và giai đoạn kiểm tra đánh giá. Dựa trên một tập dữ liệu bao 
gồm: các thuộc tính và kết quả, giai đoạn một giúp tìm ra một hàm số để 
ánh xạ hai thành phần này lại với nhau. Trong khi đó, giai đoạn hai hướng 
663
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN 
đến việc kiểm tra khả năng ứng dụng hàm số này trong thực tế, thông qua 
việc áp dụng trên một tập dữ liệu khác có cấu trúc tương ứng. 
Hai giai đoạn này đều có chung hai thành phần chính: trích xuất 
đặc trưng và thuật toán chính. Trong bước thứ nhất, sau khi tiền xử lý 
dữ liệu thô để chuẩn hóa dữ liệu, quá trình trích xuất đặc trưng giúp 
cho máy tính loại đi những thành phần thuộc tính không cần thiết và 
tìm ra những thuộc tính có ảnh hưởng quan trọng đến việc tính toán 
kết quả. Trong bước thứ hai, dựa trên những đặc trưng đã được trích 
xuất, một thuật toán phân loại thường được sử dụng để tìm ra một 
hàm số giúp cho việc ánh xạ từ các thuộc tính đầu vào tới kết quả. Từ 
đó, hàm số này sẽ được sử dụng để dự đoán cho bài toán với các đầu 
vào tương ứng.
Trong phần tiếp theo, một mô hình cơ bản của deep learning (học 
sâu) – một nhánh của Machine learning được trình bày, nhằm giúp cho 
người đọc dễ dàng làm quen hơn với mô hình được đề xuất.
3.2. Mô hình sequence to sequence (seq2seq)
Như chúng ta đã biết, xử lý ngôn ngữ tự nhiên là một trong những 
thử thách lớn nhất của khoa học máy tính. Lý do là máy tính chỉ làm 
việc với các tín hiệu số và không thể hiểu được ngôn ngữ của con 
người. Với mục tiêu giúp cho máy tính có thể hiểu được ngôn ngữ của 
con người, các tác giả đã đề xuất mô hình Sequence to sequence [2] 
nhằm chuyển ngôn ngữ của con người thành ngôn ngữ máy tính.
Seq2seq[2] là một mô hình cơ bản của deep learning (học sâu) – 
một nhánh của học máy và đã đạt được rất nhiều thành tựu ấn tượng 
trong các lĩnh vực như là: dịch máy, tóm tắt văn bản, dán nhãn văn 
bản Thông thường, đầu vào của mô hình seq2seq là các chuỗi về từ, 
ký tự, và đầu ra là một chuỗi khác. Mô hình seq2seq thường gồm hai 
thành phần chính sau đây: encoder (bộ mã hóa) và decoder (bộ giải 
mã). Encoder có nhiệm vụ mã hóa câu đầu vào thành một vector bởi 
một mạng nơron hồi quy và decoder sẽ giải mã vector thành câu đầu 
ra dựa trên một mạng nơron hồi quy khác.
664
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Hình 2 mô tả quá trình để ánh xạ từ một câu hỏi đến câu trả lời. 
Cụ thể là, trong bước mã hóa (encoder), với đầu vào là một câu hỏi, câu 
sẽ được tách ra thành các từ. Mỗi từ này sau đó sẽ được đại diện bởi 
một vector duy nhất và lần lượt được đưa vào mạng nơron để tính toán 
tìm ra các trạng thái ẩn. Tiếp theo đó, trạng thái ẩn cuối cùng sẽ được 
sử dụng là đại diện cho câu đầu vào, hay còn gọi là vector trung gian. 
Vector này có chức năng gói gọn các thông tin của câu đầu vào và giúp 
cho bộ giải mã (decoder) dự đoán thông tin chính xác hơn. Trong bước 
giải mã, một mạng nơron khác được sử dụng và nhận vector trung 
gian như là thành phần đầu vào thứ nhất để dự đoán lần lượt các từ 
trong câu đầu ra. Kết quả sau đó sẽ được đánh giá dựa trên sự so sánh 
giữa các từ trong câu dự đoán và câu trả lời thật có sẵn trong tập dữ liệu 
sử dụng để huấn luyện.
Hình 2. Mô hình sequence to sequence
4. GIẢI QUYẾT VẤN ĐỀ
Trong mục này, chúng tôi sẽ trình bày chi tiết việc áp dụng mô 
hình seq2seq vào việc xây dựng hệ thống trả lời tự động các câu hỏi 
liên quan đến lĩnh vực thư viện. Như chúng ta đã biết, hàng năm thư 
viện đều tiếp nhận một số lượng lớn các tân sinh viên. Chính vì thế, 
sự trùng lặp về những thắc mắc của các sinh viên mới và sinh viên cũ 
thường xảy ra. Điều này gây ra sự không thống nhất trong các câu trả 
lời vì yếu tố thời gian và con người. 
665
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN 
Để giải quyết vấn đề này, chúng tôi đề xuất giải pháp sử dụng mô 
hình seq2seq để ánh xạ các câu hỏi tới các câu trả lời. Cụ thể là, các câu 
hỏi của người dùng sẽ được chuyển đổi thành các vector, sau đó, câu 
trả lời sẽ được sinh ra dựa trên các vector này.
5. THÍ NGHIỆM
Để kiểm tra khả năng của việc áp dụng mô hình seq2seq vào việc 
xây dựng hệ thống tự động trả lời câu hỏi, chúng tôi áp dụng trên tập 
dữ liệu các câu hỏi của Thư viện Tạ Quang Bửu. Tập dữ liệu bao gồm 
100 cặp câu hỏi và trả lời của 6 chủ đề chính như thống kê trong bảng 1. 
Sau khi tiến hành tiền xử lý dữ liệu, dữ liệu được đưa vào mô hình 
để dự đoán các câu trả lời dựa trên câu hỏi. Độ chính xác của mô hình 
được đánh giá dựa trên sự so sánh về độ sai lệch của câu trả lời dự đoán 
và câu trả lời thực tế. Kết quả cho thấy rằng sự chính xác của việc dự 
đoán các câu trả lời là khả quan và có thể đáp ứng nhu cầu của bạn đọc 
như được trình bày trong hình 3.
Hình 3. Thí nghiệm áp dụng mô hình seq2seq 
vào tập dữ liệu câu hỏi và trả lời của Thư viện Tạ Quang Bửu
Bảng 1. Dữ liệu câu hỏi và câu trả lời của thư viện Tạ Quang Bửu
Loại câu hỏi Câu hỏi Câu trả lời
Câu hỏi chung Thời gian làm việc của thư viện? Sáng: 8h đến 11h. Chiều: 13h30 đến 17h
Phòng đọc Khi vào phòng đọc, em được 
mang những gì?
Bạn đọc được phép mang theo giấy, vở, bút vào 
phòng đọc. Thư viện không chịu trách nhiệm về 
các đồ vật quý hiếm, có giá trị như tiền bạc, điện 
thoại, máy ảnh... của bạn đọc.
666
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Phòng mượn 
tài liệu
Sau khi mượn, trả ở máy tự 
động, em có thể kiểm tra tài 
khoản của mình được không?
Bạn hoàn toàn có thể kiểm tra tài khoản luôn 
trên máy mượn trả, hoặc máy tra cứu.
Gia hạn tài liệu Có mấy cách gia hạn tài liệu? Có 3 cách gia hạn tài liệu: 
1. Gia hạn trực tiếp bằng cách đến phòng mượn 
thư viện để cán bộ thư viện thực hiện.
2. Gia hạn tại trang  Link 
hướng dẫn 
3. Gia hạn qua email tvtqb@hust.edu.vn hoặc 
điện thoại bằng cách gửi thông tin cá nhân vào 
mail yêu cầu hỗ trợ. 
Tra cứu tài liệu Làm thế nào để tra cứu tài liệu 
ở thư viện?
Bạn có thể tìm tại liệu theo hai cách:
1. Qua các hệ thống mục lục tại một số phòng 
như Phòng mượn sách tham khảo 102.
2. Tìm kiếm tài liệu qua trang tìm kiếm http://
libopac.hust.edu.vn/
Báo, tạp chí Báo, tạp chí được lưu trữ ở đâu? Báo, tạp chí mới sẽ được xếp trên giá trong 
phòng Báo - Tạp chí. Báo, tạp chí cũ sẽ được xếp 
trong kho.
6. THẢO LUẬN
Trong bài viết này, phương pháp đề xuất là xây dựng một giải 
pháp tự động phản hồi câu trả lời cho người dùng dựa trên các yêu cầu 
cụ thể. Điều này được hiểu như là việc ánh xạ các câu hỏi của người 
dùng vào tập các câu trả lời có sẵn của thư viện. Hình 2 đã chỉ ra rằng 
việc áp dụng mô hình seq2seq vào tập dữ liệu các câu hỏi và trả lời của 
Thư viện Tạ Quang Bửu đạt được những kết quả khả quan trong việc 
nâng cao chất lượng phục vụ bạn đọc. 
Hệ thống tự động trả lời câu hỏi được xây dựng nhằm các mục 
đích như sau:
- Tăng thời gian phục vụ, giải đáp các yêu cầu của người dùng.
- Giảm chi phí về nhân lực chất lượng cao. Từ đó, thư viện có 
thêm nguồn lực để thực hiện các hoạt động khác.
- Câu trả lời có tính thống nhất.
667
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN 
Tuy nhiên, phương pháp đề xuất mới được áp dụng trong tập dữ 
liệu nhỏ và cần được đánh giá trong một tập dữ liệu lớn hơn. Bên cạnh 
đó, mô hình đề xuất vẫn còn thiếu sự đánh giá từ phía người sử dụng 
về chất lượng của các câu trả lời. Chính vì thế, mô hình đề xuất cần 
được tích hợp vào các hệ thống của thư viện để nhận được các phản 
hồi từ phía người sử dụng. Trong tương lai, chúng tôi sẽ áp dụng mô 
hình đề xuất vào các hệ thống sẵn có của thư viện để đánh giá chất 
lượng của mô hình đề xuất.
7. KẾT LUẬN
Trong bài viết này, để nâng cao chất lượng dịch vụ của thư viện, 
chúng tôi đề xuất xây dựng một hệ thống tự động trả lời câu hỏi của 
người dùng. Để làm được điều này, chúng tôi đã sử dụng một mô hình 
phổ biến của học máy là seq2seq để ánh xạ các câu hỏi và câu trả lời. 
Tuy nhiên, sự đánh giá của người dùng và sự hiệu quả của mô 
hình chỉ được đánh giá trong một tập dữ liệu nhỏ. Trong tương lai, 
chúng tôi sẽ tích hợp phương pháp đề xuất vào các dịch vụ của thư 
viện để thu thập các đánh giá từ phía người sử dụng.
TÀI LIỆU THAM KHẢO
 Tiếng Việt
1. https://github.com/tiepvupsu/ebookMLCB.
Tiếng Anh
2. Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. (2014), “Sequence 
to sequence learning with neural networks.” Advances in neural 
information processing systems.

File đính kèm:

  • pdfung_dung_mo_hinh_sequence_to_sequence_vao_xay_dung_he_thong.pdf