Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi

Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành

một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron

(Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu

quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên

hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các

ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác

trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ

liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn

dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức.

Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở

lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với

các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu

được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết

quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho

thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp

dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn

luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt

được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 1

Trang 1

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 2

Trang 2

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 3

Trang 3

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 4

Trang 4

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 5

Trang 5

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 6

Trang 6

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 7

Trang 7

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 8

Trang 8

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 9

Trang 9

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi trang 10

Trang 10

pdf 10 trang baonam 16840
Bạn đang xem tài liệu "Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi

Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi
Nghiên cứu khoa học công nghệ 
 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23 
PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY 
THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - 
TRANSLATION VÀ LỰA CHỌN THÍCH NGHI 
Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 
Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành 
một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron 
(Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu 
quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên 
hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các 
ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác 
trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ 
liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn 
dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. 
Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở 
lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với 
các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu 
được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết 
quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho 
thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp 
dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn 
luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt 
được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU. 
Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu. 
1. ĐẶT VẤN ĐỀ 
Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy, 
hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy 
nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng 
dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong 
nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp 
dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương 
phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao 
chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm 
nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu 
cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ, 
dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau, 
ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu 
trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do 
sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu 
được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các 
ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích, 
toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên, 
đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm 
và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống 
dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm 
giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng 
Công nghệ thông tin 
 24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường  lựa chọn thích nghi.” 
là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain 
adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau 
đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3], 
các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất” 
các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với 
mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy 
rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi 
đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các 
ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi. 
Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực 
hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm 
tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong 
hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câ ... đề xuất là thêm vào một bước 
lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ 
chính xác của mô hình dịch máy thống kê. 
Phương pháp tăng cường dữ liệu đề xuất bao gồm 3 bước như sau (minh họa trong sơ 
đồ ở hình 2). 
- Bước 1: Back-translation: Bước này sử dụng kỹ thuật BT để sinh ra các câu tiếng 
Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban 
đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật BT gồm 2 bước. Đầu tiên, câu tiếng Anh được 
dịch sang một câu ngôn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại 
tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho 
dữ liệu song ngữ (giữa ngôn ngữ đó và tiếng Anh) lớn để giúp cho mô hình dịch giữa 
tiếng Anh và ngôn ngữ trung gian có chất lượng tốt. Ví dụ có thể lựa chọn tiếng Đức làm 
ngôn ngữ trung gian vì dữ liệu huấn luyện song ngữ Anh-Đức có kích thước lớn, mô 
hình dịch máy huấn luyện sẵn cho kết quả cao [17]. Hình 3 minh họa việc sử dụng kỹ 
thuật BT với ngôn ngữ trung gian là tiếng Đức. 
Nghiên cứu khoa học công nghệ 
 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 27 
- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp 
với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành 
một cặp câu song ngữ Việt-Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu 
huấn luyện cho mô hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng 
dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mô hình học 
máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của 
mô hình học máy. Do đó, chúng tôi bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt 
dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích 
nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song 
ngữ tăng cường, bao gồm các cặp câu song ngữ Việt-Anh mới được lựa chọn. 
Hình 2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất. 
Hình 3. Ví dụ về kỹ thuật Back-translation. 
- Bước 3: Huấn luyện mô hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ 
tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn 
luyện huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô 
hình dịch máy thống kê Việt-Anh. 
Công nghệ thông tin 
 28 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường  lựa chọn thích nghi.” 
Trong bước 2, chúng tôi đề xuất sử dụng độ đo perplexity để lựa chọn các câu. Độ đo 
perplexity là một trong những độ đo phổ biến nhất để đánh giá các mô hình ngôn ngữ và 
cũng có thể áp dụng cho các câu. 
Cho một câu s với n từ 𝑠 = 𝑤1𝑤2𝑤𝑛, độ đo perplexity của câu s được tính như sau [18]: 
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √
1
𝑃(𝑤1𝑤2𝑤𝑛)
𝑛
Độ đo perplexity càng nhỏ thì xác suất của câu càng lớn, nghĩa là một mặt nào đó câu 
có độ tương đồng cao với các câu trong kho dữ liệu huấn luyện. Do đó, chúng tôi chọn 
độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có 
perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so 
sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn 
điều kiện sau: 
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 
Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách 
lựa chọn này là đặc tính của độ đo perplexity là câu càng dài thì perplexity càng cao, do 
đó, việc lựa chọn một ngưỡng hằng số là không hợp lý và vì nó sẽ loại bỏ các câu dài. 
Do đó, chúng tôi đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi 
theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu 𝑠′ theo tương quan 
với perplexity của câu gốc 𝑠. 
Độ đo thích nghi theo hiệu được đề xuất như sau: 
𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) 
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻, 
trong đó, 𝜃𝐻 là giá trị ngưỡng. 
Độ đo thích nghi theo tỉ lệ được đề xuất như sau: 
𝑇 =
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝑇 <
𝜃𝑇, trong đó, 𝜃𝑇 là giá trị ngưỡng. 
4. THỬ NGHIỆM, ĐÁNH GIÁ 
Trong phần này, chúng tôi tiến hành thử nghiệm dịch thuật Việt-Anh với mô hình 
SMT dựa trên cụm từ phân cấp [19] sử dụng phần mềm Moses. Độ đo BLEU [20] được 
sử dụng để đánh giá chất lượng hệ dịch máy. 
4.1. Dữ liệu và môi trường thử nghiệm 
Do cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu rất hạn chế, không có 
nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước 
đây cũng không có sẵn. Để thử nghiệm và đánh giá, chúng tôi sử dụng dữ liệu huấn 
luyện song ngữ IWSLT’15 English-Vietnamese gồm 133.317 cặp câu từ nhóm Stanford 
NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15 English-Vietnamese data 
[Small]. Ban đầu, chúng tôi sử dụng dữ liệu huấn luyện là dữ liệu song ngữ Việt-Anh 
gồm 133.317 cặp câu. 
Nghiên cứu khoa học công nghệ 
 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 29 
Thử nghiệm tiếp theo, chúng tôi áp dụng BT để tăng cường dữ liệu cho dữ liệu huấn 
luyện ban đầu. Từ tập tiếng Anh ở dữ liệu huấn luyện gốc, chúng tôi sử dụng một hệ 
thống dịch máy đã được huấn luyện trước để dịch sang tiếng Đức, sau đó, dịch trở lại từ 
tiếng Đức sang tiếng Anh. Sau đó, sử dụng một số độ đo để đánh giá tập câu tiếng Anh 
thu được, sử dụng các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc để 
làm dữ liệu huấn luyện. 
Các mô hình được sử dụng trong thử nghiệm như sau. 
Mô hình SMT: Moses ( với mô hình cụm từ phân cấp. 
Mô hình BT: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh-
Đức của nhóm Facebook Research [17]. 
Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình 
ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook Research [17]. 
4.2. Kết quả thử nghiệm 
4.2.1. Thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc (MOSES - Hierachical) 
Đây là kết quả thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc khi chưa áp dụng BT. 
Bảng 2. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES 
với dữ liệu huấn luyện IWSLT15 gốc. 
Số lượng cặp câu song ngữ BLEU BLEU-c 
133.317 24.45 24.05 
4.2.2. Các thử nghiệm sử dụng BT để làm giàu dữ liệu huấn luyện gốc, kết hợp với tính 
điểm perplexity 
Trong thử nghiệm này, chúng tôi sử dụng 133.317 cặp câu từ dữ liệu huấn luyện gốc, 
và áp dụng phương pháp làm giàu dữ liệu được đề xuất với độ đo thích nghi theo hiệu và 
độ đo thích nghi theo tỉ lệ với các giá trị ngưỡng 𝜃𝐻 và 𝜃𝑇 khác nhau (thử nghiệm với 
các giá trị 0, -10, -20, -30 của ngưỡng 𝜃𝐻; và các giá trị 0,5, 0,4, 0,3, 0,25, 0,2 của 
ngưỡng 𝜃𝑇). Dữ liệu thu được được dùng để huấn luyện mô hình dịch máy thống kê 
Việt-Anh và tính điểm BLEU để so sánh, đánh giá hiệu quả của phương pháp tăng 
cường dữ liệu đề xuất. 
Bảng 3. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES. 
 Số lượng 
cặp câu 
ban đầu 
Số lượng 
cặp câu 
tăng 
cường 
Tổng số 
lượng cặp 
câu của dữ 
liệu huấn 
luyện 
Điểm 
BLEU 
Điểm 
BLEU-c 
ΔBLEU 
Với dữ liệu 
huấn luyện 
IWSLT15 
(không sử dụng 
BT) 
133.317 0 133.317 24,45 24,05 
Thêm toàn bộ 
câu BT vào dữ 
liệu huấn luyện 
133.317 133.317 266.634 24,39 23,95 -0,06 
Công nghệ thông tin 
 30 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường  lựa chọn thích nghi.” 
Với H < 0 133.317 72.394 205.711 24,62 24,22 0,17 
Với H < -10 133.317 50144 183.416 24,50 24,04 0,05 
Với H < -20 133.317 38.520 171.837 24,76 24,35 0,31 
Với H < -30 133.317 31.158 164.475 24,29 23,91 -0,16 
Với T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 
Với T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 
Với T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 
Với T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 
Với T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 
Các kết quả thử nghiệm được trình bày ở bảng 3, trong đó, BLEU = BLEU(Back-
translation) - BLEU(IWSLT15) (hiệu số độ đo BLEU khi áp dụng phương pháp BT và 
độ đo BLEU khi sử dụng dữ liệu huấn luyện IWSLT15 gốc). 
Bảng kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES ở trên cho thấy, 
việc áp dụng BT mà không áp dụng lựa chọn dữ liệu không làm tăng điểm BLEU của 
mô hình (thậm chí giảm 0,06). Khi áp dụng BT với độ đo thích nghi theo hiệu cho kết 
quả điểm BLEU tăng lên với giá trị tăng cao nhất là 0.31 điểm khi áp dụng ngưỡng 𝜃𝐻 =
−20. Khi áp dụng BT với độ đo thích nghi theo tỉ lệ (với ngưỡng 𝜃𝑇 = 0,25) cho kết 
quả điểm BLEU tăng 0.79 điểm đối với dịch máy cho cặp ngôn ngữ Việt-Anh. Kết quả 
thử nghiệm cho thấy việc sử dụng phương pháp tăng cường dữ liệu đề xuất giúp nâng 
cao độ chính xác cho mô hình dịch máy thống kê Việt-Anh, trong đó việc sử dụng độ đo 
thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi 
theo hiệu. 
5. KẾT LUẬN 
Trong bài báo, chúng tôi đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho 
dịch máy thống kê Việt-Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với 
mô hình ngôn ngữ để tính toán độ thích nghi của câu giả lập so với câu ban đầu. Chúng 
tôi cũng thử nghiệm và chỉ ra rằng, đối với cặp ngôn ngữ có tài nguyên hạn chế, việc sử 
dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể không giúp cho hệ thống 
dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các 
thử nghiệm, chúng tôi đã sử dụng độ đo thích nghi đề xuất để lựa chọn các câu giả lập, 
bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống SMT, kết 
quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập 
phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng 
hệ thống dịch máy thống kê. 
Chất lượng dữ liệu huấn luyện huấn luyện có vai trò quan trọng trong các hệ thống 
học máy nói chung, do vậy, chúng tôi sẽ tiếp tục thử nghiệm và đánh giá phương pháp 
đã đề xuất trên các hệ thống NMT, bên cạnh đó chúng tôi sẽ tiếp tục nghiên cứu và thử 
nghiệm các độ đo khác để tính toán độ thích nghi dựa trên những đặc trưng của tiếng 
Việt và tiếng Anh. 
Nghiên cứu khoa học công nghệ 
 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 31 
TÀI LIỆU THAM KHẢO 
[1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.” 
(2010). 
[2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data 
selection.” IWSLT (International Workshop on Spoken Language Translation). 2015. 
[3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult 
words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018). 
[4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine 
translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015). 
[5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low-
resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019). 
[6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation 
system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017). 
[7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint 
arXiv:1808.09381 (2018). 
[8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv 
preprint arXiv:1804.06189. 
[9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient 
NMT.” arXiv preprint arXiv:1909.03750 (2019). 
[10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine 
translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and 
Generation. 2018. 
[11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the 
language model.” arXiv preprint arXiv:1809.00125 (2018). 
[12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation 
campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015). 
[13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT 
2015.” Proceedings of IWSLT. 2015. 
[14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT 
2015.” Proceedings of the 12th International Workshop on Spoken Language Translation 
(IWSLT’15). 2015. 
[15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese 
Machine Translation System for IWSLT 2015.” Proceeding of the 12th International 
Workshop on Spoken Language Translation. 2015. 
[16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word 
Alignment Models for Vietnamese-to-English Translation.” 2015. 
[17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv 
preprint arXiv:1907.06616 (2019). 
[18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014). 
[19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2 
(2007): 201-228. 
[20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine 
translation.” Proceedings of the 40th annual meeting of the Association for Computational 
Linguistics. 2002. 
Công nghệ thông tin 
 32 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường  lựa chọn thích nghi.” 
ABSTRACT 
DATA AUGMENTATION FOR VIETNAMESE-ENGLISH 
STATISTICAL MACHINE TRANSLATION USING BACK-TRANSLATION AND 
ADAPTIVE SELECTION TECHNIQUE 
Back-translation (BT) has become one of the effective techniques for data 
augmentation in Neural Machine Translation, especially for low resource languages. 
Most research related to BT in machine translation mainly focuses on Neural Machine 
Translation of European languages. In this article, we study on applying BT to increase 
the quality of training data for Vietnamese-English statistical machine translation. Two 
adaptive measures were proposed to evaluate the generated English sentence set and 
select “good” sentences to enhance the training data. Experimental results on the MOSES 
statistical machine translation system with Vietnamese-English language pairs show that 
our proposed method yields approximately 0.8 BLEU improvement. 
Keywords: Back-translation; Statistical machine translation; Data augmentation. 
 Nhận bài ngày 20 tháng 10 năm 2020 
Hoàn thiện ngày 10 tháng 12 năm 2020 
Chấp nhận đăng ngày 15 tháng 12 năm 2020 
Địa chỉ: 1Viện Công nghệ thông tin, Viện KH-CN quân sự; 
 2Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. 
*Email: dangthanhquyen@gmail.com. 

File đính kèm:

  • pdfphuong_phap_tang_cuong_du_lieu_huan_luyen_dich_may_thong_ke.pdf