Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi

Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành

một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron

(Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu

quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên

hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các

ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác

trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ

liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn

dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức.

Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở

lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với

các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu

được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết

quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho

thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp

dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn

luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt

được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

10 trang baonam 28660

Download

Bạn đang xem tài liệu "Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi

Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23
PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY
THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK -
TRANSLATION VÀ LỰA CHỌN THÍCH NGHI
Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2
Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành
một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron
(Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu
quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên
hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các
ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác
trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ
liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn
dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức.
Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở
lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với
các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu
được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết
quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho
thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp
dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn
luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt
được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.
Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu.
1. ĐẶT VẤN ĐỀ
Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy,
hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy
nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng
dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong
nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp
dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương
phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao
chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm
nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu
cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ,
dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau,
ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu
trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do
sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu
được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các
ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích,
toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên,
đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm
và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống
dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm
giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng
Công nghệ thông tin
24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain
adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau
đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3],
các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất”
các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với
mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy
rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi
đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các
ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi.
Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực
hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm
tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong
hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câ ... đề xuất là thêm vào một bước
lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ
chính xác của mô hình dịch máy thống kê.
Phương pháp tăng cường dữ liệu đề xuất bao gồm 3 bước như sau (minh họa trong sơ
đồ ở hình 2).
- Bước 1: Back-translation: Bước này sử dụng kỹ thuật BT để sinh ra các câu tiếng
Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban
đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật BT gồm 2 bước. Đầu tiên, câu tiếng Anh được
dịch sang một câu ngôn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại
tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho
dữ liệu song ngữ (giữa ngôn ngữ đó và tiếng Anh) lớn để giúp cho mô hình dịch giữa
tiếng Anh và ngôn ngữ trung gian có chất lượng tốt. Ví dụ có thể lựa chọn tiếng Đức làm
ngôn ngữ trung gian vì dữ liệu huấn luyện song ngữ Anh-Đức có kích thước lớn, mô
hình dịch máy huấn luyện sẵn cho kết quả cao [17]. Hình 3 minh họa việc sử dụng kỹ
thuật BT với ngôn ngữ trung gian là tiếng Đức.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 27
- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp
với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành
một cặp câu song ngữ Việt-Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu
huấn luyện cho mô hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng
dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mô hình học
máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của
mô hình học máy. Do đó, chúng tôi bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt
dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích
nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song
ngữ tăng cường, bao gồm các cặp câu song ngữ Việt-Anh mới được lựa chọn.
Hình 2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất.
Hình 3. Ví dụ về kỹ thuật Back-translation.
- Bước 3: Huấn luyện mô hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ
tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn
luyện huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô
hình dịch máy thống kê Việt-Anh.
Công nghệ thông tin
28 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
Trong bước 2, chúng tôi đề xuất sử dụng độ đo perplexity để lựa chọn các câu. Độ đo
perplexity là một trong những độ đo phổ biến nhất để đánh giá các mô hình ngôn ngữ và
cũng có thể áp dụng cho các câu.
Cho một câu s với n từ 𝑠 = 𝑤1𝑤2𝑤𝑛, độ đo perplexity của câu s được tính như sau [18]:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √
1
𝑃(𝑤1𝑤2𝑤𝑛)
𝑛
Độ đo perplexity càng nhỏ thì xác suất của câu càng lớn, nghĩa là một mặt nào đó câu
có độ tương đồng cao với các câu trong kho dữ liệu huấn luyện. Do đó, chúng tôi chọn
độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có
perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so
sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn
điều kiện sau:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃
Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách
lựa chọn này là đặc tính của độ đo perplexity là câu càng dài thì perplexity càng cao, do
đó, việc lựa chọn một ngưỡng hằng số là không hợp lý và vì nó sẽ loại bỏ các câu dài.
Do đó, chúng tôi đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi
theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu 𝑠′ theo tương quan
với perplexity của câu gốc 𝑠.
Độ đo thích nghi theo hiệu được đề xuất như sau:
𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻,
trong đó, 𝜃𝐻 là giá trị ngưỡng.
Độ đo thích nghi theo tỉ lệ được đề xuất như sau:
𝑇 =
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝑇 <
𝜃𝑇, trong đó, 𝜃𝑇 là giá trị ngưỡng.
4. THỬ NGHIỆM, ĐÁNH GIÁ
Trong phần này, chúng tôi tiến hành thử nghiệm dịch thuật Việt-Anh với mô hình
SMT dựa trên cụm từ phân cấp [19] sử dụng phần mềm Moses. Độ đo BLEU [20] được
sử dụng để đánh giá chất lượng hệ dịch máy.
4.1. Dữ liệu và môi trường thử nghiệm
Do cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu rất hạn chế, không có
nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước
đây cũng không có sẵn. Để thử nghiệm và đánh giá, chúng tôi sử dụng dữ liệu huấn
luyện song ngữ IWSLT’15 English-Vietnamese gồm 133.317 cặp câu từ nhóm Stanford
NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15 English-Vietnamese data
[Small]. Ban đầu, chúng tôi sử dụng dữ liệu huấn luyện là dữ liệu song ngữ Việt-Anh
gồm 133.317 cặp câu.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 29
Thử nghiệm tiếp theo, chúng tôi áp dụng BT để tăng cường dữ liệu cho dữ liệu huấn
luyện ban đầu. Từ tập tiếng Anh ở dữ liệu huấn luyện gốc, chúng tôi sử dụng một hệ
thống dịch máy đã được huấn luyện trước để dịch sang tiếng Đức, sau đó, dịch trở lại từ
tiếng Đức sang tiếng Anh. Sau đó, sử dụng một số độ đo để đánh giá tập câu tiếng Anh
thu được, sử dụng các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc để
làm dữ liệu huấn luyện.
Các mô hình được sử dụng trong thử nghiệm như sau.
Mô hình SMT: Moses ( với mô hình cụm từ phân cấp.
Mô hình BT: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh-
Đức của nhóm Facebook Research [17].
Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình
ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook Research [17].
4.2. Kết quả thử nghiệm
4.2.1. Thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc (MOSES - Hierachical)
Đây là kết quả thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc khi chưa áp dụng BT.
Bảng 2. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES
với dữ liệu huấn luyện IWSLT15 gốc.
Số lượng cặp câu song ngữ BLEU BLEU-c
133.317 24.45 24.05
4.2.2. Các thử nghiệm sử dụng BT để làm giàu dữ liệu huấn luyện gốc, kết hợp với tính
điểm perplexity
Trong thử nghiệm này, chúng tôi sử dụng 133.317 cặp câu từ dữ liệu huấn luyện gốc,
và áp dụng phương pháp làm giàu dữ liệu được đề xuất với độ đo thích nghi theo hiệu và
độ đo thích nghi theo tỉ lệ với các giá trị ngưỡng 𝜃𝐻 và 𝜃𝑇 khác nhau (thử nghiệm với
các giá trị 0, -10, -20, -30 của ngưỡng 𝜃𝐻; và các giá trị 0,5, 0,4, 0,3, 0,25, 0,2 của
ngưỡng 𝜃𝑇). Dữ liệu thu được được dùng để huấn luyện mô hình dịch máy thống kê
Việt-Anh và tính điểm BLEU để so sánh, đánh giá hiệu quả của phương pháp tăng
cường dữ liệu đề xuất.
Bảng 3. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES.
Số lượng
cặp câu
ban đầu
Số lượng
cặp câu
tăng
cường
Tổng số
lượng cặp
câu của dữ
liệu huấn
luyện
Điểm
BLEU
Điểm
BLEU-c
ΔBLEU
Với dữ liệu
huấn luyện
IWSLT15
(không sử dụng
BT)
133.317 0 133.317 24,45 24,05
Thêm toàn bộ
câu BT vào dữ
liệu huấn luyện
133.317 133.317 266.634 24,39 23,95 -0,06
Công nghệ thông tin
30 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
Với H < 0 133.317 72.394 205.711 24,62 24,22 0,17
Với H < -10 133.317 50144 183.416 24,50 24,04 0,05
Với H < -20 133.317 38.520 171.837 24,76 24,35 0,31
Với H < -30 133.317 31.158 164.475 24,29 23,91 -0,16
Với T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13
Với T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08
Với T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1
Với T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79
Với T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31
Các kết quả thử nghiệm được trình bày ở bảng 3, trong đó, BLEU = BLEU(Back-
translation) - BLEU(IWSLT15) (hiệu số độ đo BLEU khi áp dụng phương pháp BT và
độ đo BLEU khi sử dụng dữ liệu huấn luyện IWSLT15 gốc).
Bảng kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES ở trên cho thấy,
việc áp dụng BT mà không áp dụng lựa chọn dữ liệu không làm tăng điểm BLEU của
mô hình (thậm chí giảm 0,06). Khi áp dụng BT với độ đo thích nghi theo hiệu cho kết
quả điểm BLEU tăng lên với giá trị tăng cao nhất là 0.31 điểm khi áp dụng ngưỡng 𝜃𝐻 =
−20. Khi áp dụng BT với độ đo thích nghi theo tỉ lệ (với ngưỡng 𝜃𝑇 = 0,25) cho kết
quả điểm BLEU tăng 0.79 điểm đối với dịch máy cho cặp ngôn ngữ Việt-Anh. Kết quả
thử nghiệm cho thấy việc sử dụng phương pháp tăng cường dữ liệu đề xuất giúp nâng
cao độ chính xác cho mô hình dịch máy thống kê Việt-Anh, trong đó việc sử dụng độ đo
thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi
theo hiệu.
5. KẾT LUẬN
Trong bài báo, chúng tôi đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho
dịch máy thống kê Việt-Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với
mô hình ngôn ngữ để tính toán độ thích nghi của câu giả lập so với câu ban đầu. Chúng
tôi cũng thử nghiệm và chỉ ra rằng, đối với cặp ngôn ngữ có tài nguyên hạn chế, việc sử
dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể không giúp cho hệ thống
dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các
thử nghiệm, chúng tôi đã sử dụng độ đo thích nghi đề xuất để lựa chọn các câu giả lập,
bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống SMT, kết
quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập
phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng
hệ thống dịch máy thống kê.
Chất lượng dữ liệu huấn luyện huấn luyện có vai trò quan trọng trong các hệ thống
học máy nói chung, do vậy, chúng tôi sẽ tiếp tục thử nghiệm và đánh giá phương pháp
đã đề xuất trên các hệ thống NMT, bên cạnh đó chúng tôi sẽ tiếp tục nghiên cứu và thử
nghiệm các độ đo khác để tính toán độ thích nghi dựa trên những đặc trưng của tiếng
Việt và tiếng Anh.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 31
TÀI LIỆU THAM KHẢO
[1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.”
(2010).
[2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data
selection.” IWSLT (International Workshop on Spoken Language Translation). 2015.
[3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult
words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018).
[4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine
translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015).
[5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low-
resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019).
[6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation
system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017).
[7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint
arXiv:1808.09381 (2018).
[8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv
preprint arXiv:1804.06189.
[9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient
NMT.” arXiv preprint arXiv:1909.03750 (2019).
[10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine
translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and
Generation. 2018.
[11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the
language model.” arXiv preprint arXiv:1809.00125 (2018).
[12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation
campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015).
[13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT
2015.” Proceedings of IWSLT. 2015.
[14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT
2015.” Proceedings of the 12th International Workshop on Spoken Language Translation
(IWSLT’15). 2015.
[15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese
Machine Translation System for IWSLT 2015.” Proceeding of the 12th International
Workshop on Spoken Language Translation. 2015.
[16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word
Alignment Models for Vietnamese-to-English Translation.” 2015.
[17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv
preprint arXiv:1907.06616 (2019).
[18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014).
[19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2
(2007): 201-228.
[20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine
translation.” Proceedings of the 40th annual meeting of the Association for Computational
Linguistics. 2002.
Công nghệ thông tin
32 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
ABSTRACT
DATA AUGMENTATION FOR VIETNAMESE-ENGLISH
STATISTICAL MACHINE TRANSLATION USING BACK-TRANSLATION AND
ADAPTIVE SELECTION TECHNIQUE
Back-translation (BT) has become one of the effective techniques for data
augmentation in Neural Machine Translation, especially for low resource languages.
Most research related to BT in machine translation mainly focuses on Neural Machine
Translation of European languages. In this article, we study on applying BT to increase
the quality of training data for Vietnamese-English statistical machine translation. Two
adaptive measures were proposed to evaluate the generated English sentence set and
select “good” sentences to enhance the training data. Experimental results on the MOSES
statistical machine translation system with Vietnamese-English language pairs show that
our proposed method yields approximately 0.8 BLEU improvement.
Keywords: Back-translation; Statistical machine translation; Data augmentation.
Nhận bài ngày 20 tháng 10 năm 2020
Hoàn thiện ngày 10 tháng 12 năm 2020
Chấp nhận đăng ngày 15 tháng 12 năm 2020
Địa chỉ: 1Viện Công nghệ thông tin, Viện KH-CN quân sự;
2Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
*Email: dangthanhquyen@gmail.com.

File đính kèm:

phuong_phap_tang_cuong_du_lieu_huan_luyen_dich_may_thong_ke.pdf