Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi
Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành
một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron
(Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu
quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên
hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các
ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác
trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ
liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn
dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức.
Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở
lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với
các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu
được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết
quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho
thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp
dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn
luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt
được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tóm tắt nội dung tài liệu: Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi
Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron (Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU. Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy, hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ, dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau, ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích, toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên, đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng Công nghệ thông tin 24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3], các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất” các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi. Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câ ... đề xuất là thêm vào một bước lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ chính xác của mô hình dịch máy thống kê. Phương pháp tăng cường dữ liệu đề xuất bao gồm 3 bước như sau (minh họa trong sơ đồ ở hình 2). - Bước 1: Back-translation: Bước này sử dụng kỹ thuật BT để sinh ra các câu tiếng Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật BT gồm 2 bước. Đầu tiên, câu tiếng Anh được dịch sang một câu ngôn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho dữ liệu song ngữ (giữa ngôn ngữ đó và tiếng Anh) lớn để giúp cho mô hình dịch giữa tiếng Anh và ngôn ngữ trung gian có chất lượng tốt. Ví dụ có thể lựa chọn tiếng Đức làm ngôn ngữ trung gian vì dữ liệu huấn luyện song ngữ Anh-Đức có kích thước lớn, mô hình dịch máy huấn luyện sẵn cho kết quả cao [17]. Hình 3 minh họa việc sử dụng kỹ thuật BT với ngôn ngữ trung gian là tiếng Đức. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 27 - Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành một cặp câu song ngữ Việt-Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu huấn luyện cho mô hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mô hình học máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của mô hình học máy. Do đó, chúng tôi bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song ngữ tăng cường, bao gồm các cặp câu song ngữ Việt-Anh mới được lựa chọn. Hình 2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất. Hình 3. Ví dụ về kỹ thuật Back-translation. - Bước 3: Huấn luyện mô hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn luyện huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô hình dịch máy thống kê Việt-Anh. Công nghệ thông tin 28 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” Trong bước 2, chúng tôi đề xuất sử dụng độ đo perplexity để lựa chọn các câu. Độ đo perplexity là một trong những độ đo phổ biến nhất để đánh giá các mô hình ngôn ngữ và cũng có thể áp dụng cho các câu. Cho một câu s với n từ 𝑠 = 𝑤1𝑤2𝑤𝑛, độ đo perplexity của câu s được tính như sau [18]: 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √ 1 𝑃(𝑤1𝑤2𝑤𝑛) 𝑛 Độ đo perplexity càng nhỏ thì xác suất của câu càng lớn, nghĩa là một mặt nào đó câu có độ tương đồng cao với các câu trong kho dữ liệu huấn luyện. Do đó, chúng tôi chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn điều kiện sau: 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách lựa chọn này là đặc tính của độ đo perplexity là câu càng dài thì perplexity càng cao, do đó, việc lựa chọn một ngưỡng hằng số là không hợp lý và vì nó sẽ loại bỏ các câu dài. Do đó, chúng tôi đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu 𝑠′ theo tương quan với perplexity của câu gốc 𝑠. Độ đo thích nghi theo hiệu được đề xuất như sau: 𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻, trong đó, 𝜃𝐻 là giá trị ngưỡng. Độ đo thích nghi theo tỉ lệ được đề xuất như sau: 𝑇 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝑇 < 𝜃𝑇, trong đó, 𝜃𝑇 là giá trị ngưỡng. 4. THỬ NGHIỆM, ĐÁNH GIÁ Trong phần này, chúng tôi tiến hành thử nghiệm dịch thuật Việt-Anh với mô hình SMT dựa trên cụm từ phân cấp [19] sử dụng phần mềm Moses. Độ đo BLEU [20] được sử dụng để đánh giá chất lượng hệ dịch máy. 4.1. Dữ liệu và môi trường thử nghiệm Do cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu rất hạn chế, không có nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng không có sẵn. Để thử nghiệm và đánh giá, chúng tôi sử dụng dữ liệu huấn luyện song ngữ IWSLT’15 English-Vietnamese gồm 133.317 cặp câu từ nhóm Stanford NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15 English-Vietnamese data [Small]. Ban đầu, chúng tôi sử dụng dữ liệu huấn luyện là dữ liệu song ngữ Việt-Anh gồm 133.317 cặp câu. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 29 Thử nghiệm tiếp theo, chúng tôi áp dụng BT để tăng cường dữ liệu cho dữ liệu huấn luyện ban đầu. Từ tập tiếng Anh ở dữ liệu huấn luyện gốc, chúng tôi sử dụng một hệ thống dịch máy đã được huấn luyện trước để dịch sang tiếng Đức, sau đó, dịch trở lại từ tiếng Đức sang tiếng Anh. Sau đó, sử dụng một số độ đo để đánh giá tập câu tiếng Anh thu được, sử dụng các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc để làm dữ liệu huấn luyện. Các mô hình được sử dụng trong thử nghiệm như sau. Mô hình SMT: Moses ( với mô hình cụm từ phân cấp. Mô hình BT: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh- Đức của nhóm Facebook Research [17]. Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook Research [17]. 4.2. Kết quả thử nghiệm 4.2.1. Thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc (MOSES - Hierachical) Đây là kết quả thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc khi chưa áp dụng BT. Bảng 2. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với dữ liệu huấn luyện IWSLT15 gốc. Số lượng cặp câu song ngữ BLEU BLEU-c 133.317 24.45 24.05 4.2.2. Các thử nghiệm sử dụng BT để làm giàu dữ liệu huấn luyện gốc, kết hợp với tính điểm perplexity Trong thử nghiệm này, chúng tôi sử dụng 133.317 cặp câu từ dữ liệu huấn luyện gốc, và áp dụng phương pháp làm giàu dữ liệu được đề xuất với độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ với các giá trị ngưỡng 𝜃𝐻 và 𝜃𝑇 khác nhau (thử nghiệm với các giá trị 0, -10, -20, -30 của ngưỡng 𝜃𝐻; và các giá trị 0,5, 0,4, 0,3, 0,25, 0,2 của ngưỡng 𝜃𝑇). Dữ liệu thu được được dùng để huấn luyện mô hình dịch máy thống kê Việt-Anh và tính điểm BLEU để so sánh, đánh giá hiệu quả của phương pháp tăng cường dữ liệu đề xuất. Bảng 3. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES. Số lượng cặp câu ban đầu Số lượng cặp câu tăng cường Tổng số lượng cặp câu của dữ liệu huấn luyện Điểm BLEU Điểm BLEU-c ΔBLEU Với dữ liệu huấn luyện IWSLT15 (không sử dụng BT) 133.317 0 133.317 24,45 24,05 Thêm toàn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 Công nghệ thông tin 30 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” Với H < 0 133.317 72.394 205.711 24,62 24,22 0,17 Với H < -10 133.317 50144 183.416 24,50 24,04 0,05 Với H < -20 133.317 38.520 171.837 24,76 24,35 0,31 Với H < -30 133.317 31.158 164.475 24,29 23,91 -0,16 Với T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 Với T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 Với T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 Với T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 Với T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 Các kết quả thử nghiệm được trình bày ở bảng 3, trong đó, BLEU = BLEU(Back- translation) - BLEU(IWSLT15) (hiệu số độ đo BLEU khi áp dụng phương pháp BT và độ đo BLEU khi sử dụng dữ liệu huấn luyện IWSLT15 gốc). Bảng kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES ở trên cho thấy, việc áp dụng BT mà không áp dụng lựa chọn dữ liệu không làm tăng điểm BLEU của mô hình (thậm chí giảm 0,06). Khi áp dụng BT với độ đo thích nghi theo hiệu cho kết quả điểm BLEU tăng lên với giá trị tăng cao nhất là 0.31 điểm khi áp dụng ngưỡng 𝜃𝐻 = −20. Khi áp dụng BT với độ đo thích nghi theo tỉ lệ (với ngưỡng 𝜃𝑇 = 0,25) cho kết quả điểm BLEU tăng 0.79 điểm đối với dịch máy cho cặp ngôn ngữ Việt-Anh. Kết quả thử nghiệm cho thấy việc sử dụng phương pháp tăng cường dữ liệu đề xuất giúp nâng cao độ chính xác cho mô hình dịch máy thống kê Việt-Anh, trong đó việc sử dụng độ đo thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi theo hiệu. 5. KẾT LUẬN Trong bài báo, chúng tôi đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê Việt-Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với mô hình ngôn ngữ để tính toán độ thích nghi của câu giả lập so với câu ban đầu. Chúng tôi cũng thử nghiệm và chỉ ra rằng, đối với cặp ngôn ngữ có tài nguyên hạn chế, việc sử dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể không giúp cho hệ thống dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các thử nghiệm, chúng tôi đã sử dụng độ đo thích nghi đề xuất để lựa chọn các câu giả lập, bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống SMT, kết quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng hệ thống dịch máy thống kê. Chất lượng dữ liệu huấn luyện huấn luyện có vai trò quan trọng trong các hệ thống học máy nói chung, do vậy, chúng tôi sẽ tiếp tục thử nghiệm và đánh giá phương pháp đã đề xuất trên các hệ thống NMT, bên cạnh đó chúng tôi sẽ tiếp tục nghiên cứu và thử nghiệm các độ đo khác để tính toán độ thích nghi dựa trên những đặc trưng của tiếng Việt và tiếng Anh. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 31 TÀI LIỆU THAM KHẢO [1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.” (2010). [2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data selection.” IWSLT (International Workshop on Spoken Language Translation). 2015. [3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018). [4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015). [5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low- resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019). [6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017). [7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint arXiv:1808.09381 (2018). [8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv preprint arXiv:1804.06189. [9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient NMT.” arXiv preprint arXiv:1909.03750 (2019). [10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. 2018. [11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the language model.” arXiv preprint arXiv:1809.00125 (2018). [12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015). [13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT 2015.” Proceedings of IWSLT. 2015. [14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT 2015.” Proceedings of the 12th International Workshop on Spoken Language Translation (IWSLT’15). 2015. [15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese Machine Translation System for IWSLT 2015.” Proceeding of the 12th International Workshop on Spoken Language Translation. 2015. [16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word Alignment Models for Vietnamese-to-English Translation.” 2015. [17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv preprint arXiv:1907.06616 (2019). [18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014). [19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2 (2007): 201-228. [20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine translation.” Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002. Công nghệ thông tin 32 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” ABSTRACT DATA AUGMENTATION FOR VIETNAMESE-ENGLISH STATISTICAL MACHINE TRANSLATION USING BACK-TRANSLATION AND ADAPTIVE SELECTION TECHNIQUE Back-translation (BT) has become one of the effective techniques for data augmentation in Neural Machine Translation, especially for low resource languages. Most research related to BT in machine translation mainly focuses on Neural Machine Translation of European languages. In this article, we study on applying BT to increase the quality of training data for Vietnamese-English statistical machine translation. Two adaptive measures were proposed to evaluate the generated English sentence set and select “good” sentences to enhance the training data. Experimental results on the MOSES statistical machine translation system with Vietnamese-English language pairs show that our proposed method yields approximately 0.8 BLEU improvement. Keywords: Back-translation; Statistical machine translation; Data augmentation. Nhận bài ngày 20 tháng 10 năm 2020 Hoàn thiện ngày 10 tháng 12 năm 2020 Chấp nhận đăng ngày 15 tháng 12 năm 2020 Địa chỉ: 1Viện Công nghệ thông tin, Viện KH-CN quân sự; 2Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. *Email: dangthanhquyen@gmail.com.
File đính kèm:
- phuong_phap_tang_cuong_du_lieu_huan_luyen_dich_may_thong_ke.pdf