Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn
Phần phụ sau:
Nói chung phần phụ sau của cụm danh từ có cấu tạo phức tạp hơn phần phụ trước nhiều.
Bổ ngữ sau có thể là danh từ, cụm tính từ, cụm động từ, số từ xác định và số từ thứ tự,
đại từ chỉ định, cụm giới từ, hay mệnh đề phụ. Đại từ chỉ định, nếu có, thì thường được
đặt sau cùng. Sau đây là một số ví dụ:
Ví dụ 1: Cụm danh từ đơn giản (không có bổ ngữ là cụm giới từ, cụm động từ, hay
mệnh đề phụ):
quả bóng màu xanh
(NP (Nu quả)
(N bóng)
(N màu xanh))
Ví dụ 2: Cụm danh từ phức tạp với bổ ngữ sau là cụm giới từ5:
cái máy tính của cơ quan
(NP (NP (Nu cái)
(N máy tính))
(PP của cơ quan))
Ví dụ 3: Cụm danh từ phức tạp với bổ ngữ sau là mệnh đề phụ:
cái máy tính mà tôi mới mua hôm qua
(NP (NP (Nu cái)
(N máy tính))
(SBAR mà tôi mới mua hôm qua))
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn
Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn Nguyễn Phương Thái1, Vũ Xuân Lương2, Nguyễn Thị Minh Huyền3 SP 7.3 – Dự án VLSP Giới thiệu Đây là tài liệu hướng dẫn gán nhãn cú pháp khi xây dựng treebank tiếng Việt. Tập nhãn từ loại và hướng dẫn gán nhãn từ loại được trình bày trong một tài liệu khác. Với mỗi hiện tượng ngữ pháp, chúng tôi trình bày cách nhận diện và cách gán nhãn cùng với các ví dụ cụ thể để minh họa. Các ví dụ được lấy từ sách ngữ pháp hoặc từ ngữ liệu thực tế. Khi có thể, chúng tôi cố gắng trích dẫn tài liệu tham khảo để người đọc có thể nắm được đầy đủ hơn về vấn đề được nêu. Tài liệu này đang tiếp tục được chỉnh sửa và bổ sung trước khi đưa ra thảo luận với các nhóm khác trong dự án. 1 JAIST 2 Trung Tâm Từ Điển Học 3 ĐH KHTN – ĐH QGHN 1 Mục lục 1. Toàn bộ tập nhãn ..........................................................................................................3 2. Cụm danh từ .................................................................................................................5 3. Cụm động từ..................................................................................................................7 4. Cụm tính từ...................................................................................................................9 5. Cụm phó từ..................................................................................................................10 6. Cụm giới từ..................................................................................................................10 7. Cụm từ chỉ số lượng ....................................................................................................10 8. Câu trần thuật ............................................................................................................ 11 9. Mệnh đề phụ ...............................................................................................................13 10. Câu hỏi ....................................................................................................................14 11. Câu cảm thán ..........................................................................................................16 12. Câu mệnh lệnh........................................................................................................17 13. Các nhãn chức năng................................................................................................18 13.1. Nhãn chức năng chủ ngữ .................................................................................18 13.2. Nhãn chức năng tân ngữ .................................................................................18 13.3. Nhãn chức năng tân ngữ gián tiếp ..................................................................19 13.4. Nhãn chức năng chủ đề....................................................................................20 13.5. Nhãn chức năng dành cho vị ngữ không phải cụm động từ ............................20 13.6. Nhãn chức năng của chủ ngữ logic ..................................................................21 13.7. Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động..................21 13.8. Nhãn phần thuyết của câu SF .........................................................................22 14. Nhãn phân loại phụ ngữ của động từ ......................................................................22 14.1. Phụ ngữ thời gian.............................................................................................22 14.2. Phụ ngữ nơi chốn .............................................................................................22 14.3. Phụ ngữ chỉ hướng ...........................................................................................23 14.4. Phụ ngữ chỉ cách thức hay phương tiện...........................................................23 14.5. Phụ ngữ chỉ mục đích hay lý do .......................................................................23 15. Nhãn phần tử rỗng..................................................................................................24 16. Các cấu trúc sử dụng liên từ độc lập .......................................................................25 17. Câu SF ....................................................................................................................27 2 1. Toàn bộ tập nhãn Nhãn từ loại: STT Tên Chú thích N Danh từ Nc Danh từ chỉ loại V Động từ A Tính từ P Đại từ D Định từ M Số từ R Phụ từ S Giới từ C Liên từ I Thán từ T Trợ từ, tiểu từ, từ tình thái U Từ đơn lẻ Y Từ viết tắt X Các từ không phân loại được Nhãn cụm từ: STT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ chỉ số lượng WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.) WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, ... 7 động từ và tính từ. Câu với động từ “có”: 7 Thuật ngữ tiếng Anh là case frame. 12 Có con chuột trong góc nhà. (S (VP có (NP-SBJ (NP con chuột) (PP trong (NP góc nhà)))) (. .)) Động từ này đặc biệt ở chỗ nó đứng đầu câu và danh từ theo sau là chủ ngữ của câu. Động từ này chỉ sự tồn tại. 9. Mệnh đề phụ Ký hiệu : SBAR Cấu trúc và chức năng: Mệnh đề phụ đóng vai trò bổ nghĩa cho danh từ, động từ, hay tính từ. Về cơ bản cấu trúc của mệnh đề phụ bao gồm một liên từ phụ thuộc và một mệnh đề (ký hiệu S). Mệnh đề phụ bổ nghĩa danh từ : Quyển sách mà anh mượn (NP (NP (Nu Quyển) (N sách)) (SBAR mà (S (NP-SBJ anh) (mượn)))) Phụ ngữ là mệnh đề : không đi đá bóng vì bạn gái ốm (VP (R không) (V đi) (VP đá (NP bóng)) (SBAR-PRP vì (S (NP-SBJ bạn gái) (AP-PRD ốm)))) Trong ví dụ này mệnh đề phụ "vì bạn gái ốm" chỉ nguyên nhân của hành động "không đi đá bóng", vì thế có thêm nhãn PRP. 13 Mệnh đề phụ bổ nghĩa tính từ : khỏe vì chơi thể thao đều đặn (AP (J khỏe) (SBAR vì (S (NP-SBJ *T*) (VP chơi (NP-OBJ thể thao) đều đặn)))) 10. Câu hỏi Ký hiệu : SQ Khi ta đã thành thạo việc gán nhãn câu trần thuật, việc gán nhãn cho câu hỏi sẽ trở nên đơn giản hơn. Ta xem xét các dạng câu hỏi chính dưới đây : Câu hỏi có đại từ nghi vấn : Loại câu hỏi này được dùng để hỏi về người, vật, địa điểm, thời gian, v.v. Hỏi người, vật: Ai đang ở trong nhà ? (SQ (WHNP Ai) (VP đang ở (PP trong (NP nhà))) (. ?)) Cụm danh từ nghi vấn (WHNP) được sử dụng trong loại câu hỏi này. Cụm danh từ nghi vấn có thể là một đại từ nghi vấn (ai) hoặc là một cụm danh từ có đại từ nghi vấn làm bổ ngữ sau (cái gì, con gì). Hỏi thời gian: Bao giờ anh đi hội nghị ? (SQ (WHADV Bao giờ) (S (NP anh) (VP đi (NP hội nghị))) 14 (. ?)) Hỏi cách thức: Anh sẽ giải bài toán này bằng cách nào ? (SQ (S (NP anh) (VP sẽ giải (NP bài toán này) (WHPP bằng (WHNP cách nào)))) (. ?)) Cụm giới từ nghi vấn (WHPP) là do giới từ kết hợp với cụm danh từ nghi vấn tạo ra. Hỏi về trạng thái: Bàn tay của cô ấy mềm mại ra sao ? (S (NP bàn tay (PP của (NP cô ấy))) (WHAP mềm mại (P ra sao)) (. ?)) Cụm tính từ nghi vấn (WHAP) là do tính từ kết hợp với đại từ nghi vấn tạo ra. Câu hỏi với câu trả lời có/không: Loại sử dụng cặp phụ từ trái nghĩa “có không”, “đã chưa”, v.v. Ví dụ: Em có đi chơi không ? (SQ (NP-SBJ em) (VP (R có) (V đi chơi) (R không)) (. ?)) Cũng có thể chỉ sử dụng một phụ từ phủ định: 15 Ví dụ8: Mai anh đi chưa ? (SQ (NP-TMP Mai) (NP-SBJ anh) (VP (V đi) (R chưa)) (. ?)) Hoặc dùng tiểu từ tình thái: Ví dụ : Cô ấy chưa về nhỉ ? (SQ (NP-SBJ Cô ấy) (VP (R chưa) (V về)) (T nhỉ) (. ?)) 11. Câu cảm thán Ký hiệu : SE Cấu trúc chung : Câu cảm thán dùng để thể hiện tình cảm ở một mức độ nhất định. Loại câu này cũng có những đặc trưng về mặt hình thức, chẳng hạn như sử dụng thán từ (ôi, ơi là), tiểu từ (thay), phó từ (lạ, thật), v.v. Câu cảm thán sử dụng thán từ : Ôi sức trẻ ! (SE (T Ôi) (NP sức trẻ) (. !)) Câu cảm thán sử dụng tiểu từ "thay" : Vinh quang thay những vị anh hùng dân tộc ! (SE (AP-PRD Vinh quang) 8 Trong ví dụ này, TMP là nhãn phụ ngữ chỉ thời gian. 16 (T thay) (NP-SBJ những vị anh hùng dân tộc) (. !)) Trong ví dụ này cụm tính từ vị ngữ đứng trước cụm danh từ chủ ngữ. Chúng được nối với nhau bằng tiểu từ "thay". Câu cảm thán dùng phó từ tình thái : Con này gớm thật ! (SE (NP-SBJ Con này) (VP (V gớm) (R thật)) (. !)) 12. Câu mệnh lệnh Ký hiệu : SC Cấu trúc chung : Câu mệnh lệnh của tiếng Việt được cấu tạo nhờ những phụ từ tạo ý mệnh lệnh, bằng ngữ điệu mệnh lệnh, và chỉ được chứa những từ liên quan đến nội dung của lệnh (đảm bảo tính ngắn gọn) [1]. Các phụ từ mệnh lệnh hay dùng là : hãy, đừng, chớ, đi, thôi, v.v. Ví dụ 1 : Không được làm ồn ! (SC (VP (R không được) (V làm) (AP ồn)) (. !)) Ví dụ 2 : Đi đi, em ! (SC (VP (V đi) (R đi)) (, ,) (NP-SBJ em)) (. !)) 17 13. Các nhãn chức năng Thông tin cú pháp cơ bản nhất được thể hiện trong cây cú pháp qua các nhãn từ loại, cụm từ, và mệnh đề. Tuy nhiên, trong các ứng dụng của treebank [] nhiều trường hợp cần thông tin cụ thể hơn nữa. Do đó nhãn chức năng được sử dụng để làm giàu thông tin thể hiện trong cây cú pháp. 13.1. Nhãn chức năng chủ ngữ Ký hiệu : SBJ Mô tả : Nhãn này được dùng để gán cho cụm từ làm chủ ngữ ở trong câu. Ví dụ : Anh này là sinh viên . (S (NP-SBJ Anh này) (VP là (NP-OBJ sinh viên)) (. .)) 13.2. Nhãn chức năng tân ngữ Ký hiệu : OBJ Mô tả : Nhãn này được dùng để gán cho cụm từ làm tân ngữ (object) của động từ trong câu. Ví dụ : xem trong phần 11.1 Các trường hợp đặc biệt: Có một số động từ mà theo sau là danh từ nhưng danh từ đó không được gán nhãn OBJ. Xét động từ “là”: Tôi là sinh viên. (S (NP-SBJ Tôi) (VP là (NP sinh viên))) 18 Rõ ràng “sinh viên” là danh từ đi sau động từ “là” nhưng không thể gán cho nó nhãn chức năng OBJ, vì nó không phải là đối tượng bị tác động bởi chủ thể “tôi”. Như vậy câu không có dạng bị động. Tương tự: bằng Cái ấm này bằng nhôm. tại Việc này tại anh ấy. của Cái áo này của tôi. như Anh ấy như người ốm. (Có lẽ câu đầy đủ là “Anh ấy trông như người ốm.”?) có Anh ấy có chiếc xe mới. lên Em bé này lên 10 tuổi. Một trường hợp khác, xin xem phần 13.7. 13.3. Nhãn chức năng tân ngữ gián tiếp Ký hiệu : IO Mô tả : Nhãn này được dùng để gán cho cụm từ làm tân ngữ gián tiếp (indirect object) của động từ trong câu. Ví dụ: Tôi tặng bạn quyển sách . (S (NP-SBJ Tôi) (VP tặng (NP-OBJ bạn) (NP-IO quyển sách)) (. .)) 19 Động từ “tặng” trong ví dụ này có hai tân ngữ. Tân ngữ trực tiếp là “bạn” thì được gán nhãn chức năng OBJ, còn tân ngữ gián tiếp “một quyển sách” thì có nhãn IO. 13.4. Nhãn chức năng chủ đề Ký hiệu : TPC Mô tả : Tiếng Việt là một ngôn ngữ cảm đề [2,3]. Khi nói người Việt lệ thuộc vào chủ đề không kém gì lệ thuộc vào chủ ngữ (chủ thể thực hiện hành động). Nhãn TPC được gán cho thành phần làm chủ đề của câu. Về mặt hình thức, khi một thành phần khác chủ ngữ được đưa lên đầu câu thì thường thành phần đó là chủ đề. Ví dụ: Vấn đề này chúng tôi đang bàn . (S (NP-TPC Vấn đề này) (S (NP-SBJ chúng tôi) (VP đang bàn)) (. .)) Trong ví dụ này, chủ đề (phần đề) của câu được đặt ở đầu câu. Thực chất phần đề này là tân ngữ trực tiếp của động từ “bàn”. Ta sẽ xem xét cách thể hiện thông tin này ở phần 15. 13.5. Nhãn chức năng dành cho vị ngữ không phải cụm động từ Ký hiệu : PRD Mô tả : Nếu vị ngữ của câu không phải là một cụm động từ thì nó được gán nhãn PRD. Nói chung ngoài cụm động từ, cụm tính từ và cụm danh từ cũng có thể làm vị ngữ trong câu. Trong tiếng Việt, cụm tính từ làm vị ngữ là hiện tượng phổ biến. Ví dụ 1: Cô gái đẹp . (S (NP-SBJ Cô gái) (AP-PRD đẹp) (. .)) Ví dụ 2: 20 Nhà này 60 mét vuông . (S (NP-SBJ Nhà này) (NP-PRD 60 mét vuông) (. .)) 13.6. Nhãn chức năng của chủ ngữ logic Ký hiệu : LGS (logical subject) Mô tả : Với một câu bị động tiếng Việt được viết đúng ngữ pháp [1, trg149], ta không cần đến nhãn này. Tuy nhiên hiện nay có hiện tượng viết sai ngữ pháp do ảnh hưởng của tiếng Anh. Nếu gặp những câu như vậy thì ta dùng thêm nhãn chức năng LGS. Ví dụ 19: Yahoo! 3600 có thể bị thay thế bởi Yahoo! Mash (S (NP-TPC Yahoo! 3600) (VP có thể (VP bị thay thế (PP bởi (NP-LGS Yahoo! Mash))))) Ví dụ này được lấy từ tiêu đề của một bài báo gần đây trên báo Tuổi Trẻ Online. Ví dụ 2: Yahoo! 3600 có thể bị Yahoo! Mash thay thế (S (NP-TPC Yahoo! 3600) (VP có thể (R bị) (S (NP-SBJ Yahoo! Mash) (VP thay thế)))) Câu trong ví dụ 1 được sửa cho đúng với ngữ pháp tiếng Việt hơn. Khi đó ta không dùng nhãn LGS nữa. 13.7. Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động Ký hiệu: EXT 9 21 Mô tả: Nếu cụm danh từ chỉ phạm vi hay tần suất làm bổ ngữ sau cho động từ thì được gán nhãn EXT. Chú ý là trong trường hợp này cụm danh từ không phải tân ngữ (OBJ). Ví dụ: Anh ấy chạy 5 km . (S (NP-SBJ Anh ấy) (VP chạy (NP-EXT 5 km)) (. .)) 13.8. Nhãn phần thuyết của câu SF Xem phần Câu SF. 14. Nhãn phân loại phụ ngữ của động từ Trong ngôn ngữ học hiện đại [2,5], phụ ngữ là thành phần câu đóng vai trò thiết lập tình huống diễn ra hành động hay trạng thái mà động từ chính mô tả. Về hình thức, phụ ngữ có thể là từ, cụm từ, hay mệnh đề. Về ý nghĩa, phụ ngữ thường diễn tả: thời gian, nơi chốn, cách thức, nguyên nhân, mục đích, hay điều kiện. 14.1. Phụ ngữ thời gian Ký hiệu: TMP Ví dụ: Ngày mai tôi đi thi . (S (NP-TMP Ngày mai) (S (NP-SBJ tôi) (VP đi (VP thi))) (. .)) 14.2. Phụ ngữ nơi chốn Ký hiệu: LOC Ví dụ: 22 Tôi sẽ đi nghỉ ở Tokyo . (S (NP-SBJ Tôi) (VP sẽ đi (VP nghỉ (PP-LOC ở Tokyo))) (. .)) 14.3. Phụ ngữ chỉ hướng Ký hiệu: DIR Ví dụ: Anh ấy sẽ bay từ Sài Gòn ra Hà Nội . (S (NP-SBJ Anh ấy) (VP sẽ bay (PP-DIR từ Sài Gòn) (PP-DIR ra Hà Nội)) (. .)) 14.4. Phụ ngữ chỉ cách thức hay phương tiện Ký hiệu: MNR Ví dụ: Cô gái ăn chè bằng thìa . (S (NP-SBJ Cô gái) (VP ăn (NP-OBJ chè) (PP-MNR bằng thìa)) (. .)) 14.5. Phụ ngữ chỉ mục đích hay lý do Ký hiệu: PRP 23 Ví dụ: Nó không đi làm được vì ốm . (S (NP-SBJ-1 Nó) (VP không đi (VP làm) được (SBAR vì (S (NP-SBJ-1 *T*) (AP-PRD ốm)))) (. .)) 15. Nhãn phần tử rỗng Ký hiệu: *T* Mô tả: Trong nhiều trường hợp ta cần nhãn phần tử rỗng để mô tả đầy đủ hơn cấu trúc ngữ pháp của một câu. Xét các ví dụ sau: Ví dụ 1: Tôi đã mua quyển sách mà thầy giáo giới thiệu . (S (NP-SBJ Tôi) (VP đã mua (NP (NP-OBJ-1 quyển sách) (SBAR mà (S (NP-SBJ thầy giáo) (VP giới thiệu (NP-OBJ *T*-1)))))) (. .)) Câu này có hai mệnh đề, trong đó mệnh đề phụ bổ nghĩa cho từ “quyển sách”. Ở mệnh đề phụ, tuy tân ngữ không trực tiếp xuất hiện sau động từ “giới thiệu” nhưng ta ngầm hiểu đó là cụm từ “quyển sách”. Do đó ta cần đưa vào ký hiệu cụm danh từ rỗng có chỉ số là 1, giống với chỉ số của cụm danh từ “quyển sách”10. Một cụm danh từ rỗng vẫn 10 Nếu cụm từ không có phần tử rỗng tương ứng thì không cần gán chỉ số. 24 được gán nhãn chức năng như bình thường, trong trường hợp này là OBJ. Ví dụ 2: Anh ấy khỏe vì chơi tenis đều đặn . (S (NP-SBJ-1 Anh ấy) (AP-PRD khỏe (SBAR vì (S (NP-SBJ *T*-1) (VP chơi (NP tenis) đều đặn)))) (. .)) Ở câu này thì phần tử rỗng lại là chủ ngữ của mệnh đề phụ bổ nghĩa cho tính từ vị ngữ của mệnh đề chính. Ví dụ 3 : Thuyền được đẩy ra xa . (S (NP-TPC-1 Thuyền) (VP được (VP đẩy (NP-OBJ-1 *T*) ra xa)) (. .)) Đây là một câu bị động trong đó tân ngữ của động từ “đẩy” được đưa lên đầu làm phần đề của câu. 16. Các cấu trúc sử dụng liên từ độc lập Ở những phần trước, vai trò của liên từ độc lập trong các cấu trúc ngữ pháp hầu như không được nhắc đến. Tuy nhiên chúng ta ngầm hiểu là chúng được sử dụng để tạo nên sự kết nối giữa hai hay nhiều thành phần cú pháp, chẳng hạn như kết hợp danh từ với danh từ để tạo nên một cụm danh từ mới. Phần này ta sẽ bàn đến các qui tắc khi gán nhãn cho cấu trúc có liên từ độc lập. Trước tiên ta xét hai từ “và” và “hoặc”. Đây là hai liên từ có tần suất xuất hiện vào loại cao nhất trong các từ cùng loại. Trường hợp từ đơn: Nếu hai hay nhiều từ đơn được nối với nhau bằng liên từ độc lập thì ta gán cho chúng 25 nhãn từ loại. Bố, mẹ, và con (NP (N Bố) (, ,) (N mẹ) (, ,) (C và) (N con)) Chú ý là ở ví dụ này cụm danh từ có 3 danh từ trung tâm. Anh ấy vừa ăn vừa nói trong bữa tiệc . (S (NP-SBJ Anh ấy) (VP vừa ăn vừa nói (PP trong (NP bữa tiệc))) (. .)) Trường hợp có ít nhất một thành phần là cụm từ: Ta gán cho chúng nhãn cụm từ mà không cần xét chức năng của chúng trong cấu trúc cao hơn. Hai bút chì và một quyển sách (NP (NP hai bút chì) và (NP một quyển sách)) Các từ đơn (cùng loại) làm bổ ngữ: Khi các từ đơn làm bổ ngữ thì ta nhóm chúng lại. Cấu trúc cú pháp và ngữ nghĩa (NP Cấu trúc (NP cú pháp và ngữ nghĩa)) Thay vì để phẳng (vì nếu để phẳng sẽ gây nhập nhằng cấu trúc): (NP Cấu trúc cú pháp và ngữ nghĩa) Xét một ví dụ khác: Đã, đang và sẽ thực hiện mua sách, giấy và bút (VP (RP đã, đang và sẽ) (VP thực hiện 26 (VP mua (NP sách, giấy và bút)))) Ở ví dụ này để phẳng cụm phụ từ không gây nhập nhằng gì, tuy nhiên nếu nhóm lại sẽ sáng sủa và mạch lạc hơn. 17. Câu SF Ta xét ví dụ sau: Chuột chạy vỡ đèn. Trong câu văn nói này thì “vỡ” là ngoại động từ. “vỡ đèn” là hệ quả của việc “chuột chạy”. Nếu viết đầy đủ phải là: “chuột chạy làm vỡ đèn” hoặc “vì chuột chạy nên đèn bị vỡ”. Một cách phân tích mà nhìn qua có vẻ hợp lý là: “chạy” là nội động từ bổ nghĩa cho “chuột”. Như vậy câu này là bình thường (về hình thức). (S (NP-SBJ chuột chạy) (VP vỡ (NP-OBJ đèn))) Tuy nhiên, ý nghĩa thực sự của câu này lại nổi bật ở quan hệ nhân quả. Do đó cách giải thích trên không ổn lắm! Ta sẽ giải thích các câu kiểu này theo quan điểm ngữ pháp chức năng [3], như vậy sẽ tự nhiên hơn (đảm bảo cả về ý nghĩa và hình thức). (SF (S-TPC (NP-SBJ chuột) (VP chạy)) (VP-TH vỡ (NP-OBJ đèn))) Mệnh đề “chuột chạy” làm phần đề (nhãn TPC) và cụm động từ “vỡ đèn” làm phần thuyết (nhãn TH) của câu. Câu được gán nhãn SF. Tương tự: “đất lành chim đậu” (hay “đất có lành thì chim mới đậu”) (SF (S-TPC (NP-SBJ đất) (AP-PRD lành)) (S-TH (NP-SBJ chim) (VP đậu))) Việc bổ xung nhãn mệnh đề SF và nhãn chức năng TH là một nỗ lực để gán nhãn cho các câu văn nói mà không thể được giải thích một cách hợp lý (cho dù có thêm các nút 27 rỗng) bằng cấu trúc chủ-vị. Dù sau thì mục đích của ta là văn viết, do đó các câu kiểu này có lẽ sẽ không xuất hiện nhiều lắm trong corpus thô. Tài liệu tham khảo: [1] Diệp Quang Ban. Ngữ pháp tiếng Việt. 2005. NXB Giáo dục. [2] Vũ Tiến Dũng. Tiếng Việt và ngôn ngữ học hiện đại sơ khảo về cú pháp. 2003. VIET Stuttgart – Germany. [3] Cao Xuân Hạo. Tiếng Việt sơ thảo ngữ pháp chức năng. 2006. NXB Khoa học xã hội. [4] Nguyễn Văn Hiệp. Vài nét về lịch sử nghiên cứu cú pháp tiếng Việt. Tạp chí Ngôn ngữ, Hà Nội, số 10/2002. [5] Peter Sells. Lectures on Contemporary Syntactic Theories. 1987. CSLI. [6]Mitchell P. Marcus et al. Building a Large Annotated Corpus of English: The Penn Treebank. 1993. Computational Linguistics. [7] Fei Xia et al. Developing Guidelines and Ensuring Consistency for Chinese Text Annotation. 2000. COLING. [8] Nianwen Xue et al. Building a Large-Scale Annotated Chinese Corpus. 2002. COLING. [9] Chung-hye Han et al. Development and Evaluation of a Korean Treebank and its Application to NLP. 2002. LREC. [10] Sabine Brants et al. The TIGER Treebank. 2003. COLING. 28
File đính kèm:
- thiet_ke_tap_nhan_cu_phap_va_huong_dan_gan_nhan.pdf