Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn

Phần phụ sau:

Nói chung phần phụ sau của cụm danh từ có cấu tạo phức tạp hơn phần phụ trước nhiều.

Bổ ngữ sau có thể là danh từ, cụm tính từ, cụm động từ, số từ xác định và số từ thứ tự,

đại từ chỉ định, cụm giới từ, hay mệnh đề phụ. Đại từ chỉ định, nếu có, thì thường được

đặt sau cùng. Sau đây là một số ví dụ:

Ví dụ 1: Cụm danh từ đơn giản (không có bổ ngữ là cụm giới từ, cụm động từ, hay

mệnh đề phụ):

quả bóng màu xanh

(NP (Nu quả)

(N bóng)

(N màu xanh))

Ví dụ 2: Cụm danh từ phức tạp với bổ ngữ sau là cụm giới từ5:

cái máy tính của cơ quan

(NP (NP (Nu cái)

(N máy tính))

(PP của cơ quan))

Ví dụ 3: Cụm danh từ phức tạp với bổ ngữ sau là mệnh đề phụ:

cái máy tính mà tôi mới mua hôm qua

(NP (NP (Nu cái)

(N máy tính))

(SBAR mà tôi mới mua hôm qua))

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 1

Trang 1

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 2

Trang 2

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 3

Trang 3

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 4

Trang 4

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 5

Trang 5

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 6

Trang 6

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 7

Trang 7

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 8

Trang 8

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 9

Trang 9

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 28 trang baonam 7200
Bạn đang xem 10 trang mẫu của tài liệu "Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn

Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn
Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn 
Nguyễn Phương Thái1, Vũ Xuân Lương2, Nguyễn Thị Minh Huyền3
SP 7.3 – Dự án VLSP 
Giới thiệu 
Đây là tài liệu hướng dẫn gán nhãn cú pháp khi xây dựng treebank tiếng Việt. Tập nhãn 
từ loại và hướng dẫn gán nhãn từ loại được trình bày trong một tài liệu khác. Với mỗi 
hiện tượng ngữ pháp, chúng tôi trình bày cách nhận diện và cách gán nhãn cùng với các 
ví dụ cụ thể để minh họa. Các ví dụ được lấy từ sách ngữ pháp hoặc từ ngữ liệu thực tế. 
Khi có thể, chúng tôi cố gắng trích dẫn tài liệu tham khảo để người đọc có thể nắm được 
đầy đủ hơn về vấn đề được nêu. Tài liệu này đang tiếp tục được chỉnh sửa và bổ sung 
trước khi đưa ra thảo luận với các nhóm khác trong dự án. 
1 JAIST 
2 Trung Tâm Từ Điển Học 
3 ĐH KHTN – ĐH QGHN 
 1
Mục lục 
1. Toàn bộ tập nhãn ..........................................................................................................3 
2. Cụm danh từ .................................................................................................................5 
3. Cụm động từ..................................................................................................................7 
4. Cụm tính từ...................................................................................................................9 
5. Cụm phó từ..................................................................................................................10 
6. Cụm giới từ..................................................................................................................10 
7. Cụm từ chỉ số lượng ....................................................................................................10 
8. Câu trần thuật ............................................................................................................ 11 
9. Mệnh đề phụ ...............................................................................................................13 
10. Câu hỏi ....................................................................................................................14 
11. Câu cảm thán ..........................................................................................................16 
12. Câu mệnh lệnh........................................................................................................17 
13. Các nhãn chức năng................................................................................................18 
13.1. Nhãn chức năng chủ ngữ .................................................................................18 
13.2. Nhãn chức năng tân ngữ .................................................................................18 
13.3. Nhãn chức năng tân ngữ gián tiếp ..................................................................19 
13.4. Nhãn chức năng chủ đề....................................................................................20 
13.5. Nhãn chức năng dành cho vị ngữ không phải cụm động từ ............................20 
13.6. Nhãn chức năng của chủ ngữ logic ..................................................................21 
13.7. Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động..................21 
13.8. Nhãn phần thuyết của câu SF .........................................................................22 
14. Nhãn phân loại phụ ngữ của động từ ......................................................................22 
14.1. Phụ ngữ thời gian.............................................................................................22 
14.2. Phụ ngữ nơi chốn .............................................................................................22 
14.3. Phụ ngữ chỉ hướng ...........................................................................................23 
14.4. Phụ ngữ chỉ cách thức hay phương tiện...........................................................23 
14.5. Phụ ngữ chỉ mục đích hay lý do .......................................................................23 
15. Nhãn phần tử rỗng..................................................................................................24 
16. Các cấu trúc sử dụng liên từ độc lập .......................................................................25 
17. Câu SF ....................................................................................................................27 
 2
1. Toàn bộ tập nhãn 
Nhãn từ loại: 
STT Tên Chú thích 
 N Danh từ 
 Nc Danh từ chỉ loại 
 V Động từ 
 A Tính từ 
 P Đại từ 
 D Định từ 
 M Số từ 
 R Phụ từ 
 S Giới từ 
 C Liên từ 
 I Thán từ 
 T Trợ từ, tiểu từ, từ tình thái 
 U Từ đơn lẻ 
 Y Từ viết tắt 
 X Các từ không phân loại được 
Nhãn cụm từ: 
STT Tên Chú thích 
 NP Cụm danh từ 
 VP Cụm động từ 
 AP Cụm tính từ 
 RP Cụm phụ từ 
 PP Cụm giới từ 
 QP Cụm từ chỉ số lượng 
 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.) 
 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, ... 7 động từ và tính từ. 
Câu với động từ “có”: 
7 Thuật ngữ tiếng Anh là case frame. 
 12
 Có con chuột trong góc nhà. 
 (S (VP có 
(NP-SBJ (NP con chuột) 
(PP trong 
(NP góc nhà)))) 
(. .)) 
Động từ này đặc biệt ở chỗ nó đứng đầu câu và danh từ theo sau là chủ ngữ của câu. 
Động từ này chỉ sự tồn tại. 
9. Mệnh đề phụ 
Ký hiệu : SBAR 
Cấu trúc và chức năng: 
Mệnh đề phụ đóng vai trò bổ nghĩa cho danh từ, động từ, hay tính từ. Về cơ bản cấu 
trúc của mệnh đề phụ bao gồm một liên từ phụ thuộc và một mệnh đề (ký hiệu S). 
Mệnh đề phụ bổ nghĩa danh từ : 
 Quyển sách mà anh mượn 
 (NP (NP (Nu Quyển) 
(N sách)) 
(SBAR mà 
(S (NP-SBJ anh) 
(mượn)))) 
Phụ ngữ là mệnh đề : 
không đi đá bóng vì bạn gái ốm 
(VP (R không) 
(V đi) 
(VP đá 
(NP bóng)) 
(SBAR-PRP vì 
(S (NP-SBJ bạn gái) 
(AP-PRD ốm)))) 
Trong ví dụ này mệnh đề phụ "vì bạn gái ốm" chỉ nguyên nhân của hành động "không 
đi đá bóng", vì thế có thêm nhãn PRP. 
 13
Mệnh đề phụ bổ nghĩa tính từ : 
khỏe vì chơi thể thao đều đặn 
(AP (J khỏe) 
(SBAR vì 
(S (NP-SBJ *T*) 
(VP chơi 
(NP-OBJ thể thao) 
đều đặn)))) 
10. Câu hỏi 
Ký hiệu : SQ 
Khi ta đã thành thạo việc gán nhãn câu trần thuật, việc gán nhãn cho câu hỏi sẽ trở nên 
đơn giản hơn. Ta xem xét các dạng câu hỏi chính dưới đây : 
Câu hỏi có đại từ nghi vấn : 
Loại câu hỏi này được dùng để hỏi về người, vật, địa điểm, thời gian, v.v. 
Hỏi người, vật: 
 Ai đang ở trong nhà ? 
 (SQ (WHNP Ai) 
 (VP đang 
ở 
(PP trong 
(NP nhà))) 
 (. ?)) 
Cụm danh từ nghi vấn (WHNP) được sử dụng trong loại câu hỏi này. Cụm danh từ nghi 
vấn có thể là một đại từ nghi vấn (ai) hoặc là một cụm danh từ có đại từ nghi vấn làm bổ 
ngữ sau (cái gì, con gì). 
Hỏi thời gian: 
 Bao giờ anh đi hội nghị ? 
 (SQ (WHADV Bao giờ) 
(S (NP anh) 
(VP đi 
(NP hội nghị))) 
 14
 (. ?)) 
Hỏi cách thức: 
 Anh sẽ giải bài toán này bằng cách nào ? 
 (SQ (S (NP anh) 
(VP sẽ 
 giải 
(NP bài toán này) 
 (WHPP bằng 
(WHNP cách nào)))) 
 (. ?)) 
Cụm giới từ nghi vấn (WHPP) là do giới từ kết hợp với cụm danh từ nghi vấn tạo ra. 
Hỏi về trạng thái: 
 Bàn tay của cô ấy mềm mại ra sao ? 
(S (NP bàn tay 
(PP của 
(NP cô ấy))) 
(WHAP mềm mại 
(P ra sao)) 
 (. ?)) 
Cụm tính từ nghi vấn (WHAP) là do tính từ kết hợp với đại từ nghi vấn tạo ra. 
Câu hỏi với câu trả lời có/không: 
Loại sử dụng cặp phụ từ trái nghĩa “có không”, “đã chưa”, v.v. 
Ví dụ: 
 Em có đi chơi không ? 
 (SQ (NP-SBJ em) 
(VP (R có) 
(V đi chơi) 
(R không)) 
(. ?)) 
Cũng có thể chỉ sử dụng một phụ từ phủ định: 
 15
Ví dụ8: 
 Mai anh đi chưa ? 
 (SQ (NP-TMP Mai) 
 (NP-SBJ anh) 
(VP (V đi) 
(R chưa)) 
(. ?)) 
Hoặc dùng tiểu từ tình thái: 
Ví dụ : 
Cô ấy chưa về nhỉ ? 
 (SQ (NP-SBJ Cô ấy) 
(VP (R chưa) 
(V về)) 
(T nhỉ) 
(. ?)) 
11. Câu cảm thán 
Ký hiệu : SE 
Cấu trúc chung : 
Câu cảm thán dùng để thể hiện tình cảm ở một mức độ nhất định. Loại câu này cũng có 
những đặc trưng về mặt hình thức, chẳng hạn như sử dụng thán từ (ôi, ơi là), tiểu từ 
(thay), phó từ (lạ, thật), v.v. 
Câu cảm thán sử dụng thán từ : 
 Ôi sức trẻ ! 
 (SE (T Ôi) 
(NP sức trẻ) 
(. !)) 
Câu cảm thán sử dụng tiểu từ "thay" : 
 Vinh quang thay những vị anh hùng dân tộc ! 
 (SE (AP-PRD Vinh quang) 
8 Trong ví dụ này, TMP là nhãn phụ ngữ chỉ thời gian. 
 16
(T thay) 
(NP-SBJ những vị anh hùng dân tộc) 
(. !)) 
Trong ví dụ này cụm tính từ vị ngữ đứng trước cụm danh từ chủ ngữ. Chúng được nối 
với nhau bằng tiểu từ "thay". 
Câu cảm thán dùng phó từ tình thái : 
 Con này gớm thật ! 
 (SE (NP-SBJ Con này) 
(VP (V gớm) 
(R thật)) 
(. !)) 
12. Câu mệnh lệnh 
Ký hiệu : SC 
Cấu trúc chung : 
Câu mệnh lệnh của tiếng Việt được cấu tạo nhờ những phụ từ tạo ý mệnh lệnh, bằng 
ngữ điệu mệnh lệnh, và chỉ được chứa những từ liên quan đến nội dung của lệnh (đảm 
bảo tính ngắn gọn) [1]. Các phụ từ mệnh lệnh hay dùng là : hãy, đừng, chớ, đi, thôi, v.v. 
Ví dụ 1 : 
 Không được làm ồn ! 
 (SC (VP (R không được) 
(V làm) 
(AP ồn)) 
(. !)) 
Ví dụ 2 : 
 Đi đi, em ! 
 (SC (VP (V đi) 
(R đi)) 
 (, ,) 
(NP-SBJ em)) 
(. !)) 
 17
13. Các nhãn chức năng 
Thông tin cú pháp cơ bản nhất được thể hiện trong cây cú pháp qua các nhãn từ loại, 
cụm từ, và mệnh đề. Tuy nhiên, trong các ứng dụng của treebank [] nhiều trường hợp 
cần thông tin cụ thể hơn nữa. Do đó nhãn chức năng được sử dụng để làm giàu thông tin 
thể hiện trong cây cú pháp. 
13.1. Nhãn chức năng chủ ngữ 
Ký hiệu : SBJ 
Mô tả : Nhãn này được dùng để gán cho cụm từ làm chủ ngữ ở trong câu. 
Ví dụ : 
Anh này là sinh viên . 
(S (NP-SBJ Anh này) 
(VP là 
(NP-OBJ sinh viên)) 
(. .)) 
13.2. Nhãn chức năng tân ngữ 
Ký hiệu : OBJ 
Mô tả : Nhãn này được dùng để gán cho cụm từ làm tân ngữ (object) của động từ trong 
câu. 
Ví dụ : xem trong phần 11.1 
Các trường hợp đặc biệt: 
Có một số động từ mà theo sau là danh từ nhưng danh từ đó không được gán nhãn OBJ. 
Xét động từ “là”: 
 Tôi là sinh viên. 
 (S (NP-SBJ Tôi) 
(VP là 
(NP sinh viên))) 
 18
Rõ ràng “sinh viên” là danh từ đi sau động từ “là” nhưng không thể gán cho nó nhãn 
chức năng OBJ, vì nó không phải là đối tượng bị tác động bởi chủ thể “tôi”. Như vậy 
câu không có dạng bị động. 
Tương tự: 
 bằng 
 Cái ấm này bằng nhôm. 
 tại 
 Việc này tại anh ấy. 
 của 
 Cái áo này của tôi. 
 như 
 Anh ấy như người ốm. 
 (Có lẽ câu đầy đủ là “Anh ấy trông như người ốm.”?) 
 có 
 Anh ấy có chiếc xe mới. 
 lên 
 Em bé này lên 10 tuổi. 
Một trường hợp khác, xin xem phần 13.7. 
13.3. Nhãn chức năng tân ngữ gián tiếp 
Ký hiệu : IO 
Mô tả : Nhãn này được dùng để gán cho cụm từ làm tân ngữ gián tiếp (indirect object) 
của động từ trong câu. 
Ví dụ: 
 Tôi tặng bạn quyển sách . 
 (S (NP-SBJ Tôi) 
(VP tặng 
(NP-OBJ bạn) 
(NP-IO quyển sách)) 
(. .)) 
 19
Động từ “tặng” trong ví dụ này có hai tân ngữ. Tân ngữ trực tiếp là “bạn” thì được gán 
nhãn chức năng OBJ, còn tân ngữ gián tiếp “một quyển sách” thì có nhãn IO. 
13.4. Nhãn chức năng chủ đề 
Ký hiệu : TPC 
Mô tả : Tiếng Việt là một ngôn ngữ cảm đề [2,3]. Khi nói người Việt lệ thuộc vào chủ 
đề không kém gì lệ thuộc vào chủ ngữ (chủ thể thực hiện hành động). Nhãn TPC được 
gán cho thành phần làm chủ đề của câu. Về mặt hình thức, khi một thành phần khác chủ 
ngữ được đưa lên đầu câu thì thường thành phần đó là chủ đề. 
Ví dụ: 
 Vấn đề này chúng tôi đang bàn . 
 (S (NP-TPC Vấn đề này) 
(S (NP-SBJ chúng tôi) 
(VP đang bàn)) 
(. .)) 
Trong ví dụ này, chủ đề (phần đề) của câu được đặt ở đầu câu. Thực chất phần đề này là 
tân ngữ trực tiếp của động từ “bàn”. Ta sẽ xem xét cách thể hiện thông tin này ở phần 
15. 
13.5. Nhãn chức năng dành cho vị ngữ không phải cụm động từ 
Ký hiệu : PRD 
Mô tả : Nếu vị ngữ của câu không phải là một cụm động từ thì nó được gán nhãn PRD. 
Nói chung ngoài cụm động từ, cụm tính từ và cụm danh từ cũng có thể làm vị ngữ trong 
câu. Trong tiếng Việt, cụm tính từ làm vị ngữ là hiện tượng phổ biến. 
Ví dụ 1: 
 Cô gái đẹp . 
 (S (NP-SBJ Cô gái) 
(AP-PRD đẹp) 
(. .)) 
Ví dụ 2: 
 20
 Nhà này 60 mét vuông . 
 (S (NP-SBJ Nhà này) 
(NP-PRD 60 mét vuông) 
(. .)) 
13.6. Nhãn chức năng của chủ ngữ logic 
Ký hiệu : LGS (logical subject) 
Mô tả : Với một câu bị động tiếng Việt được viết đúng ngữ pháp [1, trg149], ta không 
cần đến nhãn này. Tuy nhiên hiện nay có hiện tượng viết sai ngữ pháp do ảnh hưởng của 
tiếng Anh. Nếu gặp những câu như vậy thì ta dùng thêm nhãn chức năng LGS. 
Ví dụ 19: 
 Yahoo! 3600 có thể bị thay thế bởi Yahoo! Mash 
 (S (NP-TPC Yahoo! 3600) 
(VP có thể 
(VP bị thay thế 
(PP bởi 
(NP-LGS Yahoo! Mash))))) 
Ví dụ này được lấy từ tiêu đề của một bài báo gần đây trên báo Tuổi Trẻ Online. 
Ví dụ 2: 
 Yahoo! 3600 có thể bị Yahoo! Mash thay thế 
 (S (NP-TPC Yahoo! 3600) 
 (VP có thể 
 (R bị) 
(S (NP-SBJ Yahoo! Mash) 
(VP thay thế)))) 
Câu trong ví dụ 1 được sửa cho đúng với ngữ pháp tiếng Việt hơn. Khi đó ta không 
dùng nhãn LGS nữa. 
13.7. Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động 
Ký hiệu: EXT 
9 
 21
Mô tả: Nếu cụm danh từ chỉ phạm vi hay tần suất làm bổ ngữ sau cho động từ thì được 
gán nhãn EXT. Chú ý là trong trường hợp này cụm danh từ không phải tân ngữ (OBJ). 
Ví dụ: 
 Anh ấy chạy 5 km . 
 (S (NP-SBJ Anh ấy) 
(VP chạy 
(NP-EXT 5 km)) 
(. .)) 
13.8. Nhãn phần thuyết của câu SF 
Xem phần Câu SF. 
14. Nhãn phân loại phụ ngữ của động từ 
Trong ngôn ngữ học hiện đại [2,5], phụ ngữ là thành phần câu đóng vai trò thiết lập tình 
huống diễn ra hành động hay trạng thái mà động từ chính mô tả. Về hình thức, phụ ngữ 
có thể là từ, cụm từ, hay mệnh đề. Về ý nghĩa, phụ ngữ thường diễn tả: thời gian, nơi 
chốn, cách thức, nguyên nhân, mục đích, hay điều kiện. 
14.1. Phụ ngữ thời gian 
Ký hiệu: TMP 
Ví dụ: 
 Ngày mai tôi đi thi . 
 (S (NP-TMP Ngày mai) 
(S (NP-SBJ tôi) 
(VP đi 
(VP thi))) 
(. .)) 
14.2. Phụ ngữ nơi chốn 
Ký hiệu: LOC 
Ví dụ: 
 22
 Tôi sẽ đi nghỉ ở Tokyo . 
 (S (NP-SBJ Tôi) 
(VP sẽ 
đi 
(VP nghỉ 
(PP-LOC ở Tokyo))) 
(. .)) 
14.3. Phụ ngữ chỉ hướng 
Ký hiệu: DIR 
Ví dụ: 
 Anh ấy sẽ bay từ Sài Gòn ra Hà Nội . 
 (S (NP-SBJ Anh ấy) 
(VP sẽ 
bay 
(PP-DIR từ Sài Gòn) 
(PP-DIR ra Hà Nội)) 
(. .)) 
14.4. Phụ ngữ chỉ cách thức hay phương tiện 
Ký hiệu: MNR 
Ví dụ: 
 Cô gái ăn chè bằng thìa . 
 (S (NP-SBJ Cô gái) 
(VP ăn 
(NP-OBJ chè) 
(PP-MNR bằng thìa)) 
(. .)) 
14.5. Phụ ngữ chỉ mục đích hay lý do 
Ký hiệu: PRP 
 23
Ví dụ: 
 Nó không đi làm được vì ốm . 
 (S (NP-SBJ-1 Nó) 
(VP không 
đi 
(VP làm) 
được 
(SBAR vì 
(S (NP-SBJ-1 *T*) 
(AP-PRD ốm)))) 
(. .)) 
15. Nhãn phần tử rỗng 
Ký hiệu: *T* 
Mô tả: Trong nhiều trường hợp ta cần nhãn phần tử rỗng để mô tả đầy đủ hơn cấu trúc 
ngữ pháp của một câu. Xét các ví dụ sau: 
Ví dụ 1: 
 Tôi đã mua quyển sách mà thầy giáo giới thiệu . 
 (S (NP-SBJ Tôi) 
(VP đã mua 
(NP (NP-OBJ-1 quyển sách) 
(SBAR mà 
(S (NP-SBJ thầy giáo) 
(VP giới thiệu 
(NP-OBJ *T*-1)))))) 
(. .)) 
Câu này có hai mệnh đề, trong đó mệnh đề phụ bổ nghĩa cho từ “quyển sách”. Ở mệnh 
đề phụ, tuy tân ngữ không trực tiếp xuất hiện sau động từ “giới thiệu” nhưng ta ngầm 
hiểu đó là cụm từ “quyển sách”. Do đó ta cần đưa vào ký hiệu cụm danh từ rỗng có chỉ 
số là 1, giống với chỉ số của cụm danh từ “quyển sách”10. Một cụm danh từ rỗng vẫn 
10 Nếu cụm từ không có phần tử rỗng tương ứng thì không cần gán chỉ số. 
 24
được gán nhãn chức năng như bình thường, trong trường hợp này là OBJ. 
Ví dụ 2: 
 Anh ấy khỏe vì chơi tenis đều đặn . 
 (S (NP-SBJ-1 Anh ấy) 
(AP-PRD khỏe 
(SBAR vì 
(S (NP-SBJ *T*-1) 
(VP chơi 
(NP tenis) 
đều đặn)))) 
(. .)) 
Ở câu này thì phần tử rỗng lại là chủ ngữ của mệnh đề phụ bổ nghĩa cho tính từ vị ngữ 
của mệnh đề chính. 
Ví dụ 3 : 
 Thuyền được đẩy ra xa . 
 (S (NP-TPC-1 Thuyền) 
(VP được 
(VP đẩy 
(NP-OBJ-1 *T*) 
ra xa)) 
(. .)) 
Đây là một câu bị động trong đó tân ngữ của động từ “đẩy” được đưa lên đầu làm phần 
đề của câu. 
16. Các cấu trúc sử dụng liên từ độc lập 
Ở những phần trước, vai trò của liên từ độc lập trong các cấu trúc ngữ pháp hầu như 
không được nhắc đến. Tuy nhiên chúng ta ngầm hiểu là chúng được sử dụng để tạo nên 
sự kết nối giữa hai hay nhiều thành phần cú pháp, chẳng hạn như kết hợp danh từ với 
danh từ để tạo nên một cụm danh từ mới. Phần này ta sẽ bàn đến các qui tắc khi gán 
nhãn cho cấu trúc có liên từ độc lập. Trước tiên ta xét hai từ “và” và “hoặc”. Đây là hai 
liên từ có tần suất xuất hiện vào loại cao nhất trong các từ cùng loại. 
Trường hợp từ đơn: 
Nếu hai hay nhiều từ đơn được nối với nhau bằng liên từ độc lập thì ta gán cho chúng 
 25
nhãn từ loại. 
 Bố, mẹ, và con 
 (NP (N Bố) (, ,) (N mẹ) (, ,) (C và) (N con)) 
Chú ý là ở ví dụ này cụm danh từ có 3 danh từ trung tâm. 
 Anh ấy vừa ăn vừa nói trong bữa tiệc . 
 (S (NP-SBJ Anh ấy) 
(VP vừa ăn vừa nói 
(PP trong 
(NP bữa tiệc))) 
(. .)) 
Trường hợp có ít nhất một thành phần là cụm từ: 
Ta gán cho chúng nhãn cụm từ mà không cần xét chức năng của chúng trong cấu trúc 
cao hơn. 
 Hai bút chì và một quyển sách 
 (NP (NP hai bút chì) 
và 
(NP một quyển sách)) 
Các từ đơn (cùng loại) làm bổ ngữ: 
Khi các từ đơn làm bổ ngữ thì ta nhóm chúng lại. 
 Cấu trúc cú pháp và ngữ nghĩa 
 (NP Cấu trúc 
(NP cú pháp và ngữ nghĩa)) 
Thay vì để phẳng (vì nếu để phẳng sẽ gây nhập nhằng cấu trúc): 
 (NP Cấu trúc cú pháp và ngữ nghĩa) 
Xét một ví dụ khác: 
 Đã, đang và sẽ thực hiện mua sách, giấy và bút 
 (VP (RP đã, đang và sẽ) 
(VP thực hiện 
 26
(VP mua 
(NP sách, giấy và bút)))) 
Ở ví dụ này để phẳng cụm phụ từ không gây nhập nhằng gì, tuy nhiên nếu nhóm lại sẽ 
sáng sủa và mạch lạc hơn. 
17. Câu SF 
Ta xét ví dụ sau: 
 Chuột chạy vỡ đèn. 
Trong câu văn nói này thì “vỡ” là ngoại động từ. “vỡ đèn” là hệ quả của việc “chuột 
chạy”. Nếu viết đầy đủ phải là: “chuột chạy làm vỡ đèn” hoặc “vì chuột chạy nên đèn bị 
vỡ”. 
Một cách phân tích mà nhìn qua có vẻ hợp lý là: “chạy” là nội động từ bổ nghĩa cho 
“chuột”. Như vậy câu này là bình thường (về hình thức). 
 (S (NP-SBJ chuột chạy) 
(VP vỡ 
(NP-OBJ đèn))) 
Tuy nhiên, ý nghĩa thực sự của câu này lại nổi bật ở quan hệ nhân quả. Do đó cách giải 
thích trên không ổn lắm! Ta sẽ giải thích các câu kiểu này theo quan điểm ngữ pháp 
chức năng [3], như vậy sẽ tự nhiên hơn (đảm bảo cả về ý nghĩa và hình thức). 
 (SF (S-TPC (NP-SBJ chuột) 
(VP chạy)) 
(VP-TH vỡ 
(NP-OBJ đèn))) 
Mệnh đề “chuột chạy” làm phần đề (nhãn TPC) và cụm động từ “vỡ đèn” làm phần 
thuyết (nhãn TH) của câu. Câu được gán nhãn SF. 
Tương tự: “đất lành chim đậu” (hay “đất có lành thì chim mới đậu”) 
 (SF (S-TPC (NP-SBJ đất) 
(AP-PRD lành)) 
(S-TH (NP-SBJ chim) 
(VP đậu))) 
Việc bổ xung nhãn mệnh đề SF và nhãn chức năng TH là một nỗ lực để gán nhãn cho 
các câu văn nói mà không thể được giải thích một cách hợp lý (cho dù có thêm các nút 
 27
rỗng) bằng cấu trúc chủ-vị. Dù sau thì mục đích của ta là văn viết, do đó các câu kiểu 
này có lẽ sẽ không xuất hiện nhiều lắm trong corpus thô. 
Tài liệu tham khảo: 
[1] Diệp Quang Ban. Ngữ pháp tiếng Việt. 2005. NXB Giáo dục. 
[2] Vũ Tiến Dũng. Tiếng Việt và ngôn ngữ học hiện đại sơ khảo về cú pháp. 2003. VIET 
Stuttgart – Germany. 
[3] Cao Xuân Hạo. Tiếng Việt sơ thảo ngữ pháp chức năng. 2006. NXB Khoa học xã 
hội. 
[4] Nguyễn Văn Hiệp. Vài nét về lịch sử nghiên cứu cú pháp tiếng Việt. Tạp chí Ngôn 
ngữ, Hà Nội, số 10/2002. 
[5] Peter Sells. Lectures on Contemporary Syntactic Theories. 1987. CSLI. 
[6]Mitchell P. Marcus et al. Building a Large Annotated Corpus of English: The Penn 
Treebank. 1993. Computational Linguistics. 
[7] Fei Xia et al. Developing Guidelines and Ensuring Consistency for Chinese Text 
Annotation. 2000. COLING. 
[8] Nianwen Xue et al. Building a Large-Scale Annotated Chinese Corpus. 2002. 
COLING. 
[9] Chung-hye Han et al. Development and Evaluation of a Korean Treebank and its 
Application to NLP. 2002. LREC. 
[10] Sabine Brants et al. The TIGER Treebank. 2003. COLING. 
 28

File đính kèm:

  • pdfthiet_ke_tap_nhan_cu_phap_va_huong_dan_gan_nhan.pdf