Cải tiến phát hiện tấn công sử dụng văn phạm nối cây trong lập trình Gen

Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu quả hoạt động của các mạng máy tính hiện đại. Phát hiện và ngăn chặn tấn công mạng máy tính đã và đang là chủ điểm nghiên cứu của nhiều nhà nghiên cứu trên thế giới. Một trong những biện pháp bảo đảm an toàn cho các hệ thống mạng là Hệ thống phát hiện xâm nhập trái phép. Tuy nhiên, các biện pháp này tỏ ra không hiệu quả và khá tốn kém, độ tin cậy không cao và không có khả năng phát hiện các tấn công, xâm nhập mới, chưa biết trước dấu hiệu. Kỹ thuật học máy được sử dụng trong việc phát hiện các tấn công, xâm nhập đã khắc phục được các hạn chế trên và ngày càng thể hiện tính ưu việt hơn các phương pháp trước. Trong bài báo này, chúng tôi sử dụng kỹ thuật lập trình Gen (Genetic Programming - GP) để cải thiện chất lượng phát hiện tấn công mạng. Trong thí nghiệm, chúng tôi sử dụng GP chuẩn và kỹ thuật văn phạm nối cây (TAG3P), tiến hành trên bộ dữ liệu nhân tạo do nhóm tác giả Pham, Nguyen, và Nguyen (2014) đề xuất. Trên cơ sở các kết quả thí nghiệm và so sánh với một số kỹ thuật đã được đề xuất trước, chúng tôi nhận thấy ứng dụng GP và TAG3P trong phát hiện tấn công đạt hiệu quả tốt hơn các phương pháp trước đó.
Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
22 trang Trúc Khang 09/01/2024 16680
Download
Bạn đang xem 10 trang mẫu của tài liệu "Cải tiến phát hiện tấn công sử dụng văn phạm nối cây trong lập trình Gen", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Cải tiến phát hiện tấn công sử dụng văn phạm nối cây trong lập trình Gen

 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 7, Số 3, 2017 379–400 379 
CẢI TIẾN PHÁT HIỆN TẤN CÔNG SỬ DỤNG VĂN PHẠM NỐI 
CÂY TRONG LẬP TRÌNH GEN 
Vũ Văn Cảnha,b*, Hoàng Tuấn Hảoa, Nguyễn Văn Hoànb 
aKhoa Công nghệ Thông tin, Trường Đại học Kỹ thuật Lê Quý Đôn, Hà Nội, Việt Nam 
bKhoa Công nghệ Thông tin, Trường Đại học Thông tin Liên Lạc, Khánh Hòa, Việt Nam 
Lịch sử bài báo 
Nhận ngày 07 tháng 01 năm 2017 | Chỉnh sửa ngày 13 tháng 07 năm 2017 
Chấp nhận đăng ngày 20 tháng 07 năm 2017 
Tóm tắt 
Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu quả 
hoạt động của các mạng máy tính hiện đại. Phát hiện và ngăn chặn tấn công mạng máy tính 
đã và đang là chủ điểm nghiên cứu của nhiều nhà nghiên cứu trên thế giới. Một trong những 
biện pháp bảo đảm an toàn cho các hệ thống mạng là Hệ thống phát hiện xâm nhập trái 
phép. Tuy nhiên, các biện pháp này tỏ ra không hiệu quả và khá tốn kém, độ tin cậy không 
cao và không có khả năng phát hiện các tấn công, xâm nhập mới, chưa biết trước dấu hiệu. 
Kỹ thuật học máy được sử dụng trong việc phát hiện các tấn công, xâm nhập đã khắc phục 
được các hạn chế trên và ngày càng thể hiện tính ưu việt hơn các phương pháp trước. Trong 
bài báo này, chúng tôi sử dụng kỹ thuật lập trình Gen (Genetic Programming - GP) để cải 
thiện chất lượng phát hiện tấn công mạng. Trong thí nghiệm, chúng tôi sử dụng GP chuẩn 
và kỹ thuật văn phạm nối cây (TAG3P), tiến hành trên bộ dữ liệu nhân tạo do nhóm tác giả 
Pham, Nguyen, và Nguyen (2014) đề xuất. Trên cơ sở các kết quả thí nghiệm và so sánh với 
một số kỹ thuật đã được đề xuất trước, chúng tôi nhận thấy ứng dụng GP và TAG3P trong 
phát hiện tấn công đạt hiệu quả tốt hơn các phương pháp trước đó. 
Từ khóa: Lập trình Gen; Phát hiện xâm nhập; Phân loại tấn công; Văn phạm nối cây. 
1. GIỚI THIỆU CHUNG 
Ngày nay mạng máy tính đã trở thành một phần của cuộc sống hiện đại và ngày 
càng đóng vai trò quan trọng trong hầu hết các lĩnh vực của cuộc sống từ kinh tế, chính 
trị, quân sự, các lĩnh vực giải trí đến giáo dục và đào tạo Cùng với sự phát triển của 
mạng máy tính, nguy cơ mất an toàn, an ninh đối với các thông tin ngày càng cao. Ngày 
càng có nhiều tấn công vào không gian mạng để truy cập trái phép vào thông tin và hệ 
thống, hoặc lạm dụng các tài nguyên mạng. Việc lạm dụng có thể dẫn tới hậu quả khiến 
cho tài nguyên mạng trở lên không đáng tin cậy hoặc không sử dụng được. Một số cuộc 
* Tác giả liên hệ: Email: canhvuvan@yahoo.com 
380 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
tấn công có thể dẫn đến phá hủy hệ thống, hoặc đánh cắp thông tin, hay làm ngừng hoạt 
động của hệ thống. Nhìn chung các tấn công thường gây nên tổn thương đến các thuộc 
tính bảo mật thông tin và hệ thống. Vì vậy, vấn đề đảm bảo an ninh, an toàn thông tin khi 
sử dụng môi trường mạng cần phải được đặc biệt quan tâm. Phát hiện tấn công, xâm nhập 
mạng là một vấn đề lớn đã và đang được nhiều nhà nghiên cứu quan tâm. Trong thực tế, 
có khá nhiều nguy cơ xuất phát từ các cuộc tấn công mạng. Vì vậy, các hệ thống khác 
nhau đã được thiết kế và xây dựng để ngăn cản các cuộc tấn công này, đặc biệt là các hệ 
thống phát hiện xâm nhập (Intrusion Detection System - IDS) giúp các mạng chống lại 
các cuộc tấn công từ bên ngoài. Mục tiêu của IDS là cung cấp một bức tường bảo vệ, giúp 
các hệ thống mạng có khả năng chống lại các cuộc tấn công từ bên ngoài. Các IDS có thể 
được sử dụng để phát hiện việc sử dụng các loại truyền thông mạng và hệ thống máy tính 
độc hại, nhiệm vụ mà các bức tường lửa quy ước không thể thực hiện được. Devarakonda 
và Pamidi (2012) đã đề xuất việc phát hiện tấn công dựa trên giả thiết là hành vi của kẻ 
tấn công khác với người sử dụng hợp lệ. Phát hiện xâm nhập được triển khai bởi một hệ 
thống phát hiện xâm nhập và ngày nay đã có nhiều hệ thống phát hiện xâm nhập thương 
mại hiệu quả. Hình 1 mô tả các vị trí điển hình của IDS trong một hệ thống mạng. 
Hình 1. Vị trí của các IDS trong giám sát mạng 
Hệ thống phát hiện tấn công là một công cụ giám sát các sự kiện diễn ra trong hệ 
thống mạng máy tính và phân tích chúng thành các dấu hiệu của các mối đe dọa an ninh. 
Một tấn công có thể gây ra từ bên trong hoặc bên ngoài của tổ chức. Tấn công từ bên 
trong là tấn công được khởi tạo bởi một thực thể bên trong vành đai an ninh (tay trong), 
nghĩa là thực thể được phép truy cập vào tài nguyên hệ thống nhưng sử dụng theo cách 
không được chấp nhận bởi người cấp quyền. Tấn công từ bên ngoài được khởi tạo từ bên 
ngoài vành đai an ninh bởi người dùng trái phép và không hợp pháp của hệ thống. Trên 
Vũ Văn Cảnh, Hoàng Tuấn Hảo và Nguyễn Văn Hoàn 381 
mạng Internet luôn tiềm tàng những kẻ tấn công từ bên ngoài với phạm vi từ những kẻ 
tấn công nghiệp dư đến những tổ chức tội phạm, khủng bố quốc tế, và chính phủ thù địch. 
Có hai nhóm hệ thống phát hiện tấn công là phát hiện lạm dụng và phát hiện bất 
thường. Hệ phát hiện lạm dụng thực hiện dò tì ... nghiệm 
Nhóm tác giả đã tiến hành thử nghiệm phát hiện tấn công đối với mô hình đề xuất 
trên bộ dữ liệu nhân tạo do nhóm tác giả Pham, Nguyen, và Nguyen (2014) đề xuất với 
10 thuộc tính cho mỗi loại tấn công. Thử nghiệm của chúng tôi đươc tiến hành tại Phòng 
Thí nghiệm An ninh mạng, Bộ môn An toàn Thông tin, Học viện Kỹ thuật Quân sự với 
các tham số di truyền được xác định như được trình bày trong Tiểu mục 3.2.1. 
3.2.1. Các tham số và hàm mục tiêu 
 Tham số: Các tham số sử dụng trong quá trình tiến hóa để huấn luyện cho phát 
394 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
hiện tấn công, xâm nhập được lựa chọn như trong Bảng 2. 
Bảng 2. Tập các tham số được lựa chọn trong quá trình tiến hóa 
Tham số Giá trị 
Tỷ lệ lai ghép 0.9 
Tỷ lệ đột biến 0.1 
Kích thước quần thể 200 
Số thể hệ thực hiện di truyền 51 
Số mẫu dữ liệu huấn luyện Phụ thuộc kịch bản 
Số mẫu dữ liệu kiểm tra Phụ thuộc kịch bản 
Phương pháp lựa chọn Lựa chọn cạnh tranh, size=10 
Tập Function {add, sub, div, mul, sin, cos, log, ep} 
Tập Terminal x1, x2, x10: 10 thuộc tính cho mỗi loại tấn công 
Kích thước cá thể MIN_SIZE=2, MAX_SIZE=40 
 Hàm thích nghi (fitness): Giá trị thích nghi của mỗi cá thể sẽ được tính toán 
theo các bước như sau: 
Tính thô (rawfitness): 
 
NumFitcase
1i
i1021i
NumFitcase
y)x,...,x,x(f
)i(rawfitness (1) 
Trong đó: NumFitcase là số mẫu trong bộ dữ liệu huấn luyện; x1, x2,. .., x10 là 
thuộc tính lựa chọn cho kiểu tấn công; fi là hàm được xây dựng trong quá trình tiến hóa; 
và yi là giá trị phân loại mẫu dữ liệu là tấn công hay không tấn công. 
Chuẩn hóa fitness tuần tự như sau: 
 
poplen
1i )i(rawfitness1
1
)i(essadjustfitn (2) 
 
polen
1i
)i(essadjustfitn
)i(essadjustfitn
)i(ssnomalfitne (3) 
Vũ Văn Cảnh, Hoàng Tuấn Hảo và Nguyễn Văn Hoàn 395 
3.2.2. Kịch bản thử nghiệm 
Chúng tôi đã tiến hành thử nghiệm trên ba kịch bản với các mẫu dữ liệu huấn 
luyện và kiểm tra cụ thể như sau. 
Kịch bản 1: Trong giai đoạn huấn luyện chỉ huấn luyện trên bộ dữ liệu không có 
mẫu dữ liệu tấn công. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các mẫu 
dữ liệu bình thường và dữ liệu tấn công nhằm đánh giá khả năng phát hiện tấn công của 
phương pháp đề xuất. Thử nghiệm được tiến hành trên ba thí nghiệm sau: 
 Thí nghiệm cho kiểu tấn công DDoS: Không có mẫu dữ liệu huấn luyện và 500 
mẫu dữ liệu bình thường; Dữ liệu kiểm tra có 500 mẫu dữ liệu tấn công và 1000 
mẫu dữ liệu bình thường; 
 Thí nghiệm cho kiểu tấn công PROBE: Không có dữ liệu huấn luyện và 190 
mẫu dữ liệu bình thường; Dữ liệu kiểm tra có 180 mẫu dữ liệu tấn công và 380 
mẫu dữ liệu bình thường. 
 Thí nghiệm cho kiểu tấn công DDOS và PROBE: Không có dữ liệu huấn luyện 
và 360 mẫu dữ liệu bình thường; Dữ liệu kiểm tra là 180 mẫu dữ liệu tấn công 
PROBE với 180 mẫu dữ liệu tấn công DDOS với 320 mẫu dữ liệu bình thường 
Kịch bản 2: Trong giai đoạn huấn luyện, huấn luyện trên bộ dữ liệu có cả các mẫu 
dữ liệu tấn công và bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả 
các mẫu dữ liệu tấn công và mẫu không tấn công nhằm đánh giá khả năng phát hiện tấn 
công của phương pháp đề xuất. Kịch bản thử nghiệm trên ba thí nghiệm với các kiểu tấn 
công: DDOS, PROBE và hỗn hợp DDOS-PROBE. 
 Thí nghiệm cho kiểu tấn công DDOS: Dữ liệu đầu vào bao gồm dữ liệu huấn 
luyện là 50 mẫu dữ liệu tấn công và 150 mẫu dữ liệu bình thường; Dữ liệu kiểm 
tra là 300 mẫu dữ liệu tấn công và 600 mẫu dữ liệu bình thường; 
 Thí nghiệm cho kiểu tấn công PROBE: Dữ liệu đầu vào bao gồm dữ liệu huấn 
396 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
luyện là 40 mẫu dữ liệu tấn công và 80 mẫu dữ liệu bình thường; Dữ liệu kiểm 
tra là 140 mẫu dữ liệu tấn công và 300 mẫu dữ liệu bình thường; 
 Thí nghiệm cho kiểu tấn công PROBE và DDOS: Dữ liệu huấn luyện gồm 30 
mẫu dữ liệu tấn công PROBE và 30 mẫu dữ liệu tấn công DDOS và 120 mẫu 
dữ liệu bình thường; Dữ liệu kiểm tra gồm 150 mẫu dữ liệu tấn công PROBE 
với 150 mẫu dữ liệu tấn công DDOS và 320 mẫu dữ liệu bình thường; 
Kịch bản 3: Trong giai đoạn huấn luyện trên bộ dữ liệu có chứa các mẫu tấn công 
smurf và bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các mẫu 
dữ liệu bình thường và các mẫu tấn công mới nhằm đánh giá khả năng phát hiện các mẫu 
tấn công mới, chưa biết của phương pháp đề xuất. Dữ liệu huấn luyện bao gồm 87 mẫu 
dữ liệu tấn công smurf và 400 mẫu dữ liệu bình thường; Dữ liệu kiểm tra gồm 400 mẫu 
dữ liệu tấn công các kiểu DDOS (land, back, neptune, pop, teardrop) và 800 mẫu dữ liệu 
bình thường 
3.3. Kết quả và phân tích 
Kết quả thử nghiệm phương pháp đề xuất với các tham số của thuật toán được đề 
cập đến trong Bảng 2, nhóm tác giả đã thực hiện với 30 lần chạy và lấy kết quả phân loại 
tấn công của tất cả các lần thực hiện để làm giá trị thống kê và so sánh với các phương 
pháp khác. Hiệu suất của phương pháp áp dụng cho mỗi tập dữ liệu thử nghiệm sẽ được 
tính theo tỷ lệ % của các phân loại chính xác trên tập dữ liệu kiểm tra và kết quả thử 
nghiệm được thống kê trên các bảng. 
Các kết quả thống kê khi áp dụng phương pháp được đề xuất với GP chuẩn và 
TAG3P cho vấn đề phát hiện tấn công được so sánh với các phương pháp học máy khác 
nhau (cây quyết định (J48), SVM, hai kỹ thuật mạng thần kinh nhân tạo (Multilayer 
Perceptron: Perc và Resting Bitch Face: RBF), và mạng Bayes (mạng Bayes: Bayes và 
NaiveBayes: Naïve)). 
Kịch bản 1: Các kết quả trong Bảng 3 cho thấy các phương pháp đề xuất trong 
các thí nghiệm của Kịch bản 1 cho kết quả phân loại tấn công cao hơn một số phương 
Vũ Văn Cảnh, Hoàng Tuấn Hảo và Nguyễn Văn Hoàn 397 
pháp học máy khác. Điều này cho thấy GP và TAG3P đã cải thiện đáng kể tỷ lệ phát hiện 
tấn công, xâm nhập. 
Bảng 3. Kết quả thí nghiệm Kịch bản 1 (%) 
Phương pháp J48 SVM Perc Bayes Naïve RBF StandGP TAG3P 
Thí nghiệm 1 66.67 66.67 66.67 66.67 66.67 66.67 70.00 97.06 
Thí nghiệm 2 67.86 67.86 67.86 67.86 67.86 67.86 65.00 99.29 
Thí nghiệm 3 47.06 47.06 47.06 47.06 47.06 47.06 95.00 98.72 
Kịch bản 2: Kết quả Kịch bản 2 cho thấy các phương pháp đề xuất của GP chuẩn 
đã cải thiện tỷ lệ phát hiện tấn công trên thí nghiệm 2 cho các mẫu tấn công thăm dò và 
TAG3P đã cải thiện tỷ lệ phát hiện tấn công, xâm nhập trong thí nghiệm 3 bao gồm cả 
các mẫu tấn công từ chối dịch vụ mà tấn công thăm dò. Tuy nhiên đối với một số mẫu 
khác thì tỷ lệ phát hiện lại chưa cao (Bảng 4). 
Bảng 4. Kết quả thí nghiệm Kịch bản 2 (%) 
Phương pháp J48 SVM Perc Bayes Naïve RBF StandGP TAG3P 
Thí nghiệm 1 90.36 98.25 98.62 93.61 96.62 98.50 75.00 93.74 
Thí nghiệm 2 96.59 93.41 95.00 97.50 92.95 92.95 100.0 94.76 
Thí nghiệm 3 96.58 94.47 97.11 98.42 93.95 93.95 95.00 99.08 
Kịch bản 3: Kết quả Kịch bản 3 cho thấy TAG3P thực sự hiệu quả trong phát hiện 
các mẫu tấn công mới chưa biết trước dấu hiệu tấn công. Có thể nhận thấy rằng TAG3P 
thực sự hiệu quả trong khả năng học và đưa ra các dự đoán đối với các trường hợp chưa 
biết trước các dạng tấn công và các dạng tấn công mới (Bảng 5). 
Bảng 5. Kết quả thí nghiệm Kịch bản 3 (%) 
Phương pháp J48 SVM Perc Bayes Naïve RBF StandGP TAG3P 
Thí nghiệm 67.17 67.17 69.33 67.58 89.42 65.92 67.17 93.09 
4. KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU 
Bài báo trình bày nghiên cứu về vấn đề cải thiện phát hiện tấn công mạng sử dụng 
lập trình gen dựa trên kỹ thuật văn phạm nối cây (TAG3P) và GP chuẩn. Các thực nghiệm 
cho thấy việc phân loại tấn công đã cải thiện đáng kể tỷ lệ phát hiện tấn công mạng. Qua 
398 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
thí nghiệm cho thấy kết quả phát hiện tấn công đối với các mẫu tấn công mới đạt được 
hiệu quả hơn so với một số phương pháp học máy khác. Bên cạnh đó, TAG3P cũng đã 
cải thiện đáng kể tốc độ huấn luyện so với GP chuẩn. 
Trong thời gian tới, nhóm nghiên cứu sẽ tiếp tục cải tiến các phương pháp phát 
hiện tấn công dựa trên hệ lập trình gen với định hướng nâng cao tốc độ huấn luyện bởi 
một số kỹ thuật như tự động đáp ứng các tham số đầu vào hay giữ lại các cá thể được cho 
là tốt nhất ở mỗi thế hệ, sau đó sao chép trực tiếp vào thế hệ tiếp theo mà không cần áp 
dụng bất cứ toán tử di truyền nào trên đó. 
TÀI LIỆU THAM KHẢO 
Abadeh, M. S., Habibi, J., & Lucas, C. (2007). Intrusion detection using a fuzzy genetics-
based learning algorithm. Journal of Network and Computer Applications, 30(1), 
414-428. 
Abdullah, B., Abd-Alghafar, I., Gouda, I., & Salama, A. A. (2009). Performance 
avaluation of a genetic algorithm based approach to network intrusion detection 
system. Paper presented at The 13th International Conference on Aerospace 
Sciences and Aviation Technology, USA. 
Ahmad, I., Hussain, M., Alghamdi, A., & Alelaiwi, A. (2013). Enhancing SVM 
performance in intrusion detection using optimal feature subset selection based on 
genetic principal components. Springer Open, 24(7-8), 1671-1682. 
Al-Jarrah, O. Y., Siddiqui, A., Elsalamouny, M., Yoo, P. D., Muhaidat, S., & Kim, K. 
(2014). Machine learning based feature selection techniques for large-scale 
network intrusion detection. Paper presented at The IEEE 34th International 
Conference on Distributed Computing Systems Workshops, USA. 
Anup, G., & Chetan, K. (2008). GA-NIDS: A Genetic algorithm based network intrusion 
detection system. Retrieved from https://www.researchgate.net/publication/ 
228791237_GA-NIDS_A_Genetic_Algorithm_based_Network_Intrusion_ 
Detection_System 
Botha, M., & Solms, R. (2004). Utilizing neural networks for effective intrusion detection. 
Retrieved from  
Bridges, S. M., & Vaughn, R. B. (2000). Fuzzy data mining and genetic algorithms 
applied to intrusion detection. Paper presented at The Twenty-third National 
Information Systems Security Conference, USA. 
Crosbie, M., & Spafford, E. (1995). Applying genetic programming to intrusion 
detection. International Journal of Science and Research, 2(6), 480-483. 
Devarakonda, N., & Pamidi, S. (2012). Intrusion detection system using Bayesian 
network and Hidden Markov model. Procedia Technology, 4(1), 506-514. 
Vũ Văn Cảnh, Hoàng Tuấn Hảo và Nguyễn Văn Hoàn 399 
Faraoun, K. M., Boukelif, A., & Algeria, S. B. A. (2006). Genetic programming approach 
for multi-category pattern classification applied to network intrusions detection. 
International Journal of Computational Intelligence and Applications, 6(1), 
3098-3109. 
Gomez, J., & Dasgupta, D. (2002). Evolving fuzzy rules for intrusion detection. Paper 
presented at The Third Annual IEEE Information Assurance Workshop 2002 
Conference, USA. 
Gong, R. H., Zulkernine, M., & Abolmaesumi, P. (2005). A software implementation of 
a genetic algorithm based approach to network intrusion detection. Paper 
presented at The Sixth International Conference on Software Engineering, USA. 
Koza, J. R. (1992). Genetic programming: On the programming of computers by means 
of natural selection. Massachusetts, USA: MIT Press. 
Le, H. N., Hoang, T. H., & Vu, V. C. (2015). Self-adaptive srossover and mutation 
parameters in tree adjoining grammar guided genetic programming. Tạp chí Khoa 
học và Kỹ thuật Học viện Kỹ thuật Quân sự, 15(6), 5-15. 
Leung, Y., So, L., & Yam, K. F. (1992). Rule learning in expert systems using genetic 
algorithm. Paper presented at The International Conference on Fuzzy Logic & 
Neural Networksm, Japan. 
Li, W. (2004). Using genetic algorithm for network intrusion detection. Retrieved from 
https://pdfs.semanticscholar.org/9175/54c7cce69e6ee9708020863f2bd27fa986a
6.pdf. 
Lu, W., & Traore, I. (2004). Detecting new forms of network intrusion using genetic 
programming. Computational Intelligence, 20(3), 475-494. 
Middlemiss, M., & Dick, G. (2003). Feature selection of intrusion detection data using a 
hybrid genetic algorithm/KNN approach. Amsterdam, Netherlands: IOS Press. 
Mukkamala, S., Andrew, H. S., & Ajith, A. (2005). Intrusion detection using an ensemble 
of intelligent paradigms. Journal of Network and Computer Applications, 28(2), 
167-182. 
Nguyen, X. H., McKay, R. I., & Abbass, H. A. (2003). Tree adjoining grammars, 
language bias, and genetic programming. Paper presented at The EuroGP2003, 
Netherlands. 
Peddabachigari, S., Ajith, A. G., & Thomas, J. (2007). Modeling intrusion detection 
system using hybrid intelligent systems. Journal of Network and Computer 
Applications, 30(1), 114-132. 
Peng, T., Leckie, C., & Kotagiri, R. (2007). Information sharing for distributed intrusion 
detection systems. Journal of Network and Computer Applications, 30(3), 877-
899. 
Pham, T. S., Nguyen, Q. U., & Nguyen, X. H. (2014). Generating artificial attack data 
for intrusion detection using machine learning. Paper presented at The Fifth 
400 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
Symposium on Information and Communication Technology Conference, 
Vietnam. 
Pillai, M. M., Eloff, J. H. P., & Venter, H. S. (2004). An approach to implement a network 
intrusion detection system using genetic algorithms. Paper presented at The 
SAICSIT, South Africa. 
UCI KDD Archive. (1999). KDD cup 1999 data. Retrieved from  
databases/kddcup99/kddcup99.html 
Wong, M. L., Leung, K. S., & Cheng, J. C. Y. (2000). Discovering knowledge from noisy 
databases using genetic programming. Journal of the American Society for 
Information Science and Technology, 51(9), 870-881. 
IMPROVING INTRUSION DETECTION USING TREE 
ADJOINING GRAMMAR GUIDED GENETIC PROGRAMMING 
Vu Van Canha,b*, Hoang Tuan Haoa, Nguyen Van Hoanb 
aThe Faculty of Information Technology, Lequydon Technical University, Hanoi, Vietnam 
bThe Faculty of Information Technology, Telecommunication University, Khanhhoa, Vietnam 
*Corresponding author: Email: canhvuvan@yahoo.com 
Article history 
Received: January 07th, 2017 | Received in revised form: July 13th, 2017 
Accepted: July 20th, 2017 
Abstract 
Nowadays, the problem of network security has become urgent and affect the performance 
of modern computer networks greatly. Detection and prevention of network attacks have been 
the main topic of many researchers in the World. One of the safety measures for networks is 
using the intrusion detection systems. However, these measures are costly, ineffective, 
unreliable and can-not detect new or unknown attacks. Some studies using machine learning 
technology have been applied in intrusion detection. In our work, we proposed using Genetic 
Programming (GP) to improve intrusion detection. In the experiments, we used GP and Tree 
Adjoining Grammar Guided Genetic Programming (TAG3P) on artifical datasets suggested 
by Pham, Nguyen, and Nguyen (2014). Compared with previous results, we found that GP 
and TAG3P are more effective in detecting attacks than previous measures. 
Keywords: Attack detection; Classification; Genetic Programming (GP); IDS; TAG3P.
File đính kèm:
cai_tien_phat_hien_tan_cong_su_dung_van_pham_noi_cay_trong_l.pdf