Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử

Tóm tắtt: Các đặc điểm cá nhân của khách hàng

nhƣ giới tính, độ tuổi, v.v. cung cấp các thông tin

quan trọng cho các nhà cung cấp dịch vụ thƣơng mại

điện tử (TMĐT) trong các hoạt động quảng cáo và cá

nhân hóa hệ thống. Tuy nhiên, khách hàng trực tuyến

thƣờng hạn chế cung cấp thông tin do vấn đề riêng tƣ.

Bài báo này đề xuất một phƣơng pháp dự đoán giới

tính của khách hàng dựa trên dữ liệu lịch sử truy cập

hệ thống TMĐT. Chúng tôi sử dụng phƣơng pháp học

máy trên một tập các đặc trƣng đƣợc trích xuất từ

thông tin xem sản phẩm của ngƣời dùng để dự đoán

giới tính của họ. Các thực nghiệm đƣợc thực hiện trên

tập dữ liệu đƣợc cung cấp trong khuôn khổ cuộc thi

về khai phá dữ liệu trong Hội nghị PAKDD’15. Kết

quả có độ chính xác 81.9% trên độ đo chính xác cân

bằng và 82.3% trên độ đo macro F1 cho thấy thuật

toán học máy và các đặc trƣng đƣợc đề xuất đã mang

lại hiệu quả tốt trong nhận diện giới tính của khách

hàng.

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 1

Trang 1

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 2

Trang 2

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 3

Trang 3

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 4

Trang 4

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 5

Trang 5

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 6

Trang 6

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử trang 7

Trang 7

pdf 7 trang baonam 9900
Bạn đang xem tài liệu "Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử

Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử
Dương Trần Đức 
Tác giả liên hệ: Dƣơng Trần Đức, 
Email: duongtranduc@gmail.com 
Đến tòa soạn: 2/2018 , chỉnh sửa: 4/2018 , chấp nhận đăng: 5/ 2018 
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ 
ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN 
DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ 
Dƣơng Trần Đức 
Học viện Công nghệ Bưu chính Viễn thông 
Tóm tắtt: Các đặc điểm cá nhân của khách hàng 
nhƣ giới tính, độ tuổi, v.v. cung cấp các thông tin 
quan trọng cho các nhà cung cấp dịch vụ thƣơng mại 
điện tử (TMĐT) trong các hoạt động quảng cáo và cá 
nhân hóa hệ thống. Tuy nhiên, khách hàng trực tuyến 
thƣờng hạn chế cung cấp thông tin do vấn đề riêng tƣ. 
Bài báo này đề xuất một phƣơng pháp dự đoán giới 
tính của khách hàng dựa trên dữ liệu lịch sử truy cập 
hệ thống TMĐT. Chúng tôi sử dụng phƣơng pháp học 
máy trên một tập các đặc trƣng đƣợc trích xuất từ 
thông tin xem sản phẩm của ngƣời dùng để dự đoán 
giới tính của họ. Các thực nghiệm đƣợc thực hiện trên 
tập dữ liệu đƣợc cung cấp trong khuôn khổ cuộc thi 
về khai phá dữ liệu trong Hội nghị PAKDD’15. Kết 
quả có độ chính xác 81.9% trên độ đo chính xác cân 
bằng và 82.3% trên độ đo macro F1 cho thấy thuật 
toán học máy và các đặc trƣng đƣợc đề xuất đã mang 
lại hiệu quả tốt trong nhận diện giới tính của khách 
hàng. 
Từ khóa: học máy, dữ liệu lớn, dự đoán giới tính. 
I. MỞ ĐẦU 
Ngày nay, rất nhiều các ứng dụng web nhƣ các hệ 
thống thƣơng mại điện tử (TMĐT), các máy tìm kiếm, 
các hệ thống quảng cáo trực tuyến, sử dụng các đặc 
điểm cá nhân hóa để làm gia tăng sự trải nghiệm của 
ngƣời dùng và thúc đẩy hoạt động kinh doanh, bán 
hàng. Với một dịch vụ đƣợc cá nhân hóa tốt, thông tin 
hiển thị sẽ đƣợc tối ƣu hóa cho mỗi ngƣời dùng cá 
nhân thay vì giống nhau cho toàn bộ ngƣời dùng. 
Chẳng hạn, một hệ thống TMĐT có thể hiển thị các 
thông tin khuyến mãi hoặc giới thiệu sản phẩm có liên 
quan đến từng khách hàng thay vì hiển thị quảng cáo 
chung hoặc giới thiệu các sản phẩm ngẫu nhiên. 
Việc cá nhân hóa thông tin hiển thị dựa trên 2 loại 
dữ liệu chính: dữ liệu lịch sử (chẳng hạn các mặt hàng 
trƣớc đó đã xem hoặc đã mua v.v.) và đặc điểm cá 
nhân của ngƣời dùng (chẳng hạn giới tính, độ tuổi, 
trình độ giáo dục .v.v). Dữ liệu lịch sử chỉ có thể thu 
thập đƣợc nếu ngƣời dùng đã sử dụng hệ thống trƣớc 
đó và đã đăng nhập vào hệ thống. Do đó, các phƣơng 
pháp cá nhân hóa dựa trên dữ liệu lịch sử không khả 
thi trong trƣờng hợp khách hàng truy cập lần đầu hoặc 
khách hàng chƣa đăng ký sử dụng hệ thống. Ngƣợc 
lại, phƣơng pháp cá nhân hóa dựa trên đặc điểm cá 
nhân của ngƣời dùng hữu ích kể cả khi ngƣời dùng 
chƣa từng sử dụng hệ thống. Tuy nhiên, các thông tin 
về đặc điểm cá nhân của ngƣời dùng thƣờng khó thu 
thập đƣợc, do ngƣời dùng Internet thƣờng không sẵn 
sàng cung cấp các thông tin cá nhân có tính riêng tƣ. 
Vì lý do này, trong nhiều trƣờng hợp, cách duy nhất để 
có đƣợc thông tin đặc điểm cá nhân của ngƣời dùng là 
dự đoán dựa trên các dữ liệu khác mà ngƣời dùng để 
lại trên hệ thống. 
Vấn đề dự đoán đặc điểm ngƣời dùng dựa trên 
phân tích văn bản (còn gọi dự đoán đặc điểm tác giả 
văn bản - author profiling) đã đƣợc nghiên cứu trong 
nhiều thập kỷ, tuy nhiên, trong nhiều trƣờng hợp, 
ngƣời dùng không để lại các văn bản trên hệ thống. 
Một phƣơng pháp khác có thể đƣợc sử dụng để dự 
đoán đặc điểm ngƣời dùng là dựa vào hành vi của họ 
trên hệ thống, chẳng hạn các hành vi duyệt web ([6], 
[13]), phân tích lƣu lƣợng web ([3]), hoặc hành vi xem 
danh mục sản phẩm. Ƣu điểm chính của phƣơng pháp 
tiếp cận này là trong hầu hết các trƣờng hợp, ngƣời 
dùng sẽ thực hành các hành vi trên hệ thống nhƣ truy 
cập vào các trang web, nhấp chuột vào các mặt 
hàng/mục tin, xem danh mục sản phẩm v.v. 
Trong nghiên cứu này, chúng tôi giải quyết vấn đề 
dự đoán giới tính ngƣời dùng dựa trên dữ liệu xem 
danh mục sản phẩm nhƣ thời gian/thời lƣợng xem, 
danh sách các sản phẩm/loại sản phẩm đã xem v.v. 
Tập dữ liệu thực nghiệm đƣợc cung cấp bởi Tập đoàn 
FPT trong cuộc thi về khai phá dữ liệu trong khuôn 
khổ Hội nghị Quốc tế về Khai phá dữ liệu và Phát 
hiện tri thức khu vực Châu Á Thái Bình Dƣơng năm 
2015 (PAKDD’15). Ý tƣởng của phƣơng pháp là khai 
thác tối đa mối quan hệ giữa các sản phẩm/loại sản 
phẩm đƣợc xem trong cùng 1 lƣợt xem dựa trên 1 biểu 
diễn dạng cây của danh sách sản phẩm/loại sản phâm. 
Theo đó, bên cạnh các đặc trƣng cơ bản nhƣ thời gian, 
tần suất xem, danh sách các sản phẩm/loại sản phẩm 
riêng rẽ, chúng tôi nghiên cứu đề xuất sử dụng các đặc 
trƣng nhƣ chuỗi các sản phẩm/loại sản phẩm đƣợc 
xem liên tiếp, các cặp chuyển tiếp sản phẩm/loại sản 
 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 17
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT 
phẩm khác nhau trong cùng 1 lƣợt xem v.v. (gọi chung 
là các đặc trƣng nâng cao). Với cấu trúc phân cấp 
nhiều cấp độ của danh mục sản phẩm/loại sản phẩm, 
chúng tôi sử dụng một phƣơng pháp biểu diễn dạ ... a trên lý thuyết học thống kê đƣợc 
đề xuất bởi Vapnik năm 1995. SVM là thuật toán học 
máy có ƣu điểm là có thể xử lý số lƣợng lớn các đặc 
trƣng phân loại và không cần đến việc giảm bớt số 
lƣợng đặc trƣng nhằm tránh vấn đề quá khớp (over-
fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề 
có số chiều lớn. BN là một mô hình xác suất dạng đồ 
thị biểu thị sự phụ thuộc thống kê trên một tập hợp các 
biến ngẫu nghiên. Đây cũng là thuật toán đƣợc sử 
dụng khá phổ biến trong xây dựng các mô hình học 
máy. 
Bên cạnh các thuật toán học máy, do tập dữ liệu 
huấn luyện có đặc điểm không cần bằng giữa các lớp 
(khoảng 80% là nữ và chỉ 20% nam), một số kỹ thuật 
hỗ trợ nhƣ Resampling, Cost-Sensitive Learning 
(CSL) đƣợc áp dụng để nâng cao độ chính xác cho lớp 
thiểu số. Resampling là một phƣơng pháp đƣợc sử 
dụng phổ biến để xử lý các trƣờng hợp không cân 
bằng trong dữ liệu huấn luyện. Ý tƣởng cơ bản của 
phƣơng pháp này là thêm vào hoặc bớt đi 1 số mẫu để 
làm cho tập dữ liệu trở nên cân bằng hơn. Ngoài ra, 
A00002 
B00003 B00001 B00003 
C00006 C00010 C00008 C00004 
D19760 D18416 D19764 D19761 D08538 
 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 20
Dương Trần Đức 
cũng có thể đặt lại trọng số cho các mẫu của mỗi lớp 
để giúp cân bằng tổng trọng số của mỗi lớp [10]. 
Trong khi resampling là một phƣơng pháp ở mức dữ 
liệu thì CSL là một phƣơng pháp ở mức thuật toán 
dùng để giải quyết vấn để phân loại không cân bằng. 
Theo Ling và các cộng sự [11], CSL là một phƣơng 
pháp có tính đến chi phí phân loại sai, nghĩa là nó xem 
xét các phân loại sai của các lớp khác nhau là khác 
nhau, nhờ đó có thể cân bằng độ chính xác giữa 2 lớp 
khi xây dựng mô hình phân loại. 
Ngoài ra, do số lƣợng các đặc trƣng lớp và dữ 
liệu thƣa, các kỹ thuật lựa chọn đặc trƣng đƣợc nghiên 
cứu, áp dụng để giảm bớt độ phức tạp và loại bỏ đi các 
đặc trƣng ít liên quan đến quá trình phân loại. Trong 
nghiên cứu này, chúng tôi thử nghiệm một số độ đo 
nhƣ Độ lợi thông tin (Information Gain), Khi-bình 
phƣơng (Chi-Square), Tƣơng quan (Correlation) để 
chọn ra phƣơng pháp và số lƣợng đặc trƣng phù hợp 
nhất. 
IV. THỰC NGHIỆM 
A. Dữ liệu và phương pháp đánh giá 
Trong nghiên cứu này, chúng tôi sử dụng các tập 
dữ liệu đƣợc cung cấp bởi tập đoàn FPT cho cuộc thi 
về khai phá dữ liệu và phát hiện tri thức trong khuôn 
khổ hội nghị PAKDD’15. Dữ liệu đƣợc chia thành 2 
tập là tập huấn luyện và tập kiểm chứng. Mỗi tập dữ 
liệu chứa 15.000 bản ghi, tƣơng ứng với các bản lƣu 
trữ về thông tin xem sản phẩm của mỗi ngƣời dùng. 
Về phƣơng pháp đánh giá, nhƣ đã trình bày ở 
trên, do vấn đề không cân bằng của các lớp dự đoán, 
độ đo chính xác cân bằng đƣợc sử dụng để đánh giá 
mô hình. Độ đo chính xác cân bằng đƣợc định nghĩa là 
độ chính xác trung bình của mỗi lớp và việc sử dụng 
độ đo này có thể tránh đƣợc các dự báo hiệu suất giả 
tạo trong các tập dữ liệu không cân bằng lớp. 
fptn
tn
fntp
tp
BACaccuracybalanced
*5.0*5.0
)( 
Trong đó tp (true positive) là số các mẫu mang 
nhãn “dƣơng” đƣợc phân đúng vào lớp “dƣơng”, tn 
(true nagative) là số các mẫu mang nhãn “âm” đƣợc 
phân đúng vào lớp “âm”, fp (false positives) là số các 
mẫu mang nhãn “âm” đƣợc phân sai vào lớp “dƣơng”, 
và fn (false negative) là số các mẫu mang nhãn 
“dƣơng” đƣợc phân sai vào lớp “âm”. 
Đây cũng là độ đo đƣợc sử dụng để đánh giá các 
kết quả trong cuộc thi PAKDD’15 Data Mining 
Competition. Trong nghiên cứu này, chúng tôi sử dụng 
độ đo này cũng với độ đo Macro F1 để tiện so sánh 
với các nghiên cứu trƣớc đây. 
B. Kết quả và đánh giá 
Nhằm đánh giá hiệu quả của các đặc trƣng cơ bản 
và nâng cao, chúng tôi thực hiện các thí nghiệm trên 
các tập đặc trƣng khác nhau, bao gồm tập đặc trƣng cơ 
bản và tập đặc trƣng cơ bản kết hợp nâng cao. Theo 
cách phân loại tập đặc trƣng, các đặc trƣng nâng cao 
chỉ mang tính bổ sung, nếu sử dụng riêng rẽ sẽ không 
hiệu quả. Do đó, chúng tôi không tiến hành thí nghiệm 
trên tập đặc trƣng nâng cao riêng rẽ trong nghiên cứu 
này. 
Mỗi tập đặc trƣng sẽ đƣợc thử nghiệm trên 3 
thuật toán học máy và các kỹ thuật hỗ trợ nhƣ đã nói ở 
trên, trong đó Resampling sử thuật toán tái cân bằng 
lớp dựa trên kỹ thuật đặt lại trọng số Class Balancer 
(CB). Công cụ thực nghiệm sử dụng bộ công cụ học 
máy WEKA (Waikato Environment for Knowledge 
Analysis). Đây là một tập hợp các thuật toán học máy 
và các công cụ xử lý dữ liệu đƣợc phát triển bởi nhóm 
nghiên cứu tại Đại học Waikato, New Zealand. Công 
cụ này đƣợc viết bằng ngôn ngữ Java và đƣợc phân 
phối dƣới dạng mã nguồn mở. Kết quả thực nghiệm 
cuối cùng cho thấy khi thuật toán học máy kết hợp 
với kỹ thuật tái cân bằng lớp theo phƣơng pháp đặt lại 
trọng số cho các lớp ClassBalancer và kỹ thuật học 
nhạy cảm chi phí CostSensitiveClassifier cho kết quả 
BAC tốt nhất. Bảng 4 cho thấy kết quả cụ thể của các 
thực nghiệm khi chƣa áp dụng các thuật toán lựa chọn 
đặc trƣng và tối ƣu tham số học máy. 
Bảng 4. Kết quả thực nghiệm khi sử dụng CSL kết 
hợp CB 
 Đặc trưng cơ bản Đặc trưng cơ bản + 
nâng cao 
BAC Macro F1 BAC Macro F1 
RF 77.3 75.5 81.0 78.5 
SVM 76.6 74.4 79.5 76.7 
BN 76.0 74.4 78.5 76.0 
Có thể thấy, các đặc trƣng nâng cao khi đƣợc sử 
dụng kết hợp với các đặc trƣng cơ bản đã cải tiến kết 
quả đáng kể khi so sánh với việc chỉ sử dụng đặc trƣng 
cơ bản. Mặc dù vậy, trong tập dữ liệu đƣợc cung cấp, 
có khá nhiều lƣợt xem chỉ có một sản phẩm đƣợc xem 
(khoảng 30%) và các đặc trƣng nâng cao không có 
hiệu quả với các trƣờng hợp này (do không có nhiều 
sản phẩn đƣợc xem trong cùng lƣợt để khai thác mối 
quan hệ giữa chúng). Trên thực tế, số lƣợng ngƣời 
dùng xem nhiều sản phẩm trong 1 lƣợt xem sẽ nhiều 
hơn và do đó việc sử dụng các đặc trƣng nâng cao sẽ 
đem lại hiệu quả cao hơn khi áp dụng trong các trƣờng 
hợp này. 
So sánh kết quả của các thuật toán học máy, 
thuật toán RF có kết quả vƣợt trội so với các thuật 
 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 21
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT 
toán SVM và BN. Thuật toán RF thực hiện học kết 
hợp thông qua việc lựa chọn nhiều tập con đặc trƣng 
và dữ liệu để xây dựng nên 1 tập các cây quyết định, 
do đó phù hợp với bài toán có số lƣợng đặc trƣng lớn 
và thƣa nhƣ bài toán hiện tại. Một điểm thú vị khác là 
phƣơng pháp biểu diễn đặc trƣng đƣợc sử dụng trong 
nghiên cứu này cũng có cấu trúc dạng cây. Tuy nhiên, 
kết quả vẫn có thể tiếp tục đƣợc cải tiến thông qua 
việc lựa chọn đặc trƣng và tối ƣu tham số. 
C. Lựa chọn đặc trưng và tối ưu tham số 
Mặc dù thuật toán RF đã tiến hành lựa chọn tập 
đặc trƣng tốt trong quá trình học thông qua việc lựa 
chọn ngẫu nhiên các đặc trƣng tại các bƣớc xây dựng 
cây quyết định, tuy nhiên vẫn có thể cải tiến độ chính 
xác bằng việc thực hiện các thuật toán lựa chọn đặc 
trƣng dựa trên các độ đo thống kê. Trong nghiên cứu 
này, chúng tôi thử nghiệm 3 phƣơng pháp lựa chọn 
đặc trƣng là Information Gain, Chi-Square, và 
Correlation. Information Gain sử dụng cách đo độ 
quan trọng của mỗi đặc trƣng trong việc phân biệt các 
lớp phân loại và đã đƣợc ứng dụng trong nhiều nghiên 
cứu trƣớc đây và cho kết quả tốt. Chi-Square là phép 
thử có thể đánh giá sự độc lập của 2 biến trong thống 
kê, và đƣợc sử dụng để đo mức độ độc lập giữa 1 đặc 
trƣng và lớp phân loại. Trong khi đó, phƣơng pháp 
Correlation sử dụng độ đo tƣơng tự giữa các đặc trƣng 
với nhau và với lớp phân loại để đánh giá tập đặc 
trƣng tốt. Kết quả thử nghiệm cho thấy Information 
Gain là phƣơng pháp phù hợp nhất cho vấn đề hiện tại 
với số lƣợng tối ƣu đƣợc lựa chọn là 2.500 đặc trƣng. 
Hình 2 cho thấy kết quả phân loại tốt dần với các số 
lƣợng đặc trƣng thấp và đạt đỉnh tại mức 2.500 đặc 
trƣng. 
Hình 2. Kết quả phân loại với các số lượng đặc trưng 
được lựa chọn khác nhau 
Ngoài ra, các thực nghiệm ở phần trƣớc đƣợc 
thực hiện trên tập tham số mặc định của thuật toán. 
Các kết quả có thể đƣợc cải tiến thông qua việc tối ƣu 
các tham số. Thuật toán RF có 3 tham số có thể ảnh 
hƣởng tới độ chính xác phân loại. Đó là số lƣợng đặc 
trƣng tối đa đƣợc lựa chọn khi xây dựng các cây 
quyết định, số lƣợng cây đƣợc xây dựng (số vòng 
lặp), kích thƣớc lá tối thiểu của cây. Các tham số này 
đƣợc tối ƣu sử dụng thuật toán Grid Search để chọn ra 
các tham số cho kết quả tốt nhất với thời gian tính 
toán phù hợp. Bảng 6 cho biết kết quả phân loại sau 
khi thực hiện lựa chọn đặc trƣng và tối ƣu tham số 
cho thuật toán RF. 
Bảng 5. Kết quả phân loại sau khi lựa chọn đặc trưng 
và tối ưu tham số 
 BAC Macro 
F1 
Kết quả ban đầu 81.0 78.5 
Áp dụng lựa chọn đặc trƣng với 
Information Gain 
81.2 78.8 
Tối ƣu tham số cho thuật toán RF 
(1000 cây, với số đặc trƣng 13) 
81.7 79.3 
D. Đánh giá 
Kết quả cơ sở của các nghiên cứu về dự đoán giới 
tính tác giả văn bản là hơn 80% (độ đo chính xác 
thông thƣờng accracy và độ đo F1). Mặc dù so sánh 
các kết quả của các nghiên cứu trên các tập dữ liệu 
khác nhau không thực sự hợp lý, tuy nhiên, với cùng 
mục đích dự đoán giới tính ngƣời dùng, kết quả của 
nghiên cứu này có thể xem là có nhiều triển vọng. Với 
các nghiên cứu có độ tƣơng tự cao hơn nhƣ [6], [13] 
khi dự đoán giới tính ngƣời dùng thông qua hành vi 
duyệt website, kết quả Marco F1 của nghiên cứu này 
cũng tƣơng đƣơng, trong khi hành vi duyệt website tạo 
ra nhiều dữ liệu có ý nghĩa hơn. Ngoài ra, các trang 
web còn chứa các văn bản, do vậy có thể tạo ra nhiều 
loại đặc trƣng hơn. So sánh với các giải pháp khác của 
các nhóm tham gia cuộc thi PAKDD’15 Data Mining 
Competition, giải pháp trong nghiên cứu này trong 
top 10 trên 150 nhóm tham dự. Kết quả của nhóm cao 
nhất là 87.9% và các nhóm trong top 10 có kết quả từ 
81%. Tuy nhiên, ƣu điểm của giải pháp của nghiên 
cứu này là sử dụng một cấu trúc đặc trƣng đơn giản, 
nhƣng vẫn đạt đƣợc các kết quả đáng kể. Cấu trúc đặc 
trƣng này có tính tổng quát, không chứa các đặc trƣng 
mang tính đặc thù, do vậy có thể dễ dàng áp dụng 
sang các hệ thống khác. So sánh với nghiên cứu đƣợc 
thực hiện trên cùng tập dữ liệu và đƣợc công bố chính 
thức của Lu và các cộng sự [12], nghiên cứu này có 
kết quả tốt hơn, mặc dù không sử dụng bƣớc cập nhật 
nhãn. 
V. KẾT LUẬN 
Trong nghiên cứu này, chúng tôi trình bày một 
phƣơng pháp dự đoán giới tính ngƣời dùng dựa trên 
dữ liệu thu thập từ hệ thống TMĐT. Phƣơng pháp tiếp 
cận sử dụng các đặc trƣng cơ bản nhƣ thời gian, tần 
suất xem sản phẩm, cùng với các đặc trƣng nâng cao 
nhƣ các chuỗi sản phẩm/loại sản phẩm hoặc các cặp 
sản phẩm/loại sản phầm chuyển tiếp trong lƣợt xem. 
Phƣơng pháp này sử dụng một biểu diễn dạng cây của 
danh sách các sản phẩm/loại sản phẩm và sử dụng các 
Số lượng đặc trưng 
 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 22
Dương Trần Đức 
thuộc tính của cây nhƣ số nút, chuỗi các nút cùng tầng, 
cặp nút chuyển khác tầng v.v. làm đặc trƣng phân loại. 
Thiết kế tập đặc trƣng này cho kết quả tốt nhất trên 
thuật toán Random Forest cùng với các kỹ thuật hỗ trợ 
nhƣ Cost Sensitive Learning và Class Balancing. 
Ngoài ra, kết quả cũng đƣợc cải tiến thông qua một số 
kỹ thuật nhƣ lựa chọn đặc trƣng, tối ƣu tham số thuật 
toán. 
Hƣớng phát triển tiếp theo của nghiên cứu có thể 
liên quan đến việc khai thác các đặc trƣng rút trích từ 
cây biểu diễn danh sách sản phẩm/loại sản phẩm. 
Ngoài ra, cũng có thể thu thập thêm các dữ liệu bổ 
sung và mở rộng sang dự đoán các đặc điểm khác của 
ngƣời dùng nhƣ độ tuổi, nghề nghiệp v.v. 
TÀI LIỆU THAM KHẢO 
[1] S. Argamon, M. Koppel, J. Fine, and A. Shimoni, 
“Gender, genre, and writing style in formal written 
texts,” Text 23(3), August 2003. 
[2] S. Argamon, M. Koppel, J. Pennebaker, and J. Schler, 
“Automatically profiling the author of an anonymous 
text,” Communications of the ACM , v.52 n.2, 
February 2009. 
[3] J. C. A. Culotta, N. R. Kumar, and J. Cutler, 
“Predicting the demographics of twitter users from 
website traffic data, ” Proceedings of the 29th AAAI 
Conference on Artificial Intelligence, Jan 2015. 
[4] O. De Vel, A. Anderson, M. Corney, and G. M. 
Mohay, “Mining e-mail content for author 
identification forensics,” SIGMOD Record 30(4), pp. 
55-64, 2001. 
[5] Y. Dong, Y. Yang, J. Tang, Y. Yang, and N. V. 
Chawla, “Inferring user demographics and social 
strategies in mobile social networks.” In: KDD’14. 
ACM. p. 15–24, 2014. 
[6] J. Hu, H. J. Zeng, H. Li, C. Niu, and Z. Chen, 
“Demographic prediction based on user’s browsing 
behavior,” Proceedings of the 16th international 
conference on World Wide Web, pp. 151-160, 2007. 
[7] F. Iqbal, M. Debbabi, B. C. M. Fung, and L. A. Khan, 
“E-mail authorship verification for forensic 
investigation,” Proceedings of the 2010 ACM 
Symposium on Applied Computing, ser. SAC '10. New 
York, NY, USA: ACM, pp. 1591-1598, 2010. 
[8] S. Kabbur, E. H. Han, and G. Karypis, “Content-based 
methods for predicting web-site demographic 
attributes,” Proceedings of ICDM, pp. 863-868, 2010. 
[9] M. Koppel, S. Argamon, and A. R. Shimoni, 
“Automatically categorizing written texts by author 
gender,” Literary and Linguistic Computing, 17(4), pp 
: 401-412, 2002. 
[10] S. Kotsiantis, D. Kanellopoulos, and P. Pintelas, 
“Handling unbalanced datasets: A review,” GESTS 
International Transactions on Computer Science and 
Engineering 30 (1), pp. 25-36, 2006. 
[11] C. X. Ling, and V. S. Sheng, “Cost-sensitive learning 
and the class imbalance problem.” In: Sammut C (ed) 
Encyclopedia of machine learning. Springer, Berlin, 
2008. 
[12] S. Lu, Z. Meng, Z. Hui, Z. Chen, W. Wei, and W. Hao, 
"GenderPredictor: A Method to Predict Gender of 
Customers from E-commerce Website," In Web 
Intelligence and Intelligent Agent Technology (WI-
IAT), 2015 IEEE/WIC/ACM International Conference 
on, vol. 3, pp. 13-16. 2015. 
[13] T. M. Phuong, and D. V. Phuong, “Gender prediction 
using browsing history,” Proceedings of the Fifth 
International Conference KSE 2013, Volume 1. pp. 
271-283, 2013. 
[14] D. Nguyen, R. Gravel, D. Trieschnigg, and T. Meder, 
"How old do you think i am?; a study of language and 
age in twitter,” Proceedings of the Seventh 
International AAAI Conference on Weblogs and 
Social Media, 2013. 
[15] J. J. C. Ying, Y. J. Chang, C. M. Huang, and V. S. 
Tseng, “ Demographic prediction based on users 
mobile behaviors,” In Nokia Mobile Data Challenge, 
2012. 
Ảnh tác 
giả 
Dƣơng Trần Đức Tốt nghiệp Đại 
học Khoa học Tự nhiên, Đại học Quốc 
gia Hà Nội ngành Công nghệ thông tin 
năm 1999. Tốt nghiệp Thạc sỹ chuyên 
ngành Hệ thống thông tin tại Đại học 
Tổng hợp Leeds, Vương Quốc Anh 
năm 2004. Hiện đang công tác tại 
Khoa Công nghệ Thông tin, Học viện 
Công nghệ Bưu chính Viễn thông. 
 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 23

File đính kèm:

  • pdfphuong_phap_bieu_dien_cay_cho_du_doan_gioi_tinh_khach_hang_d.pdf