Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu

Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan

trọng cần được quản lý và khai thác hiệu quả. Chính vì vậy, yêu cầu

về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý

thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu. Mục tiêu ban

đầu của các kho dữ liệu là tạo điều kiện cho việc truyền dữ liệu từ các

hệ thống vận hành sang các hệ thống ra quyết định.

Khoa học dữ liệu là thuật ngữ vẫn còn khá mới mẻ ở nước ta trong

thời đại công nghiệp 4.0 nhưng nó đang dần trở thành xu hướng của

các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ

việc sử dụng những thông tin được phân tích do công nghệ này mang

lại. Khi cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia đều phải

dựa nhiều hơn vào khoa học công nghệ, vào thông tin và vào dữ liệu.

Thông tin có sẵn trên các mạng internet đang tăng theo cấp số nhân

nhưng không đảm bảo chất lượng nên dẫn đến tình trạng thông tin

tìm thấy không liên quan hoặc không có giá trị khoa học. Ngày càng có

nhiều bài báo trong các tài liệu khoa học và chuyên ngành được dành

cho dữ liệu nghiên cứu. Dữ liệu nghiên cứu dường như là một lĩnh vực

mà các chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên ) đang phải

vươn tới để có thể thực hiện sứ mệnh hỗ trợ các nhà nghiên cứu. Vì

vậy, việc thư viện nghiên cứu xây dựng kho dữ liệu từ việc tích hợp dữ

liệu đang là xu thế tất yếu trong thời đại khoa học dữ liệu.

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 1

Trang 1

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 2

Trang 2

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 3

Trang 3

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 4

Trang 4

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 5

Trang 5

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 6

Trang 6

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 7

Trang 7

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 8

Trang 8

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 9

Trang 9

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu trang 10

Trang 10

pdf 10 trang baonam 6940
Bạn đang xem tài liệu "Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu

Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN 
TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
Nguyễn Thị Minh Phượng1*
Tóm tắt: Khoa học dữ liệu là lĩnh vực không thể thiếu cho nhu 
cầu phát triển của xã hội trong thời đại cách mạng công nghiệp 
4.0, được sử dụng nhằm mục đích hỗ trợ việc đưa ra quyết định 
hoặc dự đoán. Kho dữ liệu cho phép tích hợp các siêu dữ liệu từ 
các nguồn mang lại tiềm năng khai thác thông tin cho người 
sử dụng. Triển vọng thư viện xây dựng kho dữ liệu trong đó tích 
hợp các dữ liệu nghiên cứu sẽ mang lại hiệu quả tích cực hỗ trợ 
nghiên cứu, học tập.
Từ khóa: Kho dữ liệu; Khoa học dữ liệu; Dữ liệu; Thư viện.
Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan 
trọng cần được quản lý và khai thác hiệu quả. Chính vì vậy, yêu cầu 
về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý 
thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu. Mục tiêu ban 
đầu của các kho dữ liệu là tạo điều kiện cho việc truyền dữ liệu từ các 
hệ thống vận hành sang các hệ thống ra quyết định. 
Khoa học dữ liệu là thuật ngữ vẫn còn khá mới mẻ ở nước ta trong 
thời đại công nghiệp 4.0 nhưng nó đang dần trở thành xu hướng của 
các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ 
việc sử dụng những thông tin được phân tích do công nghệ này mang 
lại. Khi cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia đều phải 
dựa nhiều hơn vào khoa học công nghệ, vào thông tin và vào dữ liệu. 
∗ Thạc sĩ, Thư viện Học viện Hành chính Quốc gia.
743
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 
Thông tin có sẵn trên các mạng internet đang tăng theo cấp số nhân 
nhưng không đảm bảo chất lượng nên dẫn đến tình trạng thông tin 
tìm thấy không liên quan hoặc không có giá trị khoa học. Ngày càng có 
nhiều bài báo trong các tài liệu khoa học và chuyên ngành được dành 
cho dữ liệu nghiên cứu. Dữ liệu nghiên cứu dường như là một lĩnh vực 
mà các chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên) đang phải 
vươn tới để có thể thực hiện sứ mệnh hỗ trợ các nhà nghiên cứu. Vì 
vậy, việc thư viện nghiên cứu xây dựng kho dữ liệu từ việc tích hợp dữ 
liệu đang là xu thế tất yếu trong thời đại khoa học dữ liệu.
1. KHÁI NIỆM KHO DỮ LIỆU, HỒ DỮ LIỆU
Kho dữ liệu (Data Warehouse) không phải là một khái niệm mới và 
đã được định nghĩa theo rất nhiều cách khác nhau. William H. Inmon, 
người được xem là kiến trúc sư đầu tiên xây dựng kho dữ liệu đã định 
nghĩa: “Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, được tích hợp, gắn với 
thời gian và ổn định, được thiết kế cho việc hỗ trợ quá trình ra quyết định của 
người quản lý”[2].
Devlin định nghĩa kho dữ liệu như sau: “Kho dữ liệu là một kho lưu 
trữ đầy đủ và thống nhất dữ liệu thu được từ nhiều nguồn khác nhau và có 
sẵn để người dùng theo cách của họ có thể hiểu và sử dụng trong bối cảnh kinh 
doanh” [1]. 
Thuật ngữ “Kho dữ liệu” được hiểu là cơ sở dữ liệu (CSDL) được 
sử dụng để thu thập, đặt hàng, ghi nhật ký và lưu trữ thông tin từ 
CSDL hoạt động và cung cấp hỗ trợ quyết định trong kinh doanh. 
Như vậy, kho dữ liệu được xem như là một CSDL lớn tập trung dữ liệu 
từ nhiều nguồn. Việc sử dụng kho dữ liệu sẽ tạo ra một sự đồng nhất 
về thông tin và từ kho dữ liệu này người dùng có thể nhận được các 
chỉ tiêu phân tích hay dùng các công cụ hỗ trợ để theo dõi các chỉ tiêu 
cần quan tâm. Vì thế, kho dữ liệu có thể được xem là một môi trường 
có cấu trúc các hệ thống thông tin, cung cấp cho người dùng những 
thông tin khó có thể truy nhập hoặc biểu diễn trong CSDL tác nghiệp 
truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch 
sử hoặc hiện tại.
744
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Thuật ngữ “kho dữ liệu” được sử dụng nhiều nhất từ cuối những 
năm 90. Tuy nhiên, gần đây, khái niệm hồ dữ liệu (Data Lakes) đang 
trở nên phổ biến đến độ một số người tin rằng nó sẽ thay thế kho. Hồ 
dữ liệu được hiểu là kho lưu trữ tập trung cho tất cả dữ liệu, bao gồm 
dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc. Trong thực tế, hai 
loại hệ thống này có sự khác biệt quan trọng và không được sử dụng 
theo cùng một cách.
Kho dữ liệu tập hợp một lượng lớn dữ liệu được tích lũy từ các 
nguồn dữ liệu khác nhau. Nó được sử dụng để đưa ra quyết định. Mặt 
khác, hồ dữ liệu là một kho lưu trữ được sử dụng để chứa một lượng 
dữ liệu thô khổng lồ ở định dạng ban đầu cho đến khi người dùng cần 
nó. Hồ dữ liệu và kho dữ liệu nổi bật trên một số điểm: dữ liệu, xử lý 
dữ liệu, lưu trữ, bảo mật và người dùng. Kho dữ liệu chỉ có thể chứa dữ 
liệu có cấu trúc. Hồ dữ liệu có khả năng lưu trữ dữ liệu có cấu trúc, bán 
cấu trúc hoặc không cấu trúc. 
Đối với việc xử lý dữ liệu có liên quan, dữ liệu được tải vào kho 
dữ liệu phải trải qua giai đoạn viết lược đồ bao gồm việc cung cấp cho 
chúng một biểu mẫu và cấu trúc (mô hình). Trong hồ dữ liệu, dữ liệu 
được lưu trữ ở dạng thô và người dùng định hình nó khi cần. Lưu 
trữ trong kho dữ liệu có thể tốn kém, đặc biệt nếu khối lư ... oanh nghiệp (Enterprise Data Warehouse): Kho 
dữ liệu loại này cung cấp một tập hợp dữ liệu trung tâm được tổ chức hỗ 
trợ cho việc ra quyết định của cả công ty (xí nghiệp).
- Kho dữ liệu tác nghiệp (Operational Data Store): Kho dữ liệu 
loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống 
với kho dữ liệu doanh nghiệp. Ở đây dữ liệu được làm mới ngay và 
745
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 
được sử dụng cho những hoạt động thường nhật. Kho dữ liệu tác 
nghiệp khác kho dữ liệu doanh nghiệp ở chỗ là nó bị giới hạn về tính 
lịch sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn.
- Kho dữ liệu chuyên đề (Data Mart): là một kho cỡ nhỏ và nó hỗ 
trợ cho những nghiệp vụ chuyên biệt hoặc cho những chức năng 
nghiệp vụ cụ thể.
Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, 
công cụ để phát triển dữ liệu của các hệ thống hỗ trợ quyết định. Dữ 
liệu phát sinh từ trong các hoạt động hàng ngày và được thu thập, 
xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường 
được gọi là dữ liệu tác nghiệp. Các hoạt động thu thập xử lý dữ liệu 
tác nghiệp được gọi là xử lý giao dịch trực tuyến (Online Transaction 
Processing). Trái lại, kho dữ liệu phục vụ cho việc phân tích các kết 
quả mang thông tin mức cao. Các hệ thống thông tin thu thập xử 
lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online 
Analytical Processing). Kho dữ liệu thường rất lớn tới hàng trăm GB 
hay thậm chí hàng Terabyte. Nó được xây dựng để tiện lợi cho việc truy 
cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết 
hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa 
được từ những hệ thống đã có sẵn từ trước.
Đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có những 
tính chất sau:
- Tính tích hợp: Đây là đặc tính quan trọng nhất của kho dữ liệu. 
Dữ liệu được tập hợp từ nhiều nguồn khác nhau, trộn ghép với nhau 
tạo thành một thể thống nhất.
- Dữ liệu gắn với thời gian và tính lịch sử: Mỗi bản ghi của kho dữ 
liệu chứa một yếu tố thời gian. Toàn bộ dữ liệu trong kho được tạo ra 
và gắn liền với một giá trị thời gian nhất định. 
- Dữ liệu có tính ổn định và không biến động: Được lấy từ nhiều 
nguồn dữ liệu của hệ thống tác nghiệp có sẵn, kho dữ liệu tách rời vật 
lý với môi trường tác nghiệp nên dữ liệu trong kho là dữ liệu chỉ đọc, 
không chỉnh sửa hoặc thêm mới bởi người sử dụng cuối.
746
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
- Dữ liệu tổng hợp và chi tiết: Dữ liệu chi tiết là thông tin mức thấp 
nhất được lưu trữ trong kho dữ liệu. Dữ liệu tổng hợp được tích hợp 
lại qua nhiều giai đoạn khác nhau.
3. NHỮNG LỢI ÍCH KHI THƯ VIỆN XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU
3.1. Đối với người quản trị kho dữ liệu
- Lưu trữ dung lượng lớn dữ liệu trong quá khứ: Dữ liệu được tổng 
hợp từ các nguồn khác nhau do đó kho dữ liệu cho phép lưu trữ khối 
lượng lớn dữ liệu lịch sử từ các hệ điều hành nên có thể dễ dàng lưu trữ 
trong kho các giai đoạn khác nhau của cùng một chủ đề.
- Tăng cường tính bảo mật dữ liệu: Kho dữ liệu cho phép tăng cường 
bảo mật bằng cách cung cấp các tính năng bảo mật nâng cao được tích 
hợp trong cấu hình của nó. 
- Tính ổn định của dữ liệu: Khi dữ liệu nằm trong kho dữ liệu, nó 
ổn định và không thay đổi. Dữ liệu không biến mất và không thay đổi 
theo thời gian. Do đó có thể thấy được sự tiến hóa theo thời gian của 
dữ liệu. Tuy nhiên, mức độ lưu trữ liên quan đến bản chất của dữ liệu 
và không phải tất cả dữ liệu có giá trị lưu giữ.
- Thiết kế kho linh hoạt: Kho được thiết kế mềm dẻo giúp dễ dàng 
tích hợp dữ liệu mới, tạo ra các báo cáo mới theo yêu cầu của người 
khai thác dữ liệu.
3.2. Đối với người khai thác, sử dụng kho dữ liệu
- Phân tích và khai thác dữ liệu nhanh gọn, đầy đủ, chính xác. Kho 
dữ liệu cho phép truy cập vào tất cả dữ liệu cần thiết trong vài phút 
mà không cần dùng đến một truy vấn phức tạp nào, đồng thời cũng 
không cần đến sự hỗ trợ của chuyên gia kỹ thuật 24/7 để giải quyết các 
vấn đề truy xuất thông tin.
- Tiêu chuẩn hóa và cung cấp nhất quán: Một lợi ích quan trọng khác 
của việc sử dụng kho dữ liệu là tiêu chuẩn hóa dữ liệu lớn. Người dùng 
có thể tận dụng việc lưu trữ dữ liệu hoặc một bảng dữ liệu theo cách 
sắp xếp của kho. Vì kho dữ liệu lưu trữ dữ liệu từ nhiều nguồn khác 
747
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 
nhau, mỗi nguồn sẽ tạo ra kết quả được đồng bộ hóa với các nguồn 
khác. Điều này đảm bảo chất lượng và tính nhất quán của dữ liệu. 
- Khai thác dữ liệu theo chủ đề với các khoảng thời gian khác nhau: 
Người dùng có thể phân tích dữ liệu theo một chủ đề hoặc lĩnh vực cụ 
thể với lịch sử dữ liệu theo thời gian. Vai trò của kho dữ liệu là đảm bảo 
sự ổn định của dữ liệu và đặc biệt là cung cấp một liên kết trích dẫn cho 
các tác giả nhờ một định danh vĩnh viễn. 
- Phù hợp với trình độ của người khai thác, sử dụng kho dữ liệu: Kho 
dữ liệu được thiết kế giúp thực hiện các truy vấn nhanh, cung cấp 
thông lượng dữ liệu cao và đủ tính linh hoạt cho người dùng cuối, 
đồng thời cung cấp cho người dùng cuối các báo cáo.
4. THƯ VIỆN XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU
Hiện nay, phương pháp xây dựng kho dữ liệu đã phát triển cả về 
lý thuyết cũng như thực tế. Lý thuyết xây dựng kho dữ liệu đã được 
hình thành rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã 
đưa ra các công cụ để xây dựng, lưu trữ, duy trì và phát triển kho dữ 
liệu. Một kho dữ liệu có khả năng quản lý dữ liệu, khai thác thông tin 
để đưa ra những quyết định nhanh chóng và phù hợp.
Với tài liệu truyền thống, tài liệu số khi đưa vào kho để phục vụ 
bạn đọc, tài liệu cần phải được xử lý nghiệp vụ để đáp ứng nhu cầu tra 
cứu thì với kho dữ liệu, dữ liệu cũng cần phải được xử lý. 
- Bổ sung kho dữ liệu: Đây là quá trình tích hợp dữ liệu trong kho. 
Việc tích hợp dữ liệu trong kho dữ liệu là quá trình xác định về chất 
lượng và số lượng thông tin có sẵn phục vụ cho nhu cầu tin của người 
khai thác, sử dụng. Dữ liệu đến từ các nguồn không đồng nhất. Mỗi 
nguồn sử dụng một định dạng khác nhau nên khâu bổ sung kho dữ 
liệu được thực hiện theo bước sau:
+ Hoàn tất dữ liệu: Tất cả dữ liệu nguồn phù hợp được trích xuất, 
tích hợp về kho. Dữ liệu nguồn được nhận trực tiếp dưới dạng tệp 
hoặc lấy trực tiếp bằng cách truy vấn CSDL của các ứng dụng nguồn. 
Dữ liệu được sắp xếp theo chủ đề là các lĩnh vực mà thư viện hướng 
đến. Dữ liệu phải được kiểm tra chất lượng trước khi tích hợp vào kho.
748
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
+ Gia tăng dữ liệu: Bước đầu tiên là liệt kê các nguồn dữ liệu khác 
nhau, chỉ các dữ liệu nguồn mới liên quan chủ đề trong kho dữ liệu của 
thư viện mới được tích hợp. Cần kiểm tra dữ liệu đã có trong kho hay 
chưa, bảo đảm không chèn bản ghi giống hệt bản ghi đã có để tránh 
bổ sung trùng lặp. Ngoài ra, các nhà khoa học, nhà nghiên cứu có thể 
gửi và chia sẻ dữ liệu nghiên cứu của họ lên kho dữ liệu của thư viện. 
- Chuẩn hóa các nguồn dữ liệu không đồng nhất: Việc chuẩn hóa 
nguồn dữ liệu bao gồm việc điều chỉnh sơ đồ của một nguồn dữ liệu 
cho mỗi ứng dụng trong một sơ đồ mục tiêu. Việc sử dụng sơ đồ trung 
gian giúp giữ dữ liệu ở dạng nguồn, xử lý và xác định định dạng đầu 
vào cho dữ liệu trước khi tích hợp vào kho. Đối với mỗi nguồn, người 
quản lý phải tạo thành một “thư viện” của các truy vấn để truy vấn và 
trích xuất dữ liệu liên quan bằng cách cấu thành định danh duy nhất 
của dữ liệu trong nguồn. Sau đó, dữ liệu được trích xuất vào khu vực 
chuẩn bị dữ liệu cho phép.
- Lập chỉ mục cho kho dữ liệu: Các chủ đề trong kho cần được lập 
chỉ mục bởi các công cụ tìm kiếm. Đó là một tham chiếu của dữ liệu với 
liên kết đến nền tảng lưu trữ của dữ liệu trong kho.
- Liên kết và tích hợp dữ liệu: Trong nhiều trường hợp, dữ liệu được 
ghi lại liên quan đến cùng một đối tượng trong nhiều hệ thống nguồn. 
Những tập tin này trước tiên phải được liên kết và hợp nhất trước khi 
được tải vào kho dữ liệu. Người quản lý kho phải nắm được từng tiêu 
chí nguồn để khớp dữ liệu nhất định. Khi tải dữ liệu vào kho, nếu dữ 
liệu thay đổi theo thời gian, cần phải đặt một hệ thống quản lý phiên 
bản dữ liệu. Ngoài ra, phải giữ một sự tương ứng giữa dữ liệu trong 
nguồn và dữ liệu trong kho trong việc giữ mã định danh trong mỗi 
nguồn và mã định danh trong kho dữ liệu.
- Chỉnh sửa và làm sạch dữ liệu: Làm sạch dữ liệu bằng cách chuyển 
đổi là một phần của chiến lược cải tiến chất lượng dữ liệu bao gồm việc 
lựa chọn và áp dụng các phép biến đổi trên bộ dữ liệu để giải quyết các 
vấn đề định dạng và không nhất quán khác nhau, hoặc trong cùng một 
nguồn dữ liệu hoặc giữa một số nguồn dữ liệu không đồng nhất. Để 
749
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 
làm sạch dữ liệu có thể được chia thành các vấn đề đơn nguồn và đa 
nguồn ở mức lược đồ. Nhờ đó các lỗi được phát hiện nhờ phương tiện 
kiểm tra tính nhất quán trên các nguồn dữ liệu.
- Trợ giúp lựa chọn dữ liệu: Cách tiếp cận truyền thống khi truy vấn 
dữ liệu kho là tham khảo nội dung của CSDL để kiểm tra xem các tài liệu 
tìm kiếm có trong kho hay không. Yêu cầu này có thể được thực hiện nếu 
khối lượng dữ liệu ít hoặc tự động nếu khối lượng dữ liệu lớn. Truy vấn 
CSDL thường được thực hiện bằng cách sử dụng SQL (Structured Query 
Language) - ngôn ngữ truy vấn có cấu trúc. Như vậy, mỗi siêu dữ liệu 
được nhập vào các trường tương ứng và có công cụ hình thành yêu cầu 
trên SCDL theo các tham số được xác định bởi người dùng.
- Giấy phép và cấp phép: Nếu kho cho phép chia sẻ dữ liệu nghiên 
cứu giữa các nhà khoa học, sẽ có tình trạng sử dụng lại dữ liệu vào một 
nghiên cứu khác. Để sử dụng một dữ liệu có bản quyền, cần thiết phải 
có sự ủy quyền từ chủ sở hữu, trừ trường hợp có ngoại lệ hợp pháp. 
Để mở một cách hợp pháp cho dữ liệu, người quản lý phải gán cho dữ 
liệu một giấy phép. Lớp dữ liệu có thể được bảo vệ bởi một trong các 
giấy phép CC (Creative Commons). Giấy phép tương thích bảo vệ dữ 
liệu và việc sử dụng lại dữ liệu từ việc nghiên cứu sẽ phụ thuộc vào khả 
năng sử dụng lại thông tin. Tuy nhiên, toàn bộ kho dữ liệu không để ở 
dạng truy cập mở, cần phải hạn chế truy cập bằng cách cấm sao chép, 
chuyển hoặc xuất dữ liệu sang bộ phận thứ ba; hoặc tái sử dụng dữ liệu 
trong một số trường hợp.
- Phí khai thác kho dữ liệu: Ngay cả đối với nền tảng truy cập mở, 
quyền truy cập vào dữ liệu không nhất thiết phải hoàn toàn miễn phí. 
Thư viện có thể xây dựng kho trên nền tảng của thư viện. Như vậy, 
người dùng phải đăng ký trước khi truy nhập.
- Phổ biến dữ liệu: Phổ biến dữ liệu một cách chọn lọc thỏa mãn 
nhu cầu của người dùng tin. Người làm thư viện quản lý kho dữ liệu 
phải có trình độ chuyên môn tốt, áp dụng tốt kỹ năng xử lý thông tin. 
Việc phổ biến dữ liệu dưới dạng cung cấp các dữ liệu có giá trị, mang 
hàm lượng khoa học cao sẽ mang lại lợi ích không nhỏ cho người dùng, 
750
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
nhất là trong bối cảnh nguồn thông tin ngày càng lớn, phát triển với 
tốc độ nhanh như hiện nay.
5. YÊU CẦU ĐỐI VỚI KHO DỮ LIỆU THƯ VIỆN
- Kho dữ liệu có phải có khả năng lưu trữ và quản lý một số 
lượng khổng lồ dữ liệu tổng hợp. Kho dữ liệu có thể lớn lên theo thời 
gian, có thêm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian 
dài mà không bị quá tải, vẫn đảm bảo tính ổn định hoạt động.
- Kho dữ liệu phải được định hướng theo chủ đề. Kho dữ liệu này 
sẽ được xây dựng và đưa vào khai thác để trả lời cho các câu hỏi như: đối 
tượng sử dụng là ai? nhu cầu sử dụng những thông tin dữ liệu nào? 
- Thông tin trong kho dữ liệu phải có thể truy cập và đáng tin 
cậy (có chất lượng cao). Để duy trì khả năng truy nguyên của thông 
tin, thông tin được lưu trữ trong kho dữ liệu không thể bị xóa. Dữ liệu 
lịch sử là cần thiết để theo dõi sự phát triển các giá trị khác nhau của 
các chỉ số theo thời gian phân tích. Do đó, khung thời gian tham chiếu 
phải được liên kết với dữ liệu để cho phép nhận dạng.
- Thiết kế kho dữ liệu phải khoa học, dễ tìm kiếm, dễ sử dụng. 
Kho dữ liệu được thiết kế đặc biệt để phân tích dữ liệu, bao gồm việc 
đọc một lượng lớn dữ liệu để hiểu mối quan hệ và xu hướng giữa dữ 
liệu đó. Kho phải có khả năng lắp ráp dữ liệu từ các nguồn khác nhau 
theo một định dạng nhất quán.
- An ninh, an toàn, bảo mật dữ liệu: Để có một kho dữ liệu an 
toàn thì trước hết cần phải có một hệ quản trị kho dữ liệu an toàn. Kho 
dữ liệu cần phải được bảo vệ với các tính năng bảo mật được thực hiện 
nhờ cơ chế bảo mật sau:
+ Khả năng bảo mật của hệ điều hành: Khi thiết kế kho, cần tận 
dụng hết khả năng an toàn sẵn có của hệ điều hành mạng và hệ quản 
trị CSDL, thực hiện các thao tác quản trị cần thiết để phát huy tối đa các 
khả năng sẵn có của hệ thống.
+ Khả năng phân quyền của hệ quản trị kho dữ liệu: Hệ quản trị 
kho dữ liệu cho phép phân quyền sử dụng kho, các thao tác trong sử 
dụng kho (quyền đọc, quyền sao chép ). Các quyền này nên được 
phân nhỏ tới từng trường. Đồng thời, phải tăng cơ chế kiểm soát lượt 
truy nhập.
751
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 
+ Khả năng bảo mật: Hệ điều hành cần phải có khả năng mã hóa 
hoàn toàn. Để tăng tính bảo mật, cần xây dựng tường lửa cho dữ liệu. 
Thông tin trong kho dữ liệu cần phải được cập nhật, bổ sung và người 
quản lý kho phải mã hóa dữ liệu.
Bảo mật, an toàn an ninh kho dữ liệu là nhiệm vụ cần thiết và vô 
cùng quan trọng, phải được thực hiện đồng bộ, chặt chẽ ở tất cả các 
khâu từ việc nâng cao nhận thức và ý thức của người sử dụng đến 
công tác lãnh đạo, chỉ đạo, quản lý và điều hành. Bên cạnh đó, cần đẩy 
mạnh hợp tác, chia sẻ kinh nghiệm giữa các cơ quan để kịp thời ngăn 
chặn các nguy cơ mất an toàn thông tin / dữ liệu.
- Kho dữ liệu thư viện phải đáp ứng nhu cầu rất đa dạng của 
người dùng.
THAY LỜI KẾT
Như với bất kỳ hệ thống công nghệ thông tin nào, kiến trúc kỹ thuật 
của kho dữ liệu sẽ được chọn và có kích thước được tính đến khối lượng, 
số lượng người dùng và hoạt động tiềm năng. Việc sử dụng kho dữ liệu 
cho phép tích hợp siêu dữ liệu từ các nguồn mang đến một tiềm năng 
khai thác thông tin cho người sử dụng bởi nó chứa tất cả các thông tin 
cơ bản giúp người dùng khi tìm kiếm tài liệu có tham chiếu thời gian. Do 
đó, người dùng sẽ không cần phải tham khảo một số trang Web khác 
nhau để có được thông tin mà họ cần để đưa ra quyết định.
Mỗi thư viện khi xây dựng được kho dữ liệu cho mình với một 
công cụ truy vấncho phép khai thác triệt để tất cả các nội dung của kho 
sẽ mang lại hiệu quả to lớn, góp phần hỗ trợ tích cực trong việc hỗ trợ 
học tập, nghiên cứu của người sử dụng.
TÀI LIỆU THAM KHẢO
1. Devlin, Barry (1997), “Data warehouse: from architecture to 
implementation”, Addison – Wesley, p.42.
2. Inmon, William H. (2002), “Building a Data Warehouse”, John Wiley & 
Sons, p. 81. 

File đính kèm:

  • pdfxay_dung_kho_du_lieu_thu_vien_trong_ky_nguyen_khoa_hoc_du_li.pdf