Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu
Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan
trọng cần được quản lý và khai thác hiệu quả. Chính vì vậy, yêu cầu
về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý
thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu. Mục tiêu ban
đầu của các kho dữ liệu là tạo điều kiện cho việc truyền dữ liệu từ các
hệ thống vận hành sang các hệ thống ra quyết định.
Khoa học dữ liệu là thuật ngữ vẫn còn khá mới mẻ ở nước ta trong
thời đại công nghiệp 4.0 nhưng nó đang dần trở thành xu hướng của
các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ
việc sử dụng những thông tin được phân tích do công nghệ này mang
lại. Khi cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia đều phải
dựa nhiều hơn vào khoa học công nghệ, vào thông tin và vào dữ liệu.
Thông tin có sẵn trên các mạng internet đang tăng theo cấp số nhân
nhưng không đảm bảo chất lượng nên dẫn đến tình trạng thông tin
tìm thấy không liên quan hoặc không có giá trị khoa học. Ngày càng có
nhiều bài báo trong các tài liệu khoa học và chuyên ngành được dành
cho dữ liệu nghiên cứu. Dữ liệu nghiên cứu dường như là một lĩnh vực
mà các chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên ) đang phải
vươn tới để có thể thực hiện sứ mệnh hỗ trợ các nhà nghiên cứu. Vì
vậy, việc thư viện nghiên cứu xây dựng kho dữ liệu từ việc tích hợp dữ
liệu đang là xu thế tất yếu trong thời đại khoa học dữ liệu.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tóm tắt nội dung tài liệu: Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU Nguyễn Thị Minh Phượng1* Tóm tắt: Khoa học dữ liệu là lĩnh vực không thể thiếu cho nhu cầu phát triển của xã hội trong thời đại cách mạng công nghiệp 4.0, được sử dụng nhằm mục đích hỗ trợ việc đưa ra quyết định hoặc dự đoán. Kho dữ liệu cho phép tích hợp các siêu dữ liệu từ các nguồn mang lại tiềm năng khai thác thông tin cho người sử dụng. Triển vọng thư viện xây dựng kho dữ liệu trong đó tích hợp các dữ liệu nghiên cứu sẽ mang lại hiệu quả tích cực hỗ trợ nghiên cứu, học tập. Từ khóa: Kho dữ liệu; Khoa học dữ liệu; Dữ liệu; Thư viện. Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan trọng cần được quản lý và khai thác hiệu quả. Chính vì vậy, yêu cầu về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu. Mục tiêu ban đầu của các kho dữ liệu là tạo điều kiện cho việc truyền dữ liệu từ các hệ thống vận hành sang các hệ thống ra quyết định. Khoa học dữ liệu là thuật ngữ vẫn còn khá mới mẻ ở nước ta trong thời đại công nghiệp 4.0 nhưng nó đang dần trở thành xu hướng của các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng những thông tin được phân tích do công nghệ này mang lại. Khi cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia đều phải dựa nhiều hơn vào khoa học công nghệ, vào thông tin và vào dữ liệu. ∗ Thạc sĩ, Thư viện Học viện Hành chính Quốc gia. 743 XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU Thông tin có sẵn trên các mạng internet đang tăng theo cấp số nhân nhưng không đảm bảo chất lượng nên dẫn đến tình trạng thông tin tìm thấy không liên quan hoặc không có giá trị khoa học. Ngày càng có nhiều bài báo trong các tài liệu khoa học và chuyên ngành được dành cho dữ liệu nghiên cứu. Dữ liệu nghiên cứu dường như là một lĩnh vực mà các chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên) đang phải vươn tới để có thể thực hiện sứ mệnh hỗ trợ các nhà nghiên cứu. Vì vậy, việc thư viện nghiên cứu xây dựng kho dữ liệu từ việc tích hợp dữ liệu đang là xu thế tất yếu trong thời đại khoa học dữ liệu. 1. KHÁI NIỆM KHO DỮ LIỆU, HỒ DỮ LIỆU Kho dữ liệu (Data Warehouse) không phải là một khái niệm mới và đã được định nghĩa theo rất nhiều cách khác nhau. William H. Inmon, người được xem là kiến trúc sư đầu tiên xây dựng kho dữ liệu đã định nghĩa: “Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, được tích hợp, gắn với thời gian và ổn định, được thiết kế cho việc hỗ trợ quá trình ra quyết định của người quản lý”[2]. Devlin định nghĩa kho dữ liệu như sau: “Kho dữ liệu là một kho lưu trữ đầy đủ và thống nhất dữ liệu thu được từ nhiều nguồn khác nhau và có sẵn để người dùng theo cách của họ có thể hiểu và sử dụng trong bối cảnh kinh doanh” [1]. Thuật ngữ “Kho dữ liệu” được hiểu là cơ sở dữ liệu (CSDL) được sử dụng để thu thập, đặt hàng, ghi nhật ký và lưu trữ thông tin từ CSDL hoạt động và cung cấp hỗ trợ quyết định trong kinh doanh. Như vậy, kho dữ liệu được xem như là một CSDL lớn tập trung dữ liệu từ nhiều nguồn. Việc sử dụng kho dữ liệu sẽ tạo ra một sự đồng nhất về thông tin và từ kho dữ liệu này người dùng có thể nhận được các chỉ tiêu phân tích hay dùng các công cụ hỗ trợ để theo dõi các chỉ tiêu cần quan tâm. Vì thế, kho dữ liệu có thể được xem là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng những thông tin khó có thể truy nhập hoặc biểu diễn trong CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. 744 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Thuật ngữ “kho dữ liệu” được sử dụng nhiều nhất từ cuối những năm 90. Tuy nhiên, gần đây, khái niệm hồ dữ liệu (Data Lakes) đang trở nên phổ biến đến độ một số người tin rằng nó sẽ thay thế kho. Hồ dữ liệu được hiểu là kho lưu trữ tập trung cho tất cả dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc. Trong thực tế, hai loại hệ thống này có sự khác biệt quan trọng và không được sử dụng theo cùng một cách. Kho dữ liệu tập hợp một lượng lớn dữ liệu được tích lũy từ các nguồn dữ liệu khác nhau. Nó được sử dụng để đưa ra quyết định. Mặt khác, hồ dữ liệu là một kho lưu trữ được sử dụng để chứa một lượng dữ liệu thô khổng lồ ở định dạng ban đầu cho đến khi người dùng cần nó. Hồ dữ liệu và kho dữ liệu nổi bật trên một số điểm: dữ liệu, xử lý dữ liệu, lưu trữ, bảo mật và người dùng. Kho dữ liệu chỉ có thể chứa dữ liệu có cấu trúc. Hồ dữ liệu có khả năng lưu trữ dữ liệu có cấu trúc, bán cấu trúc hoặc không cấu trúc. Đối với việc xử lý dữ liệu có liên quan, dữ liệu được tải vào kho dữ liệu phải trải qua giai đoạn viết lược đồ bao gồm việc cung cấp cho chúng một biểu mẫu và cấu trúc (mô hình). Trong hồ dữ liệu, dữ liệu được lưu trữ ở dạng thô và người dùng định hình nó khi cần. Lưu trữ trong kho dữ liệu có thể tốn kém, đặc biệt nếu khối lư ... oanh nghiệp (Enterprise Data Warehouse): Kho dữ liệu loại này cung cấp một tập hợp dữ liệu trung tâm được tổ chức hỗ trợ cho việc ra quyết định của cả công ty (xí nghiệp). - Kho dữ liệu tác nghiệp (Operational Data Store): Kho dữ liệu loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống với kho dữ liệu doanh nghiệp. Ở đây dữ liệu được làm mới ngay và 745 XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU được sử dụng cho những hoạt động thường nhật. Kho dữ liệu tác nghiệp khác kho dữ liệu doanh nghiệp ở chỗ là nó bị giới hạn về tính lịch sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn. - Kho dữ liệu chuyên đề (Data Mart): là một kho cỡ nhỏ và nó hỗ trợ cho những nghiệp vụ chuyên biệt hoặc cho những chức năng nghiệp vụ cụ thể. Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ để phát triển dữ liệu của các hệ thống hỗ trợ quyết định. Dữ liệu phát sinh từ trong các hoạt động hàng ngày và được thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp. Các hoạt động thu thập xử lý dữ liệu tác nghiệp được gọi là xử lý giao dịch trực tuyến (Online Transaction Processing). Trái lại, kho dữ liệu phục vụ cho việc phân tích các kết quả mang thông tin mức cao. Các hệ thống thông tin thu thập xử lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online Analytical Processing). Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte. Nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có những tính chất sau: - Tính tích hợp: Đây là đặc tính quan trọng nhất của kho dữ liệu. Dữ liệu được tập hợp từ nhiều nguồn khác nhau, trộn ghép với nhau tạo thành một thể thống nhất. - Dữ liệu gắn với thời gian và tính lịch sử: Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian. Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định. - Dữ liệu có tính ổn định và không biến động: Được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn, kho dữ liệu tách rời vật lý với môi trường tác nghiệp nên dữ liệu trong kho là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới bởi người sử dụng cuối. 746 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM - Dữ liệu tổng hợp và chi tiết: Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau. 3. NHỮNG LỢI ÍCH KHI THƯ VIỆN XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU 3.1. Đối với người quản trị kho dữ liệu - Lưu trữ dung lượng lớn dữ liệu trong quá khứ: Dữ liệu được tổng hợp từ các nguồn khác nhau do đó kho dữ liệu cho phép lưu trữ khối lượng lớn dữ liệu lịch sử từ các hệ điều hành nên có thể dễ dàng lưu trữ trong kho các giai đoạn khác nhau của cùng một chủ đề. - Tăng cường tính bảo mật dữ liệu: Kho dữ liệu cho phép tăng cường bảo mật bằng cách cung cấp các tính năng bảo mật nâng cao được tích hợp trong cấu hình của nó. - Tính ổn định của dữ liệu: Khi dữ liệu nằm trong kho dữ liệu, nó ổn định và không thay đổi. Dữ liệu không biến mất và không thay đổi theo thời gian. Do đó có thể thấy được sự tiến hóa theo thời gian của dữ liệu. Tuy nhiên, mức độ lưu trữ liên quan đến bản chất của dữ liệu và không phải tất cả dữ liệu có giá trị lưu giữ. - Thiết kế kho linh hoạt: Kho được thiết kế mềm dẻo giúp dễ dàng tích hợp dữ liệu mới, tạo ra các báo cáo mới theo yêu cầu của người khai thác dữ liệu. 3.2. Đối với người khai thác, sử dụng kho dữ liệu - Phân tích và khai thác dữ liệu nhanh gọn, đầy đủ, chính xác. Kho dữ liệu cho phép truy cập vào tất cả dữ liệu cần thiết trong vài phút mà không cần dùng đến một truy vấn phức tạp nào, đồng thời cũng không cần đến sự hỗ trợ của chuyên gia kỹ thuật 24/7 để giải quyết các vấn đề truy xuất thông tin. - Tiêu chuẩn hóa và cung cấp nhất quán: Một lợi ích quan trọng khác của việc sử dụng kho dữ liệu là tiêu chuẩn hóa dữ liệu lớn. Người dùng có thể tận dụng việc lưu trữ dữ liệu hoặc một bảng dữ liệu theo cách sắp xếp của kho. Vì kho dữ liệu lưu trữ dữ liệu từ nhiều nguồn khác 747 XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU nhau, mỗi nguồn sẽ tạo ra kết quả được đồng bộ hóa với các nguồn khác. Điều này đảm bảo chất lượng và tính nhất quán của dữ liệu. - Khai thác dữ liệu theo chủ đề với các khoảng thời gian khác nhau: Người dùng có thể phân tích dữ liệu theo một chủ đề hoặc lĩnh vực cụ thể với lịch sử dữ liệu theo thời gian. Vai trò của kho dữ liệu là đảm bảo sự ổn định của dữ liệu và đặc biệt là cung cấp một liên kết trích dẫn cho các tác giả nhờ một định danh vĩnh viễn. - Phù hợp với trình độ của người khai thác, sử dụng kho dữ liệu: Kho dữ liệu được thiết kế giúp thực hiện các truy vấn nhanh, cung cấp thông lượng dữ liệu cao và đủ tính linh hoạt cho người dùng cuối, đồng thời cung cấp cho người dùng cuối các báo cáo. 4. THƯ VIỆN XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU Hiện nay, phương pháp xây dựng kho dữ liệu đã phát triển cả về lý thuyết cũng như thực tế. Lý thuyết xây dựng kho dữ liệu đã được hình thành rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã đưa ra các công cụ để xây dựng, lưu trữ, duy trì và phát triển kho dữ liệu. Một kho dữ liệu có khả năng quản lý dữ liệu, khai thác thông tin để đưa ra những quyết định nhanh chóng và phù hợp. Với tài liệu truyền thống, tài liệu số khi đưa vào kho để phục vụ bạn đọc, tài liệu cần phải được xử lý nghiệp vụ để đáp ứng nhu cầu tra cứu thì với kho dữ liệu, dữ liệu cũng cần phải được xử lý. - Bổ sung kho dữ liệu: Đây là quá trình tích hợp dữ liệu trong kho. Việc tích hợp dữ liệu trong kho dữ liệu là quá trình xác định về chất lượng và số lượng thông tin có sẵn phục vụ cho nhu cầu tin của người khai thác, sử dụng. Dữ liệu đến từ các nguồn không đồng nhất. Mỗi nguồn sử dụng một định dạng khác nhau nên khâu bổ sung kho dữ liệu được thực hiện theo bước sau: + Hoàn tất dữ liệu: Tất cả dữ liệu nguồn phù hợp được trích xuất, tích hợp về kho. Dữ liệu nguồn được nhận trực tiếp dưới dạng tệp hoặc lấy trực tiếp bằng cách truy vấn CSDL của các ứng dụng nguồn. Dữ liệu được sắp xếp theo chủ đề là các lĩnh vực mà thư viện hướng đến. Dữ liệu phải được kiểm tra chất lượng trước khi tích hợp vào kho. 748 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM + Gia tăng dữ liệu: Bước đầu tiên là liệt kê các nguồn dữ liệu khác nhau, chỉ các dữ liệu nguồn mới liên quan chủ đề trong kho dữ liệu của thư viện mới được tích hợp. Cần kiểm tra dữ liệu đã có trong kho hay chưa, bảo đảm không chèn bản ghi giống hệt bản ghi đã có để tránh bổ sung trùng lặp. Ngoài ra, các nhà khoa học, nhà nghiên cứu có thể gửi và chia sẻ dữ liệu nghiên cứu của họ lên kho dữ liệu của thư viện. - Chuẩn hóa các nguồn dữ liệu không đồng nhất: Việc chuẩn hóa nguồn dữ liệu bao gồm việc điều chỉnh sơ đồ của một nguồn dữ liệu cho mỗi ứng dụng trong một sơ đồ mục tiêu. Việc sử dụng sơ đồ trung gian giúp giữ dữ liệu ở dạng nguồn, xử lý và xác định định dạng đầu vào cho dữ liệu trước khi tích hợp vào kho. Đối với mỗi nguồn, người quản lý phải tạo thành một “thư viện” của các truy vấn để truy vấn và trích xuất dữ liệu liên quan bằng cách cấu thành định danh duy nhất của dữ liệu trong nguồn. Sau đó, dữ liệu được trích xuất vào khu vực chuẩn bị dữ liệu cho phép. - Lập chỉ mục cho kho dữ liệu: Các chủ đề trong kho cần được lập chỉ mục bởi các công cụ tìm kiếm. Đó là một tham chiếu của dữ liệu với liên kết đến nền tảng lưu trữ của dữ liệu trong kho. - Liên kết và tích hợp dữ liệu: Trong nhiều trường hợp, dữ liệu được ghi lại liên quan đến cùng một đối tượng trong nhiều hệ thống nguồn. Những tập tin này trước tiên phải được liên kết và hợp nhất trước khi được tải vào kho dữ liệu. Người quản lý kho phải nắm được từng tiêu chí nguồn để khớp dữ liệu nhất định. Khi tải dữ liệu vào kho, nếu dữ liệu thay đổi theo thời gian, cần phải đặt một hệ thống quản lý phiên bản dữ liệu. Ngoài ra, phải giữ một sự tương ứng giữa dữ liệu trong nguồn và dữ liệu trong kho trong việc giữ mã định danh trong mỗi nguồn và mã định danh trong kho dữ liệu. - Chỉnh sửa và làm sạch dữ liệu: Làm sạch dữ liệu bằng cách chuyển đổi là một phần của chiến lược cải tiến chất lượng dữ liệu bao gồm việc lựa chọn và áp dụng các phép biến đổi trên bộ dữ liệu để giải quyết các vấn đề định dạng và không nhất quán khác nhau, hoặc trong cùng một nguồn dữ liệu hoặc giữa một số nguồn dữ liệu không đồng nhất. Để 749 XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU làm sạch dữ liệu có thể được chia thành các vấn đề đơn nguồn và đa nguồn ở mức lược đồ. Nhờ đó các lỗi được phát hiện nhờ phương tiện kiểm tra tính nhất quán trên các nguồn dữ liệu. - Trợ giúp lựa chọn dữ liệu: Cách tiếp cận truyền thống khi truy vấn dữ liệu kho là tham khảo nội dung của CSDL để kiểm tra xem các tài liệu tìm kiếm có trong kho hay không. Yêu cầu này có thể được thực hiện nếu khối lượng dữ liệu ít hoặc tự động nếu khối lượng dữ liệu lớn. Truy vấn CSDL thường được thực hiện bằng cách sử dụng SQL (Structured Query Language) - ngôn ngữ truy vấn có cấu trúc. Như vậy, mỗi siêu dữ liệu được nhập vào các trường tương ứng và có công cụ hình thành yêu cầu trên SCDL theo các tham số được xác định bởi người dùng. - Giấy phép và cấp phép: Nếu kho cho phép chia sẻ dữ liệu nghiên cứu giữa các nhà khoa học, sẽ có tình trạng sử dụng lại dữ liệu vào một nghiên cứu khác. Để sử dụng một dữ liệu có bản quyền, cần thiết phải có sự ủy quyền từ chủ sở hữu, trừ trường hợp có ngoại lệ hợp pháp. Để mở một cách hợp pháp cho dữ liệu, người quản lý phải gán cho dữ liệu một giấy phép. Lớp dữ liệu có thể được bảo vệ bởi một trong các giấy phép CC (Creative Commons). Giấy phép tương thích bảo vệ dữ liệu và việc sử dụng lại dữ liệu từ việc nghiên cứu sẽ phụ thuộc vào khả năng sử dụng lại thông tin. Tuy nhiên, toàn bộ kho dữ liệu không để ở dạng truy cập mở, cần phải hạn chế truy cập bằng cách cấm sao chép, chuyển hoặc xuất dữ liệu sang bộ phận thứ ba; hoặc tái sử dụng dữ liệu trong một số trường hợp. - Phí khai thác kho dữ liệu: Ngay cả đối với nền tảng truy cập mở, quyền truy cập vào dữ liệu không nhất thiết phải hoàn toàn miễn phí. Thư viện có thể xây dựng kho trên nền tảng của thư viện. Như vậy, người dùng phải đăng ký trước khi truy nhập. - Phổ biến dữ liệu: Phổ biến dữ liệu một cách chọn lọc thỏa mãn nhu cầu của người dùng tin. Người làm thư viện quản lý kho dữ liệu phải có trình độ chuyên môn tốt, áp dụng tốt kỹ năng xử lý thông tin. Việc phổ biến dữ liệu dưới dạng cung cấp các dữ liệu có giá trị, mang hàm lượng khoa học cao sẽ mang lại lợi ích không nhỏ cho người dùng, 750 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM nhất là trong bối cảnh nguồn thông tin ngày càng lớn, phát triển với tốc độ nhanh như hiện nay. 5. YÊU CẦU ĐỐI VỚI KHO DỮ LIỆU THƯ VIỆN - Kho dữ liệu có phải có khả năng lưu trữ và quản lý một số lượng khổng lồ dữ liệu tổng hợp. Kho dữ liệu có thể lớn lên theo thời gian, có thêm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian dài mà không bị quá tải, vẫn đảm bảo tính ổn định hoạt động. - Kho dữ liệu phải được định hướng theo chủ đề. Kho dữ liệu này sẽ được xây dựng và đưa vào khai thác để trả lời cho các câu hỏi như: đối tượng sử dụng là ai? nhu cầu sử dụng những thông tin dữ liệu nào? - Thông tin trong kho dữ liệu phải có thể truy cập và đáng tin cậy (có chất lượng cao). Để duy trì khả năng truy nguyên của thông tin, thông tin được lưu trữ trong kho dữ liệu không thể bị xóa. Dữ liệu lịch sử là cần thiết để theo dõi sự phát triển các giá trị khác nhau của các chỉ số theo thời gian phân tích. Do đó, khung thời gian tham chiếu phải được liên kết với dữ liệu để cho phép nhận dạng. - Thiết kế kho dữ liệu phải khoa học, dễ tìm kiếm, dễ sử dụng. Kho dữ liệu được thiết kế đặc biệt để phân tích dữ liệu, bao gồm việc đọc một lượng lớn dữ liệu để hiểu mối quan hệ và xu hướng giữa dữ liệu đó. Kho phải có khả năng lắp ráp dữ liệu từ các nguồn khác nhau theo một định dạng nhất quán. - An ninh, an toàn, bảo mật dữ liệu: Để có một kho dữ liệu an toàn thì trước hết cần phải có một hệ quản trị kho dữ liệu an toàn. Kho dữ liệu cần phải được bảo vệ với các tính năng bảo mật được thực hiện nhờ cơ chế bảo mật sau: + Khả năng bảo mật của hệ điều hành: Khi thiết kế kho, cần tận dụng hết khả năng an toàn sẵn có của hệ điều hành mạng và hệ quản trị CSDL, thực hiện các thao tác quản trị cần thiết để phát huy tối đa các khả năng sẵn có của hệ thống. + Khả năng phân quyền của hệ quản trị kho dữ liệu: Hệ quản trị kho dữ liệu cho phép phân quyền sử dụng kho, các thao tác trong sử dụng kho (quyền đọc, quyền sao chép ). Các quyền này nên được phân nhỏ tới từng trường. Đồng thời, phải tăng cơ chế kiểm soát lượt truy nhập. 751 XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU + Khả năng bảo mật: Hệ điều hành cần phải có khả năng mã hóa hoàn toàn. Để tăng tính bảo mật, cần xây dựng tường lửa cho dữ liệu. Thông tin trong kho dữ liệu cần phải được cập nhật, bổ sung và người quản lý kho phải mã hóa dữ liệu. Bảo mật, an toàn an ninh kho dữ liệu là nhiệm vụ cần thiết và vô cùng quan trọng, phải được thực hiện đồng bộ, chặt chẽ ở tất cả các khâu từ việc nâng cao nhận thức và ý thức của người sử dụng đến công tác lãnh đạo, chỉ đạo, quản lý và điều hành. Bên cạnh đó, cần đẩy mạnh hợp tác, chia sẻ kinh nghiệm giữa các cơ quan để kịp thời ngăn chặn các nguy cơ mất an toàn thông tin / dữ liệu. - Kho dữ liệu thư viện phải đáp ứng nhu cầu rất đa dạng của người dùng. THAY LỜI KẾT Như với bất kỳ hệ thống công nghệ thông tin nào, kiến trúc kỹ thuật của kho dữ liệu sẽ được chọn và có kích thước được tính đến khối lượng, số lượng người dùng và hoạt động tiềm năng. Việc sử dụng kho dữ liệu cho phép tích hợp siêu dữ liệu từ các nguồn mang đến một tiềm năng khai thác thông tin cho người sử dụng bởi nó chứa tất cả các thông tin cơ bản giúp người dùng khi tìm kiếm tài liệu có tham chiếu thời gian. Do đó, người dùng sẽ không cần phải tham khảo một số trang Web khác nhau để có được thông tin mà họ cần để đưa ra quyết định. Mỗi thư viện khi xây dựng được kho dữ liệu cho mình với một công cụ truy vấncho phép khai thác triệt để tất cả các nội dung của kho sẽ mang lại hiệu quả to lớn, góp phần hỗ trợ tích cực trong việc hỗ trợ học tập, nghiên cứu của người sử dụng. TÀI LIỆU THAM KHẢO 1. Devlin, Barry (1997), “Data warehouse: from architecture to implementation”, Addison – Wesley, p.42. 2. Inmon, William H. (2002), “Building a Data Warehouse”, John Wiley & Sons, p. 81.
File đính kèm:
- xay_dung_kho_du_lieu_thu_vien_trong_ky_nguyen_khoa_hoc_du_li.pdf