Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội

Cùng với sự phát triển và ứng

dụng rộng rãi của công nghệ thông tin

và truyền thông, thư viện kỹ thuật số

đang phát triển mạnh mẽ và là mục tiêu

của hầu hết các thư viện trên thế giới.

Đây là xu hướng tất yếu trong thời đại

ngày nay khi mà nhu cầu và mong

muốn của người dùng tin ngày càng cần

nhanh và chính xác ở mức độ cao hơn;

các vấn đề bảo quản, lưu trữ gặp nhiều

khó khăn đòi hỏi phải ứng dụng khoa

học công nghệ; việc tìm kiếm trong thư

viện truyền thống có nhiều bất cập, mất

nhiều thời gian cần đến sự hỗ trợ của

máy móc hiện đại; và áp lực từ dịch vụ

thông tin bên ngoài môi trường thư viện

đang gia tăng. Thư viện kỹ thuật số ra

đời như là giải pháp tối ưu giải quyết

các vấn đề khó khăn đó. Một mặt, nó

được xem như là một trung tâm thu

thập và sản sinh ra nhiều tài nguyên

thông tin khác nhau, mặt khác là nơi

tìm kiếm và truy xuất thông tin, cung

cấp những dịch vụ thông tin chuyên biệt

ở mức độ cao, không giới hạn thời gian

và không gian. Hơn nữa, với khả năng

lưu trữ khối lượng lớn tài nguyên thông

tin, chuyển giao tài nguyên đó bằng

nhiều phương tiện khác nhau, thư

viện kỹ thuật số cần được trang bị hệ

thống thiết bị, máy móc, phần mềm

hiện đại, chuyên nghiệp, hạ tầng mạng

tốt; tích hợp và tổ chức có hệ thống các

bộ sưu tập số làm nguồn tài nguyên; đào

tạo cán bộ thư viện và người dùng tin để

thích ứng với môi trường làm việc, phục

vụ kỹ thuật số.

 

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 1

Trang 1

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 2

Trang 2

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 3

Trang 3

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 4

Trang 4

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 5

Trang 5

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 6

Trang 6

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội trang 7

Trang 7

pdf 7 trang baonam 10580
Bạn đang xem tài liệu "Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội

Xây dựng quy trình số hóa tư liệu tại thư viện khoa học xã hội
 XÂY DựNG QUY TRìNH Số HOá TƯ LIệU 
 TạI THƯ VIệN KHOA HọC Xã HộI 
Phùng Thị Bình(*) 
1. Cùng với sự phát triển và ứng 
dụng rộng rãi của công nghệ thông tin 
và truyền thông, th− viện kỹ thuật số 
đang phát triển mạnh mẽ và là mục tiêu 
của hầu hết các th− viện trên thế giới. 
Đây là xu h−ớng tất yếu trong thời đại 
ngày nay khi mà nhu cầu và mong 
muốn của ng−ời dùng tin ngày càng cần 
nhanh và chính xác ở mức độ cao hơn; 
các vấn đề bảo quản, l−u trữ gặp nhiều 
khó khăn đòi hỏi phải ứng dụng khoa 
học công nghệ; việc tìm kiếm trong th− 
viện truyền thống có nhiều bất cập, mất 
nhiều thời gian cần đến sự hỗ trợ của 
máy móc hiện đại; và áp lực từ dịch vụ 
thông tin bên ngoài môi tr−ờng th− viện 
đang gia tăng. Th− viện kỹ thuật số ra 
đời nh− là giải pháp tối −u giải quyết 
các vấn đề khó khăn đó. Một mặt, nó 
đ−ợc xem nh− là một trung tâm thu 
thập và sản sinh ra nhiều tài nguyên 
thông tin khác nhau, mặt khác là nơi 
tìm kiếm và truy xuất thông tin, cung 
cấp những dịch vụ thông tin chuyên biệt 
ở mức độ cao, không giới hạn thời gian 
và không gian. Hơn nữa, với khả năng 
l−u trữ khối l−ợng lớn tài nguyên thông 
tin, chuyển giao tài nguyên đó bằng 
nhiều ph−ơng tiện khác nhau, th− 
viện kỹ thuật số cần đ−ợc trang bị hệ 
thống thiết bị, máy móc, phần mềm 
hiện đại, chuyên nghiệp, hạ tầng mạng 
tốt; tích hợp và tổ chức có hệ thống các 
bộ s−u tập số làm nguồn tài nguyên; đào 
tạo cán bộ th− viện và ng−ời dùng tin để 
thích ứng với môi tr−ờng làm việc, phục 
vụ kỹ thuật số.(*) 
Ngày nay, nhiều quốc gia trên thế 
giới đã và đang từng b−ớc thay đổi 
ph−ơng thức phục vụ bạn đọc trong th− 
viện, đó là phát triển th− viện kỹ thuật 
số. Th− viện kỹ thuật số đ−ợc phát triển 
theo mạng l−ới tạo thành hệ thống có 
phân cấp mức độ quản lý nhằm mục 
đích chia sẻ nguồn lực thông tin, liên 
thông th− viện. Các bộ s−u tập số đ−ợc 
tích hợp trên mạng mở ra khả năng tiếp 
cận dễ dàng hơn với ng−ời dùng. Điển 
hình nh− hệ thống thông tin th− viện kỹ 
thuật số của các tr−ờng đại học ở Trung 
Quốc (China Academic Digita Libraries 
& Information System - CADLIS). 
CADLIS đ−ợc Chính phủ Trung Quốc 
đầu t− và hoạt động d−ới sự quản lý của 
Bộ Giáo dục Trung Quốc. CADLIS mang 
(*) ThS., Viện Thông tin Khoa học xã hội. 
40 Thông tin Khoa học xã hội, số 7.2013 
sứ mệnh đẩy mạnh, duy trì và cải tiến 
chia sẻ nguồn lực th− viện giữa các th− 
viện của các tr−ờng đại học, các cơ quan 
thông tin và các cơ sở đào tạo của Trung 
Quốc. CADLIS đ−ợc nỗ lực xây dựng với 
nhiều hạ tầng mở và phân tán. Nguồn 
tài nguyên bao gồm cơ sở dữ liệu 
(CSDL) tạp chí điện tử, đề c−ơng luận 
án, sách điện tử, bài trích và CSDL th− 
mục Quốc gia. Các dịch vụ của CADLIS 
tại các th− viện thành viên là mô hình 
th− viện kỹ thuật số trong lĩnh vực giáo 
dục dựa trên mua các CSDL liên kết, 
các th− mục liên hợp, cho m−ợn liên th− 
viện và chia sẻ tài liệu. Trong thời gian 
5 năm, bắt đầu từ năm 1996, CADLIS 
đã thành lập 3 cấp quản lý gồm 4 cổng 
quốc gia, 8 trung tâm thông tin khu vực, 
400 th− viện thành viên. Đồng thời, 
CADLIS đã thiết lập mạng l−ới nguồn 
lực thông tin kết hợp với nguồn lực tự 
xây dựng một cách tốt nhất để tạo cơ sở 
cho th− viện kỹ thuật số, phân bố tới 
hàng nghìn tr−ờng đại học. Với mục tiêu 
cung cấp các dịch vụ cho giáo dục bậc 
cao, nghiên cứu khoa học, đặc biệt phục 
vụ các ngành trọng điểm, CADLIS đã 
chú trọng đến xây dựng và ứng dụng kỹ 
thuật tiên tiến vào th− viện kỹ thuật số 
tại Trung Quốc. Đến cuối năm 2005, 
nguồn tài nguyên số của CADLIS bao 
gồm 30.000 tên tạp chí của Trung Quốc 
và ph−ơng Tây, 20 triệu biểu ghi bài tạp 
chí, 3 triệu dữ liệu th− mục, 6 triệu biểu 
ghi tài liệu trong mục lục liên hợp trực 
tuyến, 1 triệu bản luận văn toàn văn, 
30.000 đầu sách điện tử, và đã có trên 
600 th− viện thành viên [1]. 
ở Việt Nam, Th− viện Quốc gia Việt 
Nam là th− viện đi đầu trong phát triển 
th− viện kỹ thuật số, b−ớc đầu bạn đọc 
đã có thể sử dụng th− viện trên mạng. 
Cho đến nay, Th− viện Quốc gia đã tạo 
lập đ−ợc một hệ thống các bộ s−u tập số 
bao gồm: Sách đơn: 324.651 tên, Sách 
tập: 83.404 cuốn, Bài trích: 30.001 bài, 
Luận án: 19.615 bản, Sách bộ: 9.096 
cuốn, Tạp chí: 6.401 cuốn, Nghiên cứu: 
1.746 cuốn, Media: 1.538 đĩa, ảnh: 
1.417 ảnh, Bản đồ: 929 bản, Báo: 778 
số, [5]. Một số bộ s−u tập số có thể tra 
cứu trên mạng, đó là: Sách Đông D−ơng 
( 
Sách Hán Nôm ( 
Luận án Tiến sĩ 
( 
 Giải pháp xây dựng th− viện kỹ 
thuật số tại Th− viện Quốc gia tuy vẫn 
đang trong quá trình xây dựng và phát 
triển nh−ng đã phần nào chứng tỏ đ−ợc 
những tiện ích của nó đối với ng−ời 
dùng nh− có thể đọc tài liệu ở bất kỳ 
đâu và khi nào thông qua mạng 
Internet, không giới hạn về thời gian, 
tiết kiệm không gian, mở rộng đối t−ợng 
phục vụ bạn đọc, đa truy cập (cùng một 
tài liệu, cùng một thời điểm có thể phục 
vụ đ−ợc nhiều ng−ời), tiếp cận tài liệu 
theo cấu trúc, tìm kiếm thông tin nhanh 
và linh hoạ ...  án số hóa lớn 
đang đ−ợc triển khai, cùng với sự liên 
kết hợp tác với các nhà xuất bản. 
2. Nếu th− viện truyền thống phục 
vụ ng−ời dùng tin dựa vào vốn tài liệu 
truyền thống, thì th− viện kỹ thuật số 
đáp ứng nhu cầu tin bằng nguồn tài 
nguyên số thông qua giao diện Web. Các 
bộ s−u tập số đ−ợc tích hợp, quản trị 
thông qua hệ thống phần mềm th− viện 
hiện đại và đ−ợc xây dựng theo các 
cách sau: 
Xây dựng quy trình số hóa 41 
Thứ nhất, tổ chức số hóa nguồn tài 
liệu truyền thống bằng các thiết bị số hóa. 
Thứ hai, mua tài liệu điện tử từ các 
nhà cung cấp/xuất bản hay các cá nhân 
hoặc thông qua trao đổi. 
Thứ ba, truy cập khai thác từ việc liên 
kết đến các nguồn tài nguyên số có cùng 
chủ đề, nội dung trên Internet [3, 150]. 
Trong đó, cách thứ nhất đang đ−ợc 
các th− viện triển khai nhiều nhất, đồng 
thời cũng là cách xây dựng đ−ợc các bộ 
s−u tập đầy đủ nhất. Bởi lẽ, mỗi th− 
viện đều có các bộ s−u tập tài liệu thể 
hiện bản sắc riêng, đặc thù riêng. Nội 
dung các bộ s−u tập thể hiện nét đặc sắc 
mang giá trị lịch sử, văn hóa, nhân văn 
của quốc gia (các bộ s−u tập cổ, quý 
hiếm, độc bản), mang giá trị nghiên cứu 
khoa học cao cần đ−ợc chia sẻ rộng rãi. 
Mặt khác, phần lớn tình trạng vật lý 
của những bộ s−u tập này đang ngày 
một xuống cấp, thậm chí có nguy cơ 
không thể phục chế, do đó cần có biện 
pháp khắc phục. 
Trong quá trình xây dựng bộ s−u 
tập số, các th− viện đều tìm kiếm một 
giải pháp công nghệ phù hợp đối với 
hiện trạng tài liệu nhằm mục đích đạt 
chất l−ợng cao nhất. Hiện nay, các thiết 
bị số hóa tài liệu đ−ợc rất nhiều nhà sản 
xuất nghiên cứu và đ−a ra thị tr−ờng, 
lựa chọn giải pháp nào, thiết bị nào phụ 
thuộc vào tình trạng vật lý từng bộ s−u 
tập tài liệu gốc. Vì vậy, bộ phận số hóa 
tại các th− viện nên trang bị đa dạng 
các thiết bị số hóa, từ các thiết bị sử 
dụng thủ công nh− máy ảnh, máy scan 
theo các khổ cỡ khác nhau đến các thiết 
bị số hóa tự động nh− Scanrobot, Kitar, 
dòng máy Bookeye, Các thiết bị số 
hóa tự động có phần mềm xử lý đi kèm 
nên sản phẩm đầu ra là đồng đều về 
chất l−ợng. Đối với các thiết bị số hóa 
thủ công, sau khi chụp ảnh hoặc scan tài 
liệu, th− viện cần lựa chọn một phần 
mềm thích hợp để xử lý thành tài liệu số. 
Hiện nay, nhiều th− viện đã thành 
lập bộ phận số hóa tài liệu. Công việc số 
hóa đ−ợc tiến hành theo quy trình cụ 
thể. Đầu vào của quy trình bao giờ cũng 
là tài liệu gốc, đầu ra là tài liệu số và 
quy trình này áp dụng cho cả hệ thống 
số hóa hiện đại cũng nh− thủ công 
(Hình 1). 
Đối với các 
thiết bị số hóa 
hiện đại, tự động, 
quy trình gần 
nh− đ−ợc thực 
hiện khép kín từ 
khâu đầu vào đến 
khâu đầu ra. Việc 
số hóa theo 
ph−ơng pháp thủ 
công cũng tuân 
theo quy trình 
hình 1 nh−ng có 
thể tách thành 
từng công đoạn 
để cán bộ làm 
việc theo chuyên 
môn hóa và mỗi 
cán bộ có thể chỉ 
đảm nhận một 
công đoạn trong 
quy trình. 
Ph−ơng pháp 
chuyên môn hóa này cho kết quả nhanh 
và chất l−ợng không kém các thiết bị số 
hóa tự động. Tuy nhiên, vấn đề thực 
hiện quy trình số hóa hiện nay không 
phải lúc nào cũng đầy đủ các b−ớc nh− 
sơ đồ hình 1. Đối với nhiều tài liệu số 
hóa, công đoạn “nhận dạng/tạo siêu dữ 
Hình 1: Quy trình 
số hóa cơ bản 
Đầu vào 
Tài liệu gốc 
Quét/chụp 
Xử lý ảnh 
Chuyển 
dạng 
Nhận dạng/ 
tạo siêu dữ 
liệu 
Đầu ra 
Tài liệu số 
42 Thông tin Khoa học xã hội, số 7.2013 
liệu” cho tài liệu không thực hiện đ−ợc 
vì các tài liệu viết tay, các tài liệu là chữ 
t−ợng hình (chữ Hán, Nôm, Nhật, sắc 
phong,) ch−a có phần mềm hỗ trợ 
nhận dạng đ−ợc do tính phức tạp trong 
cấu tạo chữ viết. Do vậy, các tài liệu này 
khi số hóa chỉ chuyển dạng ảnh hoặc 
tệp PDF thông th−ờng (chỉ có siêu dữ 
liệu cấu trúc), các dữ liệu tìm kiếm là 
các biên mục có sẵn trong CSDL. Đây là 
vấn đề mà những ng−ời làm công tác số 
hóa mong muốn tìm ra giải pháp khắc 
phục. Hiện nay, các tài liệu viết tay, các 
tài liệu Hán cổ, Nhật cổ, Nôm, các bản 
đồ, sắc phong, có một số l−ợng lớn là 
tài liệu cổ, có giá trị về mặt văn hóa, 
lịch sử còn lại không nhiều (thậm chí 
chỉ có một bản duy nhất) nên các th− 
viện cần có ph−ơng án bảo vệ, bảo quản, 
l−u giữ an toàn. Sau khi số hóa cần đặc 
biệt quan tâm đến việc tạo các siêu dữ 
liệu cho tài liệu số, các thông tin này 
không chỉ để tìm kiếm mà còn khẳng 
định bản quyền của cơ quan l−u trữ tài 
liệu, là tài sản thuộc về quốc gia. Đây là 
vấn đề mà không phải th− viện nào 
cũng giải quyết đ−ợc. 
3. Th− viện Khoa học xã hội (Th− 
viện KHXH) đ−ợc kế thừa một khối 
l−ợng tài liệu lớn từ Học viện Viễn Đông 
Bác cổ Pháp (EFEO). Đây là nguồn tài 
liệu rất quý, có những bộ s−u tập là độc 
bản tại Việt Nam. Hiện Th− viện KHXH 
có hơn 160 tập thần tích, thần sắc của 
khoảng 9.000 làng Việt (với khoảng 
230.000 trang t− liệu viết tay), 1.225 
bản h−ơng −ớc đ−ợc viết bằng chữ Hán, 
chữ Nôm, bằng bút lông trên giấy dó, 
trong đó có khoảng 50 văn bản soạn vào 
thế kỷ XVIII-XIX. Hơn 5.000 bản h−ơng 
−ớc bằng chữ Quốc ngữ, viết tay. Hơn 
3.000 bản kê bằng chữ Hán, chữ Nôm 
các dạng văn hóa làng xã nh− thần sắc, 
văn bia, địa bạ, khoản lệ, Và bản kê 
địa danh làng xã năm 1923 của hầu hết 
các tỉnh, thành trong cả n−ớc. Trong 
kho bản đồ còn l−u giữ khoảng 1.900 
tên bản đồ các loại, trong đó có hàng 
ngàn bản đồ về Việt Nam và Đông 
D−ơng. Bản đồ Trung Quốc có trên 200 
loại, có bản đồ đ−ợc vẽ hoặc in rất sớm 
từ 1584. Có nhiều bản đồ đ−ợc coi là quý 
nh− bản đồ về Hà Nội năm 1831, 1873, 
bản đồ Sài Gòn 1902, các bản đồ về địa 
giới, lãnh hải, Tại Th− viện KHXH, 
các học giả EFEO đã s−u tầm đ−ợc hơn 
400 bản sắc phong của triều Nguyễn và 
các triều đại phong kiến thời tr−ớc, bản 
cổ nhất mà Th− viện KHXH có đ−ợc là 
vào thế kỷ XVI. Bên cạnh đó, Th− viện 
KHXH còn l−u giữ kho ảnh gồm khoảng 
40.000 ảnh về Việt Nam và Đông 
D−ơng. Kho ảnh này đ−ợc hình thành 
chủ yếu từ các công trình nghiên cứu 
của các nhà sử học, kiến trúc s−, khảo 
cổ học, dân tộc học, ng−ời Pháp và 
ng−ời Việt Nam. Một phần khác là ảnh 
do các công chức thuộc các cơ quan hành 
chính thuộc địa cung cấp. Một số l−ợng 
lớn tài liệu là sách và báo chí ấn bản với 
gần 500.000 sách, hơn 2.000 loại báo và 
tạp chí tiếng Việt và tiếng n−ớc ngoài. 
Bộ s−u tập sách Nhật Bản cổ có 11.000 
bản, Trung Quốc cổ có 31.000 bản, sách 
Latin cổ có trên 30.000 bản, bản sách cổ 
nhất của th− viện có niên đại từ thế kỷ 
XIV [2, 7-9]. 
Hiện nay, tại Th− viện KHXH, tài 
liệu đ−a vào số hóa đ−ợc cân nhắc lựa 
chọn từ những bộ s−u tập tài liệu cổ, có 
giá trị về mặt nghiên cứu khoa học, văn 
hóa, lịch sử (chủ yếu là những bộ s−u 
tập do EFEO bàn giao lại). Những tài 
liệu này chủ yếu có tuổi đời trên 60 
năm. Qua nhiều năm phục vụ độc giả và 
chịu sự tác động của các yếu tố tự nhiên 
Xây dựng quy trình số hóa 43 
nên tài liệu đang bị xuống cấp nh− bị 
gãy, giòn thậm chí bị rách nát (đối với 
tài liệu in), nhiều cuốn bị nhòe chữ, mất 
chữ, bong gáy, mục chỉ (đối với tài liệu 
viết tay). Tr−ớc thực tế đó, nghiên cứu 
một quy trình thực hiện số hóa đảm bảo 
chất l−ợng tài liệu số, an toàn cho tài 
liệu gốc, hạn chế đến mức thấp nhất sự 
tác động trực tiếp đến tài liệu là ph−ơng 
án khả thi nhất. Bởi, khi chuyển thành 
dạng tài liệu số thì cùng lúc có thể phục 
vụ đ−ợc nhiều độc giả, hạn chế những 
tác động trực tiếp tới tài liệu gốc và có 
thể phục chế, in lại trong tr−ờng hợp 
cần thiết. 
Từ năm 2008, trong ch−ơng trình 
hợp tác giữa Th− viện Quốc gia Anh, 
Đại học Temple (Mỹ) và Th− viện 
KHXH, dự án nghiên cứu ph−ơng pháp 
số hóa tài liệu cổ quý hiếm đ−ợc đề xuất. 
Đến năm 2009, dự án chính thức đi vào 
nghiên cứu và thử nghiệm trên bộ s−u 
tập Hán Nôm. Nhóm số hóa của Th− 
viện đ−ợc thành lập gồm 6 thành viên, 
làm việc cùng chuyên gia đến từ Đại học 
Temple trong suốt 2 năm và cũng gặp 
rất nhiều khó khăn trong thời gian đầu. 
Tr−ớc hết là nghiệp vụ của cán bộ, hầu 
nh− ch−a từng đ−ợc đào tạo về nghiệp 
vụ số hóa và đi thực tế ở những đơn vị 
khác. Thứ hai, sách đ−a vào thử nghiệm 
đ−ợc in trên giấy dó rất cổ và xuống cấp 
nghiêm trọng, nên cần nghiên cứu 
ph−ơng pháp an toàn nhất cho tài liệu. 
Thứ ba, phần mềm lựa chọn để xử lý là 
Adobe Photoshop đ−ợc lựa chọn để xử lý 
tài liệu không có khả năng xử lý ảnh 
đồng loạt (tiêu chí nhóm số hóa đặt ra là 
các trang trong một cuốn sách về mặt 
thẩm mỹ phải có kích th−ớc bằng nhau 
khi đ−ợc trình bày trên giao diện Web). 
Thứ t−, nhóm số hóa ch−a tìm ra giải 
pháp tạo siêu dữ liệu cho tài liệu số Hán 
Nôm vì ch−a có phần mềm hỗ trợ. Ngoài 
ra, nhóm còn gặp nhiều khó khăn khác. 
Trong quá trình nghiên cứu và thử 
nghiệm, nhóm số hóa của Th− viện 
KHXH đã từng b−ớc giải quyết đ−ợc 
các vấn đề khó khăn gặp phải và tiến 
hành xây dựng bộ s−u tập số Hán Nôm 
nh− sau: 
- Về chuẩn mô tả tài liệu số, nhóm 
số hóa lựa chọn Dublin Core gồm 15 
tr−ờng mô tả. Đây là chuẩn mô tả tài 
liệu số đ−ợc nhiều chuyên gia đánh giá 
cao về tính linh hoạt và tiện lợi của nó. 
Hiện nay, Dublin Core đ−ợc nhiều th− 
viện trên thế giới lựa chọn. 
- Thiết bị số hóa: lựa chọn 2 máy 
ảnh Sony alpha 350 để chụp ảnh, sử 
dụng bàn chữ V tự thiết kế để kê và kẹp 
sách. Sử dụng máy ảnh sẽ giảm thiểu 
những tác động trực tiếp lên sách, chất 
l−ợng ảnh cao, trung thực nh− màu 
sách thực. Sử dụng bàn chữ V có khe 
kẹp gáy sách để cố định không để sách 
dịch chuyển. Kỹ thuật chụp ảnh đảm 
bảo hình ảnh đạt độ trung thực về màu 
sắc và độ nét cao nhất. Nhóm số hóa 
h−ớng đến mục tiêu ảnh số là trang ảnh 
giữ nguyên tính lịch sử của tài liệu gốc 
có tính chất bảo tồn. 
- Phần mềm xử lý ảnh, nhóm số hóa 
nghiên cứu, tìm hiểu và lựa chọn Adobe 
Photoshop Lightroom. Đây là phần 
mềm miễn phí giúp nhóm số hóa giải 
quyết rất nhiều vấn đề khó khăn trong 
kỹ thuật số hóa: 
+ Adobe Photoshop Lightroom cho 
phép cẩn các siêu dữ liệu vào trong từng 
ảnh, các thông tin Metadata cho phép 
nhập đảm bảo khả năng tìm kiếm thông 
tin ở các tiêu chí nh− mã sách, tên sách, 
chủ đề, tình trạng tài liệu, ng−ời thực 
hiện, cơ quan thực hiện, các thông tin 
44 Thông tin Khoa học xã hội, số 7.2013 
bản quyền, logo của th− viện chìm, 
Các thông tin cẩn vào trong mỗi ảnh tuy 
chỉ dừng lại ở mức độ của các thông tin 
biên mục nh−ng đây là điều vô cùng 
quan trọng. Có lớp dữ liệu này các files 
tài liệu dạng ảnh đã đ−ợc chuyển thành 
các files tài liệu số, tài liệu xuất hiện ở 
bất kỳ đâu (không kèm tr−ờng mô tả), 
ng−ời đọc cũng có thể biết đ−ợc mã của 
tài liệu, nhan đề, chủ đề, vị trí của tài 
liệu thuộc về th− viện nào, quốc gia nào. 
Hiện nay, trong khi các phần mềm nhận 
dạng ch−a tạo đ−ợc các siêu dữ liệu cho 
các tài liệu viết tay, tài liệu là chữ t−ợng 
hình thì sử dụng chức năng Metadata 
của Adobe Photoshop Lightroom là một 
giải pháp tốt. Tuy các siêu dữ liệu tìm 
kiếm không đạt đ−ợc đến mức có thể 
tìm kiếm đến từng ký tự trong văn bản 
nh− các phần mềm nhận dạng nh−ng nó 
đã phần nào giải quyết đ−ợc những khó 
khăn hiện nay của công tác số hóa. Đây 
là thành công quan trọng mà nhóm số 
hóa của Th− viện đã làm đ−ợc. 
+ Adobe Photoshop Lightroom có 
khả năng xử lý ảnh đồng loạt. Các ảnh 
sau khi xử lý có cùng kích th−ớc, cùng 
độ phân giải, mang lại hiệu quả thẩm 
mỹ cao. 
+ Adobe Photoshop Lightroom cho 
phép đặt tên các trang ảnh tuần tự nh− 
đánh số trang cho một cuốn sách. 
Ngoài ra, nhóm số hóa còn sử dụng 
thêm các phần mềm tự lập trình nh− 
webresize.php và webthumbs.php để 
giảm kích th−ớc và dung l−ợng ảnh mà 
vẫn giữ đ−ợc các thông tin Metadata 
cẩn trong mỗi ảnh. 
- Bộ s−u tập Hán Nôm đ−ợc trình 
bày trên giao diện Web, các trang sách 
đ−ợc trình bày theo đúng trình tự đọc 
của một cuốn sách Hán cổ, Nôm cổ 
(
.php). Các thông tin Dublin Core đ−ợc 
kết nối đến từng trang sách và tại đây, 
ng−ời dùng có thể xem danh mục toàn 
bộ CSDL hoặc theo bộ sách. Các chức 
năng tìm kiếm theo nhan đề, tác giả, 
chủ đề, từ khóa. 
Qua quá trình xây dựng bộ s−u tập 
Hán Nôm, nhóm số hóa đã hoàn thành 
CSDL số Hán Nôm với 2.056 cuốn, 
trong đó 245 cuốn số hóa toàn văn còn 
lại số hóa 3 trang. Tổng số trang tài liệu 
số xấp xỉ 50.000 trang, biên mục theo 
chuẩn Dublin Core 2.056 biểu ghi. Trên 
mỗi biểu ghi trình bày với 3 ngôn ngữ: 
tiếng Việt, tiếng Anh và ngôn ngữ tài 
liệu sử dụng (Hán, Nôm, Nhật). Trong 
quá trình biên mục, một số khó khăn 
khi nhập chữ Hán và Nôm (do nhiều 
chữ cổ ch−a có trong bộ font Unicode) đã 
đ−ợc các chuyên gia ngôn ngữ nghiên 
cứu Nôm học của Đại học Temple (Mỹ) 
hỗ trợ. Hiện nay, bạn đọc có thể tra cứu 
bộ s−u tập Hán Nôm tại địa chỉ: 
php. 
Giao diện web của CSDL số Hán Nôm 
Xây dựng quy trình số hóa 45 
4. Phát triển th− viện kỹ thuật số là 
vấn đề tất yếu của hầu hết các th− viện 
hiện nay. Để tránh tình trạng lạc hậu, 
các th− viện cần nhanh chóng chuẩn bị 
các điều kiện cần thiết về cơ sở vật chất, 
kỹ thuật, nguồn tài nguyên thông tin số, 
con ng−ời với đầy đủ kiến thức để có thể 
hoạt động trong môi tr−ờng kỹ thuật số. 
Sau quá trình nghiên cứu và thử 
nghiệm, chúng tôi cho rằng công tác số 
hóa tài liệu trong mỗi th− viện là rất 
quan trọng. Mỗi th− viện cần có một 
trung tâm số hóa. Trung tâm này không 
chỉ thực hiện công tác số hóa mà còn có 
trách nhiệm l−u trữ, bảo quản các bộ 
s−u tập số; nghiên cứu các vấn đề khoa 
học trong hoạt động số hóa. Bên cạnh 
đó, trung tâm số hóa còn có nhiệm vụ 
học hỏi thực tiễn các hoạt động số hóa 
của các trung tâm khác (cả trong và 
ngoài n−ớc) để nhanh chóng ứng dụng 
các giải pháp mới vào hoạt động của 
trung tâm mình. Cán bộ hoạt động tại 
trung tâm số hóa phải luôn luôn cập 
nhật các kiến thức mới về công nghệ 
thông tin để không bị lạc hậu. 
Đối với từng dạng tài liệu và chất 
l−ợng tài liệu khác nhau cần lựa chọn 
ph−ơng pháp số hóa khác nhau. Mục 
tiêu cuối cùng của hoạt động số hóa bao 
giờ cũng là đạt đến chất l−ợng sản 
phẩm số tốt nhất và đảm bảo an toàn 
cho tài liệu gốc ở mức cao nhất. Đối với 
các tài liệu cổ, có giá trị cần đảm bảo an 
toàn không chỉ về tình trạng vật lý mà 
còn đảm bảo chúng không bị mất khi 
đ−a ra số hóa. Ph−ơng pháp tạo siêu dữ 
liệu bằng chức năng của phần mềm 
Adobe Photoshop Lightroom là một cách 
bảo vệ tài liệu trong tr−ờng hợp bị mất, 
vì các siêu dữ liệu này chính là chứng cứ 
chứng minh tài liệu đó thuộc bản quyền 
của th− viện  
TàI LIệU THAM KHảO 
1. Feng Ying (2005), Buiding China 
Academic Digital, 
es.html 
2. Hồ Sĩ Quý (2011), “Về một Th− viện 
Khoa học xã hội tầm cỡ khu vực” 
trong Th− viện Khoa học xã hội, 
Nxb. Khoa học xã hội, Hà Nội. 
3. Trần Thị Quý (2011), “Số hóa tài 
liệu” - từ nhận thức đến triển khai 
đào tạo tại khoa Thông tin th− viện, 
tr−ờng Đại học Khoa học xã hội & 
Nhân văn”, Hội nghị - hội thảo: Xây 
dựng và chia sẻ nguồn lực thông tin 
địa ph−ơng dạng số phục vụ bảo tồn 
di sản và phát triển kinh tế - xã hội, 
Hà Nội. 
4.  
5.  
6.  

File đính kèm:

  • pdfxay_dung_quy_trinh_so_hoa_tu_lieu_tai_thu_vien_khoa_hoc_xa_h.pdf