Thư viện số Greenstone

Máy quét

Các máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng có giá

từ 100USD cho các máy quét hình phẳng cho đến 50000USD cho các máy

quét công nghiệp cở lớn của các nhà sản xuất như Bell & Howell. Rất nhiều

website cung cấp đa dạng máy quét. Để tìm những website này, bạn chỉ cần

dùng từ khóa “scanners” vào Google, Altavista hoặc Yahoo.

Kết quả của một trang tài liệu được quét là một tập tin máy tính mà thông

thường ở định dạng TIFF hoặc Bitmap. Định dạng nén TIFF phiên bản 4 là

dạng tốt nhất. Trung bình một trang được nén và được chuyển thành định

dạng này chỉ chiếm khoảng 50Kb, trong khi ở định dạng Bitmap không nén

sẽ là 2Mb.

Các máy quét hình phẳng giá thấp

Các loại máy quét hình phẳng là rẻ nhất và được sử dụng nhiều nhất. Thuộc

nhiều hãng khác nhau: HP, Agfa, Acer v.v., giá cả từ 100USD đến

300USD. Chúng đều có thể quét hình trắng đen hay màu. Do chi phí thấp

nên có thể trang bị cho mỗi máy tính một máy quét riêng.

Điểm bất lợi của những máy in này là cho ra những hình ảnh của trang tài

liệu ở mức trung bình, tỉ lệ quét thấp, không bền trong những môi trường ẩm

thấp và khá dễ hư. Chúng ta phải quét từng trang một. Mỗi trang phải được

định vị cẩn thận theo lề bảng quét. Hiệu suất của những máy in này kém.

Mặc dù các nhà sản xuất khẳng định rằng mỗi trang tài liệu có thể được quét

trong vòng chưa tới một phút nhưng thực tế cho thấy rằng khó có thể thể đạt

tới mức 12 trang mỗi tiếng. Tiến trình quét thường làm ì ạch máy tính gắn

kết. Do vậy những máy in này chỉ hữu dụng cho các công việc nhỏ (số lượng

trang cần quét ít- từ 200 đến 400 trang một tháng một cách thừơng xuyên)

hoặc các công việc xảy ra một lần từ 1000 đến 2000 trang

Thư viện số Greenstone trang 1

Trang 1

Thư viện số Greenstone trang 2

Trang 2

Thư viện số Greenstone trang 3

Trang 3

Thư viện số Greenstone trang 4

Trang 4

Thư viện số Greenstone trang 5

Trang 5

Thư viện số Greenstone trang 6

Trang 6

Thư viện số Greenstone trang 7

Trang 7

Thư viện số Greenstone trang 8

Trang 8

Thư viện số Greenstone trang 9

Trang 9

Thư viện số Greenstone trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 44 trang baonam 7560
Bạn đang xem 10 trang mẫu của tài liệu "Thư viện số Greenstone", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Thư viện số Greenstone

Thư viện số Greenstone
 THƯ VIỆN SỐ GREENSTONE 
TỪ GIẤY ĐẾN BỘ SƯU TẬP 
Giáo sư Michel Loots, Dan Camarzan and Ian H.Witten 
Human Info NGO, Belgium 
Simple Words, Romania 
Trường Đại học Waikato, New Zealand 
Greenstone là một bộ phần mềm giúp xây dựng và phân loại các tập hợp thư 
viện số. Nó đưa ra một cách tiếp cận mới trong việc tổ chức và xuất bản 
thông tin trên Internet hoặc trên CD-ROM. Greenstone là kết quả của dự án 
thư viện số tại trường đại học Waikato, NewZealand (New Zealand Digital 
Library Project), đã được triễn khai và phân phối với sự hợp tác của hai tổ 
chức UNESCO và Human Info NGO. Greenstone là một phần mềm nguồn 
mở có sẵn tại địa chỉ  , trong mục GNU General Public 
License. 
Chúng tôi đảm bảo rằng phần mềm này đáp ứng tốt nhu cầu của bạn. Nếu có 
bất kì vấn đề nào liên quan đến phần mềm này xin trình bày tại 
greenstone@cs.waikato.ac.nz 
Greenstone gsdl-2.39 Tháng 3 năm 
2003 
Nội dung tập tài liệu 
Tài liệu này mô tả cách tạo bộ sưu tập CD-ROM từ các tài liệu giấy. Nó 
miêu tả đầy đủ các thủ tục và nhu cầu tài chính cần thiết liên quan đến việc 
quét và quá trình nhận dạng ký tự, vì vậy phần nội dung phải được định dạng 
đúng để ứng dụng được phần mềm Greenstone. Nó cũng miêu tả cách sử 
dụng chức năng tổ chức bộ sưu tập, nói đơn giản là “Organizer”, để tạo ra và 
chỉnh sửa nguyên liệu liên quan đến bộ sưu tập. Đây là phần mềm sẳn có, 
được phân phối dưới tên gọi Greenstone chạy trên hệ điều hành Windows. 
Chúng tôi cố gắng làm cho đơn giản đi nhằm giúp bạn đọc dễ hiểu và khi 
dụng phần mềm này. Khi nhắc đến một thương hiệu hay sản phẩm nào hoàn 
toàn là nhằm mục đích minh họa và không cũng phải chúng tôi khẳng định 
sản phẩm đó tốt hơn hoặc quan tâm nhiều hơn một sản phẩm nào khác. 
Các tập tài liệu trong Bộ phần mềm Greenstone 
 Bộ phần mềm này bao gồm 4 tập tài liệu: 
• Hướng dẫn cài đặt 
• Hướng dẫn sử dụng 
• Hướng dẫn phát triển 
• Từ tài liệu bằng giấy đưa lên mạng. 
Những thành viên tham gia dự án phần mềm Greenstone 
Quá trình scanning, Organizer và các quá trình khác có liên quan đến việc 
tạo ra các bộ sưu tập từ sự cộng tác phi lợi nhuận, được phát triển bởi Giáo 
sư Michel Loots, MD, Human Info NGO và HumanityCD, Dan Camarzan of 
Simple Words, và các nhóm cộng tác viên ở Brasov, Romania. 
Phần mềm này là sự đóng góp của nhiều người trong đó Rodger McNab và 
Stefan Boddie là hai người đóng góp chính trong việc xây dựng và phát triển 
phần mềm này. Ngoài ra còn có sự đóng góp của các tác giả sau: David 
Bainbridge, George Buchanan, Hong chen, Elke Duncker, Carl Gutwin, 
Geoff Holmes, John McPherson, Craig Nevill-Manning, Gordon Paynter, 
Bernhard Pfahringe, Todd Reed, Bill Rogers và Stuart Yeates. Những thành 
viên khác trong dự án Thư viện số tham gia phần Thiết kế hệ thống là: Mark 
Apperley, Sally Jo Cunningham, Steve Jones, Te Taka Keegan, Michel 
Loots, Malika Mahoui và Lloyd Smith. 
Chúng tôi cũng chân thành cảm ơn những đơn vị đã tham gia khâu đóng gói 
cũng như phân phối bộ phần mềm này: MG, GDBM, WGET, WV, 
PDF2HTML, PERL. 
MỤC LỤC 
Nội Dung Tài Liệu 
1 GIỚI THIỆU 
2 MÁY QUÉT VÀ QUÉT DỮ LIỆU 
2.1 Máy quét 
Các máy quét hình phẳng giá thấp 
Máy quét cấp thấp có ngăn để giấy 
Các máy quét màu 
Các máy quét 2 mặt chuyên nghiệp 
Các chương trình quét 
2.2 Chuẩn bị các tài liệu 
2.3 Tiến trình quét 
Quản lý chất lượng 
Qui định tên tập tin 
2.4 Hiệu suất và các tài nguyên 
Chi phí quét 
3 OCR: NHẬN DẠNG KÍ TỰ 
3.1 Tiến trình nhận dạng kí tự 
Quản lý chất lượng 
Bảng 
Hình ảnh 
Các tài liệu chuyên ngành 
3.2 Hiệu năng và các tài nguyên 
Intensive OCR 
Hiệu năng của quá trình OCR 
3.3 Các hình thức khác trong tiến trình nhận dạng kí tự: 
Tự đánh máy 
Các tập tin hình ảnh 
3.4 Kết hợp giữa việc quét và nhận dạng kí tự 
4 BA VÍ DỤ: TỪ 1000 ĐẾN 100,0000 TRANG 
4.1 Tập hợp nhỏ: 500-1000 trang 
4.2 Toàn bộ tài liệu từ một tổ chức: 5000 trang 
4.3 Thư viện nhỏ: 100,000 trang 
5 TẠO RA MỘT BỘ SƯU TẬP ĐIỆN TỬ 
5.1 Các phương pháp xây dựng tập hợp 
5.2 Công cụ tổ chức 
Cài đặt và sử dụng Organizer 
Mô hình tài liệu 
Tìm hiểu chức năng tổ chức 
5.3 Các file tài liệu đính kèm 
1. Giới thiệu 
Mục tiêu của phần mềm thư viện số Greenstone là nhằm giúp cho các tổ 
chức như các trường đại học, các tổ chức Liên hiệp quốc, các tổ chức phi 
chính phủ, phi lợi nhuận và các chính phủ trong việc tạo ra các loại thông tin 
có thể được phân phối trực tuyến hoặc trên các CD-ROM. 
Các bước cài đặt cơ bản: 
i. Chọn các tài liệu muốn thêm vào 
ii. Thiết đặt quyền hạn, bản quyền cho việc sử dụng các tài liệu này trong 
thư viện số. 
iii. Dùng máy quét và ORC để chuyển thể các tài liệu giấy tờ thành dạng 
kỹ thuật số 
iv. Chuyển đổi các tài liệu này thành một định dạng (có thể tích hợp giữa 
văn bản và hình) mà phần mềm Greenstone hiểu được (tốt nhất là HTML, 
các tài liệu soạn bởi Microsoft Word, riêng một số định dạng khác cũng có 
thể được chấp nhận nhờ vào plug-in nhưng với mức độ chính xác khác nhau 
(xem  ... trong danh mục toàn cầu (hộp hội thoại 
Add new organisation của nút Add Organisation hoặc 
hộp hội thoại Add new document của nút Add Document, 
thực hiện theo thứ tự lần lượt như trên khi quay trở lại 
menu chính và thêm mới tài liệu với dòng lệnh 
New/Organisations hoặc New/Subjects. 
c. Trình bày tài liệu: Danh mục tất cả các tài liệu được chọn gồm 
cả các tài liệu trong bộ sưu tập được kích hoạt. Điều này cũng 
giống như trong danh mục các tài liệu khi một tập tài liệu xuất 
hiện ở cửa sổ phía dưới trong phần trình bày Các đề tài. Điểm 
khác nhau chính là trong danh mục tài liệu này, khi nhấp đúp 
vào tài liệu cần trình bày sẽ mở ra hộp hội thoại Các thuộc tính 
của tài liệu ứng với tài liệu. 
Sau đó bạn có thể thêm/thayđổi các thuộc tính của tài liệu đó 
(Hoặc khác nữa là các mục đề tài liên kết được thay đổi, được 
miêu tả ở trên trong mục Subjects view) bằng cách chọn một 
trong các tab đối với các thuộc tính của các phân lớp khác nhau 
ở trên cùng của hộp hội thoại: 
• Tab General: trong cửa sổ này bạn có thể nhập tên tài liệu, 
số công việc, số trang và số hình ảnh, năm xuất bản, và tên 
cùng loại. Bạn cũng có thể thêm vào số lượng hình ảnh một 
các tự động bằng cách click vào nút Find images và chọn 
thư mục có chứa các hình ảnh của thư mục, sau đó chỉ ra 
kiểu định dạng phần mở rộng trong trường Extensions. 
• Tab Advanced: nếu một tài liệu được xuất bản định kỳ, hoặc 
là một phần của bộ tài liệu, bạn có thể chỉ ra tiêu đề của tài 
liệu cần phát hành hay cả bộ tài liệu như là một thuộc tính, 
tự động tạo ra một thực thể trong danh mục các tài liệu phát 
hành định kỳ, nó được nhìn thấy trong cửa sổ tìm kiếm tiêu 
đề của chương trình ứng dụng cần sử dụng. Trong cửa sổ 
trình bày cấp cao mà bạn có thể chỉ định trong phần 
Organisations và Languages của tài liệu, Cả hai trường này 
đều có thể được lặp lại. Nếu có nhiều hơn một tổ chức có 
liên hệ với tài liệu (Nhà xuất bản, đồng tác giả) hoặc nếu 
được viết bằng nhiều ngôn ngữ, hoặc song ngữ Anh/Pháp, 
bạn nên chỉ ra tất cả các tài liệu tương ứng với từng danh 
mục riêng. 
• Tab Copyright: Việc biết rõ trạng thái bản quyền tác giả khi 
xuất bản tài liệu rất quan trọng. Cửa sổ này gồm hai phần: 
Thứ nhất là nơi bản gốc được trình bày và mức độ bản 
quyền có thể được xác định. Thông tin này liên quan đến 
việc quản lý với Organizer, nó không ảnh hưởng gì đến trình 
ứng dụng thư viện số Greenstone. 
• Tab Suggested collections: Phần này trình bày một danh 
mục các bộ sưu tập trong đó bao gồm tài liệu được đề nghị 
sau đó. Số lượng bộ sưu tập được đề nghị không giới hạn. 
Thông tin này dùng trong việc quản lý tài liệu với Organizer, 
và nó không ảnh hưởng gì đến trình ứng dụng thư viện số 
Greenstone. 
• Tab Keywords: Keyword được dùng trong việc xuất bản tài 
liệu. thuộc tính này là biểu đồ phân cấp được thêm vào để bổ 
sung phân lớp đề tải và có thể được sử dụng để hoạt động 
trình ứng dụng Thư viện số để chọn và trình bày các tập tài 
liệu trong Thư viện. Trong DLS, nó được dùng như là một 
tham số “How to”, nhưng nó cũng có thể được dùng cho bất 
cứ metadata nào khác được thêm vào, với ví dụ là tác giả 
hay đất nước của tài liệu nguồn. 
Chú ý; Trong phần trình bày các Đề tài, Tổ chức và Tài liệu, 
nút Add documents cho phép người dùng thêm mới tài liệu trực 
tiếp vào bộ sưu tập từ hộp hội thoại hoặc chọn từ danh mục các 
dữ liệu toàn cầu. Tài liệu được thêm vào trong cửa sổ thuộc tính 
trình bày một cách tự động danh mục các dữ liệu toàn cầu được 
nhập vào cho việc sử dụng trong tương lai. 
Khi một tài liệu mới được thêm vào bộ sưu tập từ danh mục các 
dữ liệu toàn cầu, hộp hội thoại Search documents được xuất 
hiện để người dùng có thể dễ dàng xác định nhu cầu tài liệu 
theo nhiều nhiều chuẩn chọn lựa (Điều này giống như chức 
năng lọc dữ liệu được mô tả như trên trong danh mục các tài 
liệu thảo luận được sử dụng bằng cách chọn nút Documents của 
thanh công cụ đứng trong cửa sổ Organizer Main) 
d. Các phần trình bày khác: Phần trình bày các phân cấp khác cho 
thấy thứ tự các tài liệu theo các tiêu đề kế tiếp nhau (Không 
được phép chỉnh sửa) 
và phân cấp các tiêu đề theo mẫu tự alphabet theo mỗi ngôn 
ngữ. Người dung có thể thay đổi nhóm phân cấp theo mẩu tự 
alphabet (Ví dụ: A-C, E-G or A-L, M-Z v.v) theo cở tốt nhất 
để trình bày những tài liệu trong Thư viện hoàn chỉnh. Để làm 
điều này, click vào một ngôn ngữ và sử dụng chứa nút chia ký 
tự (Split letters). Khi đã cảm thấy hài long với kết quả, click 
vào nút Save Splitters (Cho đến khi bạn có thể quay trở lại vị trí 
ban đầu hay các ký tự đã được lưu trước đó bằng cách click vào 
Load/Refresh để phân chia hoặc loại bớt ký tự bằng việc click 
vào Eliminate Splittings). 
iii. The Export Settings window 
Cửa sổ này được trình bày khi biểu tượng ở dưới thanh công cụ 
đứng của cửa sổ Organizer Main được chọn, cho phép bạn lấy 
ra kết quả công việc và thông thường là giai đoạn cuối liên quan 
đến việc tạo ra bộ sưu tập mới hoặc là bộ sưu tập con. Chọn 
Export Files để liên kết với cửa sổ Export Settings và chọn một 
bộ sưu tập để truy xuất ra ngoài và một thư mục để nhận thông 
tin được truy xuất. sau đó click Export files. 
Việc này sẽ làm thay đổi 5 file collect.cfg, metadata.xml, 
sub.txt,org.txt, Keywords.txt và AZList.txt trong thư mục được 
chọn. Để xây dựng bộ sưu tập với thông tin này, bạn cần di 
chuyển các file đến nơi liên kết. Nơi có file metadata.xml ở 
trong thư mục import của bộ sưu tập và các thư mục khác của 
bộ sưu tập .v.v.. 
Bắt đầu 10 bước trong 15 phút 
a. Cài đặt thư mục Greenstone (xem tài liệu the Greenstone 
Installer’s Guide) bao gồm luôn cả Thư viện Demo dạng DLS 
và các file nguồn. Lưu ý nếu bạn muốn có thể thêm vào bộ 
sưu tập của mình 140 tài liệu bất kỳ trong bộ sưu tập DLS ở 
cơ sở dữ liệu Organizer để ở chế độ mặc định (Thay vì chỉ là 
14 tài liệu như trong bộ sưu tập của chương trình Demo 
trong Thư viện Greenstone), bạn nên cài DLS như là một 
mẫu Thư viện Greenstone và thay thế “Demo củ” bằng 
“dls” theo cấu trúc dưới đây. Bộ sưu tập Demo và DLS sẽ 
được cài đặt theo thứ tự sau trong c:\program 
files\gsdl\collect\demo and c:\program files\gsdl\collect\dls. 
Nếu bạn cài đặt Greenstone trước mà không có DLS và muốn 
cài thêm DLS, thì bạn có thể hủy việc cài đặt hay cài lại 
Greenstone chỉ với bộ sưu tập này. 
b. Thiết lập cấu trúc cho bộ sưu tập mới (Chúng ta sẽ thích để nó 
dưới dạng là “newcol”) bằng cách điều khiển dòng lệnh sau: 
run trong menu Start trong windows: 
 “c:\program files\gsdl\bin\windows\build” newcol 
c. Thay thế file collect.cfg mặc định được tạo ra từ bước trước 
được sử dụng bằng chương trình Demo. Lưu lại đường dẫn 
c:\program files\gsdl\collect\demo\etc\collect.cfg thành 
c:\program files\gsdl\collect\newcol\etc\collect.cfg. Điều này 
cần thiết là vì Demo sử dụng (và tất cả bộ sưu tập dạng DLS) sử 
dụng một số tùy chọn đặt biệt mà bộ sưu tập mặc định không có 
(xem TL GreenstoneDeveloper’s Guide để biết thêm chi tiết) 
Bạn in những chỉ dẫn dưới đây và làm theo từng bước dưới đây: 
1. Mở Collection Organizer, chọn cơ sở dữ liệu dls và nhập từ 
“admin” cho cả user name và password (Nút Collections 
của thanh công cụ đứng sẽ được tô sang mặc định; nêu 
không sang thì click vào nút đó) 
2. Chọn lệnh New/Collection/Empty trong thanh thực đơn nằm 
ngang ở trên cùng của cửa sổ Organizer Main để tạo ra một 
bộ sưu tập mới trống. Đặt tên bộ sưu tập và phiên bản mà 
bạn chọn, ví dụ như đặt tên là “My First Collection” và 
phiên bản “1.0” 
3. Với một số thuộc tính của tài liệu, bạn sẽ phải tạo ra một 
danh mục các giá trị có thể trước tiên. Vì vậy nếu bạn biết 
nhiều ngôn ngữ và/hoặc các tổ chức xuất bản trong các tài 
liệu của bạn, dùng lệnh New/Add-Modify languages và 
New/Organisation để them vào tất cả các ngôn ngữ mà bạn 
sẽ sử dụng trong tài liệu này hoặc cho bộ sưu tập trong 
tương lai cũng như vai trò các nhà xuất bản tài liệu của bạn. 
Bạn cũng có thể dùng một dòng lệnh để thêm/Thay đổi ngôn 
ngữ và các tổ chức khi nào muốn, nhưng không phải là 
chỉnh sửa bản thân bộ sưu tập trong chỉ dẫn sau đây. 
4. Nhấp đúp lên dòng tên bộ sưu tập mà bạn tạo 
5. Click vào tab Subjects ở trên đỉnh (Nếu chưa chọn có thể để 
ở dạng mặc định); sau đó click vào nút Add subject lệnh Add 
new subject, sau đó nhập tên đề tài mới vào trường Subject 
title, nhấn phím “enter” sau mỗi lần thực hiện. Click vào dấu 
+ trước từ Subjects trong danh mục liệt kê phân cấp để xem 
đề tài mà bạn yêu cầu. 
6. Click lên tab Documents để mở trang trình bày tài liệu, sau 
đó thêm các tài liệu vào bộ sưu tập như sau: 
a. Để thêm một tài liệu vào bộ sưu tập Demo (Hoặc bộ sưu tập 
DLS nếu đã được cài đặt trên Greenstone) vào bộ sưu tập 
mới của bạn, click nút Add documents và chọn Add 
document từ danh mục toàn cầu. Định vị trí tài liệu bạn yêu 
cầu (Sử dụng chức năng lọc dữ liệu được miêu tả ở trên) và 
thêm nó vào bộ sưu tập của bạn trong Organizer. Sau khi 
thêm tài liệu, định vị file nguồn của bộ sưu tập trong Thư 
mục Demo import (c:\program 
files\gsdl\collect\demo\import) và copy chúng vào thư mục 
import của bộ sưu tập mới của bạn. Ví dụ, để thêm tài liệu 
“Butterfly Farming in Papua New Guinea” vào số công việc 
khi bạn xác định nó trong Organizer. Số công việc của tài 
liệu này là “b22bue”, vì vậy bạn nên copy thư mục “b22bue” 
từ 
c:\program files\gsdl\collect\dls\import\ac01ne sang 
c:\program files\gsdl\collect\newcol\import\ac01ne. 
Để thêm một tài liệu mới (Nghĩa là có một tài liệu không có 
trong bộ sưu tập Demo) vào bộ sưu tập mới của bạn, click 
nút Add documents và chọn Add new document. Nhập tên, 
số công việc của tài liệu (Lựa chọn của bạn), số trang, tổ 
chức xuất bản, ngôn ngữ và thông tin khác. Bạn phải 
tạo ra một thư mục mới trong c:\program 
files\gsdl\collect\newcol\import để liên hệ với số công việc 
của tài liệu mới. Trong thư mục mới này bạn nên để file 
nguồn của tài liệu và bất cứ file hình ảnh nào có liên quan 
(Trong HTML hay bất cứ định dạng nào khác được chấp 
nhận bởi Greenstone (xem trong tài liệu Greenstone User’s 
Manual). 
7. Quay trở lại tab đề tài bạn sẽ nhìn thấy tài liệu của bạn được 
trình bày trong hộp danh mục liệt kê phía dưới. Chọn một tài 
liệu, sau đó chọn môt chủ đề ở danh mục nhánh trên mà bạn 
muốn phân lớp tài liệu này trong đó và click vào biểu tượng 
nhỏ giữa hai phần trình bày với một mũi tên chỉ lên (“up”)và 
cuốn sách màu đỏ. Khi tài liệu đã được phân lớp, bạn vẫn có 
thể di chuyển nó từ đề tài này sang đề tài khác bằng cách 
kéo – thả với nút trái chuột. Bạn cũng có thể di chuyển các 
tài liệu hoặc các đề tài lên xuống giữa các cấp độ tương tự 
nhau của biểu đồ phân lớp bằng cách chọn nút lên, xuống 
màu xanh vào phía bên phải của danh mục phân cấp đề tài. 
Cố gắng phân lớp trung bình từ 6 – 30 tài liệu trong một đề 
tài. Một tài liệu có thể được chỉ định trong nhiều đề tài mà 
bạn muốn. 
8. lặp lại các bước trên bằng cách thêm đề tài mới, và thêm 
nhiều tài liệu hơn. Khi Thư viện được hoàn thành, bạn sẽ 
phải xem lại danh mục các đề tài và các tài liệu, để chắc 
rằng tất cả đều được nhập vào và phân lớp, sắp thứ tự chính 
xác. 
9. Cuối cùng, đóng cửa sổ thuộc tính bộ sưu tập và nhấn nút 
Export Files của thanh công cụ đứng. Phần này sẽ mở ra một 
cửa sổ Export Settings. Click vào nút Display collection list 
và chọn bộ sưu tập của bạn, sau đó click vào nút Browse for 
folder và chọn thư mục mà bạn muốn truy xuất file 
metadata, nhấn nút Export files để truy xuất metadata của bộ 
sưu tập cho quá trình xây dựng với Greenstone. 
10. Copy file được truy xuất đến những nơi có liên quan trong 
cấu trúc thư mục của mới bộ sưu tập của bạn. 
a. File metadata.xml được truy xuất, nên được copy vào thư 
mục c:\program files\gsdl\collect\newcol\impor. 
b. Các file AZList.txt, Keyword.txt, sub.txt, and org.txt được 
truy xuất, nên được copy vào thư mục c:\program 
files\gsdl\collect\newcol\etc. 
Lưu ý file collect.cfg được sinh ra bởi Organizer không được 
yêu cầu bởi các dòng phân lớp đã chứa file collect.cfg rồi cho 
bộ sưu tập Demo và DLS. Bộ sưu tập The newcol đã sẳn sàng 
được xây dựng. Xây dựng nó từ dòng lệnh import.pl và 
buildcol.pl (xem chi tiết trong tài liệu the Greenstone 
Developer’s Guide). 
5.3 Đính kèm các file tài liệu 
Tài liệu nguồn thường cần để xây dựng những phần lớn và những 
phần nhỏ của bộ sưu tập, và thông tin này cần để liên kết với 
Greenstone để nó có thể bảo toàn cấu trúc phân cấp. Cũng như thế 
metadata – đề tài điển hình – có thể được liên kết với mỗi phần lớn và 
phần nhỏ. Các tài liệu nguồn từ quá trình OCR là điển hình cho một 
tập hợp các từ xử lý file, bao gồm các file hình ảnh. Nếu các file này 
thuộc dạng file MicrosoftWord, họ có thể input vào Greenstone bằng 
cách sử dụng plugin dạng Word. Có thể vừa chuyển thành file HTML 
vừa dùng plugin HTML để input. Trong trường hợp khác cấu trúc 
phân cấp của một tài liệu có thể được chỉ định bằng cách thêm đuôi 
dạng text như sau: 
<!-- 
Realizing human rights for 
poor 
people: Strategies for achieving the international 
development targets 
--> 
(text of section goes here) 
<!-- 
--> 
Cách ghi như trên được dùng bởi vì chúng chỉ ra các dòng lệnh ở dạng 
HTML; và vì thế các đuôi được thêm vào trong phần này sẽ không 
ảnh hưởng đến định dạng tài liệu. Bạn phải ghi những dòng trên vào 
phần đuôi của các phần, ngay cả khi tài liệu mà bạn đang sử dụng 
không phải là file HTML (e.g. nếu nó là file dạng Microsoft Word ). 
Trong phần miêu tả chi tiết (between the and 
 tags) các loại metadata khác có thể được chỉ định, 
nhưng lại không làm đối với các tài liệu mà chúng ta đang miêu tả ở 
đây. 
Điều quan trọng là phải nhớ rằng bạn đang tạo bảng mục lục phân cấp 
khi chèn vào phần đuôi trong tài liệu của bạn. Điều này có nghĩa các 
phần này có thể được để lòng vào các phần khác. Trên thực tế, tất cả 
các phần đều phải được lòng vào các phần đơn khép kín bao quanh 
toàn bộ tài liệu. 
Ví dụ sau chứng minh được rằng một tài liệu với hai chương, chương 
hai chứa hai phần nhỏ. Ví dụ thực tế của các tài liệu gốc được thêm 
vào phần đuôi bằng cách này, hãy nhìn các tài liệu nguồn trong bộ sưu 
tập Demo và DLS. 
<!-- 
My Document 
Chapter 1 
--> 
(text of chapter 1 goes here) 
<!-- 
Chapter 2 
Subsection 1 
--> 
(text of sub-section 1 goes here) 
<!-- 
Subsection 2 
--> 
(text of sub-section 2 goes here) 
<!-- 
--> 
Lưu ý metadata được chỉ định từ phần đuôi trong tài liệu nguồn theo 
thứ tự ưu tiên đã được chỉ định từ file metadata.xml (Giống như được 
tạo ra bởi Organizer). Điều này có nghĩa là bạn không nên chỉ định rõ 
metadata chủ đề cho cấp cao nhất của tài liệu nguồn trừ khi bạn muốn 
bỏ qua tiêu đề mà bạn đã cài vào từ Organizer. Trong ví dụ dưới đây, 
nếu bạn muốn lấy tên của tài liệu mà bạn cài trong Organizer bạn nên 
bỏ qua dòng sau: 
My Document. 

File đính kèm:

  • pdfthu_vien_so_greenstone.pdf