You are on page 1of 151

Wojewódzka Biblioteka Publiczna w Krakowie

W. M. Kolasa

Formaty hybrydowe
w bibliotekach cyfrowych
(kontekst i praktyka)

Konferencja „Praktyczne aspekty


tworzenia bibliotek cyfrowych”.
Wojewódzka Biblioteka Publiczna
w Krakowie, 12.09.2008
Wojewódzka Biblioteka Publiczna w Krakowie

Plan wykáadu – cz. 1 z 3


1. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Dokument elektroniczny
w sensie normatywnym
• Definicje prawne
• Normy
• Cechy DE
• Struktura DE

• Co to jest format?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DE – prawo i normy
- ISO 15489 (miĊdzynarodowe)
- Model of Requirements for Records
Management (UE)
Polska:
- PN-ISO 15489-1:2006 i in.
- Ustawa o informatyzacji ... (Dz.U. 2005 nr 64, poz. 565),

- Ustawa o Ğwiadczeniu usáug drogą elektroniczną


(Dz.U. 2002 nr 144, poz. 1204)

- Ustawa o podpisie elektronicznym


(Dz.U. 2001 nr 130, poz. 1450)

- Kodeks Karny
Wojewódzka Biblioteka Publiczna w Krakowie

Definicje DE (1)
DE (komputerowy, cyfrowy) - dokument z sygnaáem
utrwalonym na noĞniku elektronicznym. Mogą to byü
komunikaty róĪnych jĊzyków naturalnych w subkodach
akustycznych i graficznych, inne komunikaty graficzne
jak obrazy, wykresy, animacje, filmy, komunikaty
dĨwiĊkowe, np. muzyka
(Sáownik encyklopedyczny informacji, jĊzyków i systemów... Warszawa 2002)

DE - zbiór danych wprowadzonych lub przechowywanych


na dowolnym noĞniku przez system informatyczny lub
podobny ukáad, które mogą byü odczytane lub
wyĞwietlone przez osobĊ lub przez tego rodzaju system
lub ukáad, a takĪe wszelkiego rodzaju prezentacja i
wszelkiego rodzaju przedstawienie tych danych w formie
drukowanej lub innej (Decyzja KE, 2004/563/WE)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Definicje DE (2)
DE - „dokument istniejący w postaci elektronicznej,
dostĊpny za poĞrednictwem techniki komputerowej”
(PN-ISO 690-2)

DE - „stanowiący odrĊbną caáoĞü znaczeniową zbiór


danych uporządkowanych w okreĞlonej strukturze
wewnĊtrznej i zapisany na informatycznym noĞniku
danych
(Ustawa o informatyzacji... 2005)

DE - „kaĪdy przedmiot lub zapis na komputerowym


noĞniku informacji, z którym jest wiązane okreĞlone
prawo albo który ze wzglĊdu na zawartą w nim treĞü
stanowi dowód prawa, stosunku prawnego lub
okolicznoĞci mającej znaczenie prawne”
(Kodeks Karny)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Prace nad terminologią


Ustawa o zmianie ustaw w celu ujednolicenia terminologii
informatycznej (w toku – skier. do podpisu Prezydenta - 5.09.2008)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

W Ğwietle PN-ISO 690-2

DE – [...] dokument istniejący w postaci


elektronicznej, dostĊpny za poĞrednictwem
techniki komputerowej [...]
• postaü
• medium

PN-ISO 690-2 Informacja i dokumentacja


- Zarządzanie dokumentami
Wojewódzka Biblioteka Publiczna w Krakowie

DE - cechy
1. Utrwalone na materialnym noĞniku;
2. MoĪna je odtwarzaü w formie umoĪliwiającej ich
percepcjĊ;

- Nie jest istotny rodzaj noĞnika i sposób transmisji;


- istotne zaĞ jest, aby dane mogáy byü wielokrotnie
odtwarzane.
Wojewódzka Biblioteka Publiczna w Krakowie

DE - wyróĪniki
1. ZawartoĞü – tekst, obraz, dĨwiĊk i in.;

2. Struktura logiczna, która nie musi byü toĪsama ze


strukturą fizyczną, gdyĪ moĪe byü zawarta
bezpoĞrednio w dokumencie, w bazie danych lub
pliku zewnĊtrznym;

3. Kontekst, czyli metadane techniczne okreĞlające w


jakiej postaci dokument bĊdzie prezentowany.

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Struktura DE
Struktura logiczna dokumentu elektronicznego - sposób
uáoĪenia informacji w dokumencie elektronicznym
zdefiniowany poprzez okreĞlenie elementów
informacyjnych oraz powiązaĔ miĊdzy nimi;

Struktura fizyczna dokumentu elektronicznego – wynik


przetworzenia, w tym kodowania i szyfrowania,
informacji zawartych w dokumencie elektronicznym
na dane w ukáadzie bitowym (czyli format danych);
danych

Rozporządzenie Prezesa Rady Ministrów z dnia 29 wrzeĞnia 2005 r. w sprawie warunków organizacyjno-
technicznych dorĊczania dokumentów elektronicznych podmiotom publicznym (Dz.U. 2005, nr 200, poz. 1651)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Dokument elektroniczny
w sensie praktycznym

• Rozumienie DE w bibliotece cyfrowej


• Oczekiwania wobec publikacji w bibliotece cyfrowej
• Porównanie procesu tworzenia publikacji tradycyjnej
i elektronicznej
• Konsekwencje dla bibliotek

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DE w sensie praktycznym
Z punktu widzenia bibliotek cyfrowych obecnej generacji
wáaĞciwsze jest operowanie pojĊciem publikacji cyfrowej,
którą naleĪy traktowaü wąsko:

... to ksiąĪka tradycyjna na


noĞniku elektronicznym

Podobny lub identyczny:


ƒ proces tworzenia
ƒ proces redakcji, recenzowania
ƒ proces skáadu
Wojewódzka Biblioteka Publiczna w Krakowie

Oczekiwania czytelników
Format zapisu e-ksiąĪki winien oferowaü takie parametry,
aby higiena jej czytania byáa nie gorsza niĪ ksiąĪki
tradycyjnej.

600 DPI
24 BPP

djvu
6283x9094 pikseli
280 kB
Wojewódzka Biblioteka Publiczna w Krakowie

WartoĞü dodana - ZOOM


Wojewódzka Biblioteka Publiczna w Krakowie

Z myĞlą o przyszáoĞci

Ile cali
bĊdzie miaá
monitor
przyszáoĞci?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

WartoĞü dodana - OCR


Wojewódzka Biblioteka Publiczna w Krakowie

KsiąĪka tradycyjna a e-ksiąĪka


KsiąĪka wspóáczesna (druk cyfrowy)

Przygotowanie Maszyny
drukarskie
Autor
Recenzent KsiąĪka tradycyjna
Redakcja PDF
DTP e-KsiąĪka

Biblioteka
Przygotowanie
cyfrowa
+ metadane
Wojewódzka Biblioteka Publiczna w Krakowie

KsiąĪka tradycyjna a e-ksiąĪka


KsiąĪka dawna lub drukowana z uĪyciem klisz

Autor
Recenzent?
Redakcja?
DTP?
Przygotowanie Biblioteka
cyfrowa

Skanowanie TIFF + metadane


Wojewódzka Biblioteka Publiczna w Krakowie

Biblioteka cyfr. – nowe zadania


• Funkcje typowe dla drukarni:
• przetwarzanie skáadu;
• montowanie publikacji;
• skanowanie, konwersja;
• Funkcje typowe dla wydawców:
• umowy licencyjne;
• regulacja praw autorskich;
• doraĨna redakcja i skáad DTP;
• Funkcje typowe dla firm hostingowych:
• utrzymanie w ruchu infrastruktury serwerów i áączy.
Wojewódzka Biblioteka Publiczna w Krakowie

Plan wykáadu – cz. 2 z 3


1. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty dokumentów
• Formaty w cyklu tworzenia publikacji cyfrowej
• O etapach cyklu
• Ogólna typologia formatów

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Cykl tworzenia PC a formaty


1. Przygotowanie materiaáów do digitalizacji
2. Digitalizacja Formaty
poĞrednie
3. Obróbka plików, porządkowanie

Format
4. Przechowywanie
archiwalny

5. UdostĊpnianie Format
prezencyjny

* PC - publikacja cyfrowa

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

1. Przygotowanie materiaáu
Strategie:
• Digitalizacja;
• Digitalizacja wraz z konserwacją;
• Digitalizacja poáączona z mikrofilmowaniem.
• Konwersja z formatów stosowanych w DTP do PDF

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Przygotowanie – podziaá mat.


Typ oryginaáu:
• czarno-biaáe (druk, rysunek itp.);
• kolorowe i póátonowe (fotografie, grafika itp.);
Format oryginaáu
• Maáe (do A4);
• ĝrednie (A3-A2);
• DuĪe (A1 i wiĊksze);
Obiekty cenne

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

2. Digitalizacja
Metody:
• Skanowanie lub filmowanie oryginaáu;
• Skanowanie z mikroform;
• Skanowanie z filmów negatywowych;
• Konwersja z formatów poĞrednich „paradigitalizacja”

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

3. Obróbka plików
• Formaty plików (standardy i dobór);
• Wersjonowanie (f. archiwalny i prezencyjny);
• Retusz (f. prezencyjny);
• Konwersja (f. prezencyjny);
• OCR (f. prezencyjny);
• àączenie i indeksowanie (f. archiwalny i prezencyjny).

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

4. Utrwalenie, archiwizacja
NoĞniki:
• CD/DVD/BD;
• Dyski;
System oznaczeĔ
• Notacja;
• Obsáuga wersjonowania;
Zabezpieczenia:
• 1 kopia (macierz archiwalna) – f. archiwalny;
• 2 kopia (macierz uĪytkowa) – f. archiwalny;
• 3 kopia (egz. uĪytkowy) – f. prezencyjny.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty poĞrednie
Zagadnienia:
• Automatyzacja zapisu skanów
• System notacji (nazwa, _,-, Aa, cyfry)
gazeta_polska_1867_nr_078_s_0001
• NoĞnik

Problemy:
• Pliki jedno- i wielostronicowe
• Skanowanie stron nieparzystych
• Skanowanie mat. w róĪnych trybach (bitonal, gray)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

5. Przechowywanie i udostĊpnianie
Problem trwaáoĞci noĞnika:
• CD/DVD/BD, HDD, Internet
• mikroformy
UdostĊpnianie:
• Offline (f. prezencyjny, f. archiwalny);
• intranet;
• noĞniki CD/DVD/BD;
• Online (f. prezencyjny);
Usáugi: wydruki, wyp. miedzybibliot., usáugi komercyjne

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty archiwalne i prezencyjne


Cechy formatu archiwalnego (FA):
1. wysoka jakoĞü;
2. wierne odwzorowanie oryginaáu.

Cechy formatu prezencyjnego (FP):


1. maáe rozmiary;
2. akceptowalna jakoĞü;
3. wysoki poziom zorganizowania (indeksowania).

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty archiwalne i prezencyjne

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Zalecane formaty archiwalne


• TIF – bezstratna kompresja, obsáuga przestrzeni
barwnej (RGB, CMYK) i wszystkich trybów gáĊbi
bitowej; standard miĊdzyplatformowy (win/mac/unix)
• w wersji master - raczej bez kompresji
• raczej nie stosowaü plików wielostronicowych.

• PDF/A - ISO 19005:2005


• zasadniczo chodzi tu o zaimportowanie do PDF
dowolnych plików pierwotnych.
• bezpoĞrednio nie sáuĪy do odtwarzania danych
– ma jedynie umoĪliwiü ich bezstratny eksport.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Zalecane parametry dla FA


Dokumenty tekstowe: rozdzielczoĞü (600 DPI); gáĊbia
bitowa (24 lub 36 BPP)
RĊkopisy: rozdzielczoĞü (600-800 DPI); gáĊbia bitowa
(36 lub 48 BPP)
Ikonografia: rozdzielczoĞü (300-600 DPI); gáĊbia bitowa
(24 lub 36 BPP);
Fotografie: rozdzielczoĞü (3200-6400 DPI); gáĊbia
bitowa (16, 36, 48 BPP);
Mikrofilmy: rozdzielczoĞü (3200 DPI); gáĊbia bitowa
(16 BPP);
Szerzej - Decyzja NDAP (2005)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

ObjĊtoĞü a gáĊbia i rozdzielczoĞü


ObjĊtoĞü przykáadowego skanu A4 (TIF, bez kompresji)

800
700
600
500
400 300 dpi
400 dpi
300
600 dpi
200
1200 dpi
100
0
szaroĞci 8

szaroĞci

Kolor 36

Kolor 48
Skala
16 bit
Skala

bit

bit
bit

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

ObjĊtoĞü a gáĊbia i rozdzielczoĞü


ObjĊtoĞü przykáadowego skanu A4 (TIF, bez kompresji)
Gray Gray Kolor Kolor
RozdzielczoĞü 8 bit 16 bit 36 bit 48 bit

300 dpi 8 16 33 50

400 dpi 16 32 60 100

600 dpi 33 66 133 200

1200 dpi 133 266 533 800

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

TIF – kompresja

ħródáo: A. Trembowiecki, Digitalizacja zbiorów bibliotecznych. Teoria i praktyka, Warszawa 2006


Wojewódzka Biblioteka Publiczna w Krakowie

Formaty prezencyjne

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty prezencyjne - typologia


‰ Tekstowe
• nieadnotowane (np. TXT) ***
• adnotowane (np. RTF)
‰ Graficzne
• rastrowe (TIF, BMP, JPG, GIF, PNG) ***
• wektorowe (np. CorelDraw, AutoCAD)
• inne natywne (np. Photoshop, CorelPhoto-Paint)
‰ Hybrydowe (PDF, djVu) ***
‰ Specjalne: audio, wideo, aplikacyjne...
*** Formaty stosowane w bibliotekach cyfrowych
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty a generacje bibliotek


Biblioteki I generacji (1971-1995):
- tekstowe (ASCI, HTML, RTF itp.) lub
- grafika rastrowa (GIF, JPG, TIF, PNG).

Biblioteki II generacji:
- formaty hybrydowe: DJVu, PDF;
- formaty graficzne: JPG, JPG2000, PNG, GIF + java;
- formaty specjalne: mapy, nuty (zoomity, sibelius);
- formaty multimedialne: mp3, mpeg, flash;
- formaty aplikacyjne: np. java.
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty tekstowe - nieadnotowane


TXT – plik tekstowy pozbawiony elementów
typograficznych (formatowania). Zakodowany
w standardzie ANSI lub UTF.
Przykáad: Ala ma kota (11 znaków – 11 bajtów)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty tekstowe - adnotowane


Np. RTF - (Rich Text Format). W odróĪnieniu od TXT
pozwala na zapis formatowania.
Od wersji 1.6 obsáuguje UTF.
Przykáad: Ala ma kota
(11 znaków – 189 b)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty tekstowe - zalety i wady


Zalety:
• Maáy rozmiar pliku;
• MoĪliwoĞü wyszukiwania tekstowego;
Wady:
• Niski wspóáczynnik bezpieczeĔstwa;
• Liczne standardy kodowania (ANSI, ISO, UTF...);
• Formaty i aplikacje natywne (np. Word);
• Brak moĪliwoĞci wiernego odwzorowania oryg.;
• MoĪliwe problemy z czcionkami (typy, kroje);
• DuĪy nakáad pracy podczas konwersji (OCR).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Grafika rastrowa - wybór


• JPEG – peána paleta barw, wysoki wspóáczynnik
kompresji (tylko stratna), moĪliwa progresja, brak
kanaáu przezroczystoĞci. Dobre efekty i wierne odwzor
dla obrazów z duĪa liczbą szczegóáów.
• GIF – 256 kolorów, kanaá przezroczystoĞci, wysoki
wspóáczynnik kompresji (tylko stratna). Dobre efekty
dla obrazów z duĪymi jednorodnymi przestrzeniami.
• PNG – nastĊpca GIFa, peána paleta barw, moĪliwa
kompresja bezstratna. Sprawdza siĊ tylko dla
niektórych kategorii obrazów (zrzuty, mapy).
• TIF – jako format prezencyjny sprawdza siĊ tylko dla
obrazów bitonalnych, moĪliwa kompresja bezstratna.

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Obraz – kompresja stratna


Bez kompresji (196 kB)

Kompresja 25% (4 kB)

Kompresja 5% (1,7 kB)


ħródáo: Wikipedia
Wojewódzka Biblioteka Publiczna w Krakowie

Tekst – kompresja tekstu


Bez kompresji (5 kB)

Kompresja 25% (2 kB)

Kompresja 5% (1,2 kB)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

GáĊbia a jakoĞü

24 BPP 8 BPP 4 BPP

8 BPP 4 BPP 1 BPP


W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Dla wiĊkszoĞci skanowanych druków

Bitonal
Kolor 4-8 BPP 1 BPP Gray 4 BPP
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Dla wspóáczesnych wyd. ilustrowanych

RGB
Kolor
24 BP

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Problem prezentacji rastra


• Raster - bitonalny obraz skáadający siĊ z drobnych
kropek (lub linii), dający podczas oglądania z
normalnej odlegáoĞci wraĪenie istnienia póátonów

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Raster w gazecie z lat 60.

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Záudzenia optyczne (raster, 1BPP)


wygáadzony brak wygáadzenia

FastStone
ImageViewer

FastStone
MaxView

xnView
Programowe renderowanie obrazów
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Korekty

ħródáo: L. BuczyĔski: Skanery i skanowanie. Warszawa 2005

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Przetwarzanie wsadowe (win)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Przetwarzanie wsadowe (unix)


ImageMagick/DJVulibre/bash (przykáady):

• Wszystkie djvu do tiff [1 strona] (ddjvu):


find . -name '*.djvu' -exec ddjvu -v -format=tiff -
page=1 {} {}.tiff ';’

• Miniatury 200 pix z wszystkich tiff (ImageMagick):

find . -name '*.tiff' -exec mogrify -format jpg -quality


82 -thumbnail 200 {} ';’

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

NarzĊdzia do grafiki rastrowej


Edytory:
• Adobe Photoshop – komercyjny (win, mac) – GUI;
• Gimp – bezpáatny (unix, win, mac) – GUI;
• ImageMagic – bezpáatny (unix, win, mac) – konsola.

Przeglądarki i konwertery (bezpáatne):


• FastStone Viewer (win);
• xnView (win);
• irfanView (win);
• liczne narzĊdzia (linux, mac)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Formaty rastrowe - zalety i wady


Zalety:
• Wierne odwzorowanie oryginaáu;
• Maáy nakáad pracy podczas tworzenia;
• Standardy miĊdzyplatformowe (jpeg, gif, tif, png);
• àatwoĞü uĪytkowania, duĪa popularnoĞü na www.
Wady:
• DuĪa objĊtoĞü pliku (w stosunku do jakoĞci);
• Brak moĪliwoĞci osadzania warstwy tekstowej;
• Zwykle poddane kompresji stratnej (prezencyjne);
• Niski poziom zorganizowania (obrazy jednostr.).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Dylemat: tekst czy grafika


Kazania witokrzyskie

nieczytelne,
autentyczne

czytelne,
nieautentyczne

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Plan wykáadu – cz. 3 z 3


1. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Format hybrydowy
Cechy:
• MoĪe áączyü cechy formatów tekstowych i
graficznych;
• Oferuje wysoki poziom zorganizowania
– moĪliwa obsáuga struktury logicznej dokumentu;
• Inne nowe moĪliwoĞci
Wybrane specyfikacje:
• PDF
• DJVu

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Portable Document Format


PDF (Portable Document Format) - jest formatem plików
sáuĪącym do prezentacji, przenoszenia, drukowania
i przechowywania treĞci tekstowo-graficznych.
JĊzykiem opisu PDF jest okrojona wersja jĊzyka
PostScript wzbogacona o elementy hipertekstowe
i aplikacyjne.

Twórca: Adobe Systems

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Portable Document Format


PDF w zaleĪnoĞci od wersji moĪe peániü okreĞlone
funkcje:
1. Zastosowanie do celów poligraficznych – PDF/X
(ISO 15930; ISO TC130)
2. Kontenera danych – PDF/A (ISO 19005; ISO TC171)
3. Zastosowanie do wymiany obiektów graficznych i
dokumentacji technicznej – PDF/E (ISO TC171)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Portable Document Format


• W plikach PDF moĪe byü zawarty tekst, grafika
(rastrowa, wektorowa), a takĪe elementy aktywne.
• W styczniu 2007 Adobe caákowicie otwaráa format
PDF i przekazaáa jego specyfikacjĊ organizacji AIIM.
• 2 lipca 2008 ogáoszono normĊ ISO 32000-1:2008

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Czym jest PDF?


1. PDF – podstawa nowoczesnej poligrafii
(duĪe pliki wysoka jakoĞü – np. PDF/X).
2. MoĪe peániü funkcjĊ kontenera (PDF/A; PDF/E).

3. PDF – jako format prezencyjny


- ale po wyrafinowanych zabiegach adaptacyjnych.
4. PDF – w peáni poprawnie funkcjonuje tylko na
oprogramowaniu Adobe.
5. Mogą istnieü problemy prawne (por. licencje EULA).
6. PDF – format bardzo záoĪony, áączy: tekst, grafikĊ
rastrowa i wektorową oraz elementy aplikacyjne.
Wojewódzka Biblioteka Publiczna w Krakowie

PDF (w poligrafii i nie tylko)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF - narzĊdzia
1. Adobe Acrobat - edytor (komercyjny)*
2. Brak godnych polecenia edytorów bezpáatnych;
3. Liczne przeglądarki (na czele z Adobe Reader);
4. Liczne drukarki wirtualne (z reguáy bezpáatne) lub
wbudowane w aplikacje (np. MS Office, AutoCad);
5. Liczne narzĊdzia do manipulacji na plikach PDF;
6. Poza Adobe Acrobatem wszystkie narządza oferują
tylko pewien poziom obsáugi formatu PDF (skutkuje
to záą jakoĞcią, rozmiarem, niepoprawnymi
parametrami).
* Nadto inne specjalistyczne stosowane w poligrafii

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Adobe Acrobat 8.0 Prof. (9.0)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Adobe Acrobat – wybrane funkcje


- moĪliwoĞü manipulacji na danych (ukáad, grafika,
tekst, czcionki, parametry obiektów itp.);
- moĪliwoĞü importu dowolnych danych;
- moĪliwoĞü dodania warstwy OCR*;
- zabezpieczenia; metadane;
- narządza do edycji i optymalizacji;
optymalizacji
- formularze, komentarze,
- liczne opcje eksportu;
- narzĊdzia kontroli i inspekcji.
* Niska jakoĞü wbudowanego engine OCR

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – (zaimportowany TIF)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – obiekt tekstowo-graficzny

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – osadzone matadane

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – osadzony DublinCore

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Optymalizacja – zawsze potrzebna

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – wirtualne drukarki


Mimo szerokiej oferty programów – tylko nieliczne
dziaáają w peáni poprawnie:
1. NarzĊdzia oparte na silniku Adobe:
• Acrobat Distiller i kontrolki Adobe (InDesign i in.)
• Wtyczki do popularnych programów (Word, Corel,
AutoCad)
2. Niektóre programy oparte na GPL/AFPL GhostScript:
• PDF Creator*;
• Wtyczki do OpenOffice i GoogleDoc.
3. Uniksowe narzĊdzia do PostScriptu.
* Drobne báĊdy
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Adobe Distiller

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – eksport z InDesign

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF Creator

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF Creator – báĊdy

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – edycja
Nieliczne dziaáające poprawnie bezpáatne programy,
które sáuĪba do áączenia, dzielenia, naprawy,
nakáadania znaków wodnych; ustawiania
zabezpieczeĔ; manipulacji na PDF.

- PDF Tools (win)


- PDFTK (win, unix)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDFTools
• http://www.sheelapps.com/

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF TK (unix)
Wybrane polecenia:
• rozdziel na pojedyncze strony:
pdftk nazwa.pdf burst
• sklej wszystkie pliki pdf):
pdftk cat *.pdf output nowy.pdf
• napraw plik:
pdftk stary.pdf output nowy.pdf
• zmieĔ wersjĊ PDF (do 1.2):

ps2pdf12 stary.pdf nowy.pdf

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF TK (win)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDF – eksport
FunkcjĊ kontrolera eksportu do tif/jpg moĪe peániü :
• Ghostscript/Ghostview lub jego klony:
• PDFill PDF Tools lub
• PDF-XChange

NarzĊdzia te nie oferują dostĊpu do opcji zaawansowanych

Brak jednak sprawnych bezpáatnych programów do


optymalizacji PDF i edycji metadanych.

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

PDFill

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

AFPL GhostScript+GSview

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Nowe horyzonty AdobeDigital

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

AdobeDigital

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

AdobeDigital

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞü: Adobe DC: http://www.adobe.com/devnet/acrobat/

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞü: PDF Zone: http://www.pdfzone.com/

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞü: Planet PDF http://www.planetpdf.com/

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Zalety i wady PDF (jako formatu prezencyjnego)

Zalety
• PopularnoĞü, áatwoĞü uĪytkowania;
• Idealny dla maáych tekstowych dokumentów;
• UmoĪliwia popr. wyĞwietlanie skomplikowanych
znaków (np. mat., chem.) tworzonych LaTeXem.
Wady:
• DuĪe rozmiary plików dla dokumentów innych niĪ
tekstowe;
• Problem z sekwencyjnym serwowaniem i
wyĞwietlaniem stron;
• Potencjalne problemy z osadzonymi fontami.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu
DjVu - technologia rozwijana od 1996 r. przez koncern
AT&T do kompresji skanowanych dokumentów.
Oprogramowanie oparte na tej technologii stworzyáa i
opatentowaáa firma LizardTech Inc.
Od 2008 roku – technologia rozwijana pod szyldem
Celartem Technology Inc. (spóáki matki, która jest
wáaĞcicielem LizardTecha).

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Czym jest DjVu


Format DJVu w przeciwieĔstwie do PDF ma charakter
czysto graficzny.
• Algorytm DJVu opiera siĊ na metodzie segmentacji
obrazu i wydzieleniu warstw (por. Photoshop)
• Wynikowe pliki - najmniejsze z moĪliwych (por. JPG)
• MoĪe mieü zakotwiczona warstwĊ tekstową OCR.
• Jasny status prawny – brak ograniczeĔ licencyjnych
zarówno do celów nie komercyjnych jak i niekomerc.
• Istnieją zarówno komercyjne (Cartlem/LizardTech),
jak i bezpáatne aplikacje (DJVuLibre)
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu – wáaĞciwoĞci dokumentu

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Warstwy Trzy warstwy táa

Kolor
TreĞü
Táo
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Warstwy djvu

ħródáo: Léon Bottou: Efficient Conversion of Digital Documents to Raster Formats Multilayer (2001)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu – maáe rozmiary


Maáe rozmiary
Morfologia pliku djvu

Dokumenty DjVu
są nieedytowalne
dają wiĊc gwarancjĊ
wiarygodnoĞci
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu – kompresja (zestawienie)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu – pejzaĪ

W. M. Kolasa
DJVu – dokumenty matematyczne
DJVU - akwarele
Wojewódzka Biblioteka Publiczna w Krakowie

Dokumentacja techniczna

ħródáo – GB Soft
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – portret

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – rysunek

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – jakoĞü poligraficzna


Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – jakoĞü poligraficzna


Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – zoom 1000% (600 dpi)

JakoĞü
poligraficzna

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu - oprogramowanie
Edytory:
Document Express – edytor, komercyjny (win, unix)
DJVU Virtual Printer – drukarka, komercyjna (win)
DjVu Solo – prosty bezpáatny edytor (win)
DjVuLibre – bezpáatny pakiet narzĊdziowy (unix, win)

Przeglądarki (bezpá.):
- DjVu Browser (LizardTech) 6.1
- DJView 4.3 (DjVuLibre)
- Inne (unix, win i inne) – wyraĨnie sáabsze
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Document Express Editor

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Document Express Editor Prof.


Funkcje*:
- import plików (TIF, BMP, inne)
- manipulacje stronami dokumentu;
- dodawanie adnotacji, etykiet, linków;
- OCR
- eksport do formatów graficznych;
- wydruk do DjVu z dowolnej aplikacji (drukarka)
- obsáuga skanowania

* W wersji Enterprise znacznie wiĊcej opcji i funkcji


W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu Solo (bezpáatny)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu Virtual Printer

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVuLibre (unix) - przykáady


• Wszystkie PDF do djvu (bez OCR) [peány kolor]
find . -name '*.pdf' -exec djvudigital -dpi=600
-exact-color {} ';'
• Wstaw adnotacjĊ do wszystkich djvu
find
find .. -name
-name 'e*.djvu'
'e*.djvu' -exec
-exec djvused
djvused -f
-f
nasz.txt
nasz.txt{} -s
{}-v-s';’
-v ';’
• OsadĨ miniaturki we wszystkich djvu
find
find .. -name
-name '*.djvu'
'*.djvu' -exec
-exec djvused
djvused {}
{}
-e 'set-thumbnails'
-e 'set-thumbnails'-s -v-s';'
-v ';'
• Zapisz jako rozdzielony:
.../djvmcvt
...\ djvmcvt-i-iinput.djvu
input.djvu. .index.djvu
index.djvu
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

pdf2djvu (unix) - przykáady


Konwersja pdf do djvu (wraz z OCR)
root@helios:~/pdfx/$ pdf2djvu --words --dpi=600
pismo.pdf > pismo.djvu:
- page #1 -> #1
...
0.227 bits/pixel; 1.656:1, 39.62% saved, 1275423
bytes in, 770040 bytes out

Niestabilna wersja
windows/cygwin
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DjVu Browser – szybki, sprawny


• TreĞü

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJView 4.3 – nowe moĪliwoĞci

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

NajwiĊksze biblioteki (z DJVu)


• Internet Archive: http://www.archive.org/
• Open Library: http://openlibrary.org/
• Gutenberg Consortia Center: http://gutenberg.cc/
• Nadto liczne o zasiĊgu narodowym:
• USA
• Japonia
• Rosja
• Polska
• Islandia
• Wáochy i in.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Wiele formatów: IA/OL


• TreĞü

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu z IA
• TreĞü

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Zalety i wady DJVu


Zalety
• Bardzo maáe rozmiary;
• Sekwencyjne wyĞwietlanie (str. fizycznie rozdzielone);
• Idealny dla dáugich dokumentów;
• DuĪy wybór aplikacji komercyjnych i bezpáatnych;
• Jasna sytuacja prawna, wsparcie w Polsce (GB Soft).
Wady
• Nieco trudny w obsáudze w fazie tworzenia, konwersji;
• Maáo skuteczny engine OCR wbudowany w DE.

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Kilka wskazówek
• Jak w djvu poprawiü OCR?
• Jak wykonaü djvu i OCR przy 72 dpi?
• Jak zaprojektowaü rozwiązanie serwerowe

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Poprawa OCR
1. Eksport DJVu do TIFF wielostronicowy (najlepiej 1BPP)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Poprawa OCR
2. OCR w Abbyy Fine Reader i zapis do wiązki

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Poprawa OCR – osadzanie wiązki

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVuOCR – inne opcje

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVuLibre – djvused [edytor]


• Fragment strony pomocy:
Parametr:
-- set-txt [djvusedtxtfile]
Insert hidden text information into the selected pages. The optional
argument djvusedtxtfile names a file containing the hidden text information.
This file must contain data similar to what is produced by command print-
txt. When the optional argument is omitted, the program reads the hidden
text information from the djvused script until reaching an end-of-file or a
line containing a single period.
....

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Jak wykonaü djvu i OCR z 72 dpi?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Jak wykonaü djvu i OCR z 72 dpi?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – rozwiązanie serwerowe


1. Infrastruktura oparta na Document Express Enterprise
wraz z elementami dedykowanymi – komercyjne
2. Infrastruktura wykorzystująca równolegle Document
Express Prof. i komponenty bezpáatne na platformĊ
linuksa (DJVuLibre, Tesseract, ImageMagick, pdftk).
3. Jak 2. – ale zamiast Tesseracta uĪywany jest Abbyy
FineReader (komercyjny).

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – serw. rozwiązanie 2-3


1. Dwie metody tworzenia djvu:
• na platformie linuksa – wówczas jedynie kopiujemy
pdf lub tif na serwer (DJVuLibre lub pdf2djvu);
• wykonane w aplikacjach windows – w tym
przypadku kopiujemy na serwer pliki djvu do
dalszej obróbki;
2. Przed OCR. eksport djvu do TIFF (ddjvu);
3. OCR (Tesseract lub FineReader);
4. Osadzanie tekstu z djvu (djvused)
5. CzynnoĞci koĔcowe: miniatury jpg, thumb, rozdzielnie
6. Kopiowanie gotowych katalogów z serwera na udziaáy samby.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

DJVu – rozwiązanie serwerowe


PDF/X
mają duĪą
objĊtoĞü
FTP 4 Mb/s

PDF-djvu –
konwersja
formatu A2
trwa dáugo
(30 sek./str.)

Obróbka
grafiki
potrzebuje
duĪej mocy
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Abbyy FineReader – skuteczny, inteligentny

ħródáo: AutoID

API (rozwiązania dedykowane) wersja pudeákowa


W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Tesseract - bezpáatny

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Kto tak pracuje?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Google Books - tekst

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Any2DjVu Server

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞci

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞci

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

SpoáecznoĞci

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Inne formaty: TeX


Natywne formaty prezencyjne TeX, Latex – popularne w
krĊgach matematyków, fizyków i inĪynierów (*.dvi)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Inne formaty: postscript


PostScript - niezaleĪnym od urządzenia wyjĞciowego
jĊzykiem programowania, który opisuje tekst
i grafikĊ na stronie.
Jego polecenia sterują drukarką laserową (lub dowolnym
innym urządzeniem postscriptowym), umieszczając w
odpowiednim miejscu liniĊ, okrąg, tekst czy teĪ mapĊ
bitową.
Do odczytu plików Postscriptowych (*.ps) moĪna uĪyü
programu GhostScript (GSview)

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Zoomify EZ, Google Maps


Inteligentna forma prezentacji jpg (ciĊcie, scalanie)
Wojewódzka Biblioteka Publiczna w Krakowie

Zoomify (z Photoshopem)
Sibelius
Inteligentna forma áączenia obrazu i dĨwiĊku

Wtyczka

W. M. Kolasa
Sibelius

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Technologia czy sztuka?

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Technologia

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Sztuka

W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie

Profesja

W. M. Kolasa
DziĊkujĊ

You might also like