Przeszukujac Internet

RAPORT SPECJALNY
PRZESZUKUJC INTERNET
Czy poczenie umiejtnoci bibliotekarza i komputerowego guru
pomoe w opanowaniu anarchii w Internecie?
Clifford Lynch
BRYAN CHRISTIE
JEFF BRICE
zsto nazywa si Internet

wiatow bibliotek epoki cyfrowej. To okrelenie nie wytrzymuje jednak nawet pobienej analizy. Internet a szczeglnie jego
zbir multimedialnych zasobw znany jako World Wide Web nie zosta
stworzony z myl o uporzdkowaniu publikacji dajcym moliwo
wyszukiwania ich tak jak w bibliotece.
Jego rozwj doprowadzi do czego, co
da si porwna do bezadnego zbioru
efektw pracy cyfrowych maszyn drukarskich na caym wiecie. Ten magazyn informacji zawiera nie tylko ksiki i dokumenty, ale rwnie dane
naukowe, przepisy, reklamy, notatki ze
spotka, nagrania audio i wideo, zapisy interaktywnych konwersacji. Rzeczy
efemeryczne przemieszane s z pracami
o wartoci nieprzemijajcej.
Mwic krtko, Internet nie jest cyfrow bibliotek. Ale jeli jego rozwj
nie straci na tempie i doprowadzi do

uczynienia ze nowego rodka komunikacji, zajdzie potrzeba zorganizowania
czego bardzo podobnego do tradycyjnych usug bibliotecznych. Bdzie si to
wizao z koniecznoci uporzdkowania, udostpniania i archiwizowania informacji zgromadzonych w Sieci. Nawet wtedy Internet nie musi jednak
przypomina tradycyjnej biblioteki, poniewa jego zawarto jest znacznie bardziej rozproszona. Umiejtnoci klasyfikacji i selekcji, ktrymi dysponuj
bibliotekarze, trzeba bdzie uzupeni
umiejtnociami informatyka automatycznego indeksowania i przechowywania informacji. Tylko synteza

obu profesji pozwoli nowemu medium zachowa ywotno.
Dzi prawie caa odpowiedzialno
za uporzdkowanie informacji w Internecie spoczywa na technice komputerowej. W teorii oprogramowanie, ktre klasyfikuje i indeksuje zbiory
danych cyfrowych, powinno poradzi
sobie z zalewem informacji zgromadzonej w Sieci, co przekracza moliwoci
bibliotekarzy i archiwistw. Do automatycznego przetwarzania informacji
bd suy coraz szybsze i coraz tasze komputery; pozwoli to unikn wysokich kosztw i opnie zwizanych
z indeksowaniem wykonywanym przez
czowieka.
Ale jak wie kady, kto kiedykolwiek
przeszukiwa Sie, automaty kategoryzuj informacje inaczej ni ludzie. W
PRZESZUKIWARKA odwiedza (przeczesuje) rne miejsca w World Wide Web, pokazane tu jako niebieskie kule. te i niebieskie linie oznaczaj dane wejciowe i wyjciowe serwera przeszukiwarki (czerwona wiea), gdzie strony WWW s wgrywane. Oprogramowanie serwera tworzy indeks (beowa kartka), do ktrego ma dostp uytkownik.
pewnym sensie praca wykonywana

przez rozmaite narzdzia indeksujce
i katalogujce znane jako przeszukiwarki jest wysoce demokratyczna. Maszyna
ujednolica podejcie do kadej informacji. W praktyce ten elektroniczny egalitaryzm ma rwnie ze strony. Internauci, ktrzy formuuj zapytanie, otrzymuj czsto w odpowiedzi listy zawierajce tysice pozycji. Na listach tych
znajduj czsto odnoniki do nie zwizanych z tematem miejsc, brak na nich
natomiast innych, ktre kieruj do
materiaw istotnych.
Roboty sieci
Mechanizm elektronicznego indeksowania zrozumiemy, analizujc, jak sieciowe przeszukiwarki, takie jak Lycos
czy AltaVista, tworz za pomoc programw indeksy i znajduj informacje,
o ktre pyta uytkownik. Co pewien czas
uruchamiaj one programy (bdziemy
je nazywa robotami indeksujcymi
crawlers, spiders, indexing robots) odwiedzajce kade miejsce w Sieci, ktre
potrafi znale. Miejsce zawiera zbir
dokumentw zwanych stronami internetowymi. Robot indeksujcy przeglda strony i stara si uzyska informacje,
ktre mog posuy do ich opisu. Proces
ten nieco inny w szczegach w rnych przeszukiwarkach polega na zlokalizowaniu wikszoci sw pojawiajcych si na stronach internetowych lub
przeprowadzeniu zaawansowanej analizy w celu identyfikacji kluczowych sw
czy fraz. Nastpnie zostaj one umieszczone w bazie danych przeszukiwarki
wraz z adresem dokumentu, z ktrego
pochodz, zwanym URL (uniform resource locator). Uytkownik, korzystajc z przegldarki takiej jak popularny
Netscape, wysya pytania do bazy przeszukiwarki. W odpowiedzi otrzymuje list zasobw internetowych wraz z ich
adresami; klika na nie, gdy chce poczy si z danym miejscem.
Internetowe przeszukiwarki odpowiadaj na miliony pyta dziennie. Staje si jasne, e nie s one idealnym narzdziem do przeszukiwania coraz
wikszych zasobw informacyjnych
zgromadzonych w Sieci. Inaczej ni ludzie trudnicy si archiwizacj automatyczne programy miewaj trudnoci
z identyfikacj charakteru dokumentu,
jego oglnej tematyki lub rodzaju na
przykad nie odrniaj powieci lub
poematu od reklamy.
Co wicej, w Internecie cigle brakuje standardw, ktre by uatwiay auto-
matyczne indeksowaSERWERY .com

PRZYPUSZCZALNA
nie. Dokumenty w
(PROCENT WSZYSTKICH SERWERW)
LICZBA
SERWERW WWW 0 10 20 30 40 50 60 70
Sieci nie maj struktu2
130
CZERWIEC 1993
ry pozwalajcej pro620
GRUDZIE 1993
5
gramom wyuska w
2740
CZERWIEC 1994
14
sposb niezawodny
10 000
GRUDZIE 1994
18
najprostszych infor23 500
CZERWIEC 1995
31
macji, ktre czowiek
100 000
STYCZE 1996
50
uzyskuje, przeglda230 000
CZERWIEC 1996
68
jc dokument na ekra650 000
STYCZE 1997
63
nie nazwisko autora,
dat publikacji, du-
LICZBA KOMPUTERW BAZOWYCH
go tekstu, jego te(MILIONY)
0
2
4
6
8
10
12
matyk (informacje ta1.3
kie nazywaj si me- STYCZE 1993
2.2
tadanymi). Interneto- STYCZE 1994
4.9
wy robot moe zna- STYCZE 1995
9.5
STYCZE 1996
le poszukiwany ar12.9
LIPIEC 1996
tyku Jana Kowalskiego, ale rwnie tysi- ROZWJ I ZMIANY w Internecie oddaje zwikszajca si liczce innych dokumen- ba serwerw World Wide Web, komputerw bazowych i komertw, w ktrych to po- cyjnych serwerw, czyli tych, ktre znajduj si w domenie .com
pularne imi i nazwisko pada w tekcie lub w przypisach
ju pewne rezultaty. aden program nie
bibliograficznych.
potrafi jednak wydedukowa ukrytych
Czasami ta nieselektywno automaznacze i konotacji kulturowych (nie odtycznego indeksowania jest wykorzygadnie na przykad, e obraz, na ktrym
stywana. Kto moe spowodowa, by
grupa mczyzn si posila, przedstawia
dany dokument by wybierany czciej,
Ostatni Wieczerz).
powtarzajc w nim kilkakrotnie sowo
Jednoczenie cigle zmienia si strukwystpujce w wielu zapytaniach, na
tura sieciowej informacji i czsto indekprzykad seks. Przeszukiwarka pokasujcy robot nie umie tej informacji odzuje bowiem na pocztku te dokumenczyta. Wiele stron internetowych to ju
ty, w ktrych szukane sowo pojawia
nie statyczne pliki, ktre daj si analisi najczciej. Wykonujcy t sam prazowa i indeksowa za pomoc obecnie
c ludzie nie daliby si nabra na takie
stosowanych programw. Coraz czciej
naiwne sztuczki.
informacja wywietlana w dokumencie
Dla profesjonalisty sporzdzajcego
jest tworzona w czasie jej wyszukiwania
indeks fakt, e czci skadowe doku modyfikowana zgodnie z daniem
mentu s rnego rodzaju (od tekstu po
uytkownika. Serwer potrafi przygotofilm wideo) nie przedstawia trudnoci
wa map, tabel czy tekst, wykorzystupotrafi je przypisa do okrelonych kajc informacje z rnych obszarw swotegorii tematycznych. Fotografie z wojjej bazy danych. Wydawca gazety w
ny secesyjnej mog na przykad stanoInternecie moe pozwoli czytelnikowi
wi cz zbioru, ktry zawiera rwnie
na okrelenie osobistych preferencji; taka
muzyk z tamtego okresu czy wspowersja pisma bdzie wywietlaa wyczmnienia onierzy. Archiwista czowiek
nie artykuy o interesujcej go tematyce,
potrafi opisa, jak zbir zosta zorganina przykad dotyczce przemysu naftozowany w miejscu, w ktrym magazywego. Baza danych, z ktrej pochodz
nuje si na przykad programy dla
te artykuy, nie jest dostpna dla robota
komputerw Mackintosh. Historia daindeksujcego odwiedzajcego t zindynego miejsca internetowego, cel jego powidualizowan gazet.
wstania oraz charakter jest natomiast
Coraz czciej prowadzi si badania
poza zasigiem programu przeszukuzmierzajce do eliminacji niektrych
jcego Sie.
problemw zwizanych z automatyczInn wad automatycznego indeksonymi metodami klasyfikacji. Jedno z
wania jest to, e wikszo przeszukiwaproponowanych podej polega na dorek rozpoznaje tylko tekst. Wielkie zaindawaniu metadanych do dokumentw,
teresowanie wiatow Pajczyn wzio
tak aby systemy indeksujce mogy te
si jednak std, e pozwala ona rwnie
informacje gromadzi. Najlepsze wynina wywietlanie zdj, rysunkw czy wiki w tej dziedzinie maj projekty specydeo. Badania nad rozpoznawaniem kolofikacji Dublin Core Metadata i zwizarw i wzorw na ilustracjach przyniosy
ny z nim Warwick Framework nazwa
WIAT NAUKI Maj 1997 31
Na podstawie danych Mathew K. Graya: BRYAN CHRISTIE
RAPORT SPECJALNY
RAPORT SPECJALNY
INDEKSOWANIE
AUTOMATYCZNE
STRONA
INDEKSOWANIE
PRZEZ CZOWIEKA
AUTOMATYCZNE INDEKSOWANIE Sieci przez robota analizuje stron (z lewej)

przez oznaczenie wikszoci sw jako terminw indeksujcych (porodku u gry) lub
grupowanie sw w proste wyraenia (porodku na dole). Indeksowanie wykonane
przez czowieka (z prawej) dziki dodatkowym informacjom pozwala pozna kontekst
uytych wyrazw.
pierwszego pochodzi od Dublina w stanie Ohio, drugiego natomiast od Warwick w Wielkiej Brytanii. Zatrudnione
przy nich zespoy zdefinioway zestaw
metadanych, ktre s prostsze ni w tradycyjnych katalogach bibliotecznych,
oraz opracoway sposoby ich wczania
do stron internetowych.
Klasyfikacja metadanych miaaby obejmowa rne kategorie: od tytuu i autora do typu dokumentu (np. tekst czy wideo). Ich wyszukiwaniem mogliby si
zajmowa zarwno ludzie, jak i programy indeksujce. Tak zdobyte metadane
BRYAN CHRISTIE
Jak znale obraz w Sieci

Gary Stix
nternet wyszed na swoje kilka lat temu, gdy pojawia si World
Wide Web z szerok palet fotografii, animacji, rysunkw, dwiku i wideo, zawierajcych wszystko od wybitnych dzie sztuki
po czyst pornografi. Pomimo ogromnej liczby materiaw multimedialnych znalezienie tych, ktre interesuj uytkownika na
setkach tysicy serwerw internetowych, cigle jeszcze wymaga wyszukiwania w indeksach sw lub liczb.
Kto, kto wpisze sowa polska flaga do popularnej przeszukiwarki AltaVista, ma szans dotrze do obrazu polskiej flagi tylko
wtedy, gdy jest ona tymi sowami opisana. Ale co ma zrobi kto,
kto pamita kolory flagi, ale nie wie, z jakiego kraju ona pochodzi?
Najlepiej byoby, gdyby przeszukiwarka pozwolia uytkownikowi narysowa lub zeskanowa prostokt, ktrego grna poowa byaby biaa, a dolna czerwona, i nastpnie odnalaza podobne obrazy wrd milionw ilustracji umieszczonych na serwerach
internetowych. W ostatnich latach techniki czce indeksowanie
sw i analiz obrazu zaczynaj przeciera szlak pierwszym maszynom wyszukujcym grafik.
Dziki tym prototypowym rozwizaniom mona ju dzi doceni
moliwoci indeksowania informacji wizualnej, przy okazji wida
jednak rwnie, e obecne narzdzia s jeszcze prymitywne i e
szukajc obrazw, cigle musimy polega na tekcie. Jeden z projektw WebSEEk stworzony w Columbia University pozwala
przeledzi, jak pracuje przeszukiwarka grafiki. WebSEEk zaczyna od cignicia plikw znalezionych w Sieci. Nastpnie wyszukuje wrd nich te, ktre w nazwach maj rozszerzenia, takie jak
GIF czy MPEG, oznaczajce, e zawieraj grafik lub filmy wideo. Ponadto szuka w nazwach plikw sw identyfikujcych ich
tre. Gdy program znajdzie obraz, bada, jakie przewaaj w nim
kolory i jakie jest ich rozoenie. Dziki tym informacjom moe
rozrni fotografie, grafik, ilustracje biao-czarne lub w rnych
odcieniach szaroci. Program rwnie kompresuje kady obrazek i wywietla go w postaci ikony, a w przypadku wideo wybiera kilka charakterystycznych klatek z rnych scen.
32 WIAT NAUKI Maj 1997
Uytkownik zaczyna wyszukiwanie od wybrania z menu kategorii na przykad koty.

WebSEEk pokazuje wybrane ikony nalece
do tej kategorii. By ograniczy zakres wyszukiwania, uytkownik klika na dowoln ikon
pokazujc czarnego kota. Wykorzystujc przeprowadzon uprzednio analiz kolorw, przeszukiwarka dobiera obrazki o podobnej charakterystyce kolorystycznej. Nastpna grupa
ikon moe pokazywa czarne koty, ale rwnie na przykad koty rude lece na czarnych
poduszkach. Go WebSEEka jeszcze bardziej ucila wyszukiwanie, okrelajc, jakie
kolory musi lub jakich nie powinien zawiera
szukany obraz. Wyczajc na przykad kolor
czerwony i ty, pozbdzie si kotw rudych.
Moe to uczyni jeszcze prociej, wskazujc te ikony, na ktrych
nie ma czarnych kotw. Do tej pory WebSEEk skopiowa i zaindeksowa ju ponad 650 tys. obrazkw z dziesitkw tysicy serwerw internetowych.
Nad projektami wyszukiwania grafiki prowadzone s rwnie
prace w University of Chicago, University of California w San Diego, Carnegie Mellon University, w Media Lab MIT i w University
of California w Berkeley. Liczne firmy komercyjne, w tym IBM i Virage, stworzyy oprogramowanie, ktre moe by uywane do
przeszukiwania zbiorczych sieci czy baz danych. Dwie inne firmy Excalibur Technologies i Interpix Software poczyy swoje wysiki, by stworzy oprogramowanie dla Yahoo i Infoseeka.
Jeden z najstarszych programw, Query by Image Content (QBIC)
powstay w IBM, dysponuje bardziej wyszukanymi metodami dopasowywania cech obrazu ni, powiedzmy, WebSEEk. Potrafi nie tylko odrnia kolory, ale rwnie kontrast (biae i czarne paski zebry),
pynno linii (odamki skalne i otoczaki) oraz ich kierunkowo (supki ogrodzenia i rozoone na wszystkie strony patki kwiatw). Zada-
RAPORT SPECJALNY
si potrzebne, bdzie zaleao od uytkownikw Internetu i oceny opacalnoci przedsiwzicia przez wydawcw.
Dla wielu spoecznoci naukowych model zorganizowanego zbioru danych
cyfrowa biblioteka cigle wydaje si
odpowiedni. Dla innych pozbawione
kontroli, demokratyczne medium moe by najlepszym mechanizmem rozprowadzania informacji. Niektrym
uytkownikom, od analitykw finansowych do szpiegw, potrzebny jest dostp do baz zawierajcych dane surowe, nie kontrolowane oraz nie redagowane. Dla nich standardowe przeszukiwarki s najlepszym narzdziem
wanie dlatego, e nie selekcjonuj
informacji.
To nie tylko biblioteka
Rnorodno materiau w Sieci jest
znacznie wiksza ni w tradycyjnej bi-
bliotece, w ktrej nie klasyfikuje si zasobw pod wzgldem wartoci. Poniewa

ilo informacji zgromadzonych w Sieci
jest ogromna, jej uytkownicy potrzebuj wskazwek, na co powici ten ograniczony czas, ktry przeznaczaj na okrelon dziedzin. Zainteresowani s
poznaniem trzech najlepszych dokumentw dotyczcych tematu i otrzymaniem tej informacji darmo, bez ponoszenia kosztw zatrudnienia ludzi do
analizy i oceny tysicy internetowych
miejsc. Jednym z rozwiza, ktre jednak znw wymaga udziau czowieka,
jest dzielenie si opiniami o tym, co jest
warte zachodu, a co nie. Systemy ocen
zaczynaj ju opisywa uytkownikom
warto tych miejsc internetowych, ktre odwiedzaj [patrz: Paul Resnick, Filtrowanie informacji, strona 40].
Narzdzia programistyczne przeszukuj Internet oraz oddzielaj dobre materiay od zych. Mog by jednak po-
IBM CORPORATION/ROMTECH/COREL
doczane s do strony internetowej, aby

automat przeszukujcy potrafi je odczyta. Precyzyjne komentarze napisane
przez czowieka pozwol w przyszoci
na stworzenie bardziej szczegowej charakterystyki strony ni sporzdzona
przez program indeksujcy.
Jeli wysokie koszty s uzasadnione,
do tworzenia bibliografii niektrych
miejsc w Sieci angauje si ludzi. Jest to
bardzo pracochonne zajcie. Baza danych Yahoo, przedsiwzicie komercyjne, grupuje internetowe miejsca w do
rozlege bloki tematyczne. Projekt badawczy prowadzony w University of
Michigan natomiast stanowi jedn z kilku prb stworzenia bardziej formalnych opisw tych stron, ktre zawieraj materiay interesujce pod wzgldem
naukowym.
W jakim stopniu ludzkie umiejtnoci
klasyfikacji czy strategie automatycznego indeksowania i wyszukiwania stan
nie: rowa kropka na zielonym tle, powoduje znalezienie przez

program fotografii kwiatw i innych przedmiotw o podobnych ksztatach i kolorach [ilustracja powyej]. Programy te umoliwi zarwno
wybr wzoru tapety, jak i znalezienie przez policj czonkw gangu
na podstawie sposobu ubierania si przez nich.
Wszystkie te programy po prostu porwnuj tylko poszczeglne cechy obrazu. W dalszym cigu potwierdzenie, czy znaleziony obiekt jest kotem, czy poduszk, wymaga oceny czowieka
(lub doczenia do ilustracji tekstu). Od ponad 10 lat badacze zajmujcy si sztuczn inteligencj prbuj, z rnym skutkiem,
zmusi komputery do bezporedniej identyfikacji przedstawionych na ilustracji obiektw, niezalenie od tego, czy s to koty, czy
flagi. Metoda wprowadza korelacj midzy ksztatami na ilustracjach a geometrycznymi modelami obiektw realnego wiata.
Dziki temu program moe wydedukowa, czy rowy lub brzowy walec to, powiedzmy, ludzkie rami.
Przykadem jest program szukajcy nagich ludzi autorstwa Davida A. Forsytha z Berkeley i Margaret M. Fleck z University of
Iowa. Program ten analizuje najpierw kolory i faktur fotografii.

Kiedy znajduje kolory odpowiadajce kolorom ciaa, wcza algorytm, ktry poszukuje fragmentw w ksztacie walca, mogcych
oznacza rami czy nog. Po ich znalezieniu szuka innych walcw w kolorze ciaa, uoonych pod odpowiednim ktem, ktre
mog by potwierdzeniem obecnoci na obrazie koczyn. W ostatnio przeprowadzonym tecie pogram wybra 43% zdj ukazujcych 565 nagich ludzi spord 4854, co jest dobrym wynikiem jak
na ten rodzaj zoonej analizy obrazu. Ponadto w wypadku zbioru zdj nie pokazujcych nagich cia da tylko 4% faszywie pozytywnych odpowiedzi. Zdjcia nagich ludzi pochodziy z WWW,
inne fotografie natomiast gwnie z komercyjnych baz danych.
Prby stworzenia komputerowego wzroku najprawdopodobniej
bd trway jeszcze cae dziesiciolecie albo duej. Przeszukiwarki potrafice jednoznacznie rozrni nagich ludzi, koty i flagi narodowe s cigle nie zrealizowanym marzeniem. Jednak
w miar upywu czasu badacze na pewno zdoaj wyposay programy wyszukujce w umiejtno rozumienia tego, co widz.
WIAT NAUKI Maj 1997 33
RAPORT SPECJALNY
BRYAN CHRISTIE
HARVEST, w ktrym zastosowano now architektur przeszukiwarki, moe utworzy indeks za pomoc programw zbieraczy (gatherers). Umieszczane s one
w orodkach Sieci (ciemne wieyczki obok niebieskich kul) lub w centralnym komputerze (wiksza szecioktna wiea). Dziki temu przeszukiwarka nie musi przegrywa wszystkich dokumentw z danego miejsca WWW, co znacznie odcia
Sie. Serwer przeszukiwarki (czerwony obiekt w centrum) moe po prostu poprosi roboty zbierajce (fioletowe strzaki) o plik ze sowami kluczowymi (czerwone strzaki) i przetworzy go w indeks (kartka), z ktrego skorzysta uytkownik.
trzebne nowe programy, ktre zmniejsz obcienia powodowane przez roboty internetowe, skanujce co pewien
czas kade miejsce w Sieci. Niektrzy
administratorzy serwerw stwierdzaj,
e ich komputery trac mnstwo czasu,
dostarczajc robotom informacji potrzebnej do indeksowania, zamiast powici go na obsug uytkownikw
czcych si z ich serwerem.
Prbujc rozwiza ten problem, Mike Schwartz i jego koledzy z University
of Colorado w Boulder stworzyli oprogramowanie o nazwie Harvest, ktre
pozwala serwerom WWW stworzy indeks danych dla stron na nich umieszczonych i wysa go na danie rnym
przeszukiwarkom. Dziki temu automatycznie indeksujcy robot Harvesta,
czyli robot zbierajcy, zwalnia przeszukiwarki z wysyania sieci caej zawartoci serwera.
Roboty, tworzc indeks, przenosz na
swj serwer kopi kadej strony, co
Informacje o autorze
zmniejsza przepustowo sieci (bandwidth). Robot zbierajcy informacje wysya natomiast tylko plik zawierajcy dane do indeksu. Co wicej, s to informacje
tylko o tych stronach, ktre zostay zmienione po ostatniej wizycie, co rwnie
znacznie zmniejsza obcienie sieci
i komputerw do niej podczonych.
Roboty takie jak robot zbierajcy Harvesta mog rwnie peni inne funkcje.
Dziki nim wydawcy zyskaj co w rodzaju ogranicznika zasobu informacji eksportowanych z serwerw. Kontrola taka
jest konieczna, poniewa WWW staje si
ju czym wicej ni medium swobodnego przekazywania darmowych informacji. Niejednokrotnie uatwia dostp do
danych patnych. Programy przeszukujce nie powinny penetrowa takich materiaw. Roboty zbierajce mogyby dystrybuowa tylko te informacje, ktre chce
udostpni wydawca, na przykad odnoniki do streszcze lub przykady zamieszczonych materiaw.
Gdy Internet okrzepnie, decyzja co do

odpowiedniej metody zbierania informacji bdzie zaleaa gwnie od uytkownikw. Dla kogo wic Internet stanie si rodzajem biblioteki z jej formalnymi zasadami tworzenia zbiorw? Dla kogo natomiast pozostanie anarchiczny, z automatycznymi systemami dostpu?
Uytkownicy, ktrzy zgodz si opaca autorw, wydawcw, archiwistw
i recenzentw, mog podtrzyma tradycj biblioteki. Tam, gdzie informacja jest
udostpniana bezpatnie lub finansowana przez reklamodawcw, dominowa
bdzie najprawdopodobniej tanie indeksowanie komputerowe w rezultacie
otrzymamy to samo pozbawione uporzdkowanej struktury rodowisko, z ktrym mamy do czynienia obecnie. Wynika z tego, e na metody uzyskiwania
informacji wpynie nie technika, lecz raczej czynniki spoeczne i ekonomiczne.
Tumaczy
Jarosaw Zieliski
Literatura uzupeniajca
CLIFFORD LYNCH jest dyrektorem dziau automatyzacji bi- THE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM. C. M. Bowman i in.,
bliotecznej rektoratu University of California i tam nadzoruje Computer Networks and ISDN Systems, vol. 28, nry 1-2, ss. 119-125, XII/1995.
MELVYL, jeden z najwikszych systemw publicznego udo- The Harvest Information Discovery and Access System jest dostpny
stpniania informacji. Lynch uzyska doktorat z informatyki w World Wide Web: http://harvest.transarc.com/
w University of California w Berkeley. Obecnie wykada w tam- THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF REtejszej School of Information Management and Systems. Jest SOURCE DESCRIPTION. Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine, VIIbyym prezesem American Society for Information Science VIII/1996. Dostpny w World Wide Web: http://www.dlib.org/dlib/jui czonkiem American Association for the Advancement of ly96/07contents.html
Science. Kieruje Architectures and Standards Working Group THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF METADATA. Carl Lagoze, ibid.
z ramienia Coalition for Network Information.
34 WIAT NAUKI Maj 1997

Przeszukujac Internet

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Przeszukujac Internet

Uploaded by

Copyright:

Available Formats

RAPORT SPECJALNY

zsto nazywa si Internet

nie straci na tempie i doprowadzi do

umiejtnociami informatyka automatycznego indeksowania i przechowywania informacji. Tylko synteza

pewnym sensie praca wykonywana

matyczne indeksowaSERWERY .com

WIAT NAUKI Maj 1997 31

Na podstawie danych Mathew K. Graya: BRYAN CHRISTIE

AUTOMATYCZNE INDEKSOWANIE Sieci przez robota analizuje stron (z lewej)

Jak znale obraz w Sieci

32 WIAT NAUKI Maj 1997

Uytkownik zaczyna wyszukiwanie od wybrania z menu kategorii na przykad koty.

bliotece, w ktrej nie klasyfikuje si zasobw pod wzgldem wartoci. Poniewa

doczane s do strony internetowej, aby

nie: rowa kropka na zielonym tle, powoduje znalezienie przez

Iowa. Program ten analizuje najpierw kolory i faktur fotografii.

WIAT NAUKI Maj 1997 33

Gdy Internet okrzepnie, decyzja co do

34 WIAT NAUKI Maj 1997

You might also like