P. 1
Wstep do informatyki

Wstep do informatyki

5.0

|Views: 24,570|Likes:
Wydawca: api-3851423
Wstep do informatyki by Piot Fulmanski special version bez znaku wodnego :-)
Wstep do informatyki by Piot Fulmanski special version bez znaku wodnego :-)

More info:

Published by: api-3851423 on Oct 19, 2008
Prawo autorskie:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/07/2015

pdf

text

original

Litery, cyfry i pozostałe znaki alfabetu łacińskiego są zapisywane w kom-
puterze, podobnie jak wszelka informacja, za pomocą ciągów zer i jedynek,
a zbiór tych znaków nosi miano znaków alfanumerycznych. Proces za-
miany znaku wpisanego z klawiatury, lub innego urządzenia wczytującego,
na jego reprezentację cyfrową nazwiemy kodowaniem. Jednym z najczę-
ściej stosowanych standardów kodowania informacji w komputerze jest kod
ASCII (ang. American Standard Code for Information Interchange — zob.
dodatek D), w którym zdefiniowano kody 128 znaków stanowiących podsta-
wowy zbiór znaków stosowanych w informatyce (zob. dodatek B). Tych 128
znaków odpowiada literom i cyfrom alfabetu łacińskiego oraz dodatkowo
pewnym znakom sterującym. Dodatkowo zostało opisane w tym standar-

c 2001-2003 by P. Fulmański & Ś. Sobieski, Uniwersytet Łódzki. Wersja RC1 z dnia: 4 stycznia 2004

3.5 Reprezentacja informacji

101

ą ć ę ł ń ó ś ź ż
B1 E6 EA B3 F1 F3 B6 BC BF

Ą Ć Ę Ł Ń Ó Ś Ź Ż
A1 C6 CA A3 D1 D3 A6 AC AF

Tablica 3.1: Kodowanie polskich znaków według standardu ISO 8859-2 (he-
xadecymalnie).

dzie następne 128 znaków, które w głównej mierze składają się ze znaków
semigraficznych, służących do tworzenie tabel czy ramek, oraz dodatkowo
ze znaków narodowych. Oczywiście zestaw tych znaków będzie zależał
od kraju, czyli języka narodowego, ale również od producenta sprzętu kom-
puterowego.

Manipulując tekstem z wykorzystaniem kodu ASCII zawsze musimy wie-
dzieć przy użyciu jakiej strony kodowej został on napisany. Strony ko-
dowe to wersje kodu ASCII różniące się interpretacją symboli o numerach
od 128 do 255. Na przykład dla języka polskiego stworzono stronę kodową
ISO 8859-2 nazywaną popularnie ISO Latin-2, gdzie poszczególnym lite-
rom charakterystycznym dla naszego języka przypisano następujące warto-
ści liczbowe (tabela 3.5.1). Niestety oprócz powyższego standardu powstało
także wiele innych; łączne zestawienie częściej spotykanych zawiera dodatek
C.

Problem ten stanie się jeszcze bardziej wyraźny jeśli operujemy na tek-
stach wielojęzycznych. Ponadto udostępniana przestrzeń 128 znaków, które
możemy dowolnie zdefiniować dla wielu celów jest niewystarczająca (język
chiński, symbole matematyczne). Problem ten często był rozwiązywany po-
przez wprowadzanie specjalnych znaków sterujących zmieniających sposób
interpretacji kodów po nich następujących; na przykład

c 2001-2003 by P. Fulmański & Ś. Sobieski, Uniwersytet Łódzki. Wersja RC1 z dnia: 4 stycznia 2004

102

Architektura i działanie komputera

W celu ujednolicenia sposobu interpretacji kodów liczbowych jako zna-
ków, oraz zapewnienia możliwości reprezentowania za ich pomocą zarówno
tekstów pochodzących z przeróżnych zakątków świata jak i pewnych dodat-
kowych symboli zaproponowano nowy sposób kodowania znaków znany pod
nazwą Unicode.

Oto zasadnicze cele dla których Unicode został stworzony oraz jego pod-

stawowe właściwości:

Jednoznaczność Każdemu znakowi zakodowanemu za pomocą Unicode
odpowiada zawsze ta sama wartość liczbowa i odwrotnie.

Uniwersalność „Repertuar” dostępnych znaków obejmuje wszystkie po-
wszechnie używane języki oraz symbole.

16-bitowa reprezentacja Każdy znak reprezentowany jest w postaci 16-
bitowej liczby. Pozwala to na reprezentację ponad 65 tysięcy znaków
(w 1996, gdy obowiązywał Unicode Standard 2.0 pozostawało jeszcze
ponad 18 tysięcy wolnych miejsc). Ponadto można zdefiniować około
miliona dodatkowych znaków poprzez zastępczy mechanizm rozsze-
rzeń (ang. surrogate extension mechanism), który bez żadnych pro-
blemów może być równolegle wykorzystywany z podstawową wersją.

Efektywność Stosowanie Unicode ułatwia znacznie manipulowanie tek-
stami, gdyż identyfikacja znaku nie zależy od sekwencji sterujących
czy znaków następujących bądź poprzedzających.

Identyfikacja nie reprezentacja Standard ten określa jakie kody odpo-
wiadają jakim znakom. Nie definiuje natomiast jak znaki te mają
wyglądać, proszę spojrzeć na poniższy przykład

Identyfikacja

Wygląd

kod=litera_a a a a a a

Znaczenie W celu umożliwienia wykorzystania algorytmów operujących
na tekstach (na przykład sortowanie) zdefiniowano tablicę własności
znaków. Własności tych nie określa na ogół ani nazwa znaku ani jego
położenie w tabeli kodów.

Czysty tekst Unicode odpowiada za kodowanie czystego tekstu (ang. plain
text
) bez żadnych dodatkowych informacji typu język w jakim tekst
napisano, rodzaj czcionki czy jej wielkość.

c 2001-2003 by P. Fulmański & Ś. Sobieski, Uniwersytet Łódzki. Wersja RC1 z dnia: 4 stycznia 2004

3.5 Reprezentacja informacji

103

Logiczny porządek Kodowany tekst przechowywany jest w porządku lo-
gicznym, to znaczy w porządku w jakim są pisane znaki a nie w ich
faktycznej kolejności w jakiej występują w dokumencie. Rozróżnie-
nie to istotne jest w przypadku języków, w których tekst piszemy od
prawej do lewej, co ilustruje poniższy przykład

Ujednolicenie Wszystkie powtarzające się znaki zastąpione zostały jed-
nym znakiem. Nie wprowadza się sztucznych podziałów — w pew-
nych językach ten sam znak ma inną nazwę lub funkcję (na przykład

"," jest separatorem tysięcy w liczbie dla języka angielskiego zaś dzie-
siątek dla francuskiego). Wciąż jest to jednak ten sam znak, zatem
zwykle wszystkie one zostają zastąpione jednym. „Zwykle”, gdyż nie-
które znaki pomimo to pozostawiono, chcąc zapewnić kompatybilność
z pewnymi już istniejącymi standardami.

You're Reading a Free Preview

Pobierz
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->