Professional Documents
Culture Documents
Teora de la Informacin
Definicin de informacin:
Es el conjunto de datos o mensajes inteligibles creados con un lenguaje de representacin y que debemos proteger ante las amenazas del entorno, durante su transmisin o almacenamiento, usando tcnicas criptogrficas entre otras herramientas. La teora de la informacin mide la cantidad de informacin que contiene un mensaje a travs del nmero medio de bits necesario para codificar todos los posibles mensajes con un codificador ptimo.
Representacin de la informacin
Puede ser numrica, alfabtica, simblica, por lenguaje.
Ejemplo: 15/01/05 15-01-05 15-1-05 15/01/2005 01/15/05 01-15-05 1-15-05 01-15-2005 ... - Todos son el da 15 de enero del ao 2005. Vitaminas: B12, C, ... Grupo sanguneo: A2 Rh+ ... Elementos: Fe, Si, Hg ... Compuestos qumicos: H2O, CO2 ... Imgenes, videos, sonido. Ms comn Lenguaje con cdigo: Hace calor all?
Cantidad de Informacin
Analicemos el siguiente ejemplo: supongamos que tenemos una bolsa con nueve bolas negras y una blanca. ?Cuanta informacin obtenemos si alguien nos dice que ha sacado una bola blanca de la bolsa?. ?Y cuanta obtenemos si despus saca otra y nos dice que es negra?
Cantidad de Informacin
La respuesta a la primera pregunta nos aporta bastante informacin. Anlogamente si hubiera salido negra diramos que ese suceso no nos extraa (nos suministra poca informacin). En cuanto a la segunda pregunta, claramente podemos contestar que no nos aporta ninguna informacin, ya que al no quedar bolas blancas sabamos que iba a salir negra.
Cantidad de Informacin
Se puede decir que la cantidad de informacin es una medida de la disminucin de incertidumbre acerca de un suceso. Por ejemplo, si nos dicen que el nmero que ha salido en un dado es menor que dos, nos dan ms informacin que si nos dicen que el nmero que ha salido es par
Cantidad de Informacin
La cantidad de informacin es proporcional a la probabilidad de un suceso. Todo esto se va a simbolizar mediante variables aleatorias.
Como:
0 pi 1 para i = 1, 2, ..., n Entonces:
i=1 n
pi = 1
La probabilidad de que ocurra p1 o p2 o p3, etc. ser siempre la unidad porque ser uno de ellos.
ci = - log2 (pi )
0 0 1
pi
- Logaritmo: p(xi) = 1 no hay incertidumbre: ci = 0 p(xi) = 0 mxima incertidumbre: ci - Signo: p(xi) 1 log p(xi) ser negativo - Base 2: Un fenmeno binario dos estados (bit)
Efectuando una suma ponderada de las cantidades de informacin de todos los posibles estados de una variable aleatoria X, obtenemos:
Entropa
Propiedades de H(X)
i. 0 H (X ) log2 N ii. H (X ) = 0 i tal que P (xi ) = 1 y P (xj ) = 0 i = j iii. H ( x1, x2. . .xn ) = H (x1, x2 . . . xn , xn+1 ) si P (xn+1 ) = 0 La entropa es proporcional a la longitud media de los mensajes que se necesitara para codificar una serie de valores de X de manera optima dado un alfabeto cualquiera. Esto quiere decir que cuanto mas probable sea un valor individual, aportara menos informacin cuando aparezca, y podremos codificarlo empleando un mensaje mas corto. Si P(xi) = 1 no necesitaremos ningn mensaje, puesto que sabemos de antemano que X va a tomar el valor xi, mientras que si P(xi) = 0.9 parece mas lgico emplear mensajes cortos para representar el suceso xi y largos para los xj restantes, ya que el valor que mas nos va a aparecer en una secuencia de sucesos es precisamente xi.
Grado de indeterminacin
ci =
En una bolsa hay dos papeles con crculos, dos con cuadrados y dos con tringulos: negros o verdes. Sacamos a ciegas tres papeles cualesquiera...
Esta ser la combinacin elegida...
Combinacin 3 Combinacin 4
Combinacin 7 Combinacin 8
Como p(xi) = 1/8 entonces Incertidumbre inicial Ii = 8 Daremos algunas pistas : Las figuras no son del mismo color: Ii baja de 8 a 6 al descartarse las combinaciones 1 y 8. El crculo es negro: Ii baja de 6 a 3 (descartamos 5, 6 y 7). Hay dos figuras negras: Ii baja de 3 a 2 (descartamos 4). El cuadrado es verde: Ii baja de 2 a 1 (descartamos 2.) Se acaba la incertidumbre pues la solucin es la combinacin 3.
Con slo tres preguntas ms o menos inteligentes podemos pasar de la incertidumbre total a la certeza: Pregunta 1: Est entre la opcin 1 y la 4? S Pregunta 2: Est entre la opcin 1 y la 2? No Pregunta 3: Es la opcin 4? No
Se acaba la indeterminacin!
sus estados son equiprobables, la probabilidad p de que se d uno de esos estados ser 1/k. Luego: ci = log2 (k/1) = log2 [1/(1/k)] = - log2 p Si ahora cada uno de estos estados tiene una probabilidad distinta pi, la entropa H ser igual a la suma ponderada de la cantidad de informacin: H = - p1 log2 p1 - p2 log2 p2 - ... - pk log2 pk
k
H = - pi log2 pi
i=1
La expresin log2 [1/p(x)] representar el nmero necesario de bits para codificar el mensaje X en un codificador ptimo.
Codificador ptimo es aquel que para codificar un mensaje X usa el menor nmero posible de bits.
Cdigo ptimo:
Donde p(x,y) = p(y)p(x/y) y la relacin p(x/y) es la probabilidad de que se obtenga un estado X conocido el valor de Y.
Luego:
y=3
x=4
Servir como un parmetro para la evaluacin de la fortaleza de un criptosistema segn equivocacin de clave y mensaje.
Equivocacin del mensaje M Cul es la probabilidad de que a un criptograma C le corresponda un mensaje en claro M?
Es el nmero de bits de informacin en cada carcter para mensajes con una longitud igual a N caracteres. Luego, segn la definicin de entropa, se tiene: r = H(X)/N (bits/letra) Si codificramos un mensaje letra a letra suponiendo adems equiprobabilidad entre las letras, se obtiene la denominada ratio absoluta del lenguaje, R: R = H(X)
castellano = 27 letras
(bits/letra)
probabilidad, su frecuencia de aparicin es distinta, los lenguajes est muy estructurados, hay bloques de dos palabras (digramas) caractersticos, trigramas, poligramas, etc., la ratio baja mucho... 1,2 r 1,5 A este valor se llega codificando los mensajes con monogramas, digramas, trigramas, etc., segn el estudio hecho por Shannon.
mensajes posibles de longitud N, la entropa mxima ser H(X)mx = log2 L, y slo habr 2rN mensajes que tengan sentido.
Muy importante: No significa que podamos codificar todos los mensajes de 27 caracteres con 2 bits (esto sera imposible). Slo significa que la informacin que contiene cada letra es tan slo de 1,5 bits. Veamos un ejemplo
La redundancia D del lenguaje ser la diferencia entre la ratio absoluta y la ratio real: D=R-r 3,25 D 3,55 Qu significa esto? El nmero de bits extras (bits redundantes) necesarios para codificar un mensaje suponiendo un alfabeto de 27 caracteres (codificacin con 5 bits puesto que 25 = 32 y 24 = 16) ser aproximadamente igual a 3,5. D/R ser un factor proporcional, luego: 68,42 < % Red. Lenguaje (D/R) < 74,73
El estudio de Shannon demuestra que es la estructura del lenguaje la que produce esta redundancia: Existe diferencias en la frecuencia de aparicin de cada una de las letras de un texto, entregando una distribucin tpica. Existe gran cantidad de digramas comunes (en, es, ...), tambin muchos trigramas (ado, ida, ...), tetragramas (ando, lado, ...), algunos pentagramas (mente, ...), etc. Existe una estructuracin tpica de frases y oraciones con sentido en nuestro lenguaje.
Esto dar pistas al criptoanalista para atacar un sistema. Y la misin es crear algoritmos que sean seguros y eviten estos ataques.
Todos los lenguajes sern redundantes. Esto quiere decir que la misma cantidad de informacin se puede entregar con menos smbolos o bits.
M = __H__B__N__V__Z__N__C__R__C__
Un ejemplo de redundancia (parte 3) Tenamos el mensaje M = HBNVZNCRC y adems M = __H__B__N__V__Z__N__C__R__C__ M = AH BUENO AVE ZONA CERCA
3a ayuda y siguientes: a) El mensaje original tiene que ver con un circo. b) Corresponde al estribillo de una cancin infantil. c) Los espacios estn en: M = HB N VZ N CRC.
Cada vez que vamos dando nuevas pistas, disminuye la incertidumbre del mensaje hasta que sta se anula y por lo tanto la entropa es igual a 0 ya que existe un nico mensaje posible con probabilidad igual a la unidad. Algo parecido ocurre cuando resolvemos un crucigrama y lo anteriormente resuelto nos sirve como pistas para descubrir palabras nuevas. Mientras ms palabras tengamos, ms fcil se hace avanzar en su resolucin. En algunos casos, cuando se ataque una cifra, el criptoanalista usar mtodos similares.