You are on page 1of 25

Captulo 8

Representacin de formas y descripcin

8.1. Introduccin
Una vez segmentada la imagen y extrado el contorno de los objetos hay que analizar la forma
geomtrica de los mismos utilizando para su representacin una estructura de datos compacta,
es decir, lo que llamaremos un esquema de representacin. Asimismo, hay que estudiar algunos
descriptores de contornos y de regiones para el reconocimiento e identificacin de los objetos
de la imagen. Finalmente, se va a estudiar un conjunto de operadores morfolgicos que nos van
a permitir manipular la forma de los objetos, extraer el contorno de los mismo, clasificar los
objetos segn su tamao, eliminar objetos pequeos, etc.
Los esquemas de representacin de formas deben de tener ciertas propiedades
deseables:
a) Unicidad: cada objeto debe tener una nica representacin.
b) Invariancia frente a transformaciones geomtricas, como traslaciones, rotaciones,
cambios de escala y reflexiones.
c) Sensibilidad o capacidad para diferenciar objetos casi iguales.
d) Abstraccin del detalle o capacidad para representar los rasgos caractersticos bsicos
de los objetos y abstraer los detalles.
Vamos a distinguir entre esquemas de representacin externa, que usan el contorno de
los objetos y sus rasgos caractersticos, como son los cdigos de cadena, los descriptores de
Fourier y las aproximaciones poligonales, y los esquemas de representacin interna, que
describen la regin ocupada por el objeto en la imagen binaria, como son el rea, los momentos,
el esqueleto, etc.

8.2. Esquemas de representacin externa: Trazado y representacin


de contornos
Vamos a estudiar dos maneras de representar las fronteras (contornos) de las regiones
(objetos) que configuran la imagen digital que son tiles para estudiar la forma del
contorno de los objetos, realizar su descripcin y conseguir una identificacin o
reconocimiento de los objetos de la imagen.

a) Cdigos de cadena de Freeman


Supongamos que tenemos el contorno de un objeto, en una imagen binaria, representado por
una cadena de pxeles con valor 1 en la imagen binaria. El cdigo de cadena es un tipo de
estructura de datos para representar el contorno de un objeto en una imagen binaria mediante
una secuencia de segmentos, conectados consecutivamente, de longitud y orientacin especfica,
que conectan pxeles adyacentes.

2
3

(a)

(b)

Figura 8.1. (a) Direcciones para entornos de 4 vecinos


(b) Direcciones para entornos de 8 vecinos.

La conexin de los segmentos se lleva a cabo en entornos de 4 vecinos o de 8 vecinos.


Cuando se usa un entorno de 4 vecinos tendremos cuatro orientaciones para los segmentos,
como se muestra en la figura 8.1(a) y utilizaremos los nmeros 0,1,2 y 3, para especificar la
orientacin de los segmentos. Si se usa un entorno de 8 vecinos tendremos 8 orientaciones
posibles (figura 8.1(b)).
El cdigo de cadena genera una secuencia de nmeros que representan las orientaciones
de los segmentos conectados consecutivamente, partiendo de un punto del contorno y siguiendo
el sentido de las agujas del reloj. Por ejemplo, la cadena 005577443221 representa el contorno
del objeto de la figura 8.2 cuando empezamos por el pxel superior izquierdo del contorno.
Aunque depende del punto de partida, ello no supone un problema pues se puede considerar el
cdigo como una lista circular en el caso de contornos cerrados. Adems, como es conveniente
que tenga la propiedad de unicidad, entre todas las cadenas posibles, segn el punto de partida
que hayamos tomado, elegimos aquella que corresponda al menor nmero entero (cada cadena
nos da un nmero entero cuyos dgitos varan del cero al tres para entornos de cuatro vecinos o
del cero al siete para entornos de ocho vecinos).
Cuando se trata de objetos formados por regiones no conectadas o con agujeros se
necesita ms de una cadena para representarlos y hay que especificar si la cadena corresponde a
la parte exterior del objeto o a un agujero. En cualquier caso, es tambin fcil reconstruir el
objeto completo a partir del cdigo de cadena mediante una operacin de rellenado.

Figura 8.2. Cdigo de cadena 005577443221.

Ventajas frente a la representacin matricial de un objeto binario:

El cdigo de cadena es una representacin invariante frente a traslaciones. Esta propiedad


facilita la comparacin de objetos.

A partir del cdigo de cadena se pueden obtener ciertas caractersticas del contorno, como el
permetro, el rea del objeto y los descriptores de Fourier, de forma ms eficiente que
utilizando la representacin matricial de la imagen binaria.

El cdigo de cadena es una representacin compacta de un objeto binario. Suministra una


buena compresin de la descripcin del contorno ya que cada cadena se puede codificar
slo con dos bits (para entornos de 4 vecinos) en lugar de las coordenadas (x,y) de cada
pxel del contorno. Por ejemplo, si un crculo de radio R lo representamos por los (2R)2
pxeles del cuadrado ms pequeo que lo contiene, necesitamos para su almacenamiento
(2R)2 bits, mientras que si utilizamos un cdigo de cadena con entornos de cuatro vecinos
necesitamos en torno a 2R bits.

Inconvenientes:

La cadena resultante suele ser demasiado larga

Cualquier perturbacin o ruido en el contorno produce segmentos errneos.


Para trazar los contornos de objetos binarios se puede emplear un algoritmo similar al

algoritmo de la tortuga de Papert (1973). Dicho algoritmo trabaja para entornos de 4 vecinos.
La tortuga comienza en un pxel del contorno. Si el pxel en el que se encuentra la tortuga es
del objeto entonces avanza al pxel vecino en la orientacin actual aumentada en 90 y si es del
fondo entonces avanza al pxel vecino en la direccin actual disminuida en 90. El algoritmo

acaba cuando la tortuga alcanza el punto de partida. Dicho algoritmo puede generar bucles que
se pueden eliminar en un procesamiento posterior.

b) Signaturas
Una signatura es una representacin de un contorno mediante una funcin real
unidimensional que sea ms sencilla que la funcin bidimensional que define el
contorno. Hay varias maneras de definir una signatura. Una de las ms simples es a
travs de la distancia desde un punto interior, como puede ser el centroide del contorno,
a cada uno de los puntos del contorno, como una funcin del ngulo, tal y como se
muestra en la figura 8.3 para una circunferencia y en la figura 8.4 para un cuadrado. La
signatura slo tiene sentido usarla cuando el vector que se extiende desde el origen corta
en un solo punto al contorno.

r()

r
0

/2

3/2

Figura 8.3. Signatura de una circunferencia.

r()
r

/2

3/2

Figura 8.4. Signatura de un cuadrado.

La signatura es invariante frente a traslaciones pero no lo es frente a rotaciones o


cambios de escala. Sin embargo, se puede conseguir la invariancia frente a rotaciones
cuando se encuentra un punto caracterstico del contorno a partir del cual se comienza a
generar la signatura. Dicho punto puede ser, por ejemplo, el ms cercano al centroide,
siempre que sea nico, o un punto del contorno determinado por la interseccin de este
con su eje mayor.

Por otra parte, como los cambios en el tamao del contorno conllevan cambios en los
valores de la amplitud de la signatura, se puede normalizar la signatura de forma que sus
valores estn dentro del intervalo [0, 1], sin ms que dividirla por su amplitud mxima
para conseguir la adimensionalidad. Sin embargo, en el caso de contornos con ruido en
los que el valor mximo pueda venir afectado por dicho ruido entonces no es
conveniente la normalizacin. Una alternativa para realizar la normalizacin puede ser
dividir por la desviacin tpica de los valores de la signatura.
c) Descriptores de Fourier
Si el contorno viene dado por una curva cerrada se puede representar mediante los
descriptores de Fourier. La curva del contorno va a venir dada por las coordenadas paramtricas,
(x(t), y(t)), que son un par de funciones peridicas, donde el parmetro t describe la longitud del
camino de la lnea de contorno calculada desde el punto de partida.

En primer lugar seleccionamos N puntos equidistantes del contorno (muestreo),


(x(t), y(t)),

n=0,1,2,...,N1,

y a partir de estos valores obtenemos el vector complejo


z=x+iy,
siendo x = (x(0), x(1),..., x(N1)), y=(y(0), y(1),..., y(N-1)).

La transformada de Fourier discreta de este vector complejo viene dada por la


expresin,

Z (u )

1 N 1
2 nui
z (n) exp(
) , u= 0,1,2,...,N1.

N n0
N

Dichos valores se conocen con el nombre de descriptores de Fourier Cartesianos del


contorno. Adems, a partir de ellos se puede reconstruir el contorno mediante la transformacin

inversa,

z ( n)

1
N

N 1

Z (k ) exp(
k 0

2nki
) , n=0,1,2,...,N1.
N

El coeficiente Z(0),

Z (0)

1
N

N 1

N 1

x(n) i N y(n) ,
n 0

n 0

representa el punto medio (centro de gravedad) del contorno del objeto, llamado centroide.
Como se trata de la transformada de Fourier discreta, los coeficientes de Fourier Z(k)
representan las pequeas variaciones en las tendencias del contorno para valores de k pequeos
y las grandes variaciones para valores de k grandes. Es decir, componentes de alta frecuencia

tienen en cuenta los detalles ms finos del contorno mientras que las componentes de baja
frecuencia determinan la forma global del contorno. Adems, se conseguirn detalles ms finos
del contorno del objeto conforme mayor sea N.

Supongamos ahora que en lugar de considerar todos los descriptores slo se consideran
los P primeros descriptores de Fourier. Es decir, tomamos Z(u) = 0, u= P+1,, N-1. Entonces
1 P 1
2 nui
Z (u ) z (n) exp(
)
N n 0
N
es una aproximacin de Z(u), u =0,1,2,,N-1 que utiliza el mismo nmero de puntos N pero no
el mismo nmero de descriptores en la representacin. Esta aproximacin supone una prdida
de detalle en el contorno que se incrementa conforme P decrece; es una suavizacin del
contorno.
Los descriptores de Fourier deberan ser insensibles a traslaciones o rotaciones, o a cambios de
escala. Sin embargo, los descriptores de Fourier no son invariantes a tales transformaciones
geomtricas. Sin embargo, dichos cambios estn relacionados con transformaciones simples de
los descriptores.
Una traslacin en las coordenadas de la curva,
zt(n) = z(n) + zo
afecta slo al trmino Z(0) de la representacin, segn la expresin:
Zt(0) = Z(0) + zo
Un cambio de escala con respecto a un sistema de coordenadas que tuviera su origen en
el centro de gravedad de la curva afecta a los coeficientes de Fourier de forma similar, es decir,
ze(n) = az(n), Ze(k) = aZ(k)
Un cambio en el punto de partida,
zp(n) = z(n1-n0)
produce modulacin en los descriptores de Fourier,
Zp(k) = Z(k)exp(-2n0ki/N).
La rotacin de la curva con un ngulo ,
zr(n) = z(n)exp(i),
produce un desplazamiento en la fase de los coeficientes de Fourier de igual magnitud,
Zr(k) = Z(k)exp(i)
Las magnitudes de los descriptores de Fourier, Z(k), k=0,1,2,...,N-1, son invariantes
frente a rotaciones y traslaciones.
La fase de los descriptores de Fourier, arg(Z(k), k=01,2,...,N-1, es invariante frente a
cambios de escala.

Por lo tanto, los descriptores de Fourier nos suministran descriptores de forma


invariantes, muy tiles para reconocer objetos.
Para identificar cierto tipo de objetos, segn su contorno, podemos utilizar como medida
el error cuadrtico medio,
N 1

ECM ( Z 1 (k ) Z 2 (k ) ) 2 ,
k 0

donde se comparan los descriptores de Fourier de la curvas z1(n) y z2(n) para ver si dichas
curvas son idnticas, aunque una sea una versin girada de la otra. Dicho error debe ser
prcticamente cero (tericamente cero).
Los descriptores de Fourier sirven tambin para detectar simetras en los objetos. Si un
objeto se gira alrededor de su centro de gravedad 2/n sin que cambie su forma se dice que tiene
una simetra de n pliegues. El contorno de un objeto con este tipo de simetra contiene un patrn
que se repite n veces y, por lo tanto, slo los descriptores de Fourier con los ndices k=pn,
p=0,1,2,..., son diferentes de cero.

d) Aproximaciones poligonales
Se trata de aproximar de la mejor manera posible el contorno de un objeto mediante una curva
de tramos lineales que constituye un polgono, y donde los vrtices de dicho polgono son una
representacin del contorno del objeto. Como criterio para evaluar la calidad del ajuste se puede
elegir el criterio de mnimos cuadrados.
Supongamos una curva que va del punto x1 al punto xN y sean x1, x2,...,xN-1, las
coordenadas de N-2 puntos intermedios de la curva. Si di es el punto del segmento

[x1, xN]

ms prximo al punto xi, i=2,3,...,N-1, entonces

xi di
es el error de aproximacin de la curva por el segmento lineal [x1, xN] correspondiente al pxel
xi, i=2,...,N-1 (figura 8.5).

xi

x1

di

xN

Figura 8.5. Aproximacin poligonal.

Podemos elegir, como criterio para medir la bondad del ajuste, el criterio del mnimo
error cuadrtico medio, es decir, que el error dado por la expresin

N 1

di

i 2

sea mnimo.
Tambin se puede utilizar el criterio minimax, es decir, minimizar el error dado por la
expresin

max x i d i .

2 i N 1

La aproximacin poligonal consistir en determinar los vrtices del polgono de manera


que el error total sea mnimo. Sin embargo, encontrar la solucin ptima para este problema
requiere un coste computacional muy alto. Por ello, hay tcnicas alternativas que suministran
buenas soluciones (cercanas a la ptima) y son ms rpidas y eficientes. Las tcnicas de
particin consisten en ir dividiendo, de forma recurrente, los trozos de curva, representados por
un segmento, en dos trozos, representados cada uno de ellos por un segmento, de manera que la
medida local de error sea mnima. Si utilizamos el criterio minimax entonces para cada trozo de
curva representado por un segmento se determina el punto de la curva ms alejado del segmento
y se toma dicho punto como nuevo vrtice, como puede verse en la figura 8.6. El proceso acaba
cuando el error mximo por pxel es menor que cierta cantidad prefijada. Los puntos x1 y xN
pueden ser los dos puntos ms alejados del contorno. Dichos puntos dividen al contorno en dos
partes y el algoritmo se aplica a cada una de ellas. Obsrvese que, en cada paso, el error por
pxel es igual o menor que dicho error en el paso anterior. Conforme se van introduciendo
nuevos vrtices se mejora la aproximacin.

x2

x1

xN
x2

x1

xN
x3

Figura 8.6. Aproximacin poligonal por particin sucesiva.

Las tcnicas de incorporacin operan al contrario, es decir, parten de un punto x1 de la


curva y van recorriendo los pxeles de la curva en el sentido de las agujas del reloj. Cuando se
encuentra el primer pxel, digamos xi, para el que el error de x1 a xi supera un valor umbral T
(prefijado), se declara dicho punto como vrtice del polgono y se repite el proceso comenzando
ahora en xi. Se genera as una secuencia de vrtices que constituye la aproximacin poligonal.
Las tcnicas de incorporacin presentan el inconveniente de que los vrtices no suelen ser
puntos de inflexin, como ocurre con las tcnicas de particin, generando vrtices que no
coinciden con las esquinas de la curva.

8.3 Descriptores de contornos


A continuacin vamos a estudiar la forma geomtrica de los contornos de las regiones
(objetos) que conforman la imagen digital utilizando para ello descriptores, es decir,
valoraciones numricas que nos van a permitir identificar y reconocer los objetos de
dicha imagen.
Vamos a describir la forma de los contornos de los objetos de la imagen binaria
mediante parmetros de forma geomtricos. El permetro viene dado por la longitud de su
cdigo de cadena (con ocho direcciones) pero ponderando los pasos diagonales por

2 y los

horizontales y verticales por 1, es decir, viene dado por el nmero total de pxel que configuran
su contorno pero los pxeles de bordes diagonales se ponderan con 2 .
El dimetro de un contorno (frontera de una regin) viene dado por la distancia Eucldea
entre los dos pxeles del contorno ms alejados. Dichos puntos no son siempre nicos, como
ocurre en una circunferencia, pero es un descriptor de inters cuando s lo son. La recta que
pasan por dichos puntos se llama eje mayor de la regin. El rectngulo, con dos lados paralelos
al eje mayor, que tiene la propiedad de que es el menor rectngulo que contiene al contorno se
llama rectngulo base (figura 8.7). El cociente entre la longitud del lado mayor y la longitud del
lado menor se llama excentricidad del contorno.
El centro de gravedad o centroide de un contorno determinado por el conjunto de pxeles
{(xi, yi), i=1,2,,N} es el punto ( x , y ) definido por las siguiente expresiones:
N

x
i 1

y
i 1

El eje menor del contorno viene definido por la recta perpendicular al eje mayor que pasa por el
centro de gravedad del contorno.

Figura 8.7. Rectngulo base de un contorno.

Todos los parmetros anteriores no dependen de la orientacin de los objetos en la


imagen, son invariantes frente a traslaciones pero no lo son frente a transformaciones de escala.
La curvatura se define como la tasa de cambio de la pendiente (tangente) del contorno,
pero es difcil de obtener medidas fiables en una imagen digital porque los bordes suelen ser
localmente mellados. Sin embargo, se pueden obtener descriptores de la curvatura bastante
tiles mediante diferencia de las pendientes de segmentos adyacentes del contorno.

Otros descriptores de la forma de los contornos son los momentos estadsticos. La


forma de una representacin unidimensional de un contorno a travs de funcin real, g(x), se
puede describir utilizando momentos estadsticos, como la media, la varianza o momentos de
orden superior.

Dicha funcin puede ser la signatura del contorno. En el caso de contornos

abiertos, se puede utilizar la funcin que se obtiene de las distancias de los puntos del contorno
al segmento que une los dos puntos extremos de dicho contorno (figura 8.8).

g(x)

x
Figura 8.8. Representacin unidimensional de un contorno.

Para describir la forma de g(x) normalizamos dicha funcin para que el rea que encierra con el
eje de abscisas sea la unidad y se puede considerar como un histograma. As g(x) se puede
interpretar como la probabilidad del valor x. Si suponemos que el contorno viene descrito por N
puntos, el valor medio viene dado por la expresin:
N 1

m xi g ( xi )
i 0

La varianza, dada por la expresin


N 1

2 ( xi m) 2 g ( xi ) ,
i 0

es una medida de la dispersin (variabilidad) de los puntos con respecto a su valor medio.

El momento central de tercer orden,


N 1

3 ( xi m)3 g ( xi ) ,
i 0

es una media de la simetra de la distribucin con respecto a su media.

8.4 Descriptores de regiones


Aunque las regiones (objetos) pueden venir definidas por sus contornos, vamos a
estudiar aqu algunas caractersticas geomtricas y topolgicas de las regiones que nos
ayudarn a identificar y reconocer los objetos de la imagen digital.

a) Parmetros geomtricos
El rea de una regin (objeto) viene dada por el nmero de pxeles que la componen. Se puede
obtener tambin de forma sencilla a partir de su cdigo de cadena.
El centro de gravedad o centroide de una regin determinada por el conjunto de pxeles
{(xi, yi), i=1,2,,N} es el punto ( x , y ) definido por las siguiente expresiones:
N

xi
i 1

y
i 1

Obsrvese que el centroide de una regin no tiene por qu coincidir con el centroide de
su contorno.

b) Parmetros topolgicos
La topologa es el estudio de configuraciones geomtricas con propiedades especficas
como la invariancia bajo ciertas transformaciones, como transformaciones de escala.
La compacidad (o circularidad) de una regin es un parmetro que no depende del
tamao de la regin (como los anteriores) y viene dado por:

A
p2

donde A es el rea y p el permetro de la regin. El permetro se eleva al cuadrado para


conseguir un parmetro adimensional. Su valor mximo corresponde a los crculos (mxima

superficie para un permetro dado) y vale 1/(4) (0.07957), por ello es una medida de
circularidad; para el tringulo equiltero vale 1/(12 3 )(0.048) y para el cuadrado vale

1/16(=0.0625). Los valores pequeos del parmetro indican objetos alargados. Adems, es
invariante frente a traslaciones, giros y cambios de escala. Conviene normalizar sus valores al
intervalo [0,1] diviendo por 1/(4) para garantizar que el valor que le asigne al crculo sea 1, y
un valor menor a cualesquiera otra figura geomtrica, tanto menor cuanto ms apepinada sea o
presente espculas. Por ello, tomaremos
c 4

A
p2

La rectangularidad de una regin es otro parmetro adimensional que viene definido por el
cociente entre el rea de la regin y el rea de su rectngulo base (figura 8.9):
r

A
ab

siendo a la longitud del lado mayor de su rectngulo base y b la longitud de su lado menor.

Figura 8.9. Rectngulo base de un objeto.

El alargamiento de una regin se puede definir por el cociente entre la longitud del lado mayor
a y el lado menor b de su rectngulo base. Sin embargo, para regiones curvadas no es una

medida adecuada (figura 8.9). Por ello, se define el alargamiento como el cociente entre su rea
y el cuadrado del valor mximo de su grosura:

rea
(2d ) 2

d se puede determinar como el nmero de veces que hay que aplicar el operador erosin 33

hasta que la regin desaparece.

Otras caractersticas topolgicas importantes son la conectividad y los agujeros. Una


imagen segmentada puede estar compuesta por regiones que tienen componentes conexas que
configuran los objetos, es decir, regiones tales que dos puntos cualesquiera de ellas se pueden

unir por una curva contenida en ellas. Un agujero es una regin de la imagen que est
completamente encerrada por una componente conexa de la imagen.

El nmero de Euler de una imagen se define como:


E=C-H,

donde C es el nmero de componentes conexas y H el nmero de agujeros de la imagen. Este


nmero es invariante frente a traslaciones, rotaciones y cambios de escala, y nos permite de
forma sencilla discriminar entre ciertas clases de objetos.

c) Medidas estadsticas para la cuantificacin de la textura de una regin


Una regin puede ser descrita por su textura y una manera de cuantificar la textura es utilizando
algunos momentos estadsticos del histograma de la intensidad luminosa de los pxeles de la
regin.
Se define el momento central de orden r de los valores de intensidad luminosa (tonos de
gris) de los pxeles de una regin mediante la expresin:
L 1

r zi m p( zi )
r

i 0

donde p(zi) es la frecuencia relativa (probabilidad) de los pxeles de la regin que presentan el
L 1

tono de gris zi; m zi p ( zi ) es el valor medio de los tonos de gris de los pxeles de la regin
i 0

y L es el nmero de tonos o niveles de gris.

Los descriptores estadsticos ms utilizados para medir la textura de una regin son:

La media m que nos da el tonos de gris ms representativo de la regin (cuando se


utiliza el criterio de mnimo error cuadrtico)

La desviacin tpica 2 que es una medida de contraste medio de la imagen

El coeficiente de suavidad, R 1

1
, que mide la suavidad relativa o uniformidad
1 2

de los tonos de gris de la regin; vale cero para una regin con el mismo tono de gris
(intensidad constante) y se aproxima a 1 cuando hay una gran variabilidad en los tonos
de gris de los pxeles de la regin. En la prctica, la varianza, 2, utilizada en la
expresin de R, se normaliza en el rango [0, 1] dividindola por (L-1)2.

El momento central de tercer orden, 3, es una medida de sesgo o asimetra del


histograma; vale 0 cuando el histograma es simtrico, es positivo cuando el
histograma est sesgado a la derecha y negativo cuando est sesgado a la izquierda.

L 1

La cantidad U p 2 ( zi ) es una medida de la uniformidad de la regin. Es mxima


i 0

cuando todos los niveles de gris presentan la misma frecuencia relativa.

Otra medida estadstica importante es la entropa, definida por la expresin:


L 1

H p( zi )log 2 p ( zi )
i o

La entropa es una medida de la aleatoriedad de los tonos de gris de la regin.

d) Medidas espectrales para la cuantificacin de la textura de una regin


Las medidas espectrales se basan en el espectro de Fourier que es adecuado para describir la
direccionalidad de los patrones peridicos o casi peridicos de una regin. La textura espectral
es til para discriminar entre patrones de textura peridicos y no peridicos. Adems, permite
cuantificar las diferencias entre patrones peridicos.
La interpretacin de las caractersticas del espectro se simplifican expresando el espectro
en coordenadas polares para dar una funcin S(r,). Para cada direccin , S(r,) se puede
considerar como una funcin unidimensional S(r). Anlogamente, para cada r, vamos a tener
la funcin unidimensional Sr(). As, podremos analizar el comportamiento de S(r) a lo largo
de una direccin radial desde el origen y el comportamiento de Sr() a lo largo de una
circunferencia centrada en el origen. Se obtiene una descripcin global de la textura mediante
las funciones:

R0

r 1

S1 (r ) S (r ) y S 2 (r ) S ( r )
Para cada par de valores (r,) se obtiene un par de valores [S1(r), S2()]. Variando las
coordenadas polares se obtienen dos funciones unidimensionales S1(r) y S2() que constituyen
una descripcin espectral de la textura de la regin. Se obtienen descriptores a partir de dichas
funciones, como pueden son la localizacin del valor mximo, la media y la varianza de las
variaciones, y la distancia entre la media y mximo de la funcin.

e) Medidas invariantes de momentos


Se define el momento de orden p y q de la imagen digital f(m,n) por la expresin:

m pq

M 1 N 1

j q f (i , j ) .

i0 j0

Si lo calculamos para el objeto determinado por la regin S de una imagen binaria vale:

m pq

jq

( i , j )S

Obsrvese que m00 nos da el rea del objeto y que (m10/m00, m01/m00) es el centroide (centro de
gravedad) del objeto. Los momentos de orden superior no son invariantes a traslaciones, por
ello vamos a realizar una traslacin del origen al centroide y obtenemos as los momentos
centrales de orden p y q mediante la expresin:
M 1 N 1

pq (i i ) p ( j j ) q f (i, j )
i 0 j 0

donde ( i , j ) es el centroide del objeto. Los momentos centrales son as invariantes frente a
traslaciones de los objetos. Sin embargo, no son invariantes frente a giros o cambios de escala.
A continuacin vamos a ver la interpretacin de algunos momentos centrales.
20 es una medida de la dispersin horizontal del objeto con respecto al centroide
02 es una medida de la dispersin vertical del objeto con respecto al centroide
11 es una medida de la diagonalidad indicando el cuadrante de mayor masa.
12 es una medida de la divergencia horizontal; indica la extensin de la regin
izquierda del objeto frente a la derecha
21 es una medida de la divergencia vertical; indica la extensin de la regin
inferior del objeto frente a la superior
30 es una medida del desequilibrio (o asimetra) horizontal e indica si el
objeto tiene mayor extensin a la izquierda o a la derecha del centroide
30 es una medida del desequilibrio (o asimetra) vertical.
Si dividimos pq por 00 1 ( p q )/ 2 se obtiene el momento central pq normalizado,

pq

pq
1

00

pq
2

que es invariante a cambios de escala, para p+q=2,3,... .

Un conjunto de siete invariantes de momentos que son insensibles a traslaciones,


cambios de escala, rotaciones y transformaciones especulares viene dado por las siguientes
expresiones:

1 20 02

2 20 02 4112
2

3 30 312 321 03
2

4 30 12 21 03
2

2
2
5 30 312 30 12 30 12 3 21 03 321 03 21 03

3 30 12 2 21 03 2

2
2
6 20 302 30 12 21 03 411 30 12 21 03

2
2
7 321 30 30 12 30 12 3 21 03 312 03 21 03

3 30 12 2 21 03 2

Se pueden determinar tambin los momentos de orden p y q invariantes a giros, que


representaremos por pq y que vienen dados en trminos de los momentos centrales:

pq

(1)

qs

r 0 0 s 0

p q
(cos ) p r s (sen ) q s r p r q s ,r s
r s

donde es el ngulo que forma el eje de mnima inercia con el eje de abscisas, y viene dado por
la relacin:

=(1/2)arctan(211/(20-02)).

8.5 Anlisis Morfolgico


Una vez realizada la segmentacin de la imagen sabemos ya qu pxeles pertenecen a los
objetos de inters de la misma. Tendremos as una imagen binaria en la que los pxeles blancos
corresponden a los objetos y los negros al fondo. El anlisis morfolgico va a permitir la mejora
de los resultados de la segmentacin. Mediante los operadores del anlisis morfolgico vamos a
poder modificar el contorno de los objetos de la imagen binaria, suavizarlos, detectar sus
contornos, eliminar objetos de pequeo tamao, rellenar huecos e identificar objetos.

8.5.1. Operadores morfolgicos binarios


Para actuar sobre la forma de los objetos vamos a utilizar plantillas, como las utilizadas para
imgenes con diferentes tonos de gris. Ahora, sin embargo, la imagen es binaria por lo que
debemos sustituir las operaciones aritmticas por operaciones Booleanas (lgicas); la operacin

suma se sustituye por la operacin or (disyuncin) y la multiplicacin se va a reemplazar por la


operacin and (conjuncin).
Sea {f(i,j): i=0,...,M-1, j=0,...,N-1} una imagen binaria de tamao MN y {g(i,j):

i=m,,0,...,m, j=m,,0,...,m} una plantilla (mscara) simtrica de tamao (2m+1)(2m+1)


cuyos elementos son ceros o unos. La nueva imagen fg que se obtiene por convolucin de f y

g viene dada por la expresin:

f g (i , j )

h m k m

f (i h, j k ) g (h, k )

(1)

donde los smbolos y representan a las operaciones Booleanas or y and, respectivamente.


Tambin de puede expresar de la siguiente manera:
1

si

si

f h (m, n)

f h ( m, n ) 1
f h ( m, n ) 0

Para ver como acta este operador, es decir, la plantilla sobre la imagen original, supongamos
que todos los elementos de la plantilla son unos; si en el entorno correspondiente de un pxel del
objeto hay al menos un pxel con valor uno entonces el pxel toma el valor uno (se incorpora al
objeto). Por lo tanto, el objeto original se agranda. Adems, los agujeros pequeos o fisuras del
objeto original se rellenan y las lneas del contorno se hacen ms suaves. Por ello, el operador
definido en (1) se conoce con el nombre de operador de dilatacin. Este operador tambin
viene dado como el valor mximo de los productos de cada elemento de la plantilla por el
correspondiente elemento de la imagen.
Si aplicamos el operador dilatacin al fondo de la imagen se erosionan los objetos de la
imagen. Por ello, la erosin de los objetos de una imagen se consigue calculando el negativo de
la imagen (para que el fondo sea el objeto) y dilatando el objeto (fondo), es decir, mediante el
operador:

fg (i, j )

f (i h , j k ) g ( h , k )

h m k m

donde hemos vuelto a tomar el negativo para obtener la imagen con los objetos originales
erosionados.
La erosin de un objeto de la imagen se puede conseguir mediante el operador que
determina el valor mnimo de los productos de cada elemento de la plantilla por su
correspondiente elemento del objeto, de manera que un pxel del objeto se pierde cuando en su
entorno (2m+1)(2m+1) hay al menos un pxel del fondo, obtenindose de esta forma un objeto
erosionado. Este operador se conoce con el nombre de operador de erosin y viene
determinado por la siguiente expresin:
1
0

f h (m, n)

si f h( m, n) t
si f h(m, n) t

siendo t el nmero total de unos que tiene la plantilla utilizada. Dicho operador reduce cada
objeto y elimina o filtra objetos pequeos (dependiendo del tamao de la plantilla utilizada). La
eleccin adecuada de la plantilla nos permite eliminar objetos con una forma determinada.
La plantilla que utilizan estos operadores se llama elemento estructurante, pues de su
configuracin y de su tamao depende la forma y el grado de reduccin o ampliacin que
efecta sobre el objeto de la imagen. Adems, estos operadores se llaman operadores
morfolgicos (nombre originado de las ciencias morfolgicas para describir la forma de los
objetos en biologa y geologa).
Los operadores de dilatacin y erosin tambin se pueden definir como operadores sobre
conjuntos de pxeles. Sea F un conjunto de pxeles con valor uno; sea G el conjunto de
elementos de la plantilla con valor 1 y Gp el conjunto de pxeles del entorno del pxel p
determinado por la plantilla G.
La imagen dilatada mediante el elemento estructurante G viene dada por la expresin:

F G { p: G p F }
La imagen erosionada mediante el elemento estructurante G viene dada por:

FG { p: G p F}
A continuacin vamos a definir dos nuevos operadores a partir de los operadores de dilatacin y
erosin que son de gran inters en el anlisis de la imagen binaria. Ahora pretendemos filtrar
aquellos objetos pequeos de la imagen pero sin reducir el tamao de los restantes. Hemos visto
que el operador de erosin permite filtrar aquellos objetos pequeos pero reduciendo al mismo
tiempo el tamao de los restantes objetos de la imagen. Para evitar esto, basta con dilatar la
imagen resultante. As, obtenemos un nuevo operador (o) que combina las operaciones de
erosin y dilatacin, llamado operador de abertura, y que viene dado por la expresin:

f g f g g

Cuando se pretende rellenar los pequeos huecos o grietas en los objetos de la imagen
podemos utilizar el operador de dilatacin, pero ste agranda tambin dichos objetos por lo que
a continuacin se deber aplicar el operador de erosin. Se obtiene as un nuevo operador que
combina los operadores de dilatacin y erosin y que se llama operador de cierre. Viene dado
por la expresin:

f g f g g

Se puede establecer la siguiente relacin entre los cuatro operadores morfolgicos


definidos segn el tamao de la imagen que obtienen:

f g f g f f g f g

Para extraer el contorno de los objetos podemos utilizar los operadores morfolgicos. En
primer lugar eliminamos los puntos del contorno (frontera) utilizando el operador de erosin
con el elemento estructurante

1 1 1
g 1 1 1
1 1 1

0 1 0
g 1 1 1
0 1 0

El contorno del objeto se obtiene como la diferencia entre el objeto original y el objeto
erosionado. Por lo tanto, el operador que nos da el contorno de un objeto es:
CONTORNO(f) = f (fg)

Finalmente, vamos a definir un operador que utiliza un elemento estructurante que nos da
una configuracin particular de los pxeles del entorno de cada pxel de manera que cada pxel
de la regin es eliminado si su entorno no est completamente emparejado con el elemento
estructurante. Por ejemplo, un elemento estructurante puede ser:

0 0 0
g 1
1 1 1
Un pxel de la imagen es eliminado si el tono de gris de los pxeles del entorno establecido por
el elemento estructurante no coinciden con los 7 valores de dicho elemento. Para que un pxel
permanezca,

los ceros de su entorno tienen que coincidir con los ceros del elemento

estructurante y los unos con los unos. A este operador se le conoce con el nombre de operador

de acierto y fallo (hit and miss).


Dicho operador permite identificar objetos de una forma dada. Por ejemplo, si deseamos
identificar en una imagen binaria un objeto que est separado de los dems, como el definido en
la figura 8.10, basta con aplicar el operador de acierto y fallo con el siguiente elemento
estructurante:
0
0

0
0

1
1
1

0
0
0

1
0

1
0

1
0

0
0

Figura 8.10. Objeto a identificar.

El operador de acierto y fallo tambin se puede expresar en trminos de los operadores de


erosin y dilatacin. Para ello utilizamos dos elementos estructurantes disjuntos, g1 y g2. El
primero se utiliza con el operador erosin para determinar los pxeles cuyo entorno coincide, en
los valores uno, con el elemento estructurante g1. El segundo se utiliza con el operador erosin
aplicado al negativo de la imagen f para identificar los pxeles cuyo entorno en f coincide, en
los valores uno (cero de f ), con el elemento estructurante g2. Por lo tanto,

f g ( f g1 ) ( f g 2 ) ( f g1 ) ( f g 2 )

En el ejemplo anterior, utilizaramos los dos elementos estructurantes siguientes:


0
0

0
g1
0
0

1
1
1

0
0
0

0
0
0

1
0

1
0

1
0

0
0
0

0
0

g2

1
1

1

1
1

0
0
0

1
1
1

0
0
1

0
1

0
1

0
1

0
0
0

1
1

La letra L se identifica teniendo en cuenta que los pxeles que la definen valen 1 o los pxeles
que la rodean 0.

Por ejemplo, si consideramos los siguientes elementos estructurantes

1 0 0

g1 1 1 0
1 1 1

0 1 1

g 2 0 0 1 ,
0 0 0

el operador fg nos dar los pxeles del contorno derecho del objeto que forman un eje de 135o.

A partir del operador de acierto y fallo se define el operador adelgazamiento mediante


la siguiente expresin:
ADELGAZAMIENTOg ( f ) f f g

Nos da el conjunto de pxeles de f cuyo entorno no est emparejado con el elemento


estructurante. Un elemento estructurante usado con frecuencia para el adelgazamiento
es
0 0 0
1

1 1 1

y los correspondientes a los giros de dicha plantilla

8.5.2 Esqueletos
Una aproximacin importante para representar la forma de una regin plana (objeto) es
reducirla (simplificarla) a un grafo que llamaremos esqueleto de la regin. Dicha
reduccin se puede conseguir aplicando sucesivamente un algoritmo de adelgazamiento
de la regin. El esqueleto de un objeto puede ser tan significativo como el propio objeto
e incluso tal representacin puede ser ms fiable, es decir, se puede interpretar mejor y
conducir a una identificacin o reconocimiento del objeto ptima, sin necesidad de
reconstruirlo a partir del esqueleto, como suele ocurrir en el reconocimiento de
caracteres alfanumricos, identificacin de firmas o de huellas dactilares. Asimismo,
cuando nuestro objetivo es el almacenamiento compacto (compresin), el esqueleto de
un objeto, junto con alguna informacin adicional que permita reconstruir el objeto a
partir de su esqueleto, suele reducir sustancialmente el nmero de bits necesarios para
su almacenamiento, puesto que esqueleto conlleva eliminacin de redundancia.

Un punto P de una regin R se dice que pertenece al esqueleto de R si equidistan


de, al menos, dos puntos Q1 y Q2 del contorno de R creando direcciones PQi,
perpendiculares al contorno de R en cada punto Qi, i=1,2. Por lo tanto, dichos puntos,
Qi, pertenecen a circunferencias con centro P. As, se puede definir el esqueleto de una
regin de la imagen binaria como el lugar geomtrico de los centros de las
circunferencias maximales inscritas en dicha regin. Una circunferencia maximal es
aquella que no contiene circunferencias inscritas ms pequeas (las circunferencias
inscritas tienen que contener dos o ms puntos del contorno del objeto). Para cada punto
P de la regin determinamos el menor entorno (crculo) que contiene al menos un punto
del contorno. Si dicho entorno contiene ms de un punto del contorno entonces decimos
que P forma parte de un eje medial, es decir, que forma parte del esqueleto del objeto
(figura 8.11).

Figura 8.11. Esqueleto de una regin rectangular.

Para la construccin del esqueleto vamos a utilizar un algoritmo de adelgazamiento


basado en operadores morfolgicos. El esqueleto viene definido por
N

S Sn
n 0

S n erosin n ( f ) abertura (erosin n )( f )

donde

El operador erosinn(f) consiste en aplicar n veces consecutivas el operador erosin a la


imagen f y N es el menor entero n tal que erosinn+1(f)=.
Por ejemplo, para determinar el esqueleto del rectngulo siguiente de tamao 36,

basta con utilizar el elemento estructurante


1
1 1 1

y aplicar hasta dos veces el operador erosin.


Para n=0 slo hay que determinar la abertura de f,

resultando as que So viene dada por la imagen

Para n=1 se aplica el operador erosin a f, resultando la imagen

y como su abertura es el conjunto vaco, resulta que S2 coincide con dicha imagen.
Por lo tanto, el esqueleto del rectngulo que viene dado por S0 S1 es la siguiente
imagen:

8.5.3 Anlisis morfolgico para imgenes en tonos de gris


Los conceptos de dilatacin y erosin se pueden extender para imgenes en tonos de
gris. As, se define el operador dilatacin basado en la plantilla g, llamada elemento
estructurante, como

( f g )(m, n) max f ( m i, n j ) g (i, j ) (i, j ) Dg

donde Dg es el dominio (entorno) de g. Se supone que la imagen vale fuera de su


dominio. Obsrvese que esta ecuacin establece un proceso similar a la convolucin
espacial sustituyendo cada pxel por el valor mximo de las sumas de los tonos de gris
de los pxeles del entorno con los correspondientes valores de la plantilla. El dominio
Dg especifica los pxeles del entorno de (m, n) a los que se les suma el valor
correspondiente del elemento estructurante y sobre los que se calcula su valor mximo.
Un ejemplo de dominio de g puede ser::
Dg (i, j ) : i r ,..., 1,0,1,..., r; j s,..., 1,0,1,..., s

En la prctica se utilizan elementos estructurantes planos, es decir, con todos sus


elementos iguales a cero, g(i, j)=0, (i, j)Dg, en cuyo caso el operador se reduce al
operador mximo local que consiste en tomar como valor del pxel el mximo de los
pxeles del entorno definido por g.

Asimismo, se define el operador erosin basado en la plantilla g como

( f g )(m, n) min f (m i, n j ) g (i, j ) (i, j ) Dg

De manera anloga al caso binario, se definen el operador de abertura de f en


trminos de los operadores de dilatacin y erosin,
f g f g g

Supongamos que la imagen se interpreta como una representacin 3D en la que la


tercera dimensin viene dada por los tonos de gris y las dos primeras por las posiciones
de los pxeles sobre el plano xy. La accin del operador de abertura de f por g se puede
interpretar geomtricamente de la siguiente manera: aplasta un poco los pequeos picos
ms puntiagudos de la superficie de la imagen conforme la plantilla se traslada por todo
el dominio de la misma. Por ello, permite suprimir pequeos detalles de brillo (que
corresponden a zonas de tamao inferior a la plantilla) dejando relativamente
inalterados los dems tonos de gris y las zonas luminosas ms grandes. Es decir, suaviza
aquellas zonas pequeas ms luminosas. Anlogamente, se define el operador cierre
en trminos de los operadores de dilatacin y erosin como
f g f g g

Dicho operador suprime los detalles oscuros que son ms pequeos que la plantilla
utilizada. Por lo tanto, los operadores de cierre y abertura se suelen utilizar

conjuntamente para suavizar la imagen y eliminarle ruido, aplicando primero, por


ejemplo, la abertura y despus el cierre. Tambin se suele utilizar un filtrado secuencial
alternante, es decir, combinar sucesivamente dichos operadores cambiando de elemento
estructurante.
Otro operador importante es la transformacin copa del sombrero (top-hat) de
Meyer que viene dada por la expresin:
TopHat ( f ) f f g

Dicho operador permite aislar objetos convexos luminosos (frente a un fondo ms


oscuro) del tamao inferior a la plantilla utilizada. Es conveniente que la plantilla tenga
una forma convexa.

Asimismo, la transformacin alas de sombrero (bottom-hat) se define como el cierre


menos la imagen,
BottomHat ( f ) f g f

Permite aislar objetos convexos oscuros (con respecto al fondo ms luminoso) del
tamao inferior a la plantilla.
Un estimador sencillo de una superficie umbral de variacin local, basado en estos
operadores, es el siguiente:
1
2

(m, n) f g ( f g )

donde g es una plantilla plana (de elementos nulos).

Los operadores morfolgicos tambin se pueden utilizar como una tcnica para
aumentar el contraste local de la imagen. Una medida del contraste local en la ventana
definida por el elemento estructurante g es la siguiente:
ContrasteLocal ( f g ) ( f g )

Una transformacin para conseguir aumentar el contraste local es la siguiente:


c(m, n) a

f (m, n) f g (m, n)

f g (m, n) f g (m, n)

siendo a un parmetro de escala que permite ajustar la luminosidad de la imagen.


En muchas aplicaciones cientficas es necesario determinar la distribucin del
tamao de las partculas (objetos pequeos) que aparecen en una imagen. Ello
constituye una parte importante del campo de la granularidad. Para ello se pueden

utilizar las tcnicas morfolgicas. Para partculas que son ms luminosas que el fondo
se aplica el operador abertura con diferentes tamaos de plantilla en orden creciente.
Para cada operacin de abertura se determina la suma de los valores (tonos de gris) de
todos los pxeles; dicha suma se suele llamar el rea de superficie de la imagen.
Podemos representar grficamente las rea de superficies obtenidas frente al radio de los
elementos estructurantes (discos). Los picos en dicha grfica indican la presencia de
muchos objetos de dicho tamao (radio). Si la grfica presenta muchas pequeas
variaciones se puede repetir el proceso con una imagen ms suavizada.

You might also like