You are on page 1of 6

1

Recuperación de Imágenes Médicas


Jhon Alexander Rodriguez,Laudy Patricia Mora
u1802053@unimilitar.edu.co,u1802341@unimilitar.edu.co

Abstract—Este documento propone un método para un sistema y algoritmos utilizados para realizar una recuperación. Se
CBIR ( Content-based-image-retrieval ) para agrupar, identificar describen algunos imetodos de caractericación y agrupación
y recuperar imágenes. Este sistema comprende 3 fases para su segun los diferentes enfoques existentes en la literatura.
recuperación: Caracterización, Agrupación, Identificación. Para
la caracterización de las imágenes se pueden implementar difer-
entes métodos con los cuales se pueden extraer características A. Caracterización de Imagenes
específicas de una imagen. Cuando se realice la caracterización
La extracción de características es un paso muy importante
de las imágenes se procede a realizar los grupos de estas
caracterizticas; para este agrupamiento se utiliza un algoritmo en el agrupamiento de las imágenes como lo se puede observar
particional (Algoritmo K-means), con esto se toma la imagen a en un estudio comparativo de agrupación de imágenes médicas
identificar, se caracteriza y se compara con los grupos creados, [4] en el cual caracterizan 3 tipos de características cruciales
se selecciona el grupo con mayor parecido a la imagen, luego las cuales son color, forma y textura. Para la extracción
de esto se seleccionan las 5 imágenes más semejantes a la
de características se enfocan principalmente en la textura
imagen propuesta y estas son las salidas de nuestro proyecto
propuesto, en donde son calificadas por una persona experta ya que es muy poderosa para imágenes variantes. Utilizan
para determinar el grupo preciso al que pertenece. GLCM (Gray-Level Co-Occurrence Matrix) para realizar la
extracción de características y utilizan las medidas estadísticas
Index Terms—K-means, imagen, agrupacion,caracterizticas,
identificar, recuperación, comparar, distancia, grupo y centro. como homogeneidad, contraste, entropía, etc. para calcularlas.
Calculan 4 características de textura las cuales son Contraste,
correlación, energía y homogeneidad. Al final de esto tienen
un vector de 4 características para cada imagen.
I. I NTRODUCTION Otro tipo de extracción de características muy interesante
Las imágenes digitales se han convertido en una herramienta es el que utilizan en el siguiente articulo [5] en el cual
indispensable para diferentes aplicaciones, como imágenes hacen referencia a las características de textura, aunque en
médicas, prevención de delitos, educación, multimedia, min- este documento trabajan con la media y la varianza de la
ería, datos, etc. [1] Una aplicación en la que está basado intensidad de los pixeles. No utilizan la totalidad de la imagen,
este proyecto es en la recuperación de imágenes médicas. El el trabajo que realizan para esto es seccionar la imagen en
documento propone una herramienta para identificar el tipo de zonas concéntricas circulares como se muestra en la figura 1.
imagen (corazón-próstata-pulmones-corazón), ilustrando las
imágenes más semejantes a la imagen propuesta. Muchas de
las aplicaciones existentes con este objetivo utilizan un sistema
de etiqueta lo cual convierte el sistema en supervisado, esto
puede facilitar el agrupamiento de estas o utilizan sistemas
de agrupamiento muy complejos como lo pueden ser redes
convolucionales, algoritmos basados en densidad, algoritmos
jerárquicos, mixturas finitas, etc. [2]. Se realiza un algoritmo
el cual funcione con una base de datos que no dependa de
etiquetas y se puedan adicionar imágenes nuevas sin esta, lo
que vuelve al algoritmo no supervisado, por otro lado, se
reduce la complejidad ya que se utilizaran métodos básicos
de caracterización de imágenes. Se pueden implementar difer-
entes métodos de caracterización de imágenes como lo pueden
ser Métodos estadísticos, Métodos Estructurales, Métodos Fig. 1. Media y Varianza de Regiones Circulares Concentricas. [5]
Basados en Modelos, etc. [3] Nos basamos en un algoritmo
particional para realizar el cluster, ya que no requiere un alto Calculan la media y la varianza de cada anillo y guardan
consumo de máquina y los grupos que se formaran no son el dato, el número de características dependerá del número
complejos [2]. de zonas que se tenga lo que hace que su algoritmo sea más
sensible a cambios en las imágenes.
Otra característica que se puede tener en cuenta es el tipo
II. A NTECEDENTES de borde o bordes en la imagen. Toman los cambios de
En esta sección se describen aspectos relacionados con intensidad de la imagen y guardan esa posición de cambio con
procesamiento de imagenes a la hora de recuperar una de un algoritmo seleccionado. El método de detección de bordes
estas, su clasificación, sus caracteristicas, su identificación que utilizan para extraer esta característica es la extracción
2

de Canny, al extraer las características de borde las estiman


a través del histograma de los canales RGB por separado
y guardan las características del histograma para realizar la
agrupación después de esto.
Un problema que es muy común a la hora de extraer
las características es el ruido que viene con la imagen. Se
realizó un histograma robusto el cual es resistente al ruido
de la imagen [6]. Para realizar este histograma trabajaron un
algoritmo analógico aditivo. Esto puede indicar una desviación
estándar de la imagen y si el ruido no está correlacionado con
la imagen original el ruido normalizaría el histograma de una
forma gaussiana.

B. Agrupación de Caracteristicas o Clasificadores


Para la clasificación de datos es posible usar tanto algorit-
mos supervisados como no supervisados un ejemplo de estos
es el clasificador de datos bayesiano, el KNN(kth nearest- Fig. 2. Bloques Metodo Propuesto
neighbord Kecimo vecino más cercano) y las SVM(support
vector machine) de función gaussiana de base lineal.[7] Este
tipo de clasificadores son utilizados cuando los patrones de 1) Extracción de Características usando GLCM:: Nos
algunas clases presentan, ya sea una cercanía notable o una basaremos en la matriz de co-ocurrencia de nivel de
dispersión significativa[8]. gris(GLCM) para extraer las características de homogeneidad
Un método no supervisado utilizado como se puede ver en la cual indica el grado de cercanía de la distribución de los
el siguiente documento [4] en el cual utilizan un algoritmo elementos en la GLCM a la diagonal principal. Al observar la
particional Algoritmo K-Means el cual agrupa las caracterís- ecuación de homogeneidad los valores de probabilidad en la
ticas más semejantes y tomar el centroide de los grupos, el matriz son mayores en la diagonal principal y su peso decae
problema de este algoritmo es cuando hay mucha cercanía al alejarse de ella; por lo tanto, una imagen resulta homogénea
entre grupos puede confundirse. si los valores en dicha diagonal son altos.
Dictionary Learning o Aprendizaje por Diccionarios es un
método de agrupación, el cual asigna a un diccionario un Algorithm 1 Homogeneidad
grupo de características semejantes como lo pueden evidenciar Entrada :I(Imagenescaladegrises), C(GLCM)
Mr Srinivas,Ramu Naidu y Krishna Mohan en su artículo Salida : Homogeneidad
Recuperación de imágenes usando aprendizaje por diccionar- C
P = graycomatrix(I);
C
ios. En el cual después de capturar las características por 1+|i−j|
i,j
secciones concéntricas circulares como ya se mencionaron
antes. Realizan el agrupamiento de los datos y asignan cada
grupo a un diccionario usando el algoritmo K-SVD el cual Otra característica extraída fue la energía de las imágenes
consiste en una descomposición en valores singulares. para realizar una mejor dispersión de datos y tener una
Otro método usado para este tipo de tareas, siendo uno variedad a la hora de agrupar esto se espera que facilite la
de los más complejos son las redes convolucionales . En el identificación de las imágenes. La energía corresponde a la
cual se destaca que puede usarse para una base de datos muy suma de los cuadrados de los elementos en la GLCM. Esta
grande de imágenes. Comparan la similitud visual mediante se refiere a la cantidad de gris de un pixel en la imagen (por
métricas de distancia y utilizan la similitud semántica mediante ejemplo, si el valor de un pixel A es de 120 y otro pixel B es
SVM, que se convierten en las características de entrada de 220 se sabe que A es más oscuro que B).
de la red convolucional, el problema de este método es el
consumo computacional y complejidad que tiene para su Algorithm 2 Energia
implementación. Entrada :I(Imagenescaladegrises), C(GLCM)
Salida : Homogeneidad
C
P =2graycomatrix(I);
III. M ETODO P ROPUESTO C
i,j
A. Agrupación,extracción de caracteristicas e Identificación.
En la figura 2 se muestra el procedimiento que se realizara 2) Agrupación de Características: Se utilizó el algoritmo
en el proyecto implementado para recuperación de imágenes K-means el cual comienza con un conjunto de grupos y luego
usando GLCM para extracción de características y algoritmo a cada instancia o imagen se le asigna el grupo más cercano
K-means para realizar los agrupamientos. mediante el cálculo de distancia entre estos dos.
3

Fig. 3. Agrupación de imagenes [4]


Fig. 4. Agrupación de Base de Datos. Prostata”Rojo”, Cerebro”Negro”,
Pulmones”Azul” y Corazon “Verde”
Algorithm 3 K-means clustering

I n p u t : C ( v e c t o r e s de c a r a c t e r i s t i c a s " 2 " )
K: numero de g r u p o s " 4 " Para esta prueba en la cual se agruparon los datos por su
S a l i d a s = Grupos homogeneidad y energía se observa la distancia o separación
1: I n i c i a l i z a r K entre algunas como lo son los grupos Azul, Rojo y Verde-
2 : f u n c i o n Kmeans M a t l a b Negro. Las características de los grupos verde y negro entre
3 : Comparar P r u e b a con c e n t r o i d e s ellas son muy cercanas y muy parecidas las características de
4: Distancia Euclidiana las imágenes que componen estos grupos lo cual pasa también
5 : C a l c u l a r 5 mas p e q u e ñ o s . con el grupo rojo, pero al ver el grupo azul se observa más
separación entre sus componentes, significa que las imágenes
del grupo azul no son tan constantes entre ellas.
3) Características Imagen prueba: A la imagen de prueba
I se le aplica el mismo algoritmo de Homogeneidad y energía
para tener una distribución entre los grupos ya hallados.
4) Identificación: Para realizar la identificación se tomó la
homogeneidad y energía como coordenadas en un plano 2D
tanto para la prueba como la base de datos esto para tener una
guía donde podamos observar que sucede con la agrupación
de datos. Se analiza la posición de la imagen de entrada con
los centroides de los grupos, con esto se toma el grupo del
centroide más cercano. Esto no puede funcionar de una forma
correcta si existen grupos muy cercanos a la imagen de entrada
y puede combinar relación de imágenes.

B. Recuperación de Imagenes
9
Para tener una decisión acertada acerca de la imagen de
prueba se realiza la recuperación de las 5 imágenes más Fig. 5. Agrupación de Base de Datos. Prostata”Rojo”, Cerebro”Negro”,
parecidas a la imagen de prueba. Ya con la identificación del Pulmones”Azul” y Corazon “Verde”. Magente son los centroides de los
grupos.
grupo más cercano se realiza la identificación de imágenes
más cercanas a la imagen de prueba del grupo seleccionado,
esto al final nos arrogara las 5 más parecidas.
En la figura 5 se observa la manera en la que quedaron
IV. R ESULTADOS distribuidos los centroides, en este procedimiento se encontró
Las pruebas que se hicieron fueron respecto a los enfoques, el primer error del algoritmo ya que los grupos verde y negro
valores, identificación y agrupación de las imágenes nos tienen mucha dispersión entre sus componentes y una
cercanía entre sus centroides el algoritmo k-mean los tomo
como un solo grupo y el grupo azul por su dispersión de
A. Agrupación datos tomo dos grupos en el grupo azul. Esto nos traerá
Se seleccionaron imágenes de la base de datos las cuales problemas a la hora de reconocimiento de imágenes, aunque
eran de cerebro, próstata, pulmón y corazón a las cuales se para solucionar este problema se realizó la distancia euclidiana
les sacaron las características ya mencionadas anterior mente al centro y la distancia entre punto y punto de características
y se ilustraron para ver el orden que estas tomaron. para validar la cercanía entre grupos.
4

9
Fig. 6. Agrupación de Base de Datos. Prostata”Rojo”, Cerebro”Negro”, Fig. 8. PROSTATA-Agrupación de Base de Datos. Prostata”Rojo”, Cere-
Pulmones”Azul” y Corazon “Verde”. Cian posición de la imagen de prueba. bro”Negro”, Pulmones”Azul” y Corazon “Verde”. Cian posición de la imagen
de prueba.

Se observa el centroide de la imagen de prueba a que grupo


Ya con esto se procede a probar el algoritmo. Lo primero
está más cercano, y ya que los demás grupos están lejos no
que se hace es retirar una imagen de la base de datos para que
interfiere con la comparación de características.
el algoritmo realice la agrupación de esta sin la imagen la cual
2) Cerebro: Se realiza la prueba con imagenes de cerebro
utilizaremos de prueba para validar los grupos. Inicialmente
y los resultados a esta prueba fue la siguiente:
se tienen 40 imágenes en la base de datos, pero ya que se
retirará una imagen de la base de datos finalmente se realizará
la agrupación con 39 imágenes y los grupos no necesariamente
quedaran con el mismo número de imágenes, un grupo quedara
con tan solo 9 imágenes. Para escoger las imágenes se escogen
las 5 más parecidas..

B. Pruebas
Fig. 9. CEREBRO-Salida del codigo Imagen de prueba y sus 5 imagenes
1) Prostata: Para el inicio de la prueba de próstata se retira mas similares..
una imagen como ya se había indicado anteriormente y se
procede a ejecutar el código.

Fig. 7. PROSTATA-Salida del codigo Imagen de prueba y sus 5 imagenes


mas similares.. Fig. 10. CEREBRO-Agrupación de Base de Datos. Prostata”Rojo”, Cere-
bro”Negro”, Pulmones”Azul” y Corazon “Verde”. Cian posición de la imagen
de prueba.

El algoritmo muestra las 5 imagenes mas cercanas del grupo Esta imagen da muy cercana al centroide del grupo de
especifico a la imagen de prueba. Se observa que para este cerebro y ya que se realiza la comparación punto a punto
caso la imagen mas cercana dentro de las 5 es la imagen respecto a sus caracteristicas tiende a fallar poco el algoritmo.
numero 4 y la mas lenjana dentro de el grupo seleccionado es 3) Pulmones: La prueba de pulmones es la prueba que
la imagen 8. Tambien reconoce las imagenes con una variedad mejores sultados arroja, gracias a la disperción de sus datos,
de caracteristicas en ellas. pero es la mas compleja de realizar por el agrupamiento.
5

Fig. 11. PULMONES-Salida del codigo Imagen de prueba y sus 5 imagenes


mas similares..

Fig. 14. CORAZON-Agrupación de Base de Datos. Prostata”Rojo”, Cere-


bro”Negro”, Pulmones”Azul” y Corazon “Verde”. Cian posición de la imagen
de prueba

Como se dijo antes la agrupación de los cerebros estan


cercanas al corazon, pero aun asi las caracteristicas de la
imagen de prueba se encuentran mas cercanas a las de cerebro
y gracias a la comparación de los centroides y de punto a punto
se minimizo el error en la identificación.

V. C ONCLUSIONES
Se encontró un problema al ejecutar el algoritmo, por la
magnitud de las características ya que confundía dos grupos
y la dispersión de datos de un grupo lo asumía como dos
grupos, para solucionar esto se propuso realizar una compara-
ción punto a punto y con el centroide de cada grupo para
establecer la referencia. Las imágenes de cerebro tenían datos
muy parecidos entre su base de datos, pero a la vez muy
Fig. 12. PULMONES-Agrupación de Base de Datos. Prostata”Rojo”, Cere- parecidos con las imágenes de cerebro, pero se logró realizar
bro”Negro”, Pulmones”Azul” y Corazon “Verde”. Cian posición de la imagen la respectiva identificación y recuperación de estas imágenes.
de prueba.
También para escoger el método para extraer las características
se probaron la media, homogeneidad, energía, mediana, las
diferentes transformadas, etc. Pero finalmente las caracterís-
ticas según nuestro criterio que mejor funcionaron fueron la
homogeneidad y energía. Este trabajo puede complementarse
4) Corazon: Las características de los corazones están muy con redes convolucionales si se desea mejor el reconocimiento
cercanas a los de cerebro, pero aun así logra identificar y de estas, ya sea un perfil de imagen o cierto corte ya que el
recuperar la imagen de una buena manera, ya que se realizó método que utilizamos es muy global para las imágenes.
una doble comparación para volver el algoritmo más asertivo.
VI. R EFERENCIAS
[1] T. S. S. L.K Pavithra, «An efficient framework for image
retireval using color, texture and edge features,» Department
of Information Technology., Chennai, India, 2017.
[2] F. P. S. S. D. Pascual, «Algoritmo de Agrupamiento,»
Departamento de Lenguajes y Sistemas Informáticos, Santiago
de Cuba, Cuba, 2016.
[3] S. S. E. H. Marian Fayez, «Comparative Study of Clus-
tering Medical Images,» SAI Computing Conference, Londo,
UK, 2016.
[4] R. N. C. ,. C. M.Srinivas, «Content-
basedmedicalimageretrievalusingdictionarylearn-
ing,» DepartmentofComputerScienceandEngineer-
Fig. 13. CORAZON-Salida del codigo Imagen de prueba y sus 5 imagenes ing,IndianInstituteofTechnology,Hyderabad, Hyderabad,
mas similares.. India, 2015.
6

[5] J. F. Cyril Hoschi IV, «Robust Histogram-basedimage


retrieval,» Praha, Republica Checa, 2015.
[6] D. A. C. Verbel, «Caracterización y Clasificación Mor-
fológica de Imágenes de Ultrasonido Como Herramienta al
Diagnóstico de Lesiones en los Tendones de Conejo,» Uni-
versidad Nacional de Colombia , Manizales-Caldas, Colombia,
2016
[7] HARALICK, Robert y SHAPIRO, Linda. Glossary of
computer vision terms. En: Pattern
[8] X. L. Y. G. Y. Z. X. Z. Ling Ma, «A new method
of content based medical image retrieval and its,» Journal of
Biomedical Informatics, Beijing, China, 2016.

You might also like