You are on page 1of 34

Sabino Miranda Jimnez

CIC-IPN
Similitud Semntica
Contenido
Introduccin
Aplicacin
Enfoques
Mtricas
Conclusiones

Septiembre 2010
2
Introduccin
La Similitud tienen un papel fundamental.
Principio de organizacin, las personas:
Clasifican objetos
Forman conceptos
Hacen generalizaciones

Problema: adquirir automticamente el significado de
los contenidos, no resuelto an.

Septiembre 2010
3
4
Se usa en PLN
Recuperacin de Informacin (Query vs Documento)
Clasificacin de Textos (Documento vs Categora)
Desambigacin de sentidos de palabras (Contexto vs
Contexto)
Evaluacin automtica
Traduccin automtica (Gold Standard vs Generado)
Generacin de resmenes (Resumen vs Original)
Introduccin (2)
Proximidad semntica (Semantic Relatedness, SR):
Indica el grado de relacin entre dos conceptos
Entidades disimilares, pero relacionadas
(no relacin clsica: hiperonimia, meronimia, )
vaso agua dedo mano
rbol sombra coche vehculo

Similitud semntica es un caso especial de SR



5
Septiembre 2010
Introduccin (3)
Similitud Semntica: que tan parecido o disimilar es
una palabra con relacin a otra
manzana naranja manzana cepillo




La mayora del trabajo se enfoca en adquisicin
semntica de las propiedades de las palabras, se
centran en la similitud semntica

manzana naranja
fruta
6
7
Similitud de palabras
Encontrar la similitud entre palabras es parte fundamental
de la similitud en los textos.
Las palabras pueden ser similares si:
Significan la misma cosa (sinnimos)
Significan lo opuesto (antnimos)
Usan la misma manera (rojo, verde)
Se usan en el mismo contexto (doctor, hospital, bistur)
Uno es un tipo del otro (poodle, perro, mamfero)
Jerarquas lxicas como WordNet pueden ser tiles.
8
Jerarqua tipo WordNet
wolf dog
animal
horse
amphibian

reptile mammal fish
dachshund
hunting dog stallion mare
cat
terrier

Septiembre 2010
9
Aplicaciones
Recuperacin de Informacin (Query vs Documento)
Desambiguacin de sentido de palabras
(Documento vs Categora)
Clasificacin de textos
(Contexto vs Contexto)
Evaluacin automtica
Traduccin automtica (Gold Standard vs Generado)

Generacin de resmenes (Resumen vs Original)



Septiembre 2010
10
Enfoques
Mtodos basados en diccionarios
(WordNet, Tesauro Roget, etc.)

Mtodos basados en corpus

Mtodos hbridos
Septiembre 2010
11
Mtodos basados en diccionarios
Se calcula la longitud de los caminos (nm. aristas),
en WordNet se usa su jerarqua
Camino corto similitud alta

Septiembre 2010
12
Algunos problemas
Problema con el conteo de aristas : En estructuras
como ontologas o bases lxicas los caminos son
irregulares a travs de la jerarqua
Algunos trminos relacionados no estn en la misma
jerarqua

En WordNet la distancia entre plant y animal es 2.
Por otro lado, la distancia entre zebra y horse es
tambin 2.

Septiembre 2010
plant animal
organism
zebra horse
equine
13
Mtodos Basados en corpus
Usan frecuencias de coocurrencias en
corpus

Se basan en un modelo de espacio
vectorial, Anlisis de Semntica Latente, o
mtodos probabilsticos

Septiembre 2010
14
Medidas de Similitud
Los coeficientes son descriptivos
Coeficientes binarios: presencia / ausencia

Coeficientes cuantitativos: datos de la
abundancia de las caractersticas
relativas
Septiembre 2010
15
Matching


Dice

Overlap





Jaccard
Coseno
Medidas de similitud
Coeficientes







Septiembre 2010
16
Ejemplo Coeficiente DICE
La similitud entre las siguientes dos
cadenas de texto: (bigramas)
W1 = casa {ca, as, sa}
W2 = cama {ca, am, ma }
D1 = 2 (1) / (3 + 3) = 0.3333

W3 = casa {ca, as, sa}
W4 = caso {ca, as, so }
D2 = 2 (2) / (3 + 3) = 0.6666



Septiembre 2010
17
Ejemplo Coeficiente Jaccard
La similitud entre las siguientes dos
cadenas de texto: (bigramas)
W1 = casa {ca, as, sa}
W2 = cama {ca, am, ma }
J1 = 1 / 5 = 0.2

W3 = casa {ca, as, sa}
W4 = caso {ca, as, so }
J2 = 2 / 4 = 0.5



Septiembre 2010
18
Desambiguacin de sentido de palabras
Lesk Simplificado
Idea: Sentidos de palabras relacionados son (frecuentemente) definidos usando las
mismas palabras

Ejemplo
X1: bank(1): a financial institution
X2: bank(2): sloping land beside a body of water

Y: lake: a body of water surrounded by land

Traslapes de glosas
Nm. de palabras de contenido en comn entre las glosas relacin

R(bank(2), lake) = 3
R(bank(1), lake) = 0
19
Septiembre 2010
Recuperacin de Informacin
Cada documento es representado por un conjunto de
palabras representativas o keywords
No todos los trminos son igualmente tiles para
representar un documento: trminos menos frecuentes
identificar un conjunto ms selecto de documentos.
La importancia de los trminos ndices es representada
por pesos asociados a ellos.
El peso de los trminos es usado para calcular el grado
de similitud entre consulta y cada documento.


Septiembre 2010
20
21
El modelo vectorial y la similitud coseno
22
Modelo de similitud vectorial
Imaginar un espacio N-dimensional donde N es el nmero
de palabras nicas en un par de textos.
Cada texto se puede tratar como un vector en este espacio
N-dimensional.
La distancia entre los dos vectores es un indicador de la
similitud de los dos textos.
El coseno del ngulo entre los dos vectores es la medida de
distancia comn.
23
Modelo de espacio vectorial
Ejemplo:
T
1
= 2W
1
+ 3W
2
+ 5W
3
T
2
= 3W
1
+ 7W
2
+ W
3
cos = T
1
T
2
/ (|T
1
|*|T
2
|
= 0.6758

W
3
W
1
W
2
T
1
= 2W
1
+ 3W
2
+ 5W
3
T
2
= 3W
1
+ 7W
2
+ W
3
24
Similitud de documentos
Hurricane Gilbert swept toward the Dominican
Republic Sunday , and the Civil Defense
alerted its heavily populated south coast to
prepare for high winds, heavy rains and high
seas.
The storm was approaching from the southeast
with sustained winds of 75 mph gusting to 92
mph .
There is no need for alarm," Civil Defense
Director Eugenio Cabral said in a television
alert shortly before midnight Saturday .
Cabral said residents of the province of Barahona
should closely follow Gilbert 's movement .
An estimated 100,000 people live in the province,
including 70,000 in the city of Barahona ,
about 125 miles west of Santo Domingo .
Tropical Storm Gilbert formed in the eastern
Caribbean and strengthened into a hurricane
Saturday night
The National Hurricane Center in Miami
reported its position at 2a.m. Sunday at
latitude 16.1 north , longitude 67.5 west,
about 140 miles south of Ponce, Puerto
Rico, and 200 miles southeast of Santo
Domingo.
The National Weather Service in San Juan ,
Puerto Rico , said Gilbert was moving
westward at 15 mph with a "broad area of
cloudiness and heavy weather" rotating
around the center of the storm.
The weather service issued a flash flood watch
for Puerto Rico and the Virgin Islands until
at least 6p.m. Sunday.
Strong winds associated with the Gilbert
brought coastal flooding , strong southeast
winds and up to 12 feet to Puerto Rico 's
south coast.
25
Similitud de documentos
Hurricane Gilbert swept toward the Dominican
Republic Sunday , and the Civil Defense
alerted its heavily populated south coast to
prepare for high winds, heavy rains and high
seas.
The storm was approaching from the southeast
with sustained winds of 75 mph gusting to 92
mph .
There is no need for alarm," Civil Defense
Director Eugenio Cabral said in a television
alert shortly before midnight Saturday .
Cabral said residents of the province of Barahona
should closely follow Gilbert 's movement .
An estimated 100,000 people live in the province,
including 70,000 in the city of Barahona ,
about 125 miles west of Santo Domingo .
Tropical Storm Gilbert formed in the eastern
Caribbean and strengthened into a hurricane
Saturday night
The National Hurricane Center in Miami
reported its position at 2a.m. Sunday at
latitude 16.1 north , longitude 67.5 west,
about 140 miles south of Ponce, Puerto
Rico, and 200 miles southeast of Santo
Domingo.
The National Weather Service in San Juan ,
Puerto Rico , said Gilbert was moving
westward at 15 mph with a "broad area of
cloudiness and heavy weather" rotating
around the center of the storm.
The weather service issued a flash flood watch
for Puerto Rico and the Virgin Islands until
at least 6p.m. Sunday.
Strong winds associated with the Gilbert
brought coastal flooding , strong southeast
winds and up to 12 feet to Puerto Rico 's
south coast.
26
Vectores de los documentos para los
trminos seleccionados
Documento1
Gilbert: 3
Hurricane: 2
Rains: 1
Storm: 2
Winds: 2
Documento2
Gilbert: 2
Hurricane: 1
Rains: 0
Storm: 1
Winds: 2
Similitud coseno: 0.9439
27
Problemas con el modelo simple
Palabras comunes mejoran las similitud demasiado
El rey est aqu vs El pan est duro
Solucin: Multiplicar los conteos por la frecuencia del
documento inversa (idf)
Ignora la similitud semntica
Yo poseo un perro vs. Yo tengo una mascota
Solucin: Complementar con similitud de palabras
28
Problemas con el modelo simple
(cont.)
Ignora las relaciones sintcticas
Mara ama a Juan vs. Juan ama a Mara
Solucin: Ejecutar anlisis superficial SVO
Ignora roles/frames semnticos
Yahoo compr Flickr vs. Flickr se vendi a Yahoo
Solucin: Anlisis de clases verbales
29
Ejemplo
T1: Cuando el acusado y su abogado entraron en la corte,
algunos de los simpatizantes de la victima le dieron la
espalda.

T2: Cuando el acusado entr al juzgado con su defensor, la
multitud le dio la espalda.

Parfrasis?
- Comparar la similitud con un umbral de 0.5
Modelo Vectorial







Sim(q,dj) = cos()
Septiembre 2010
30
Query: "gato amigo del hombre"
D1 : "El perro salvaje se acerc al campamento del hombre de la Edad
de Piedra "
D2: "El perro se hizo amigo del hombre escarbando en sus basuras"
D3: "El gato dominaban a los humanos hasta que vinieron los perros"
D=3 IDF = log (D/df(i))
Conteo: TF(i) Peso: W(i) = TF(i)*IDF(i)
Trmino Q D1 D2 D3 df(i) D/df(i) IDF(i) Q D1 D2 D3
acerc 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
amigo 1 0 1 0 1 3 0.4771 0.4771 0.0000 0.4771 0.0000
basuras 0 0 1 0 1 3 0.4771 0.0000 0.0000 0.4771 0.0000
campamento 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
dominaban 0 0 0 1 1 3 0.4771 0.0000 0.0000 0.0000 0.4771
Edad 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
escarbando 0 0 1 0 1 3 0.4771 0.0000 0.0000 0.4771 0.0000
gatos 0 0 0 1 1 3 0.4771 0.0000 0.0000 0.0000 0.4771
hizo 0 0 1 0 1 3 0.4771 0.0000 0.0000 0.4771 0.0000
hombre 1 1 1 0 2 1.5 0.1761 0.1761 0.1761 0.1761 0.0000
humanos 0 0 0 1 1 3 0.4771 0.0000 0.0000 0.0000 0.4771
perro 0 1 1 2 1.5 0.1761 0.0000 0.1761 0.1761 0.0000
perros 0 0 0 1 1 3 0.4771 0.0000 0.0000 0.0000 0.4771
Piedra 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
salvaje 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
se 0 1 0 0 1 3 0.4771 0.0000 0.4771 0.0000 0.0000
vinieron 0 0 0 1 1 3 0.4771 0.0000 0.0000 0.0000 0.4771
gato 1 0 0 1 1 3 0.4771 0.4771 0.0000 0.0000 0.4771
31 Sim(Q,D2) = 0.3760
Matriz Binaria trmino-documento

Septiembre 2010
32
Medidas en espacios vectoriales (EV)
Para dos palabras que se quieren medir
Se representan como vectores en un espacio
multidimensional

Diferentes espacios de representacin
Representan diferentes tipos de similitud
semntica

Problema de los modelos vectoriales: pierden la
estructura
Juan ama a Mara - Mara ama a Juan



Septiembre 2010
33
Conclusiones
La similitud semntica es importante para varias reas
computacionales

Los modelos vectoriales junto con la medida del coseno
han sido populares por su simplicidad y eficiencia
computacional
Los modelos basados en conocimiento lingstico son
costosos (trabajo manual) y dependen del dominio

En general, se requiere de representaciones ms
enriquecidas de los textos para obtener mejores anlisis


34
Septiembre 2010

You might also like