YañezPro3 0

UNIVERSIDAD AUTNOMA DEL ESTADO DE MXICO
UNIDAD ACADMICA PROFESIONAL TIANGUISTENCO

INGENIERA EN SOFTWARE
Generacin Automtica de Resmenes Personalizados
Proyecto de Metodologa de la Investigacin
QUE
PRESENTA
ULISES YAEZ FERREYRA
PFOFESOR: M. JOSE RAFAEL CRUZ REYES
TIANGUISTENCO, MX.
MAYO 2016
RESUMEN
La generacin automtica de resmenes tiene como objetivo abordar el problema
de la sobrecarga de informacin mediante la extraccin de la informacin ms
importante de un documento que puede ayudar a decidir si es o no
relevante[Mro, 2012], un problema de sobrecarga de informacin en la actualidad
est presente en los servicios que ofrece la web como lo son los peridicos
digitales los cuales ofrecen a los usuarios una seleccin de documentos basada
en criterios simples que lleva a los usuarios a recibir una gran cantidad de
informacin irrelevante [Acero, 2001].
La generacin automtica de resmenes personalizados tiene como finalidad que

un usuario pueda detectar la informacin que ms le interesa en un texto y mejorar
los mtodos convencionales de un resumen generado automticamente, tomando
en cuenta las diferencias en las caractersticas de los lectores [Moro, 2012].
ANTECEDENTES
La inteligencia artificial es una rama de las ciencias de la computacin la cual su
principal objetivo es el de crear elementos que poseen un comportamiento
inteligente [Romero, 2007], para lograr esto su rea de estudio se enfoca en
desarrollar sistemas de hardware y software [Mousund, 2006] y con esto poder
crear maquinas que puedan resolver problemas y realizar tareas las cuales para
poder llevarlas a cabo necesitan de inteligencia [Kurzweil, 1990] al mismo tiempo
dichas maquinas tengan la posibilidad de percibir, razonar y actuar [Winston 1992]
como lo hacen los seres humanos.
En trminos de inteligencia artificial se encuentran los agentes inteligentes, un
agente inteligente se trata de un dispositivo o sistema informtico el cual tiene la
capacidad de realizar actos de manera autnoma segn sus objetivos de diseo
[Wooldridge, 2002], en pocas palabras, una maquina individual tal como un robot,
un avin autnomo, un proceso de comunicacin con otro proceso [Brookshear,
2012], etc. Una aplicacin de los agentes inteligentes est en el control del trfico,
un sistema de este tipo es una herramienta computacional que permite al usuario
realizar una simulacin del comportamiento de una interseccin vial, para su
funcionamiento este emplea datos estadsticos, la teora de lneas de espera o
teora de colas con la cual se propone su uso para medir los niveles de servicio de
una interseccin vial al mismo tiempo que optimizar su flujo vehicular [Castn,
2014]. Para que un agente de este tipo pueda ser considerado como agente
inteligente, este debe estar dotado de atributos como controles autnomos,
adaptarse a los cambios, puedan percibir su entorno en el que se encuentra
[Russell, 2004], realizar operaciones por iniciativa propia y con esto poder
satisfacer las necesidades de un usuario o de un programa que as lo requiera
[Wooldridge, 1995]. Las ventajas que se espera al implementar un sistema
inteligente de transporte (SIT) es mejorar el rendimiento de una vialidad en
volumen de servicio, minimizar el tiempo de espera de los vehculos cuando se
encuentran ante un semforo en alto, al mismo tiempo que disminuir los gases
que estos generan y evitar congestiones en horas pico [Castn, 2014].
Un rea de especial inters es el procesamiento del lenguaje natural, este es un
campo de la inteligencia artificial y la lingstica computacional que se encarga de
estudiar la forma de manipular el lenguaje natural empleando herramientas
computacionales como lo son los lenguajes de programacin para poder
establecer comunicacin entre personas y maquinas [Jurafsky, 2000] [Perkins,
2010] mediante un lenguaje natural [Bharati, 1995] y lograr que las maquinas
puedan entender el texto [Gelbukh, 2006].
Un lenguaje natural es aquel que utilizamos los humanos para poder establecer
comunicacin, con el cual se expresan ideas, pensamientos, sentimientos,
etc.[Habash, 2010], est formado por un conjunto de reglas y smbolos que juntos
permiten crear oraciones [Jurafsky, 2000], en contraste, con los lenguajes
artificiales o de programacin los lenguajes naturales evolucionan y son difciles
de definir por medio de reglas explicitas [Bird, 2009], un lenguaje de este tipo
manifiesta la capacidad cognitiva de los humanos mediante convenciones
fonticas y visuales que hacen posible su entendimiento [Pea, 2006].
Una de las aplicaciones donde se ve reflejado el procesamiento del lenguaje
natural es la traduccin automtica, esta es un rea de la lingstica
computacional que tiene como funcin tomar un texto escrito en un lenguaje y
posteriormente traducirlo a otro [Hernndez, 2013], para realizar esto se emplea
software o programas de computadora para que un texto o voz perteneciente a un
idioma sea traducido a otro idioma [Canals, 2001] [Cuadrado, 2011], pero a su vez
estos programas deben realizar estas funciones sin que haya intervencin humana
[Gonzlez, 2010] en el proceso de traduccin. Esta tarea consta de reglas para
poder llevar a cabo dicha funcin, la primer regla se trata del pretratamiento, en la
cual se realiza un tratamiento previo del texto para convertirlo en documento
electrnico, en la regla de anlisis del texto original se resuelven los casos de
homografa, se delimitan las diferentes preposiciones de la frase, se determina
qu relacin sintctica y semntica existe entre los diferentes elementos de una
enumeracin, identificar sujeto y verbo de cada preposicin y determinar la

estructura profunda de la frase. En la regla de transferencia se reconstruye la
gramtica y asigna el correcto significado a las palabras y en la regla de
pseudotraduccin el programa descompone los significantes que lo forman
mediante anlisis para aplicarles reglas lingsticas de transformacin que
resultaran en un texto traducido [Navo, 2003].
La ambigedad es un aspecto que en el procesamiento del lenguaje natural se
toma mucho en cuenta para que una maquina pueda reconocer un lenguaje
natural. Se conoce como ambigedad a aquella propiedad de las oraciones para
poder ser interpretadas de varias maneras [Manning, 1999] [Allen, 1995], la
posibilidad de que algo pueda entenderse o interpretarse de diferentes formas
[Gelbuck, 2006], tambin se puede llamar ambigedad cuando una entrada tiene
varias estructuras lingsticas que se pueden construir a partir de ella [Jurafsky,
2000].
La generacin automtica de resmenes es una tarea que se refiere al proceso el
cual se identifica la informacin sustancial proveniente de una o varias fuentes
para producir una versin abreviada destinada a un usuario particular [Acero,
2001], es un proceso de reduccin de la informacin, el cual permite a un usuario
conocer el contenido de un texto completo, lo cual con esto produce una mayor
rapidez en la bsqueda de informacin relevante y mayos asimilacin de
conceptos con menor esfuerzo [De la Villa, 2009], tambin es conocido como el
proceso de destilar la informacin ms importante de una fuente para producir una
versin abreviada [Cardoso, 2013], Los resmenes pueden ser con enfoque
extractivo o abstractivo.
Un resumen por abstraccin se obtiene con la comprensin entre el documento
original y posteriormente reescribindolo con menos palabras, esto implica una
nueva redaccin que puede contener trminos o frases que no estaban en el
documento original, se utilizan mtodos lingsticos, que permiten describir mejor
al documento, el mtodo abstractivo supone un anlisis en profundidad del texto
que identifique fragmentos claves y genere un ensamblado en un texto coherente
[Cardoso, 2013]. Por otra parte, un resumen por extraccin se obtiene dividiendo
el texto en fragmentos como oraciones y prrafos, y se selecciona los ms
importantes, los fragmentos elegidos no son modificados respecto del texto
original, para poder identificar los fragmentos clave se puede tomar en cuenta la
estructura del texto, si se compone de captulos o secciones se infiere que en la
secciones finales como la seccin de conclusiones esta la informacin relevante
del texto a resumir [Cardoso, 2013].
En el proceso de generacin automtica de resmenes existe una serie de fases
para poder realizar esta tarea, la primera es la fase de anlisis, en esta fase se
recogen y analizan documentos y los resultados que se obtienen se almacenan en
algn lenguaje o depsito intermedio, se emplea un clasificador aprendido
automticamente del corpus de resoluciones y se anota cada documento con una
categora los resultados en la fase de anlisis es un conjunto de archivos en
formato XML los cuales contienen partes importantes del texto original y
metadatos en forma de anotaciones que corresponden a las entidades existentes
y a la categora de documentos [Cardoso, 2013]. La funcin de la fase de entrega
da posibilidad al usuario observar el resultado del anlisis y el documento original
completo mediante una interfaz, antes del anlisis, se extrae el texto de cada
archivo, posteriormente el texto se normaliza con la eliminacin de acentos y el
texto se divide en partes, se extrae el encabezado y el cuerpo con la mayor parte
de la informacin [Cardoso, 2013].
Se agrupan diferentes tipos de resmenes que pueden clasificarse atendiendo a
su propsito, enfoque y alcance, atendiendo al alcance el resumen puede limitarse
a un nico documento o a un conjunto de ellos que traten sobre el mismo tema
[Acero, 2001].
Segn su propsito, los resmenes se clasifican como indicativos cuando el
objetivo es anticipar al lector el contenido del texto y ayudarle a decidir sobre la
relevancia del documento original; Informativos cuando pretenden sustituir al texto
completo incorporando toda la informacin nueva o trascendente y crticos cuando
se incorporan opiniones o comentarios que no aparecen en le texto original [Acero,

2001].
Atendiendo el enfoque, se pueden distinguir los resmenes genricos cuando se
recogen los temas principales de un documento y van destinados a un grupo
amplio de personas y resmenes adaptados al usuario cuando el resumen se
confecciona de acuerdo a los intereses (conocimientos previos, mbitos de inters
o necesidades de informacin) del lector o grupo de lectores al que va dirigido
[Acero, 2001].
Planteamiento de problema
La cantidad de informacin presente en un determinado texto en muchas
ocasiones resulta difcil leerlo completamente, ya que existe informacin
irrelevante o que no le es de inters para un lector, lo cual causa un problema leer
completamente un determinado texto. En estos casos es necesario un resumen
generado automticamente en donde dicho usuario pueda ver las frases que ms
le sean de su inters, en otras palabras un resumen personalizado, un factor que
influye en esta tarea es que cada usuario tiene preferencias diferentes en relacin
a las frases que necesita de un documento al resumirlo, con esto se plantea la
siguiente pregunta:
Cmo desarrollar un generador automtico de resmenes adaptado a las

preferencias de lectura de un usuario?
Marco terico
Anexo 1
1. [Allen, 1995 ] Natural Languaje Understanding

2. [Ballard, 1998] Data Modeling Tecniques for Datawarehousing
3. [Brookshear, 2012] Introduccion a la computacin
4. [Bird, 2009] Natural Languaje Processing with Phyton
5. [Bharati, 1995] Natural Languaje Processing A panian perpective
6. [Bronson, 2007] C++ para ingeniera y Ciencias
7. [Deitel, 2008] C++ Cmo Programar
8. [Habash, 2010] Introduction to Arabic Natural Language Processing
9. [Holzner, 2000] La biblia de Java 2
10. [Holzner, 2000]. La biblia de Java 2
11. [Joyanes, 1996] Fundamentos de Programacin
12. [Jurafsky, 2000] Speech and Language Processing
13. [Kao, 2007] Natural Language and text mining
14. [KIbble, 2013] Introduction to Natural Language Processing
15. [Manning, 1999] Foundations of statistical Natural Languaje Processing
16. [Morsound, 2006] Brief Introduction to educational implications of artificial
intelligence
17. [Mittal, 1993] Generating Natural Languaje Descriptions whit integrated text
and examples
18. [Murphy, 2000] Introduction To AI Robotics
19. [Ollero, 2001] Robotica Manipuladores y Robots Moviles
20. [Pea, 2006] Lenguaje Natural Descripcion de la etapas para su tratamiento
21. [Perkins, 2010] Python Text Processing with NLTK 2.0 Cookbook
22. [Rusell, 2004] Inteligencia Artificial un Enfoque Moderno
23. [Sierra, 2008] Programador certificado Java 2
24. [Tenzer, 2003] Introduccion a la computacin
25. [Wooldridge, 2002] An introduction to agent systems
Estado del Arte

Anexo 2
1. [Cardoso, 2013] Generacin automtica de resmenes
2. [Castn, 2014] Control de trfico basado en agentes inteligentes
3. [Cumbreras, 2005] Bsqueda de respuestas multilinge: Clasificacin de
preguntas en espaol basada en aprendizaje.
4. [Navo, 2003] Traduccin automtica versus traduccin humana: tipologa
de errores
5. [Acero, 2001] Generacion Autmatica de Resumenes Personalizados
Objetivo general
Desarrollar una investigacin documental acerca de las tcnicas, modelos y
procesos que se necesitan para poder desarrollar un generador automtico
de resmenes adaptado al usuario, tomando en cuenta todos los factores
que influyen en un generador de resmenes de este tipo ya que al
adaptarlo a las necesidades del usuario intervienen tcnicas y procesos
para su desarrollo adicionales al de un generador automtico de resmenes
comn.
Objetivos especficos
Conocer las tcnicas, modelos y procesos para desarrollar un
generador automtico de resmenes adaptado a las preferencias del
usuario.
Conocer la forma de implementacin de las tcnicas que se
requieren para desarrollar un generador automtico de resmenes
adaptado al usuario.
Hiptesis
En el trabajo de [Acero, 2001] se propone una forma de desarrollar un
sistema de generacin automtica de resmenes adaptado al usuario que
consiste en:
Modelado de usuario que consiste en representar los intereses del
usuario desde varios puntos de vista, describe las necesidades de
informacin que el usuario busca en un texto.
Una metodologa de generacin de resmenes personalizados el
cual aborda una serie de heursticas que son la heurstica de
posicin, heurstica de palabras clave, heurstica de personalizacin
y la combinacin de las tres heursticas mencionadas anteriormente.
Marco Metodolgico
A continuacin se describen los pasos de la metodologa presentada en el
trabajo de [Acero, 2001] para la generacin automtica de resmenes
personalizados. Cabe mencionar que este trabajo est dirigido para realizar
resmenes de noticias de un peridico o revista en la web.
Modelado de usuario
Este almacena tres tipos de informacin:
Informacin general: nombre, login password, direccin de correo
electrnico.
Informacin sobre sus preferencias como das de la semana en que
desea recibir mensajes, mximo nmero de noticias que puede
recibir por semana.
Informacin sobre los intereses del usuario como secciones,
categoras generales, trminos.
Generacin de resmenes personalizados
En esta parte se describe las heursticas que conforman este paso. La
heurstica de posicin y la heurstica de palabras clave son utilizadas para
la obtencin de resmenes generales, la heurstica de personalizacin es
utilizada para crear un resumen personalizado.
Heurstica de posicin: consiste bsicamente en dar mayor
puntuacin a las 5 primeras frases de un texto. En dominios
periodsticos, el ttulo y las primeras frases de un texto dan una idea
aproximada al lector del contexto del texto que va a leer.
Heurstica de palabras clave: cada texto tiene un nmero de palabras
clave, que son bastante representativas de su contenido. Esta
heurstica
consiste
en
extraer
las
palabras
clave
ms
significanticas de cada texto y comprobar a continuacin, cuntas de

esas palabras clave se encuentran en cada frase. De esta forma se
asigna mayor peso a las frases que contengan mayor nmero de
palabras clave del texto. Para obtener las M palabras ms relevantes
de cada noticia indexamos todas las noticias obteniendo as el peso
de cada palabra en cada documento utilizando el mtodo tf idf .
Heurstica de personalizacin: el objetivo de esta heurstica consiste
en potenciar aquellas frases que tengan mayor relevancia para un
modelo de usuario dado, con el fin de personalizar el resumen. En
lugar de obtener una idea general del texto resumido, se orienta la
eleccin de frases de tal forma que se elijan aquellas que tengan
mayor similitud con las preferencias del usuario.
El clculo de los pesos para las frases se realiza de la siguiente
manera. Del modelo de usuario se obtiene la informacin con
respecto a los pesos que el usuario ha asignado a sus categoras y a
sus trminos personales.
Tambin se extrae del modelo los trminos que representan cada
categora as como los trminos que el usuario haya definido. Con
toda esta informacin se calcula la similitud existente entre el modelo
y la frase, asignando un peso a la frase de acuerdo con la siguiente
similitud:
Donde:
Siendo pCat el peso general de las categoras, pTerms el peso

general de los trminos, tCi los trminos que identifican a la categora
i, pci el peso asignado a la categora i, ti el termino i y pti el peso
asignado al termino i.
Combinacin de las tres heursticas: para poder combinar las tres
heursticas y obtener as un solo peso para cada frase se utilizara la
ecuacin.
Los parmetros , y sirven para dar ms importancia a una

heurstica que a otra. Los clculos de similitud que se proponen en
esta metodologa se basan en el modelo del espacio vectorial,
utilizando para la representacin de textos, vectores de pesos de
trminos, para su obtencin se eliminan las palabras ms frecuentes
usando una lista de parada estndar y las restantes se reducen a
una forma cannica usando un extractor de races adaptado al
espaol.
Anexo 1
La inteligencia artificial es una rama de las ciencias de la computacin la
cual su principal objetivo es el de crear elementos que poseen un
comportamiento inteligente [Romero, 2007], para lograr esto su rea de
estudio se enfoca en desarrollar sistemas de hardware y software
[Mousund, 2006] y con esto poder crear maquinas que puedan resolver
problemas y realizar tareas las cuales para poder llevarlas a cabo necesitan
de inteligencia [Kurzweil, 1990] al mismo tiempo dichas maquinas tengan la
posibilidad de percibir, razonar y actuar [Winston 1992] como lo hacen los
seres humanos. En trminos de la inteligencia artificial se encuentran los
agentes inteligentes, un agente inteligente se trata de un dispositivo o
sistema informtico el cual tiene la capacidad de realizar actos de manera
autnoma segn sus objetivos de diseo [Wooldridge, 2002], en pocas
palabras, una maquina individual tal como un robot, un avin autnomo, un
proceso de comunicacin con otro proceso [Brookshear, 2012], etc., para

que un agente de este tipo pueda ser considerado como agente inteligente,
este debe estar dotado de atributos como controles autnomos, adaptarse
a los cambios, puedan percibir su entorno en el que se encuentra [Russell,
2004], realizar operaciones por iniciativa propia y con esto poder satisfacer
las necesidades de un usuario o de un programa que as lo requiera
[Wooldridge, 1995].
Un robot se trata de una maquina o dispositivo automtico que puede
realizar funciones de manera autnoma [Murphy, 2000] y [Gonzalez, 1994],
est compuesto principalmente por dispositivos mecnicos, elctricos,
electrnicos y de comunicaciones, tambin cuenta con un sistema
informtico para su control en tiempo real [Ollero, 2001], esta mquina o
dispositivo est diseado para realizar objetivos definidos en instrucciones y
debe contar con atributos como reconocer su medio ambiente, manipular
objetos y moverse en el entorno[Blecha, 2008]. Una aplicacin de la
inteligencia artificial se encuentra en el rea de la robtica, esta aplicacin
se enfoca en el estudio de la inteligencia humana para poder crear
maquinas que sean capaces de realizar clculos, pensar, elaborar juicios
tomar decisiones [Gil, 2009], mismas que puedan ser conscientes y tener
sentimientos reales similares a los humanos [Malpica, 2015], una aplicacin
de este tipo emplea reas como la ingeniera mecnica, elctrica,
informtica, la bioingeniera o ciencias cognitivas [Ingrand, 2014], por otro
lado, para lograr que una maquina o robot tenga capacidades parecidas a
los humanos, la robtica emplea tcnicas de inteligencia artificial para poder
programar comportamientos, lo cual da lugar a la robtica evolutiva
[Shubhendu, 2013].
Para que un sistema que emplea inteligencia artificial pueda considerarse
que posee un comportamiento humano, como lo es el caso de un robot, se
consideran varios aspectos como la capacidad de lenguaje natural con el
cual pueda comprender un enunciado humano y a su vez poder dar una
respuesta correspondiente [Bird, 2009], el razonamiento automtico, ya que
con este debe utilizar la informacin almacenada para dar respuesta a

preguntas y poder inferir nuevas conclusiones [Russell, 2004], aprendizaje
automtico para generalizar comportamientos y reconocer patrones
[Shwarts, 2014] y la visin computacional la cual le permita reconocer
objetos e imgenes para poder entenderlas [Gmes, 98].
Para poder desarrollar robots con inteligencia artificial, se emplea la
robtica evolutiva, la cual recoge los modelos matemticos de la
neurociencia, aplica estos modelos en cuerpos y entornos simulados y hace
que los parmetros neurobiolgicos de dichos modelos evolucionen
[Barandarian, 2004], los robots con inteligencia artificial deben desarrollar
habilidades, un sistema de control y configuracin propio sin necesidad de
la intervencin humana [Cabrecos, 2005] y [Floreano, 2007]. La evolucin
captura cambios ambientales que pueden ocurrir en varias generaciones,
por otro lado, el aprendizaje produce cambios adaptativos en un individuo
en su vida til [Kumar, 2003].
En cuanto a la robtica cognitiva, su meta es crear robots con capacidades
como la percepcin, el razonamiento y la accin [Cebrecos, 2005]
[Levesque, 2008]. Lograr que un robot con una conducta inteligente tenga
capacidad de aprender y razonar acerca de cmo comportarse [Tenorth,
2010], principalmente estos robots deben tener funciones cognitivas en las
cuales se implica el razonamiento [Gil, 2009].
Por otra parte, principal objetivo de la robtica epigentica es el de
implementar sistemas de control mediante procesos autnomos con lo cual
un robot podr desarrollar capacidades cognitivas como la mejora de
percepcin y su comportamiento [Cebrecos, 2005], a travs de un
prolongado proceso de desarrollo autnomo [Gil, 2009], con esto se
pretende entender y modelar las estructuras cognitivas en sistemas
complejos de interaccin fsica y social [Berthouze, 2004], esto lo realiza
mediante la integracin de la neurociencia y psicologa del desarrollo
[Kaplan, 2006].
Algunas aplicaciones de la inteligencia artificial como los sistemas expertos

que se trata de programas que pueden tomar decisiones las cuales deben
tener la capacidad de experiencia humana [Subhendhu, 2013], la
inteligencia artificial en medicina que se centra en el desarrollo de sistemas
para resolver problemas mdicos como el diagnstico y tratamiento de
enfermedades [Ishak, 2002], las redes neuronales que su funcionamiento
es el de imitar a las redes neuronales biolgicas, donde las neuronas
asociadas tienen asociado un peso [Palmer, 1999] el cual corresponde a la
capacidad de resolucin de un problema y la inteligencia artificial en los
videojuegos que est presente en la mayor parte del entretenimiento. Los
sistemas que implementan inteligencia artificial requieren resultados
precisos y exactos y naturalmente una ausencia total [Sotillo, 2014] de
fallas en estos sistemas que emplean inteligencia artificial. Otra de las
tcnicas que emplean la inteligencia artificial son los algoritmos genticos,
estos son mtodos adaptativos, generalmente usados en problemas de
bsqueda y optimizacin de parmetros [Gestal, 2010], estos algoritmos
combinan las nociones de supervivencia del ms apto con un intercambio
estructurado y aleatorio de caractersticas entre individuos de una poblacin
de posibles soluciones [Britos, 2003], son algoritmos de bsqueda basados
en los mecanismos de seleccin natural y gentica natural [Rodriguez,
2002], poseen varios operadores genticos como lo son la seleccin,
cruzamiento y mutacin que pueden ser modificados para mejorar su
rendimiento [Arroyo, 2013], algoritmos de este tipo cobran gran importancia
en aplicaciones de la inteligencia artificial.
Un rea de especial inters en la inteligencia artificial es el procesamiento
del lenguaje natural, este es un campo de la inteligencia artificial y la
lingstica computacional que se encarga de estudiar la forma de manipular
el lenguaje natural empleando herramientas computacionales como lo son
los lenguajes de programacin para poder establecer comunicacin entre
personas y maquinas [Jurafsky, 2000] [Perkins, 2010] mediante un lenguaje
natural [Bharati, 1995] y lograr que las maquinas puedan entender el texto
[Gelbukh, 2006]. Un lenguaje natural es aquel que utilizamos los humanos

para poder establecer comunicacin, con el cual se expresan ideas,
pensamientos, sentimientos, etc.[Habash, 2010], est formado por un
conjunto de reglas y smbolos que juntos permiten crear oraciones
[Jurafsky, 2000], en contraste, con los lenguajes artificiales o de
programacin los lenguajes naturales evolucionan y son difciles de definir
por medio de reglas explicitas [Bird, 2009], un lenguaje de este tipo
manifiesta la capacidad cognitiva de los humanos mediante convenciones
fonticas y visuales que hacen posible su entendimiento [Pea, 2006].
En trminos de lingstica computacional, se conoce como corpus
lingstico a un conjunto de textos procedentes del lenguaje oral o escrito o
de ambos, recopilados de fuentes variadas, ordenados y clasificados segn
determinados criterios, de tal manera que, sobre ese conjunto, es posible
realizar estudios e investigaciones lingsticas o literarias [Bakalarska,
2009]. Tambin se puede entender como una coleccin de piezas de una
lengua que se seleccionan y ordenan segn criterios lingsticos explcitos
para ser utilizados como una muestra de esa lengua [Tolchinski, 2014]. Al
conjunto de enunciados incluidos en un corpus, una vez analizados, debe
permitir mejorar el conocimiento de las estructuras lingsticas de la lengua
que representan [Trolluela, 1999], El aspecto bsico de la lingstica de
corpus es que el significado de las palabras no puede aislarse de su uso;
por lo tanto, el estudio lingstico deber basarse en el anlisis sistemtico
del uso lingstico en textos reales [Prez, 2007].
La ambigedad es un aspecto que en el procesamiento del lenguaje natural
se toma mucho en cuenta para que una maquina pueda reconocer un
lenguaje natural. Se conoce como ambigedad a aquella propiedad de las
oraciones para poder ser interpretadas de varias maneras [Manning, 1999]
[Allen, 1995], la posibilidad de que algo pueda entenderse o interpretarse
de diferentes formas [Gelbuck, 2006], tambin se puede llamar ambigedad
cuando una entrada tiene varias estructuras lingsticas que se pueden
construir a partir de ella [Jurafsky, 2000].
Mientras que un lenguaje natural es aquel que utilizan los humanos para
poder comunicarse, por otra parte, un lenguaje de programacin consta de
smbolos, caracteres y reglas propias del lenguaje para poder comunicarse
con una computadora [Brookshear, 2012], su diseo est orientado para
poder describir la serie de pasos que un equipo debe ejecutar [Douglas,
2010], tambin es conocido como lenguaje artificial, que consta de reglas
sintcticas y semnticas que sern interpretadas por el lenguaje [Jeff,
2003], en general, la programacin indica al programa de computadora las
acciones que deber lleva a cabo la forma en que las concretar [Behorouz,
2003].
En el procesamiento del lenguaje natura se utilizan tcnicas como la
minera de datos, este trmino se refiere a la extraccin del conocimiento
de grandes cantidades de datos [Han, 2006], mediante procesos como el
de recolectar, analizar y obtener la utilidad de los datos [Aggarwal, 2015],
para realizar esto, la minera de datos emplea de tcnicas como la
estadstica, aprendizaje automtico, bases de datos [Hand, 2001],
inteligencia
artificial,
reconocimiento
de
patrones,
recuperacin
de
informacin, en general, tcnicas de computacin de alto rendimiento

[Sumathi, 2006]. Para lograr que la minera de datos realice dichas
operaciones, esta tiene la necesidad de emplear a la estadstica, que es
tambin conocida como la ciencia de los datos [Gorgas, 2011], es una rama
de las matemticas que se centra en estudiar grandes conjuntos de datos
para poder obtener inferencias mediante el clculo de probabilidades [Sez,
2012], para poder realizar esto primero se debe recolectar, organizar,
resumir y analizar los datos [Ricon, 2006] y posteriormente ayudar en la
toma de decisiones o explicar condiciones regulares o irregulares de un
fenmeno o estudio aplicado [Depool, 2013].
El procesamiento del lenguaje natural se ve reflejado en varias
aplicaciones, una de ellas es la traduccin automtica, esta es un rea de la
lingstica computacional que tiene como funcin tomar un texto escrito en
un lenguaje y posteriormente traducirlo a otro [Hernndez, 2013], para
realizar esto se emplea de software o programas de computadora para que

un texto o vos perteneciente a un idioma sea traducido a otro idioma
[Canals, 2001] [Cuadrado, 2011], pero a su vez estos programas deben
realizar estas funciones sin que haya intervencin humana [Gonzlez,
2010] en el proceso de traduccin.
Otra aplicacin de PLN es la recuperacin de informacin, es un proceso el
cual consiste en acceder a
informacin
previamente almacenada
[Benavides, 2007] dentro de un repositorio grande de datos de naturaleza

no estructurada o semiestructurada [Hernndez, 2013]. Esta recuperacin
de informacin trata con la representacin, almacenamiento, organizacin
de informacin [Tolosa, 2008] con lo cual el objetivo principal es la
localizacin de informacin determinada en un almacn o base de datos
[Martnez, 2004].
El objetivo del procesamiento del lenguaje natural es establecer una
comunicacin entre el hombre y la mquina y que a su vez la maquina le
responda de forma satisfactoria segn la necesidad del hombre [Martnez,
2006], la recuperacin de informacin involucra la seleccin de documentos
relevantes y el rechazo de los documentos irrelevantes [Blzquez, 2013].y
para poder realizar esta tarea el PLN emplea tcnicas de inteligencia
artificial como las redes neuronales, los algoritmos genticos [Martnez,
2006] pero existen otras tcnicas para lleva a cabo esta tarea que son
utilizadas con mayor frecuencia, estas tcnicas se conocen como modelos
de recuperacin y son el modelo booleano, vectorial y probabilstico [La
Serna, 2004].
El modelo de recuperacin booleano est basado principalmente en la
teora de conjuntos y el lgebra booleana debido a su nivel de simplicidad
[Benavides, 2007], este modelo es considerado como el ms antiguo, es
empleado para establecer un subconjunto de documentos relevantes con
respecto a una consulta en especfico [Martnez, 2006]. Esta tarea la realiza
mediante la aplicaciones de operaciones lgicas (and, or, not) [Blazquez,
2013], donde un documento est representado por palabras clave, dichas
palabras son extradas de un documento, de una parte de l o de sus

metadatos.
En el modelo de recuperacin vectorial, una expresin del lenguaje natural
se representa como un vector de pesos de trminos, en el cual un trmino
corresponde a una unidad mnima de informacin [La Serna, 2004], en este
modelo se construye una matriz de trminos y documentos, las filas
contienen documentos almacenados, las columnas a los trminos que
estn incluidos en cada documento [Benavides, 2007]. Este modelo se
basa en la similaridad de una consulta con respecto a los documentos de la
coleccin [Blazquez, 2013], en la ausencia del termino de un documento en
este modelo es representado con un cero [Martnez, 2006] para indicar
dicha ausencia.
El funcionamiento del modelo de recuperacin probabilstico est en
calcular la probabilidad de que un documento sea relevante en funcin de
una consulta [Benavides, 2007], este modelo es capz de calcular el grado
de similitud entre el documento y la consulta [Martnez, 2006]. El modelo de
recuperacin probabilstico se fundamenta en la representacin binaria de
los documentos en el cual mediante 0 y 1 se indica existencia o ausencia
de un documento [Blazquez, 2013], dados un documento y una pregunta se
calcula la probabilidad de que dicho documento sea relevante para dicha
pregunta [La Serna, 2004].
En trminos de recuperacin de informacin, se emplean tcnicas como la
tokenizacin, esta se refiere al proceso de separar el texto en unidades, los
denominados tokens. La tokenizacin se puede dar en distintos niveles: el
texto puede ser dividido en captulos, secciones, prrafos, frases, palabras,
slabas o fonemas [Nogales, 2007], es este proceso, un primer paso es es
dividir a las unidades de introduccin de texto llamados tokens, donde cada
uno es una palabra o algo ms como un nmero o un signo de puntuacin
este proceso se conoce como tokenizacin [Manning, 1999], a los
elementos llamados tokens conforman una lista de tems que son utilizados
para su anlisis en procesamiento del lenguaje natural [Blazquez, 2013], un
tokenizador o segmentador es el primero de los componentes que se utiliza

en el procesamiento de texto [Habash, 2010]. Por otra parte, se entiende
como clustering a la divisin de datos en grupos de objetos similares
[Berkhin, 2006], es una tcnica para el anlisis exploratorio de datos con
aplicaciones desde la estadstica, la informtica, la biologa a la psicologa o
ciencias sociales [Luxburg, 2007], tambin se define como la agrupacin de
documentos que satisfagan un conjunto de propiedades comunes
[Blazquez, 2013], un clster es una coleccin de objetos que son similares
entre ellos y son diferente a los objetos que pertenecen a otros grupos
[Kabugo, 2002].
Un proceso utilizado en la recuperacin de informacin es el llamado
proceso de crawling. Un crawler tambin es conocido como rastreador, es
un programa que recupera pginas web, comnmente usado por los
motores de bsqueda [Benitez, 2010], su funcin es ir recorriendo todos los
dominios a partir de un punto inicial prefijado, descargando el contenido de
los sitios atravesados [Gascn, 2009], este proceso se repite permitiendo
recorrer la Web a travs de su estructura de hiperenlaces. Bajo este punto
de vista, la Web es considerada como un grafo dirigido, donde la coleccin
de vrtices corresponde a pginas / sitios y el conjunto de arcos
corresponde a los hiperenlaces entre ellas [Rojas, 2010]. Resulta de gran
importancia para generar la coleccin o lo que es lo mismo la base de
conocimiento para el sistema de recuperacin de informacin [Blazquez,
2013].
Otra de las tareas del PLN en el reconocimiento de voz, esta tarea consiste
en desarrollar tcnicas y sistemas con capacidad para aceptar como
entrada una seal hablada, lo cual hace que los sistemas de comunicacin
entre hombre y maquina sean de gran importancia [Galindo, 2013],
determinar instantes de inicio y final de una pronunciacin y que el sistema
reconozca los instantes de dicha entrada de voz [Peralta, 2002]. Esta tarea
se denomina de alta complejidad ya que todos los requerimientos le son
implcitos al sistema y deben tenerse nociones de los factores inmersos que
propician un evento de anlisis individual como lo es el estado de nimo, de

salud, etc. [Benavides, 2007]. Para lograr el reconocimiento de voz se
consideran aspectos acsticos de produccin y procesamiento de la seal
percibida y aspectos lingsticos [Gelbuck, 2006].
Un sistema de bsqueda de respuestas es un programa de computadora
que tiene como entrada una pregunta en lenguaje natural y como salida una
respuesta a esapregunta [Hernndez, 2013]. Esta tarea es considerada
como recuperacin de informacin donde se realiza una consulta y el
resultado debe devolver no un documento completo sino una respuesta a la
consulta realizada [Barco, 2007], estos sistemas no solo localizan los
documentos relevantes sino que tambin encuentran, extraen y muestran la
respuesta al usuario final [Cumbreras, 2005] estos sistemas surgen con la
necesidad de recuperar informacin concreta solicitada a partir de una
consulta en lenguaje natural [Ferrandez, 2008].
En cuanto a la generacin automtica de resmenes, esta se refiere al
proceso el cual se identifica la informacin sustancial proveniente de una o
varias fuentes para producir una versin abreviada destinada a un usuario
particular [Acero, 2001], es un proceso de reduccin de la informacin, el
cual permite a un usuario conocer el contenido de un texto completo, lo cual
con esto produce una mayor rapidez en la bsqueda de informacin
relevante y mayos asimilacin de conceptos con menor esfuerzo [De la
Villa, 2009], tambin se conoce como un proceso de destilar la informacin
ms importante de una fuente para producir una versin abreviada
[Cardoso, 2013], Los resmenes pueden ser con enfoque extractivo o
abstractivo. Los mtodos extractivos se basan en la identificacin de
trminos, frases o prrafos significativos que definen el significado del texto
original. Los abstractivos depende de tcnicas de parafraseo para producir
las sntesis, las tcnicas an estn siendo desarrolladas [Hernndez, 2013].
Una tarea ms del PLN es el anlisis de sentimientos, este consiste en
detectar informacin subjetiva en un texto y clasificarla [Jimnez, 2014],
saber si un texto es positivo o negativo, basndose solo en las palabras de
el mismo [Barco, 2014], con esta tarea se trata de clasificar los documentos
con respecto a la polaridad de la opinin que expresa el autor de
determinado documento [Cmara, 2011]. El anlisis de sentimientos
tambin es conocido como minera de opiniones, para su desarrollo
involucra tcnicas de procesamiento del lenguaje natural y software de
anlisis de textos para poder llevar a cabo el proceso [Hernndez, 2013].
Anexo 2
Una aplicacin de los agentes inteligentes est en el control del trfico, tal
es el caso del sistema SiSOA (Sistema inteligente para la Simulacin y
Optimizacin de Arterias), este sistema es una herramienta computacional
la cual permite al usuario realizar una simulacin del comportamiento de
una interseccin vial, para el funcionamiento de este emplea datos
estadsticos, la teora de lneas de espera o teora de colas con la cual se
propone su uso para medir los niveles de servicio de una interseccin vial al
mismo tiempo que optimizar su flujo vehicular [Castan, 2014]. Las ventajas
que se espera al implementar un sistema inteligente de transporte es
mejorar el rendimiento de vialidad en volumen de servicio, minimizar el
tiempo de espera de los vehculos cuando se encuentran ante un semforo
en alto, al mismo tiempo que disminuir los gases que estos generan y evitar
congestiones en horas pico [Castn, 2014].
El sistema SiSOA propone que para su funcionamiento se debe unificar la
teora de lneas de espera con sistemas inteligentes, considerando que
cada semforo dentro de una interseccin ser operado por un agente
inteligente, este permite que dispositivos reguladores sean capaces de
optimizar, de manera autnoma, el flujo vehicular evitando as todos los
problemas implcitos en la congestin vial, al realizar el estudio de una
interseccin se debe establecer el tipo de estudio y el tiempo de la
simulacin, comenzar la simulacin y verificar el desarrollo de la misma
[Castan, 2014]. En este sistema se define un paquete como como un
convoy de vehculos que arriba a cualquiera de las vas de una
interseccin, los paquetes son empleados para poder establecer la
densidad que vehculos que llegan a una interseccin y su utilizacin esta
fundamenta de acuerdo a resultados obtenidos aforos realizados donde los
resultados que tenan no eran completamente representativos para el
sistema [Castn, 2014]. Para que se pudiera demostrar la utilidad del
sistema SiSOA realizaron un estudio de la interseccin a analizar,
estructura geogrfica y fsica, y los movimientos permitidos en dicha zona,
se definieron tasas de llegada de vehculos por da a una interseccin, para

poder obtener los datos que se utilizan en el simulador realizaron un estudio
de movimientos en una interseccin durante un mes y cuando ya haban
definido los paquetes procedieron a establecer las tasas de llegada, las
tasas de servicio y los tiempos del ciclo semafrico para cada uno de los
semforos [Castan, 2014].
Una vez realizadas las pruebas se pudo observar que el sistema permita
que los semforos interacten entre ellos de manera autnoma, en base a
un control adaptativo, cuando un semforo se percataba que en un
momento determinado el tiempo de su ciclo es muy largo para el nivel de
exigencia de la va, este lanza una seal al resto de los semforos su vez,
el resto de los semforos responden su nivel de servicio, tambin el sistema
permita a los agentes intercambiar los tiempos de su ciclo, de acuerdo a
los requerimientos y la situacin actual de la interseccin [Castan, 2014].
Los resultados que obtuvieron con la implementacin del sistema SiSOA
fue que se pudo mostrar la cantidad de vehculos que fueron atendidos en
cada uno de los puntos de la interseccin, abreviar la informacin primero
por el nmero de vehculos atendidos por cada va como el rango de
efectividad, tambin se pudo apreciar una comparacin entre cada uno de
los rangos de efectividad para conocer el rango de mejora, observar cmo
se da la comunicacin entre los semforos ya que resulta efectiva al
momento de intentar incrementar el nivel de rendimiento en las tasas de
servicio de las vialidades [Castn, 2014].
Se llega a la conclusin de que la congestin en los sistemas de vialidad es
una de las causas principales en la baja productividad y en el decremento
de los estndares de una ciudad moderna, el control de trfico basado en
agentes ofrece un enfoque ideal para el manejo de las vialidades, ya que
sus caractersticas principales de solucin de problemas le permiten realizar
tareas en reas geogrficamente distribuidas y alternar entre una operacin
y otra de manera paralela, tambin se concluye que estos agentes podrn
administrar la informacin de centros de control de trfico, caminos, vas de
alta velocidad, carreteras, calles, vehculos, logrando una mejora inmediata

en el rendimiento de la monitorizacin de los sistemas de transporte
inteligente, a su vez los agentes inteligentes podrn utilizar el Internet as
como redes ad hoc o inalmbricas, para recolectar informacin en tiempo
real con la principal intencin de realizar decisiones ms seguras [Castn,
2014].
Algunas aplicaciones del procesamiento del lenguaje natural son la
generacin automtica de resmenes, el proceso de la traduccin
automtica y los sistemas de pregunta respuesta, por mencionar algunas,
hacen el empleo de la minera de textos, la cual se puede definir como el
descubrimiento de patrones interesantes y nuevos conocimientos en una
coleccin de textos un proceso de extraer informacin y conocimiento
interesante y no trivial de un texto no estructurado, este campo se nutre de
las reas de recuperacin de la informacin, minera de datos, aprendizaje
automtico, estadstica y procesamiento del lenguaje natural, estn
presentes una serie de tecnologas como lo son la extraccin de la
informacin, seguimiento de temas, generacin automtica de resmenes,
categorizacin,
agrupamiento,
respuesta
automtica
de
preguntas
[Cardoso, 2013].
En la generacin automtica de resmenes, un resumen por abstraccin se
obtiene con la comprensin entre el documento original y posteriormente
reescribindolo con menos palabras, esto implica una nueva redaccin que
puede contener trminos o frases que no estaban en el documento original,
se utilizan mtodos lingsticos, que permiten describir mejor al documento,
este mtodo de generacin de resmenes por abstraccin supone un
anlisis en profundidad del texto que identifique fragmentos claves y genere
un ensamblado en un texto coherente [Cardoso, 2013].
Un resumen por extraccin se obtiene dividiendo el texto en fragmentos
como oraciones y prrafos, y se selecciona los ms importantes, los
fragmentos elegidos no son modificados respecto del texto original, para
poder identificar los fragmentos clave se puede tomar en cuenta la
estructura del texto, si se compone de captulos o secciones se infiere que

en la secciones finales como la seccin de conclusiones esta la informacin
relevante del texto a resumir, la longitud de un texto indica la forma en que
se puede dividir dicho texto, en los textos largos como son los libros, los
fragmentos a considerar podran ser los prrafos, en cambio para textos
ms cortos sera suficiente considerar las oraciones [Cardoso, 2013]. Las
caractersticas a considerar de las estrategias poco profundas para generar
un resumen una de ellas es la frecuencia de los trminos, con medidas
estadsticas se puede capturar el tema del texto, donde las frases
importantes son las que contienen palabras que ocurren frecuentemente en
un texto. La ubicacin se refiere a que las frases importantes estn situadas
en ubicaciones particulares, que dependen del gnero del texto, la
ubicacin relevante segn el tipo de texto puede ser identificada con
tcnicas de aprendizaje automtico. El sesgo indica que la relevancia de
ciertas frases puede depender de que incluyan trminos que aparecen en el
ttulo o en encabezados del documento. Finalmente las palabras clave que
puedan sealar la relevancia (o irrelevancia) de una cierta frase en el texto
[Cardoso, 2013].
En la fase de anlisis de un sistema de generacin automtico de
resmenes se recogen y analizan documentos y los resultados que se
obtienen se almacenan en algn lenguaje o depsito intermedio, en esta
fase se Incluye tokenizacin y deteccin de entidades en documentos
individuales como personas, fechas, organizaciones, unidades acadmicas
y datos sobre la resolucin (fecha y nmero), se emplea un clasificador
aprendido automticamente del corpus de resoluciones y se anota cada
documento con una categora los resultados en la fase de anlisis es un
conjunto de archivos en formato XMI los cuales contienen partes
importantes del texto original y metadatos en forma de anotaciones que
corresponden a las entidades existentes y a la categora de documentos
[Cardoso, 2013].
La funcin de la fase de entrega de un generador de resmenes automtico

da posibilidad al usuario observar el resultado del anlisis y el documento
original completo mediante una interfaz, antes del anlisis, se extrae el
texto
de
cada
archivo
utilizando
herramientas de
software
libre,
posteriormente el texto se normaliza con la eliminacin de acentos y el texto

se divide en partes, se extrae el encabezado y el cuerpo con la mayor parte
de la informacin [Cardoso, 2013].
La arquitectura de gestin de informacin no estructurada se trata de un
componente el cual contiene la lgica del anlisis, dicho componentes es
conocido como anotador, este realiza la tarea de extraccin de informacin
de un documento y genera como resultado anotaciones, que son aadidas
a una estructura de datos que se denomina CAS, pueden ser utilizadas por
otros anotadores, la mayora de ellos realizan reconocimiento de entidades
con nombre, personas, unidades acadmicas, carreras, instituciones,
existen anotadores pueden extraer fechas, nmero y ao de las
resoluciones. En la deteccin de entidades correspondientes a personas se
agregan otras obtenidas por los anotadores correspondientes. Un ltimo
anotador asigna la categora de documento en base al modelo aprendido
automticamente [Cardoso, 2013].
En el proceso de Extraccin de resmenes de resoluciones rectorales se
convierten los documentos de texto, en conjuntos de instancias o ejemplos
de entrenamiento, uno de los primeros pasos de este proceso es extraer los
fragmentos de cada resolucin. Inicialmente se utilizan oraciones como
fragmentos, dichas oraciones son extradas con una herramienta llamada
OpenNLP Sentence Detector que detecta oraciones o fragmentos de textos
en ingls. En la obtencin del conjunto de entrenamiento se utilizan las
resoluciones en formato XML, los archivos con esta extensin contienen el
texto completo de la resolucin donde se identifican el encabezamiento, el
texto donde se detalla las causas de la resolucin, el texto donde se
fundamenta la razn de la resolucin y la parte donde se enumeran los
artculos [Cardoso, 2013].
Los algoritmos utilizados en los experimentos de la Extraccin de

resmenes de resoluciones rectorales fueron, los algoritmos aprendizaje de
rboles de decisin utilizando el algoritmo C4.5, el algoritmo AD Tree el
cual representa un conjunto de clasificadores obtenidos mediante boosting,
aprendizaje de reglas utilizando poda incrementalmente con el fin de reducir
el error y el algoritmo aprendizaje de tablas de decisin [Cardoso, 2013].
Las conclusiones que se obtienen de la generacin automtica de
resmenes es que las caractersticas del texto utilizadas para aprender los
modelos vistos han sido la presencia o no de entidades con nombre en un
fragmento, la ubicacin del mismo en el documento, y el tipo de documento.
Es un proceso que integra un sistema de minera de textos donde su
objetivo es la bsqueda semntica de documentos relevantes en una
coleccin, se hace una complementacin de las aplicaciones del
aprendizaje automtico a la categorizacin de los documentos y a la
extraccin de entidades con nombre, un buscador semntico, sirve de
plataforma sobre la que se integran el resto de los sistemas y facilita la
experimentacin y desarrollo de estas tecnologas [Cardoso, 2013].
Otro tema por tratar es la traduccin automtica, esta tarea consta de
reglas para poder llevar a cabo dicha funcin, la primer regla se trata del
pretratamiendo, en el cual se realiza un tratamiento previo del texto para
convertirlo en documento electrnico, ya sea manualmente o con la ayuda
de un scanner y un programa de reconocimiento ptico de caracteres, en la
regla de anlisis del texto original se resuelven los casos de homografa, se
delimitan las diferentes preposiciones de la frase, se determina qu relacin
sintctica y semntica existe entre los diferentes elementos de una
enumeracin, identificar sujeto y verbo de cada preposicin y determinar la
estructura profunda de la frase. En la regla de transferencia se reconstruye
la gramtica y asigna el correcto significado a las palabras y en la regla de
pseudotraduccion el programa descompone los significantes que lo forman
mediante anlisis para, aplicarles reglas lingsticas de transformacin que
resultaran en un texto traducido [Navo, 2003]. La calidad de la traduccin
depende de varios factores, dichos factores estn relacionados con las

caractersticas del programa y del texto origen, el resultado la traduccin
depende del nmero de reglas del programa, numero de trminos y
expresiones de los diccionarios. Por otro lado cuanto ms numerosas y
precisas sean las reglas ms exacta ser la traduccin y en cuanto a las
caractersticas del texto origen, la calidad se ver mejorada cuando los
textos tengan una terminologa y fraseologa muy establecidas, escasa
ambigedad en las frases, frases excesivamente largas y complejas,
claridad y sencillez en la redaccin [Navo, 2003].
Se propone que las caractersticas de la traduccin de un texto pueda
considerarse como aceptable es que el texto puede comprenderse
difcilmente, el texto que se tradujo es comprensible, la traduccin es
correcta pero se consideran detalles pequeos como detalles en
preposiciones, artculos mal empleados, el orden de las palabras y que la
traduccin sea adecuada [Navo, 2003].
Dentro de lo que se considera como errores que se repiten con ms
frecuencia por un traductor son las impropiedades terminolgicas donde
aparecen trminos traducidos dentro de su aceptacin ms general, las
palabras sin traducir donde este error de traduccin consta en que si no se
encuentra una palabra en su diccionario, la deja en lengua origen, las
repeticiones en el texto traducido en el cual no se dificulta la traduccin del
texto, las repeticiones requieren de una correccin de carcter estilstico en
este error no distinguen las repeticiones de la misma unidad lxica de
palabras con la misma raz, de adverbios, de un complemento, etc., y la
alteracin del orden de las palabras donde una traduccin automtica es
ms literal que una traduccin humana, se distingue por que el orden de las
palabras no sea el ms adecuado [Navo, 2003].
Los principales errores de la traduccin automtica son la repeticin de
errores: en el cual los mismos errores se repiten a lo largo de todo el texto,
un error muy comn de la traduccin automtica es la alteracin de la
puntuacin en la cual la puntuacin ayuda a la entonacin de las frases y
por lo tanto una puntuacin inadecuada puede dificultar la comprensin de

un texto, el empobrecimiento de la expresin que se distingue por que la
traduccin automtica no es capaz de introducir modificaciones retoricas,
las repeticiones de una misma unidad lxica empobrecen la expresin
debido a la ausencia de alternancia entre sinnimos y la falta de creatividad
de un traductor radica en que el traductor no puede crear soluciones
cuando son necesarias en un determinado contexto [Navo, 2003].
En un traductor automtico, cabe mencionar que as como cuenta con
muchas deficiencias al momento de traducir un texto por otra parte ofrece
ventajas como la ayuda a la comprensin con el cual se conoce el
significado de textos en lenguas poco conocidas, la rapidez con la que se
traduce un texto, esta ventaja consta de que reduce considerablemente el
plazo de entrega del texto traducido, productividad que donde las empresas
traspasan las fronteras nacionales, por lo que difunden y manejan la
informacin en varias lenguas, tanto carcter interno como externo, y la
especializacin donde la traduccin automtica es de gran ayuda cuando
un servicio de traduccin interno o una agencia de traduccin externa se
encuentran saturados de trabajo [Navo, 2003].
El trabajo que realiza la traduccin automtica es de mucha utilidad ya que
se favorece la comunicacin interna y la consulta puntual e individual frente
a la traduccin humana, el traductor sigue siendo un ser capaz de
adaptarse a las nuevas condiciones de trabajo de su entorno profesional, su
trabajo consiste refinar la traduccin bruta obtenida de forma mecnica,
establecindose as una interaccin entre el traductor y el ordenador es
necesario que el traductor conozca no solo lo que la traduccin automtica
puede hacer, sino sobre todo lo que no puede hacer, de esta forma un
traductor puede tomar ventaja de la traduccin automtica y de esa forma
aprovechar sus soluciones [Navo, 2003].
En cuanto a un sistema de recuperacin de informacin multilinge se
puede definir como un sistema con habilidades para procesar documentos
en ms de un idioma, un sistema de este tipo tiene capacidad para operar
sobre una coleccin de documentos o pasajes multilinge, tambin tiene

capacidad de recuperar todos los documentos o pasajes relevantes que se
encuentran en la colecciones, esto es independientemente del idioma
utilizado tanto en la consulta como en los propios documentos o pasajes
[Cumbreras, 2005].
Las tareas de un sistema de recuperacin de informacin multilinge son
que procesan la pregunta y se determina lo que se est preguntando. En
muchas ocasiones esto solo consta en tomar las palabras o caractersticas
adecuadas y determinar el tipo de la pregunta de que se trata, una vez
analizada la informacin de las colecciones donde se busca la respuesta,
es de gran importancia saber el tipo de la pregunta para asignarle una
respuesta coherente. Una tarea fundamental para los sistemas de
bsqueda de respuestas es la clasificacin de preguntas [Cumbreras,
2005]. Las principales limitaciones que surgen en un sistema clasificador de
preguntas es que esta tarea viene realizndose mediante un juego de
reglas, estas se escriben manualmente, lo que implica que se tenga que
revisar cada caso distinto para mejorar los resultados, otro aspecto a
considerar es que las reglas son muy frgiles y por consecuente cuando
aparecen nuevas preguntas el sistema no est preparado para determinar
su tipo. Cada vez que se utiliza un tipo de pregunta distinto las reglas, estas
preguntas tienen que ser revisadas y en algunas ocasiones se tiene la
necesidad de escribirlas de nuevo [Cumbreras, 2005].
Los aspectos que se pretende solventar es primero que un sistema de
bsqueda de respuestas trata de un sistema de basado en aprendizaje, en
el cual no hay ninguna regla manual definida, con el uso de tcnicas
basadas en aprendizaje automtico se hace ms fcil la aplicacin del
modelo a otros idiomas y/o tipos de preguntas, dicho sistema utiliza varios
traductores online para traducir la pregunta del espaol al ingls y a partir
de ah siempre utiliza el ingls como idioma, se necesita verificar varios
sistemas de traduccin automtica online en comparacin con el uso de las
preguntas escritas directamente en ingls [Cumbreras, 2005].
La clasificacin de preguntas est definida como la asignacin de clases

semnticas a las preguntas tratando de asignar de forma automtica una
clase, perteneciente a una taxonoma o conjunto cerrado, a una pregunta
formulada en lenguaje natural, la generacin de errores en sistemas de
bsqueda de respuestas se originan por un mal clasificador de preguntas,
con lo cual se ha elevado el inters por desarrollar buenos clasificadores de
preguntas ya que actualmente los sistemas de clasificacin de preguntas se
centran en el uso de expresiones regulares y reglas gramaticales que han
sido generadas de forma manual.
REFERENCIAS
[Allen, 1995]
[Allen, 1995] James, Natural Languaje Understanding, The

Benjamin/Cummings Publishing Company, 1995
ftp://ftp.cs.sjtu.edu.cn:990/zhangdm/Books/NLU2e_James_
Allen.pdf
[Acero, 2001]
[Acero, 2001] Generacion automtica de resmenes

personalizados
http://www.esi.uem.es/jmgomez/papers/sepln01b.pdf
[Ballard, 1998]
[Ballard, 1998] Ballard Chuck, Data Modeling Tecniques for

Datawarehousing, 1998
http://www.redbooks.ibm.com/redbooks/pdfs/sg242238.pdf
[Brookshear, 2012]
[Brookshear, 2012] Brookshear J. Glenn, Introduccion a la

computacin, Ed. Pearson, 11 Edicion
https://pirareta.wordpress.com/2014/09/04/pdf-introducciona-la-computacion-j-glenn-brookshear-11a-edicion/
[Bird, 2009]
[Bird, 2009] Steven, Natural Languaje Processing with

Phyton, OReilly Media, 2009
http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWit
hPython.pdf
[Bharati, 1995]
[Bharati, 1995] Akshar, Natural Languaje Processing A

panian perpective, Prentice Hall, 1995
http://ltrc.iiit.ac.in/downloads/nlpbook/nlp-panini.pdf
[Bronson, 2007]
[Bronson, 2007] Bronson Gary J., C++ para ingeniera y

Ciencias
2 edicin, 2007
http://www.freelibros.org/programacion/c-para-ingenieria-yciencias-2da-edicion-gary-j-bronson.html
[Cardoso, 2013]
[Castn, 2014]
[Cumbreras, 2005]
[Deitel, 2008]
[Cardoso, 2013] Generacin automtica de resmenes

http://conaiisi.unsl.edu.ar/2013/11-495-1-DR.pdf
[Castn, 2014] Control de trfico basado en agentes

inteligentes
http://www.scielo.org.mx/pdf/poli/n50/n50a10.pdf
[Cumbreras, 2005] Bsqueda de respuestas multilinge:

Clasificacin de preguntas en espaol basada en
aprendizaje.
http://www.sepln.org/revistaSEPLN/revista/34/03.pdf
[Deitel, 2008] Deitel Harvey M., C++ Cmo Programar, Ed.

Pearson educacin, 6 Edicin, Mxico, 2008
http://www.intercambiosvirtuales.org/libros-manuales/ccomo-programar-deitel-deitel-sexta-edicion
[Habash, 2010]
[Habash, 2010] Nizar Y., Introduction to Arabic Natural

Language Processing, Morgan & Claypool Publishers, 2010
http://www.bu.edu.eg/portal/uploads/Engineering,%20Shoub
ra/Electrical%20Engineering/3064/crs12176/Files/Introductio
n%20to%20Arabic%20Natural%20Language%20Processing
.pdf
[Holzner, 2000]
[Holzner, 2000].Holzner Steven, La biblia de Java 2, Ed.

Anaya Multimedia, 2000
http://www.fiuxy.net/ebooks-gratis/1672716-la-biblia-de-java2-steven-holzner.html
[Indurkhya, 2010] Indurkhya Nitin, Handbook of Natural
[Indurkhya, 2010]
Language Processing, Ed. Taylor & Francis Group, 2

Edicion, 2010
https://karczmarczuk.users.greyc.fr/TEACH/TAL/Doc/Handb
ook%20Of%20Natural%20Language%20Processing,%20Se
cond%20Edition%20Chapman%20&%20Hall%20Crc%20Ma
chine%20Learning%20&%20Pattern%20Recognition%2020
10.pdf
[Joyanes, 1996]
[Joyanes, 1996] Joyanes Aguilar Luis, Fundamentos de

Programacin, Ed. Mc Graw Hill, 1996
http://www.compuclasico.com/pl/McGraw_HillLuis_Joyanes_
AguilarFundamentos_de_Programacion_Libro_de_Problem
as.pdf
[Jurafsky, 2000]
[Jurafsky, 2000] Daniel S., Speech and Language

Processing, Prentice Hall, 2000
http://www.deepsky.com/~merovech/voynich/voynich_manc
hu_reference_materials/PDFs/jurafsky_martin.pdf
[Kao, 2007]
[Kao, 2007] Kao Anne, Natural Language and text mining,

Ed. Springer, Estados Unidos, 2007.
http://129.219.222.66/Publish/pdf/Natural_Language_Proces
sing_and_Text_Mining.pdf
[KIbble, 2013]
[KIbble, 2013] Kibble R., Introduction to Natural Language

Processing, Ed. University of London, 1 edicin, 2013
http://www.londoninternational.ac.uk/sites/default/files/comp
uting-samples/co3354_ch1-3.pdf
[Manning, 1999]
[Manning, 1999] Chiristopher D., Foundations of statistical

Natural Languaje Processing, 2 edicion, Massachusetts
Institute of Technology, 1999
http://ics.upjs.sk/~pero/web/documents/pillar/Manning_Schu
etze_StatisticalNLP.pdf
[Mro, 2012]
[Morsound, 2006]
[Mittal, 1993]
[Mro, 2012] Personalized Text Summarization Based on

Important Terms Identification
https://www.computer.org/csdl/proceedings/dexa/2012/4801/
00/4801a131.pdf
[Morsound, 2006] Morsound David, Brief Introduction to

educational implications of artificial intelligence, Ed
University of Oregon, 2006
http://pages.uoregon.edu/moursund/Books/AIBook/AI.pdf
[Mittal, 1993] Vibhu O., Generating Natural Languaje

Descriptions whit integrated text and examples, 2013
http://www.dtic.mil/dtic/tr/fulltext/u2/a288967.pdf
[Murphy, 2000]
[Murphy, 2000] Robin R., Introduction To AI Robotics,

Massachusetts Institute of Technology, 2000
http://siva.bgk.uniobuda.hu/jegyzetek/Mechatronikai_alapis
meretek/IntRobRendsz/Introduction%20to%20Ai%20Robotic
s.pdf
[Ollero, 2001]
Ollero, 2001] Anibal, Robotica Manipuladores y Robots

Moviles, Marcombo, 2001
https://www.dropbox.com/s/b8qxy7bl9tl9u4z/Robot%20movil
es%20Anibal%20Ollero.pdf
[Pea, 2006]
[Perkins, 2010]
[Pea, 2006] Alejandro, Lenguaje Natural Descripcin de la

etapas para su tratamiento, 1 edicin, Instituto Politcnico
Nacional, 2002
http://www.wolnm.org/apa/articulos/Lenguaje_Natural.pdf?ta
rget
[Perkins, 2010] Jacob, Python Text Processing with NLTK

2.0 Cookbook, Packt Publishing, 2010
http://caio.ueberalles.net/ebooksclub.org__Python_Text_Pro
cessing_with_NLTK_2_0_Cookbook.pdf
[Rusell, 2004]
[Sierra, 2008]
[Rusell, 2004] Struart J.Peter Norvig, Inteligencia Artificial un

Enfoque Moderno, Ed.Prentice Hall, 2 edicion, 2004
http://iarp.cic.ipn.mx/~hcalvo/Inteligencia_Artificial_files/Inteli
gencia%20Artificial,%20Un%20Enfoque%20Moderno%20%20Stuart%20J.%20Russell,%20Peter%20Norvig%20%20Prentice%20Hall%20%28ocr,%20caps%201-11%29.pdf
[Sierra, 2008] Martin Sierra Antonio J., Programador

certificado Java 2, Ed. Alfaomega, 2 Edicion
http://grupozeus.com/ckfinder/userfiles/files/TC_1/libro%20p
rogramador%20java%202%20segunda%20edicion.pdf
[Tenzer, 2003]
[Tenzer, 2003] Tenzer Simon Mario, Introduccion a la
computacin, 2007
http://www.ccee.edu.uy/ensenian/catcomp/material/Archivos
FormatosExtensiones.pdf
[Wooldridge, 2002]
[Wooldridge, 2002] Wooldridge Michael, An introduction to
agent systems, Ed John Wiley & Sons, 1 Edicin, 2002
http://coltech.vnu.edu.vn/httt/media/courses/AI++/Tai%20lieu
/TLTK.pdf

YañezPro3 0

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

YañezPro3 0

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD AUTNOMA DEL ESTADO DE MXICO

UNIDAD ACADMICA PROFESIONAL TIANGUISTENCO

Generacin Automtica de Resmenes Personalizados

Proyecto de Metodologa de la Investigacin

ULISES YAEZ FERREYRA

PFOFESOR: M. JOSE RAFAEL CRUZ REYES

La generacin automtica de resmenes personalizados tiene como finalidad que

enumeracin, identificar sujeto y verbo de cada preposicin y determinar la

se incorporan opiniones o comentarios que no aparecen en le texto original [Acero,

Cmo desarrollar un generador automtico de resmenes adaptado a las

1. [Allen, 1995 ] Natural Languaje Understanding

Estado del Arte

significanticas de cada texto y comprobar a continuacin, cuntas de

Siendo pCat el peso general de las categoras, pTerms el peso

Los parmetros , y sirven para dar ms importancia a una

proceso de comunicacin con otro proceso [Brookshear, 2012], etc., para

con este debe utilizar la informacin almacenada para dar respuesta a

Algunas aplicaciones de la inteligencia artificial como los sistemas expertos

[Gelbukh, 2006]. Un lenguaje natural es aquel que utilizamos los humanos

informacin, en general, tcnicas de computacin de alto rendimiento

realizar esto se emplea de software o programas de computadora para que

[Benavides, 2007] dentro de un repositorio grande de datos de naturaleza

palabras son extradas de un documento, de una parte de l o de sus

tokenizador o segmentador es el primero de los componentes que se utiliza

propician un evento de anlisis individual como lo es el estado de nimo, de

se definieron tasas de llegada de vehculos por da a una interseccin, para

alta velocidad, carreteras, calles, vehculos, logrando una mejora inmediata

estructura del texto, si se compone de captulos o secciones se infiere que

La funcin de la fase de entrega de un generador de resmenes automtico

posteriormente el texto se normaliza con la eliminacin de acentos y el texto

Los algoritmos utilizados en los experimentos de la Extraccin de

depende de varios factores, dichos factores estn relacionados con las

por lo tanto una puntuacin inadecuada puede dificultar la comprensin de

sobre una coleccin de documentos o pasajes multilinge, tambin tiene

La clasificacin de preguntas est definida como la asignacin de clases

[Allen, 1995] James, Natural Languaje Understanding, The

[Acero, 2001] Generacion automtica de resmenes

[Ballard, 1998] Ballard Chuck, Data Modeling Tecniques for

[Brookshear, 2012] Brookshear J. Glenn, Introduccion a la

[Bird, 2009] Steven, Natural Languaje Processing with

[Bharati, 1995] Akshar, Natural Languaje Processing A

[Bronson, 2007] Bronson Gary J., C++ para ingeniera y

[Cardoso, 2013] Generacin automtica de resmenes

[Castn, 2014] Control de trfico basado en agentes

[Cumbreras, 2005] Bsqueda de respuestas multilinge:

[Deitel, 2008] Deitel Harvey M., C++ Cmo Programar, Ed.

[Habash, 2010] Nizar Y., Introduction to Arabic Natural

[Holzner, 2000].Holzner Steven, La biblia de Java 2, Ed.

[Indurkhya, 2010] Indurkhya Nitin, Handbook of Natural

Language Processing, Ed. Taylor & Francis Group, 2

[Joyanes, 1996] Joyanes Aguilar Luis, Fundamentos de

[Jurafsky, 2000] Daniel S., Speech and Language

[Kao, 2007] Kao Anne, Natural Language and text mining,

[KIbble, 2013] Kibble R., Introduction to Natural Language

[Manning, 1999] Chiristopher D., Foundations of statistical

[Mro, 2012] Personalized Text Summarization Based on

[Morsound, 2006] Morsound David, Brief Introduction to

[Mittal, 1993] Vibhu O., Generating Natural Languaje

[Murphy, 2000] Robin R., Introduction To AI Robotics,

Ollero, 2001] Anibal, Robotica Manipuladores y Robots

[Pea, 2006] Alejandro, Lenguaje Natural Descripcin de la

[Perkins, 2010] Jacob, Python Text Processing with NLTK

[Rusell, 2004] Struart J.Peter Norvig, Inteligencia Artificial un