Professional Documents
Culture Documents
QUE
PRESENTA
TIANGUISTENCO, MX.
MAYO 2016
RESUMEN
La generacin automtica de resmenes tiene como objetivo abordar el problema
de la sobrecarga de informacin mediante la extraccin de la informacin ms
importante de un documento que puede ayudar a decidir si es o no
relevante[Mro, 2012], un problema de sobrecarga de informacin en la actualidad
est presente en los servicios que ofrece la web como lo son los peridicos
digitales los cuales ofrecen a los usuarios una seleccin de documentos basada
en criterios simples que lleva a los usuarios a recibir una gran cantidad de
informacin irrelevante [Acero, 2001].
ANTECEDENTES
La inteligencia artificial es una rama de las ciencias de la computacin la cual su
principal objetivo es el de crear elementos que poseen un comportamiento
inteligente [Romero, 2007], para lograr esto su rea de estudio se enfoca en
desarrollar sistemas de hardware y software [Mousund, 2006] y con esto poder
crear maquinas que puedan resolver problemas y realizar tareas las cuales para
poder llevarlas a cabo necesitan de inteligencia [Kurzweil, 1990] al mismo tiempo
dichas maquinas tengan la posibilidad de percibir, razonar y actuar [Winston 1992]
como lo hacen los seres humanos.
En trminos de inteligencia artificial se encuentran los agentes inteligentes, un
agente inteligente se trata de un dispositivo o sistema informtico el cual tiene la
capacidad de realizar actos de manera autnoma segn sus objetivos de diseo
[Wooldridge, 2002], en pocas palabras, una maquina individual tal como un robot,
un avin autnomo, un proceso de comunicacin con otro proceso [Brookshear,
2012], etc. Una aplicacin de los agentes inteligentes est en el control del trfico,
un sistema de este tipo es una herramienta computacional que permite al usuario
realizar una simulacin del comportamiento de una interseccin vial, para su
funcionamiento este emplea datos estadsticos, la teora de lneas de espera o
teora de colas con la cual se propone su uso para medir los niveles de servicio de
una interseccin vial al mismo tiempo que optimizar su flujo vehicular [Castn,
2014]. Para que un agente de este tipo pueda ser considerado como agente
inteligente, este debe estar dotado de atributos como controles autnomos,
adaptarse a los cambios, puedan percibir su entorno en el que se encuentra
[Russell, 2004], realizar operaciones por iniciativa propia y con esto poder
satisfacer las necesidades de un usuario o de un programa que as lo requiera
[Wooldridge, 1995]. Las ventajas que se espera al implementar un sistema
inteligente de transporte (SIT) es mejorar el rendimiento de una vialidad en
volumen de servicio, minimizar el tiempo de espera de los vehculos cuando se
encuentran ante un semforo en alto, al mismo tiempo que disminuir los gases
que estos generan y evitar congestiones en horas pico [Castn, 2014].
Un rea de especial inters es el procesamiento del lenguaje natural, este es un
campo de la inteligencia artificial y la lingstica computacional que se encarga de
estudiar la forma de manipular el lenguaje natural empleando herramientas
computacionales como lo son los lenguajes de programacin para poder
establecer comunicacin entre personas y maquinas [Jurafsky, 2000] [Perkins,
2010] mediante un lenguaje natural [Bharati, 1995] y lograr que las maquinas
puedan entender el texto [Gelbukh, 2006].
Un lenguaje natural es aquel que utilizamos los humanos para poder establecer
comunicacin, con el cual se expresan ideas, pensamientos, sentimientos,
etc.[Habash, 2010], est formado por un conjunto de reglas y smbolos que juntos
permiten crear oraciones [Jurafsky, 2000], en contraste, con los lenguajes
artificiales o de programacin los lenguajes naturales evolucionan y son difciles
de definir por medio de reglas explicitas [Bird, 2009], un lenguaje de este tipo
manifiesta la capacidad cognitiva de los humanos mediante convenciones
fonticas y visuales que hacen posible su entendimiento [Pea, 2006].
Una de las aplicaciones donde se ve reflejado el procesamiento del lenguaje
natural es la traduccin automtica, esta es un rea de la lingstica
computacional que tiene como funcin tomar un texto escrito en un lenguaje y
posteriormente traducirlo a otro [Hernndez, 2013], para realizar esto se emplea
software o programas de computadora para que un texto o voz perteneciente a un
idioma sea traducido a otro idioma [Canals, 2001] [Cuadrado, 2011], pero a su vez
estos programas deben realizar estas funciones sin que haya intervencin humana
[Gonzlez, 2010] en el proceso de traduccin. Esta tarea consta de reglas para
poder llevar a cabo dicha funcin, la primer regla se trata del pretratamiento, en la
cual se realiza un tratamiento previo del texto para convertirlo en documento
electrnico, en la regla de anlisis del texto original se resuelven los casos de
homografa, se delimitan las diferentes preposiciones de la frase, se determina
qu relacin sintctica y semntica existe entre los diferentes elementos de una
[Cardoso, 2013]. Por otra parte, un resumen por extraccin se obtiene dividiendo
el texto en fragmentos como oraciones y prrafos, y se selecciona los ms
importantes, los fragmentos elegidos no son modificados respecto del texto
original, para poder identificar los fragmentos clave se puede tomar en cuenta la
estructura del texto, si se compone de captulos o secciones se infiere que en la
secciones finales como la seccin de conclusiones esta la informacin relevante
del texto a resumir [Cardoso, 2013].
En el proceso de generacin automtica de resmenes existe una serie de fases
para poder realizar esta tarea, la primera es la fase de anlisis, en esta fase se
recogen y analizan documentos y los resultados que se obtienen se almacenan en
algn lenguaje o depsito intermedio, se emplea un clasificador aprendido
automticamente del corpus de resoluciones y se anota cada documento con una
categora los resultados en la fase de anlisis es un conjunto de archivos en
formato XML los cuales contienen partes importantes del texto original y
metadatos en forma de anotaciones que corresponden a las entidades existentes
y a la categora de documentos [Cardoso, 2013]. La funcin de la fase de entrega
da posibilidad al usuario observar el resultado del anlisis y el documento original
completo mediante una interfaz, antes del anlisis, se extrae el texto de cada
archivo, posteriormente el texto se normaliza con la eliminacin de acentos y el
texto se divide en partes, se extrae el encabezado y el cuerpo con la mayor parte
de la informacin [Cardoso, 2013].
Se agrupan diferentes tipos de resmenes que pueden clasificarse atendiendo a
su propsito, enfoque y alcance, atendiendo al alcance el resumen puede limitarse
a un nico documento o a un conjunto de ellos que traten sobre el mismo tema
[Acero, 2001].
Segn su propsito, los resmenes se clasifican como indicativos cuando el
objetivo es anticipar al lector el contenido del texto y ayudarle a decidir sobre la
relevancia del documento original; Informativos cuando pretenden sustituir al texto
completo incorporando toda la informacin nueva o trascendente y crticos cuando
Planteamiento de problema
La cantidad de informacin presente en un determinado texto en muchas
ocasiones resulta difcil leerlo completamente, ya que existe informacin
irrelevante o que no le es de inters para un lector, lo cual causa un problema leer
completamente un determinado texto. En estos casos es necesario un resumen
generado automticamente en donde dicho usuario pueda ver las frases que ms
le sean de su inters, en otras palabras un resumen personalizado, un factor que
influye en esta tarea es que cada usuario tiene preferencias diferentes en relacin
a las frases que necesita de un documento al resumirlo, con esto se plantea la
siguiente pregunta:
Marco terico
Anexo 1
Objetivo general
Desarrollar una investigacin documental acerca de las tcnicas, modelos y
procesos que se necesitan para poder desarrollar un generador automtico
de resmenes adaptado al usuario, tomando en cuenta todos los factores
que influyen en un generador de resmenes de este tipo ya que al
adaptarlo a las necesidades del usuario intervienen tcnicas y procesos
para su desarrollo adicionales al de un generador automtico de resmenes
comn.
Objetivos especficos
Conocer las tcnicas, modelos y procesos para desarrollar un
generador automtico de resmenes adaptado a las preferencias del
usuario.
Conocer la forma de implementacin de las tcnicas que se
requieren para desarrollar un generador automtico de resmenes
adaptado al usuario.
Hiptesis
En el trabajo de [Acero, 2001] se propone una forma de desarrollar un
sistema de generacin automtica de resmenes adaptado al usuario que
consiste en:
Modelado de usuario que consiste en representar los intereses del
usuario desde varios puntos de vista, describe las necesidades de
informacin que el usuario busca en un texto.
Una metodologa de generacin de resmenes personalizados el
cual aborda una serie de heursticas que son la heurstica de
posicin, heurstica de palabras clave, heurstica de personalizacin
y la combinacin de las tres heursticas mencionadas anteriormente.
Marco Metodolgico
A continuacin se describen los pasos de la metodologa presentada en el
trabajo de [Acero, 2001] para la generacin automtica de resmenes
personalizados. Cabe mencionar que este trabajo est dirigido para realizar
resmenes de noticias de un peridico o revista en la web.
Modelado de usuario
Este almacena tres tipos de informacin:
Informacin general: nombre, login password, direccin de correo
electrnico.
Informacin sobre sus preferencias como das de la semana en que
desea recibir mensajes, mximo nmero de noticias que puede
recibir por semana.
Informacin sobre los intereses del usuario como secciones,
categoras generales, trminos.
Generacin de resmenes personalizados
En esta parte se describe las heursticas que conforman este paso. La
heurstica de posicin y la heurstica de palabras clave son utilizadas para
la obtencin de resmenes generales, la heurstica de personalizacin es
utilizada para crear un resumen personalizado.
Heurstica de posicin: consiste bsicamente en dar mayor
puntuacin a las 5 primeras frases de un texto. En dominios
periodsticos, el ttulo y las primeras frases de un texto dan una idea
aproximada al lector del contexto del texto que va a leer.
Heurstica de palabras clave: cada texto tiene un nmero de palabras
clave, que son bastante representativas de su contenido. Esta
heurstica
consiste
en
extraer
las
palabras
clave
ms
Donde:
Anexo 1
La inteligencia artificial es una rama de las ciencias de la computacin la
cual su principal objetivo es el de crear elementos que poseen un
comportamiento inteligente [Romero, 2007], para lograr esto su rea de
estudio se enfoca en desarrollar sistemas de hardware y software
[Mousund, 2006] y con esto poder crear maquinas que puedan resolver
problemas y realizar tareas las cuales para poder llevarlas a cabo necesitan
de inteligencia [Kurzweil, 1990] al mismo tiempo dichas maquinas tengan la
posibilidad de percibir, razonar y actuar [Winston 1992] como lo hacen los
seres humanos. En trminos de la inteligencia artificial se encuentran los
agentes inteligentes, un agente inteligente se trata de un dispositivo o
sistema informtico el cual tiene la capacidad de realizar actos de manera
autnoma segn sus objetivos de diseo [Wooldridge, 2002], en pocas
palabras, una maquina individual tal como un robot, un avin autnomo, un
Mientras que un lenguaje natural es aquel que utilizan los humanos para
poder comunicarse, por otra parte, un lenguaje de programacin consta de
smbolos, caracteres y reglas propias del lenguaje para poder comunicarse
con una computadora [Brookshear, 2012], su diseo est orientado para
poder describir la serie de pasos que un equipo debe ejecutar [Douglas,
2010], tambin es conocido como lenguaje artificial, que consta de reglas
sintcticas y semnticas que sern interpretadas por el lenguaje [Jeff,
2003], en general, la programacin indica al programa de computadora las
acciones que deber lleva a cabo la forma en que las concretar [Behorouz,
2003].
En el procesamiento del lenguaje natura se utilizan tcnicas como la
minera de datos, este trmino se refiere a la extraccin del conocimiento
de grandes cantidades de datos [Han, 2006], mediante procesos como el
de recolectar, analizar y obtener la utilidad de los datos [Aggarwal, 2015],
para realizar esto, la minera de datos emplea de tcnicas como la
estadstica, aprendizaje automtico, bases de datos [Hand, 2001],
inteligencia
artificial,
reconocimiento
de
patrones,
recuperacin
de
informacin
previamente almacenada
el mismo [Barco, 2014], con esta tarea se trata de clasificar los documentos
con respecto a la polaridad de la opinin que expresa el autor de
determinado documento [Cmara, 2011]. El anlisis de sentimientos
tambin es conocido como minera de opiniones, para su desarrollo
involucra tcnicas de procesamiento del lenguaje natural y software de
anlisis de textos para poder llevar a cabo el proceso [Hernndez, 2013].
Anexo 2
Una aplicacin de los agentes inteligentes est en el control del trfico, tal
es el caso del sistema SiSOA (Sistema inteligente para la Simulacin y
Optimizacin de Arterias), este sistema es una herramienta computacional
la cual permite al usuario realizar una simulacin del comportamiento de
una interseccin vial, para el funcionamiento de este emplea datos
estadsticos, la teora de lneas de espera o teora de colas con la cual se
propone su uso para medir los niveles de servicio de una interseccin vial al
mismo tiempo que optimizar su flujo vehicular [Castan, 2014]. Las ventajas
que se espera al implementar un sistema inteligente de transporte es
mejorar el rendimiento de vialidad en volumen de servicio, minimizar el
tiempo de espera de los vehculos cuando se encuentran ante un semforo
en alto, al mismo tiempo que disminuir los gases que estos generan y evitar
congestiones en horas pico [Castn, 2014].
El sistema SiSOA propone que para su funcionamiento se debe unificar la
teora de lneas de espera con sistemas inteligentes, considerando que
cada semforo dentro de una interseccin ser operado por un agente
inteligente, este permite que dispositivos reguladores sean capaces de
optimizar, de manera autnoma, el flujo vehicular evitando as todos los
problemas implcitos en la congestin vial, al realizar el estudio de una
interseccin se debe establecer el tipo de estudio y el tiempo de la
simulacin, comenzar la simulacin y verificar el desarrollo de la misma
[Castan, 2014]. En este sistema se define un paquete como como un
convoy de vehculos que arriba a cualquiera de las vas de una
interseccin, los paquetes son empleados para poder establecer la
densidad que vehculos que llegan a una interseccin y su utilizacin esta
fundamenta de acuerdo a resultados obtenidos aforos realizados donde los
resultados que tenan no eran completamente representativos para el
sistema [Castn, 2014]. Para que se pudiera demostrar la utilidad del
sistema SiSOA realizaron un estudio de la interseccin a analizar,
estructura geogrfica y fsica, y los movimientos permitidos en dicha zona,
agrupamiento,
respuesta
automtica
de
preguntas
[Cardoso, 2013].
En la generacin automtica de resmenes, un resumen por abstraccin se
obtiene con la comprensin entre el documento original y posteriormente
reescribindolo con menos palabras, esto implica una nueva redaccin que
puede contener trminos o frases que no estaban en el documento original,
se utilizan mtodos lingsticos, que permiten describir mejor al documento,
este mtodo de generacin de resmenes por abstraccin supone un
anlisis en profundidad del texto que identifique fragmentos claves y genere
un ensamblado en un texto coherente [Cardoso, 2013].
Un resumen por extraccin se obtiene dividiendo el texto en fragmentos
como oraciones y prrafos, y se selecciona los ms importantes, los
fragmentos elegidos no son modificados respecto del texto original, para
poder identificar los fragmentos clave se puede tomar en cuenta la
de
cada
archivo
utilizando
herramientas de
software
libre,
REFERENCIAS
[Allen, 1995]
[Acero, 2001]
[Ballard, 1998]
[Brookshear, 2012]
[Bird, 2009]
[Bharati, 1995]
[Bronson, 2007]
http://www.freelibros.org/programacion/c-para-ingenieria-yciencias-2da-edicion-gary-j-bronson.html
[Cardoso, 2013]
[Castn, 2014]
[Cumbreras, 2005]
[Deitel, 2008]
[Habash, 2010]
[Holzner, 2000]
[Indurkhya, 2010]
[Joyanes, 1996]
[Jurafsky, 2000]
[Kao, 2007]
[KIbble, 2013]
[Manning, 1999]
[Mro, 2012]
[Morsound, 2006]
[Mittal, 1993]
[Murphy, 2000]
[Ollero, 2001]
[Pea, 2006]
[Perkins, 2010]
http://caio.ueberalles.net/ebooksclub.org__Python_Text_Pro
cessing_with_NLTK_2_0_Cookbook.pdf
[Rusell, 2004]
[Sierra, 2008]
[Tenzer, 2003]
[Tenzer, 2003] Tenzer Simon Mario, Introduccion a la
computacin, 2007
http://www.ccee.edu.uy/ensenian/catcomp/material/Archivos
FormatosExtensiones.pdf
[Wooldridge, 2002]
[Wooldridge, 2002] Wooldridge Michael, An introduction to
agent systems, Ed John Wiley & Sons, 1 Edicin, 2002
http://coltech.vnu.edu.vn/httt/media/courses/AI++/Tai%20lieu
/TLTK.pdf