You are on page 1of 12

MOTORES DE BSQUEDA EN INTERNET

Trabajo de Investigacin MOTORES DE BSQUEDA EN INTERNET Natalia S. Stark nstark@ing.unlpam.edu.ar Teleinformtica y Redes Licenciatura en Sistemas de Informacin Universidad Nacional de Lujn

Resumen En este trabajo se describe la arquitectura de un motor de bsqueda convencional y su modo de operacin. Se presenta el relevamiento de los motores de bsqueda: Google, Yahoo, Altavista, Infoseek y Terra, en base a sus caractersticas generales, modo de operacin, capacidad para expresar condiciones de bsqueda, formato de salida y capacidad de personalizacin. As mismo se explican en detalle mtodos de indexacin. Introduccin Uno de los problemas actuales de las bsquedas en Internet es el enorme crecimiento que se evidencia en la Web, adems de la cantidad de altas, bajas y modificaciones de recursos que se realizan. Un motor de bsqueda tiene por finalidad la seleccin de pginas web que respondan a las solicitudes de informacin que emiten los usuarios, es decir, buscar qu es lo que hay y para qu sirve, de manera de demostrar que las pginas web que se proporcionan son relevantes para el usuario y no para los intereses de los distintos sitios web o para los propietarios de los motores de bsqueda. Los motores de bsqueda visitan las pginas Web y realizan la indexacin. La manera en que se efecta dicha indexacin es propia de cada motor. Uno de los elementos claves de un motor de bsqueda es el crawler (araa) que se ocupa de recuperar pginas web, generalmente se lo describe como un softbot (robot de software) usado por los motores de bsqueda automatizados que crean ndices de URLs, palabras claves, textos, etc. En el mercado existen motores muy populares que no utilizar crawlers y se les denomina directorios, trabajan usando descripciones de las pginas que les proporcionan sus propietarios [1]. En un principio la cantidad de pginas que un motor era capaz de escanear, el tamao del motor, constitua una medida de calidad o excelencia. Actualmente este criterio se est desplazando hacia otros como la indexacin y el ranking. Estos dos factores estn relacionados con la importancia de las pginas para el usuario que realiza una bsqueda, lo que lleva al desarrollo de modelos para crear criterios aplicables de forma coherente y sin ambigedades

Motores de Bsqueda y Arquitectura de un Motor de Bsqueda Los motores de bsqueda (search engines) son programas encargados de realizar las bsquedas dentro de las bases de datos de documentos web. Actualmente se clasifican en tres categoras principales: motores de bsqueda temtica, tambin conocidos como directorios o catlogos; motores de bsqueda por palabras claves o "crawlers" y sistemas basados en el "content-routing [1, 2]. Los primeros se caracterizan por ser un ndice de documentos recopilados manualmente, los mismos son sugeridos por sus propietarios, quienes adems los clasifican en reas especficas y brindan una descripcin de la informacin que contiene el sitio, formando as una jerarqua de URLs. Para realizar bsquedas se debe recorrer un rbol jerrquico hasta dar con la informacin requerida. Debido a que la indexacin se realiza en forma manual, la informacin que se encuentra no siempre est actualizada. Los crawlers estn basados en el concepto de una nica base de datos centralizada en donde se almacena toda la informacin. Algunos sistemas contienen varias bases de datos en una misma mquina, sin ningn tipo de conexin y cada una es tratada autnomamente . Se componen de un ndice de URLs recopiladas en forma automtica por un robot o mediante el envo de las mismas por parte de los administradores web. Cada sistema de esta categora tiene sus propias caractersticas, herramienta de indexacin y opciones de consulta, pero casi todos ofrecen la misma
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (1 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

funcionalidad. Finalmente, el tercer grupo de motor de bsqueda es el llamado sistemas basados en "content-routing". Estos sistemas se caracterizan por poseer una estructura distribuida y mecanismos de "content-routing" para guiar las peticiones de los usuarios a travs de los servidores de informacin. En general, todos los motores de bsqueda reciben la consulta del usuario, que consiste en el ingreso de una o varias palabras claves, realizan la bsqueda en la base de datos y extraen una lista ordenada de documentos que responden a la consulta en forma total o parcial. El orden de las respuestas depende de una puntuacin, que asocia el programa a cada documento cuando realiza la bsqueda y vara en cada caso, como por ejemplo cuanto antes aparecen las palabras o por proximidad entre las mismas. Estn compuestos bsicamente por: un robot, un ndice y un mecanismo de bsqueda. [3] q Un robot, es el programa que rastrea la web, tomando informacin sobre las pginas que encuentra. Cada robot trabaja en forma particular, generalmente parten de una lista determinada y a partir de ah, hacen un rastreo recursivo de los documentos que se referencia en un documento.
q q

Un ndice es la base de datos que contiene una copia completa o parcial de los documentos reunidos por el robot. Un Mecanismo de bsqueda, programa que permite al usuario encontrar pginas de su inters que estn en el ndice a travs de una pgina web y que devuelve resultados correspondientes a la bsqueda ordenados segn los criterios establecidos previamente por el usuario.

Operacionalmente, para recuperar determinada informacin, el usuario realiza una consulta (query), la cual llega al motor de bsqueda y donde es tomada por un componente (Query Expansion) que se encarga de transformar la consulta del usuario en un conjunto de incgnitas posibles en base a las palabras claves ingresadas por el usuario. Esto se realiza de acuerdo con el conjunto de trminos indexados que posee el motor de bsqueda (topic terms). Una vez que se tienen las posibles incgnitas, las mismas son pasadas a un "Clustering" en donde se construye la informacin que se le mostrar al usuario, para lo cual se envan las palabras claves posibles al generador de frases (phase generation) y al mecanismo de rankeo de bsqueda (search engine ranking). El generador de frases selecciona la serie de ttulos posibles para cada palabra buscada y el mecanismo de rankeo, al tener el rankeo de todas las bsquedas realizadas, completa los lugares de las palabras claves despus del encabezado que creo para cada una de las frases generadas. La indexacin de la informacin puede realizarse de dos maneras: los robots toman las listas de URLs provistas por

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (2 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

servicios que promueven sitios o pginas web o que son registradas por los usuarios al completar un formularios en forma manual en el que se sugiere una URL para su indexacin proporcionando categora, palabras claves e informacin adicional del sitio; o a travs de los robots que son activados por los motores de bsqueda para que visiten las Web en busca de URLs o tpicos de inters. Se activa el "Neighborhood-based Topic Identification" para buscar URLs que pueden o no estar catalogadas y que se envan al "search engine selection index" para selecciona trminos y tpicos de inters dentro de las mismas. En el caso de que el robot ya tuviese catalogada o registrada una URL encontrada verificar si fue modificada y de ser as, actualizar la informacin que contiene sobre ella. Cuando el "search engine selection index" finaliza la seleccin, enva los resultados obtenidos al mecanismo de rankeo de bsqueda (search engine ranking). A continuacin se presenta el relevamiento de cinco motores de bsqueda seleccionados aleatoriamente. GOOGLE: surgi como un proyecto en la Universidad de Standford [4,5,6,7]. A pesar que no es uno de los primeros motores de bsqueda que aparecieron en la web, se ha convertido rpidamente en uno de los ms usados. Modo de operacin: Google cuenta con la tecnologa de PageRank, con lo que aprovecha los vnculos directos entre las pginas web de distintos sitios, evitando la jerarqua de pginas. PageRank usa la gran estructura de vnculos como una herramienta para organizar la informacin. Google considera que un vnculo de una pgina a otra es como un "voto" que la primer pgina hace a la segunda. Una pgina es posicionada ms arriba, al ser ordenada, que otra segn tenga un PageRank mayor. La pgina que emite el voto es evaluada y si es considerada importante tambin dar mayor ponderacin a la pgina votada y en consecuencia ms importancia. PageRank es un indicador de Google y no depende de una consulta especfica, se trata de la caracterstica de una pgina, basada en datos de la web que Google analiza utilizando algoritmos complejos que evalan la estructura de vnculo. Adems utiliza tcnicas de coincidencia de textos para encontrar pginas de resultado a una determinada consulta. Recibe sitios web enviados por los usuarios pero no garantiza su aparicin en su ndice. Se envan a travs de un formulario donde se les solicita la URL del sitio (no es necesario enviar cada pgina individualmente) y un comentario o palabras claves que es optativo, a modo de informacin y no afecta la manera en que la pgina es indexada. Capacidad para expresar condiciones de bsqueda: para bsquedas bsicas slo requiere que se tipeen palabras descriptivas en el campo de bsqueda y buscar la coincidencia exacta permitiendo ajustar el nmero de resultados que se desea ver en cada pgina (10, 30 o 100, por defecto es 10). El operador lgico predeterminado es "AND" por lo que devuelve pginas que contengan la totalidad de los trminos. Permite limitar una bsqueda o buscar en los resultados de la bsqueda actual. Para evitar una palabra en la bsqueda debe usarse el signo (-). No admite el operador OR, ni las bsquedas de raz, ni las bsquedas con comodines. Google considera todas las letras como minsculas. Acepta varios signos (guiones, barras, signos igual, puntos y apstrofes) como conectores de frases los que funcionan como comillas, devolver las pginas donde las palabras estn juntas. Permite realizar bsquedas por categoras y subcategoras. Para la bsqueda avanzada presenta un formulario que permite seleccionar entre buscar resultados con todas las palabras ingresadas y la cantidad de resultados que se desea (10,20,30,50,100) , por frases exactas, con alguna palabra o sin las palabras ingresadas. Permite bsquedas por pginas actualizadas en base a determinada fecha y por algn idioma en particular. Se puede especificar entre buscar pginas donde los trminos ingresados se encuentren en el ttulo, en la URL o en cualquier parte de la pgina. Tambin se puede condicionar si las bsquedas se harn slo de un determinado dominio o sitio web o si no se desea que pertenezcan a un dominio o sitio. Permite la bsqueda de imgenes y bsqueda especfica a una pgina, esto es encontrar pginas similares o pginas con enlaces a una dada. Formatos de salida: los resultados devueltos se corresponden con todos los trminos ingresados para la consulta y analiza la proximidad de esos trminos dentro de una pgina, para evitar devolver pginas que no tengan nada que ver con lo que se desea encontrar. La primer lnea del resultado es el ttulo de la pgina web que cumple con la consulta. Si la pgina an no fue indexada por Google o no se conoce su ttulo, en vez del ttulo se observa la URL de la pgina. En lugar de mostrar resmenes del contenido de las pginas web encontradas, muestra el prrafo que coincide con la consulta, con las palabras de bsqueda remarcadas. En algunos resultados puede aparecer la marca RN (RealName), indica que se trata de una palabra clave en Internet como el nombre un producto, marca, empresa o servicio y que vincular al sitio web del propietario. Cuando la palabra

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (3 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

clave de Internet coincide con el primer resultado de la bsqueda, la palabra clave de Internet y la marca RN aparecern al final del ttulo. Cuando la palabra clave de Internet es diferente del primer resultado de la bsqueda, aparecer sobre los resultados de Google. Para todos los resultados muestra una lnea de estadstica donde se observa el nmero de resultados devueltos y el tiempo que tard la bsqueda. Cuando devuelve varios resultados del mismo sitio web, el ms importante va al inicio y los dems aparecen con sangra. Despus de la direccin URL aparece un vnculo en cach y el tamao de la parte del texto de la pagina web. Muestra la opcin GoogleScout para usarla en caso de que se desee encontrar pginas relacionadas. Si los resultados estn en ingls, se encuentra un vnculo que lo lleva directamente a una versin de la pgina en espaol Cuenta con un botn "me siento afortunado" que lleva directamente al sitio Web del primer resultado de bsqueda. Google almacena pginas Web en la memoria cach de la PC del usuario con el fin de recuperarlas para los usuarios como una copia de seguridad, en caso de que el servidor de la pgina falle temporalmente, se observan vnculos al final de los enlaces resultantes. Opciones anexas: brinda la opcin de contactos para realizar preguntas de tipo comercial, tcnicas o de cualquier tipo, adems de su sistema de ayuda. No presenta carteles de publicidad en su pgina principal, s un enlace para servicio de publicidad. Capacidad de personalizacin: q Permite que los usuarios puedan configurarlo como motor de bsqueda predeterminado o como pgina de inicio del navegador.
q q

Brinda logotipos y un pequeo cdigo para quienes quieran incorporarlos en sus propias pginas web. Presenta un sector de preferencias donde los usuarios pueden seleccionar el idioma de la interfaz y si desean traducir los resultados de la bsqueda a dicho idioma. Tambin pueden seleccionar el o los idiomas de bsquedas, especificar la cantidad de resultados a mostrar por pginas y si se desean ver los resultados de la bsqueda en una nueva ventana del navegador.

ALTAVISTA: fue construido por la empresa Digital, inici sus servicios en 1995. Es un buscador de contenido internacional con versiones en distintos idiomas. Posee sitios de bsqueda en Brasil, Canad, Estados Unidos, Austria, Blgica, Suiza, Alemania, Dinamarca, Espaa, Francia, Irlanda, Italia, Pases Bajos, Noruega, Portugal, Suecia, Reino Unido, Australia, India , Corea del Sur. [3,5,8] Modo de operacin: las pginas son recogidas por un robot que las indexa tomando todas las palabras de un documento, excepto los comentarios. Esto incluye todo el texto, el texto del cdigo ALT de las imgenes, vnculos, enlaces, ttulos, cdigos META, nombres de objeto applet y ActiveX, la direccin URL de la pgina, el nombre del host y el nombre de dominio. Usa las primeras palabras del documento como un breve resumen. Para dar de alta una pgina el usuario debe completar un formulario con solamente la URL de la pgina. El sistema es capaz de reconocer las etiquetas META de ttulo, descripcin y palabras-clave y extraer la informacin que contienen. El usuario puede usar cdigos META para especificar palabras clave adicionales y una breve descripcin, como nica manera de controlar la forma como se incluye la pgina en el ndice. Cuando se recibe una URL, sta se agrega al ndice junto con todas las de los dems sitios con los que tenga enlace. Capacidad para expresar condiciones de bsqueda: presenta dos formularios, uno para bsquedas simples y otro para avanzadas. En los formularios para bsquedas simples, permite especificar el idioma de bsqueda. Trata a las frases ingresadas en el campo de bsqueda como si fuesen un conjunto de palabras separadas por espacios. Para que tome toda una frase debe "encerrrsela" entre comillas, o reemplazar los espacios por ";". Es posible usar las opciones de interseccin "+",

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (4 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

de exclusin (-) y de unin (OR) adems de parntesis para acotar bsquedas. Para buscar palabras que derivan de una misma raz se usa el "*". En las bsquedas avanzadas adems del idioma se puede limitar resultados a fechas especficas (por intervalos de tiempo o intervalos de fechas), limitar la cantidad de resultados por pginas (10,20,30,40,50) o limitar la bsqueda a una URL determinada. En bsquedas avanzadas no se permiten comillas simples, operadores , ni palabras sueltas. Si las palabras claves se escriben en minscula las buscar tanto en minscula como en mayscula, en cambio si se escribe alguna letra mayscula buscar la coincidencia exacta. Formatos de salida: cada documento obtiene una categora o puntuacin para determinar el orden de aparicin en la pgina de resultados. Esa puntuacin est basada en la cantidad de palabras, coincidentes con la consulta, que contiene el documento, segn el lugar que ocupan las palabras en el documento y segn la proximidad que existe entre ellas. En los formularios simples las pginas seleccionadas son presentadas por un orden de relevancia establecido por el propio sistema. En el formulario de bsqueda avanzada el usuario decide el orden de presentacin haciendo uso de la opcin ranqueo (Ranking), indicando el trmino que deben contener las pginas presentadas en primer lugar. De cada pgina de resultado se visualiza: el ttulo, la URL y las primeras palabras en el caso de que no contenga etiqueta META de descripcin; si contiene etiqueta META, aparece el contenido de la misma. Segn el tipo de bsqueda y la personalizacin de la misma, se muestra el tamao de la pgina (bits), el idioma y la fecha de la ltima modificacin. Se pueden mantener abiertas simultneamente la pgina de resultados y uno de los documentos presentados. Opciones anexas: cuenta con otras opciones tales como un sistema de ayuda en lnea, software de traduccin a numerosos idiomas y permite bsqueda de multimedia: sonido, mp3, video e imgenes. Capacidad de personalizacin: cuenta con una seccin, en la que el usuario puede personalizar el buscador a su manera : q especificar si desea buscar resultados en una determinada regin o a nivel mundial.
q q

configurar para obtener resultados como slo texto o texto e imgenes, determinar la informacin de los resultados en forma compacta o de pgina completa (fecha de la ltima modificacin, el tamao HTML en Kb. y el idioma para cada pgina). establecer la cantidad de resultados a mostrar por pginas (por defecto es 10), realizar bsquedas en uno o ms idiomas. activar o desactivar la traduccin de pginas. agregar Altavista al navegador mediante la barra de vnculos (Power Browser) o agregar un cuadro de bsqueda de Altavista a una pgina web propia.

q q q q

YAHOO (Ya Another Hiererchical Officious Oracle): pertenece a la empresa Yahoo! Inc. Es uno de los motores de bsqueda temtica ms antiguo en Internet. [3,5,8]. En cuanto a contenidos, su alcance es internacional, con versiones en distintos idiomas. Modo de operacin: Yahoo evala los sitios web sugeridos por sus usuarios y los indexa en forma manual. Estos rellenan un formulario donde se solicita la URL, el ttulo y la descripcin del recurso a incluir como as la categora o las categoras a las que pretende que pertenezca. El motor de bsqueda de Yahoo se basa en el ttulo y la descripcin, no permite incluir palabras claves y no trabaja con los elementos META. Capacidad para expresar condiciones de bsqueda: una de las formas de bsqueda es a travs de la clasificacin temtica donde se pueden ir seleccionando los links de inters mientras se avanza por categoras y subcategoras hasta donde se considere necesario. Es conveniente usarla cuando se desea encontrar todo lo relacionado con un tema. Otra manera de realizar la bsqueda, cuando se trata de una pgina o servidor en concreto, es ingresando en el campo de bsqueda la palabra o las palabras consideradas claves de lo que se necesita encontrar, de esta forma se podr buscar q siguiendo la categorizacin mostrada,
q q

siguiendo el link de los sitios web que han sido enumerado por yahoo, que contienen las palabras ingresadas, o siguiendo las pginas web contenidas en el ndice de Google.

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (5 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

Para los dos primeros casos Yahoo busca las correspondencias en su base de datos y luego ordena los resultados por orden de relevancia, que est dado por la cantidad de palabras claves que se hayan encontrado (a mayor cantidad de palabras claves mayor relevancia), las coincidencias exactas con las palabras claves y en qu parte del documento se encontraron las palabras claves (las encontradas en el ttulo son de mayor relevancia que las encontradas en las URL o en los comentarios). Dado que Google es un buscador especializado si Yahoo no encuentra correspondencias para la bsqueda en sus bases de datos, arroja los resultados obtenidos en su asociado, Google. A veces puede resultar de utilidad combinar las dos formas de bsqueda. Las bsquedas pueden ampliarse o acotarse de acuerdo a las opciones de bsqueda y a la sintaxis usada. Si la consulta no fuese satisfactoria se podra enlazar con otros buscadores mencionados por yahoo. El sistema permite truncar, buscar por frases mediante el uso de comillas, el uso de los operadores bolanos AND (+), NOT (-) y OR, pero no permite el uso de parntesis, lo que hace a las posibilidades de bsqueda medianamente satisfactorias. No es sensible a maysculas / minsculas. Formatos de salida: si la bsqueda se realiz en las bases de datos de Yahoo, los sitios web resultantes de la misma mostraran el ttulo con el enlace y devolvern la categora a la que pertenece. Tendrn mayor rango en la presentacin aquellos documento que contengan ms cantidad de palabras claves o si las palabras claves ingresadas pertenecen al ttulo del recurso o a una categorizacin general. No se pueden mantener abiertas paralelamente la lista de resultados de la bsqueda y una de las direcciones recuperadas. Algunos signos brindan mayor informacin sobre un enlace determinado. q El signo @ al final de un enlace: significa que el encabezado del enlace est incluido en ms de un lugar dentro de la jerarqua de Yahoo.
q q q

[Xtra!]: existe informacin que se actualiza diariamente sobre el tema elegido. NEW!: significa que el enlace fue dado de alta durante la ltima semana. Nmeros entre parntesis luego de las categoras de Yahoo: indican la cantidad de documentos enumerados directamente bajo ese encabezado temtico. Unas gafas: para destacar los servidores que considera ms interesantes por contenido, novedad, diseo, etc.

Opciones anexas: las ayudas detallan ejemplos de cmo realizar las bsquedas. Desde su pgina principal se puede acceder a distintas opciones, como por ejemplo: lista de servicios aadidos durante la ltima semana, casilla de correo electrnico, agendas, chats, finanzas, pginas amarillas, juegos, etc. Capacidad de personalizacin: permite convertirlo en la pgina de inicio.

INFOSEEK: fue lanzado en febrero de 1995, creado por la empresa The Infoseek Corp. Es un buscador dee cobertura internacional.[3,5,10] Modo de operacin: las pginas son localizadas e indexadas por un robot. Pueden darse de alta pgina a pgina, completando en un formulario dado por el sistema, solamente la URL de la pgina web. El robot es capaz de identificar las etiquetas META de palabras clave y de descripcin existentes en las pginas utilizando la primera para la indizacin de la pgina y la segunda como resumen del contenido en la visualizacin de resultados. Capacidad para expresar condiciones de bsqueda: el mtodo que sigue para indexar y ordenar los resultados de las bsquedas se basa en criterios: en primer lugar aquellas pginas en cuyo ttulo ( o cerca de ste) se encuentra la palabra clave ingresada, cantidad de palabras claves o frases que aparecen en la pagina web o si el trmino ingresado es poco comn en la base de datos. Presenta dos formularios de bsquedas, uno para bsquedas simples y otras para bsquedas avanzadas. La sintaxis por defecto es "o", es decir que los espacios entre las palabras claves ingresadas se interpretan como "o". Si se ingresan palabras que contengan alguna o todas las letras en mayscula busca la coincidencia exacta, si los trminos se ingresan en minscula busca tanto maysculas como minsculas. Para buscar por frases, deber escribrselas entre comillas o separadas por guiones. Permite el uso del signo + en lugar del AND y el en lugar del OR, pero no el uso de parntesis. En el idioma Ingls ofrece reconocimiento de conceptos (ej. sinnimos) y el
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (6 of 12) [10/11/2001 8:38:27 AM]

MOTORES DE BSQUEDA EN INTERNET

truncamiento de trminos es automtico, no existe un smbolo para representarlo en otro idioma. Las bsquedas pueden hacerse en texto libre o bien limitarse a los campos URL y ttulo. No limita la cantidad de palabras a ingresarse en el campo de bsqueda. Permite separar nombres propios con una coma y la barra vertical para buscar por el segundo trmino en aquellos documentos que contengan el primero. Formatos de salida: En cada pgina de resultado aparece el ttulo, la URL, la descripcin (la que aparece en la etiqueta META, en el caso de que exista, o las primera lneas que aparecen en la pgina propiamente dicha), el tamao de la pgina (bits) y la fecha de alta en el sistema. Agrupa los resultados provenientes del mismo sitio, asocindolos con el ms relevante de ellos, de manera que se tiene la opcin de pedir que los presente juntos en una misma pgina. Existe un nico formato de presentacin que es el propuesto por el sistema. No permite acotar bsquedas por el criterio fecha de alta de las pginas. Se recuperan pginas y no recursos que adems no pueden ser agrupadas por servidores. Permite ocultar la descripcin de las pginas arrojadas como resultado mostrando nicamente los ttulos Opciones anexas: en las ayudas se explica cmo realizar la bsqueda y los criterios de presentacin de los resultados. Presenta secciones de pginas clasificadas y noticias.

TERRA: es una herramienta de bsqueda con contenidos realizados en espaol, cataln, euskera, gallego, bable y portugus para facilitar la navegacin de usuarios de Internet de habla hispana. [11] Este buscador est presente en Argentina, Brasil, Colombia, Costa Rica, Chile, El Salvador, Espaa, Guatemala, Honduras, Mxico, Nicaragua, Panam, Per, Uruguay, USA, Venezuela. Modo de operacin: Contiene un directorio tipo ndice con sitios clasificados temticamente en 16 categoras, con distintas subcategoras. El directorio se actualiza diariamente con el alta de pginas que se cargan en forma manual a travs de una formulario. Los datos solicitados en el formulario son: sector en donde ubicar la pgina web, ttulo, URL, idioma en que est redactada la pgina, pas de origen, zona geogrfica de influencia, tipo de servicio o tipo de documento que proporciona la pgina, explicacin que acompaar al ttulo, palabras claves (hasta siete), e-mail de contacto tcnico, e-mail de contacto contenido y clave de borrador. Capacidad para expresar condiciones de bsquedas: presenta una categorizacin temtica, donde se puede inspeccionar la jerarqua hasta dar con el tema de inters. Para bsquedas especficas puede introducirse una o ms palabras claves en el campo de bsqueda separadas por espacio. A travs de un formulario se pueden expresar las condiciones de bsqueda avanzadas: buscar ocurrencias en ttulo, URL, palabras clave, descripcin, servicios o zonas de influencia; se puede especificar el mbito de bsqueda en local, regional o mundial; por idioma de pginas; por antigedad de las mismas; por pas de origen y por tipo de servicio. Las bsquedas avanzadas pueden ser por pginas o por sitios web. Para sitios se debe seleccionar en un formulario los campos donde se pretenden estn las palabras consultadas (ttulo, URL, etc), el idioma de la pgina, el mbito (local, internacional), tipo de servicio, antigedad de la pgina y pas de origen. Para bsquedas por pginas se debe especifica la o las palabras a buscar separadas solamente por espacios, el mtodo de bsqueda (OR/ AND entre palabras, por frases, en el ttulo, frases con links a ese dominio, como nombre de personas, frases lgicas), idioma de las pginas, filtrado de recursos segn otras palabras (pginas de resultados con todas las palabras, con algunas o con ninguna), control de fechas (despus de o antes de), control geogrfico, control del servicio donde se encuentra la pgina, profundidad de la pgina en el servidor (principal, pgina personal, profundidad entre 0 y 4, o cualquiera). Brinda la opcin de "bsquedas al azar", que sugiere en forma aleatoria una pgina web para comenzar a navegar y un abecedario donde buscar los temas de interes sin tener que explorar el directorio temtico. Formatos de salida: presenta los siguientes elementos de resultados: q enlaces a empresas, productos, servicios y marcas que cumplen la condicin de bsqueda,
q q

servicios ofrecidos por Terra relacionados con el trmino de bsqueda, URLs relacionadas que se ajusten a la bsqueda, en funcin del volumen de resultados obtenido puede presentar los resultados agrupados por sectores de a 25 sitios o datos de cada uno los enlaces resultantes de la consulta con el ttulo, URL y una breve explicacin de la misma, presentados de diez en diez y sin lmite de cantidad.

Se detalla el nmero de resultados obtenidos para los idiomas: espaol, cataln, euskera, bable, gallego y portugus.

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (7 of 12) [10/11/2001 8:38:27 AM]

MOTORES DE BSQUEDA EN INTERNET

En la presentacin tambin se distinguen los resultados segn correspondan a sitios, pginas web o productos En "estrenos" se encuentra la seleccin de las mejores pginas webs dadas de alta en los ltimos siete das. Las webs seleccionadas son identificadas por estrellas rojas. Con "N , nuevos" se indican los Webs de resultado dadas de alta en los ltimos quince das. Opciones anexas: tiene una base de datos Realnames con sitios de empresas, productos, servicios y marcas y una base de datos Inktomi que contiene pginas web a diferencia del buscador de Terra que contiene sitios web. Presenta un "rbol de sectores" que muestra la organizacin jerrquica de las categoras y subcategoras en las que se distribuyen las webs dadas de alta para poder visualizar fcilmente la estructura que hay debajo de un sector determinado. Servicio de publicidad para que las pginas aparezcan en los primeros lugares de una determinada categora. En su pgina principal presenta opciones como por ejemplo: diccionario de traduccin online a varios idiomas, la opcin disco virtual, y la de "newsletter" donde se recibe lo mejor de Terra, permite enviar tarjetas de vos, participar de foros, chats, compras, noticias, horscopo, etc. Capacidad de personalizacin: Permite introducir enlaces hacia Terra desde una pgina web del usuario as como realizar bsquedas desde la pgina del usuario.

Modo de Operacin Robot Recoleccin de datos Manual Palabras claves Organizacin de datos Categoras Conceptos PageRank Ttulo URL Datos imprescindibles para dar de alta una Pg. (por el usuario) Descripcin Categora otras Condiciones de bsquedas Coincidencia exacta Nro. de palabras claves Bsqueda por Ubicacin en la Pg. Proximidad entre palabras

Google X X

Altavista X X

Yahoo

Infoseek X

Terra

X X X

X X

X X X

X X X X X X X X X X X X X X Google X X X X X Altavista Yahoo X X X X X Infoseek Terra

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (8 of 12) [10/11/2001 8:38:27 AM]

MOTORES DE BSQUEDA EN INTERNET

Seleccionar cant. de rtas.

(10 por defecto) AND NOT OR

X X pred. X

X X X X

X X X X X X X X pred. X X X X X X X

Operadores

"" () *

(-, /, =, )

(;) X X

Por idioma Por categoras Simple Formulario de Bsqueda Avanzado Bsqueda por trminos Todos/algunos/ninguno De actualizacin Bsqueda por fechas Intervalos de tiempo Entre fechas URL Ttulo Bsqueda en Descripcin Dominios Bsqueda de imgenes Maysculas - minsculas No sensible

X Parcial X X X X

X Parcial X X X X X Parcial X X X X X X X X X X X X X X X X X X X X

X X X X X Todo min Google X X

X X X X X X Altavista X X

X Yahoo X X

X Infoseek X X Terra X X

Formatos de Salida Ttulo URL Prrafo que coincide con la consulta Comentario Contenido de <META> Resumen o comentario Estadsticas: tiempo y nro de resultados Categora

X X X X X X X

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (9 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

Marca RN enlace nuevo Informacin sobre enlaces Sitios interesantes Varios resultados de un mismo sitio Actualizado permanentemente Fecha de ltima actualizacin Tamao de la Pg. Vnculos en otro idioma A pg. relacionadas A pg. en memoria cach lista de resultados y direccin recuperada

X X X X X X X X X X X X X X X

X X X

Capacidad de Personalizacin Buscar en ndices locales o mundiales Formato de resultados (solo texto /texto e imgenes) informacin compacta o detallada de los resultados Cantidad de resultados por pgina Idioma de bsqueda Activar / desactivar Traduccin Idioma de interfaz Ver resultados de bsqueda en ventanas nuevas Como pgina de inicio

Google

Altavista X X X

Yahoo

Infoseek

Terra

X X X X X

X X X

Mtodos de Indexacin Con la operacin de indexacin se representan los resultados del anlisis de contenido de un documento o de una parte del mismo, mediante elementos que facilitan la recuperacin, generalmente denominados "trminos de indexacin". A diferencia de los directorios, cuya indexacin es intelectual, los motores de bsqueda realizan una indexacin automtica, haciendo uso de distintos mtodos para indexar recursos que se incorporan a sus bases de datos.[12]:

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (10 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

La indexacin en el nivel submorfolgico, es decir, sin hacer un anlisis morfolgico, sintctico o semntico ofrece un mtodo muy flexible para la recuperacin de informacin: las fuentes de informacin se indexan como patrones de bits (bit patterns) con lo que texto, sonido e imgenes en movimiento, pueden indexarse y recuperarse usando la misma forma de representacin. La indexacin por palabra clave es la forma de indexacin ms comn en la web. Para que las bsquedas recuperen datos rpidamente, se utilizan rboles y palabras clave, direcciones, ubicacin y frecuencia de apariciones. Este mtodo, bsicamente morfolgico y estadstico, basa la recuperacin de informacin en la similitud formal de las palabras, y las estadsticas de su presencia en un mismo documento y en distintos documentos. Crean en sus ndices de trabajo interno una entrada para cada una de las palabras nicas que figuran en la base de datos. Cada una de las palabras tiene asociada informacin sobre su frecuencia estadstica y , un puntero para cada registro que describe cada una de las pginas donde ocurre, el cual a su vez incluye la direccin URL. Los artculos, preposiciones, conjunciones, y en general palabras que aparecen con mucha frecuencia en el conjunto de documentos, conocidas como palabras vacas son filtradas comparndolas con una lista de palabras vacas o "antidiccionario" y no se incluyen en el ndice. Las palabras asignadas mediante la indexacin automtica se complementan con palabras de indexacin que sugiere el autor del documento HTML en los tag<META>. A veces, los autores no son honestos (por desear que su sitio aparezca entre los primeros resultados o por motivos comerciales) y colocan palabras que, aunque no se corresponden con el contenido del sitio, tienen posibilidades de ser tipeadas en la consulta de un usuario como por ejemplo sex, free, Microsoft, Netscape, etc. La Indexacin por conceptos es el mtodo de indexacin ms usado en la Web despus del de indexacin por palabra clave. Existen varios procedimientos para construir bases de datos basadas en conceptos. Algunos se apoyan en teoras lingsticas y de inteligencia artificial, otros se basan en aproximaciones numricas, calculando la frecuencia de aparicin de palabras significativas. Con el anlisis estadstico, se puede determinar qu conceptos estn relacionados o aparecen juntos en textos que tratan sobre un tema concreto. Mediante este sistema se pueden recuperar sitios que tratan un tema dado, aunque las palabras del sitio no coincidan con las ingresadas por el usuario para realizar la consulta. Otros sistemas de indexacin por concepto realizan un anlisis profundo a nivel semntico y sintctico. El mayor nivel de anlisis semntico lo ofrecen los sistemas que brindan informacin evaluada, revisada e indexada por humanos, que se presenta en algunos directorios temticos. Existen variaciones en cada motor de bsqueda: algunos no seleccionan trminos para ingresar en sus bases de datos, sino que indexan el texto completo de los documentos que captan, exceptuando las palabras vacas mientras que otros incluyen el contenido de tags y toman como trminos para indexar las 3 o 4 palabras del texto que ms se repiten. Existen los que ponderan las pginas segn los trminos se encuentren en el ttulo, en la URL, en la cabecera, en los enlaces a otros documentos o en otra parte del documento. La Indexacin por hiperenlaces representa a la web como un grafo , en el que cada pgina es un nodo y cada enlace un arco. Se puede decir que hay un grafo dirigido entre una pgina que apunta o se relaciona con otra, es decir un arco con direccin determinada. Los vnculos permiten de esta manera obtener informacin de las pginas, por ejemplo puede pensarse que dos pginas que reciben enlaces desde los mismos nodos tienen contenido parecido o relacionado con un mismo tema. Con este tipo de mtodo de indexacin se trabajan los hipervnculos como palabras claves o conceptos, pero permite eliminar diferencias idiomticas y reducir la capacidad de almacenamiento y procesamiento necesaria.

Conclusin No se puede dejar de dar importancia a la calidad de los resultados de las bsquedas de informacin en Internet. Este planteamiento es vlido tanto para los usuarios de la informacin como para quienes posibilitan las bsquedas, los motores de bsqueda. Se ha mostrado que cada motor de bsqueda, tiene su propia arquitectura. Los motores de bsquedas temticos son ms apropiados para encontrar todo lo relacionado con un tema, mientras que los motores de bsqueda que utilizan robots presentan resultados ms actualizados. El conocimiento por parte de los usuarios (que generalmente no leen las ayudas propias de cada buscador) y la aplicacin de las capacidades de bsqueda y personalizacin posibilitaran que los resultados sean lo ms acordes posibles a sus propios intereses. Principalmente para representacin e indexacin de la informacin se usan los mtodos de indexacin por palabra clave

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (11 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

o concepto. La indexacin por palabra clave es la forma ms comn en la web. Dado el creciente volumen de informacin en Internet, a pesar de la utilizacin de robots, la informacin encontrada no estar siempre actualizada. Bibliografa [1] Grupo Interuniversitario de Certificacin de Redes - "Motores de bsqueda en Internet" http://www.ispjae.cu/gicer. [2] Rodrguez G. "Estudio tcnico de los buscadores Web" - http://www.AlephWeb-ISOCCAT.htm [3] Cowan A. - "Motores de bsqueda" disponible en http://www.desde-el-atico.com.ar/buscadores/search.html [4] Brin. S y Page. L. "The Anatomy of a Large-Scale Hyper Textual Web Search Engine" http://dbpubs.standford.edu:8090/pub/1998-8 [5] Martnez A. Snchez E. "Evaluacin de los principales buscadores desde un punto de vista documental recogida, anlisis y recuperacin de recursos de informacin" http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm [6] Proyecto GOOGLE -http://google.standford.edu [7] Google - http://google.com/intl/es/about.html [8] Altavista - http://es-es.www.altavista.com/foother/about.htm [9] Yahoo http://www.yahoo.com/help.htm [10] Infoseek http://infoseek.com/about.html [11] Terra http://www.terra.com [12] Leal. J. "Cmo se realiza el descubrimiento y la seleccin e indexacin de recursos en el Web" disponible en http://acoruna.tuportal.com/proyecto/3.htm

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (12 of 12) [10/11/2001 8:38:28 AM]

You might also like