Professional Documents
Culture Documents
Abstracto
En este trabajo, presentamos Google, un prototipo de un motor de bsqueda a gran escala
que hace un uso intensivo de la estructura presente en el hipertexto. Google est diseado
para rastrear e indexar la Web de manera eficiente y producir resultados mucho ms
satisfactorios que los sistemas existentes. El prototipo con una base de datos de texto
completo y hipervnculo de al menos 24 millones de pginas est disponible en
http://google.stanford.edu/
Para disear un motor de bsqueda es una tarea difcil. Decenas Buscar ndice motores a
cientos de millones de pginas web que involucran un nmero comparable de trminos
distintos. Responden a decenas de millones de consultas cada da. A pesar de la importancia
de los motores de bsqueda a gran escala en la web, muy poca investigacin acadmica se
ha hecho sobre ellos. Adems, debido al rpido avance de la tecnologa y la proliferacin de
Internet, la creacin de un motor de bsqueda en la web hoy en da es muy diferente a la de
hace tres aos. Este documento ofrece una descripcin en profundidad de nuestro motor de
bsqueda en Internet a gran escala - la primera descripcin pblica detallada que
conocemos hasta la fecha.
Aparte de los problemas de la ampliacin de las tcnicas de bsqueda tradicionales a los
datos de esta magnitud, hay nuevos retos tcnicos involucrados con el uso de la
informacin adicional presente en el hipertexto para producir mejores resultados de
bsqueda. En este trabajo se aborda la cuestin de cmo construir un sistema prctico a
gran escala que puede explotar la informacin presente en el hipertexto. Tambin nos
fijamos en el problema de cmo tratar eficazmente con colecciones de hipertexto no
controlados donde cualquiera puede publicar lo que quieran.
Palabras clave: World Wide Web, motores de bsqueda, recuperacin de informacin,
PageRank, Google
1. Introduccin
(Nota: Hay dos versiones de este trabajo - una versin ms larga completa y una versin
ms corta impresa La versin completa est disponible en la web y el CD-ROM de la
conferencia..)
La web crea nuevos retos para la recuperacin de informacin. La cantidad de informacin
en la web est creciendo rpidamente, as como el nmero de nuevos usuarios sin
experiencia en el arte de la investigacin de la tela. Las personas tienden a navegar por la
web utilizando su grfica enlace, a menudo a partir de los ndices humanos mantenido alta
calidad tales como Yahoo! o con motores de bsqueda. Humano mantiene listas abarcan
temas populares con eficacia pero son subjetivas, caros de construir y mantener, lento para
mejorar, y no puede cubrir todos los temas esotricos. Buscadores automticos que
dependen de concordancia de palabras clave por lo general vuelven demasiados partidos de
baja calidad. Para empeorar las cosas, algunos anunciantes tratan de llamar la atencin de
las personas mediante la adopcin de medidas destinadas a engaar a los motores de
bsqueda automatizados. Hemos construido un motor de bsqueda a gran escala que aborda
muchos de los problemas de los sistemas existentes. Se hace uso especialmente intensivo de
la estructura adicional presente en el hipertexto para proporcionar resultados de bsqueda
mucho ms altos de calidad. Elegimos nuestro nombre del sistema, Google, ya que es una
ortografa comn de googol, o 10 100 y encaja bien con nuestra meta de construir motores de
bsqueda muy gran escala.
Literatura cita acadmica se ha aplicado a la web, en gran parte por contar las citas o los
vnculos de retroceso a una pgina determinada. Esto da una aproximacin de importancia
o calidad de una pgina. PageRank se extiende esta idea al no contar los enlaces de todas
las pginas por igual, y por la normalizacin por el nmero de enlaces en una pgina.
PageRank se define como sigue:
Asumimos la pgina A tiene pginas T1 ... Tn que apuntan a ella (es decir, son las citas). El
parmetro d es un factor de amortiguacin que se puede establecer entre 0 y 1. Por lo
general, establecemos d a 0,85. Hay ms detalles acerca de d en la siguiente seccin.
Tambin C (A) se define como el nmero de enlaces que salen de la pgina A. El PageRank
de una pgina A se da como sigue:
PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))
Tenga en cuenta que los PageRanks forman una distribucin de probabilidad sobre
pginas web, por lo que la suma de todas las pginas web PageRank 'ser uno.
PageRank o PR (A) se puede calcular utilizando un algoritmo iterativo simple, y
corresponde a el vector propio principal de la matriz de enlace normalizada de la web.
Adems, un PageRank de 26 millones de pginas web puede calcularse en unas pocas horas
en una estacin de trabajo de tamao medio. Hay muchos otros detalles que estn ms all
del alcance de este documento.
2.1.2 intuitiva Justificacin
PageRank se puede considerar como un modelo de comportamiento del usuario.
Suponemos que hay un "surfista aleatorio" que se le da una pgina web al azar y se
mantiene al hacer clic en los enlaces, no golpear "atrs", pero finalmente se aburre y
empieza en otra pgina al azar. La probabilidad de que el surfista aleatorio visita una pgina
es su PageRank. Y, el d factor de amortiguamiento es la probabilidad en cada pgina de la
"surfista aleatorio" se aburrir y solicite otra pgina al azar. Una variacin importante es
agregar slo el factor de amortiguamiento d para una sola pgina, o un grupo de pginas.
Esto permite la personalizacin y puede hacer que sea casi imposible de engaar
deliberadamente el sistema con el fin de conseguir una graduacin ms alta. Tenemos
varias otras extensiones al PageRank, de nuevo ver [Pgina 98].
Otra justificacin intuitiva es que una pgina puede tener un alto PageRank si hay muchas
pginas que apuntan a la misma, o si hay algunas pginas que apuntan a la misma y tener
un alto PageRank. Intuitivamente, las pginas que estn bien citan desde muchos lugares en
la web son vale la pena mirar. Adems, las pginas que tienen tal vez slo una cita de algo
as como el Yahoo! pgina de inicio son tambin generalmente vale la pena mirar. Si una
pgina no era de alta calidad, o era un vnculo roto, es muy probable que la pgina de inicio
de Yahoo no se unira a ella. PageRank maneja ambos casos y todo lo dems propagando
recursivamente pesos a travs de la estructura de enlaces de la web.
El texto de los enlaces es tratado de una manera especial en nuestro motor de bsqueda. La
mayora de los motores de bsqueda asocian el texto de un enlace con la pgina que el
enlace est activado. Adems, lo asociamos con la pgina el enlace apunta. Esto tiene varias
ventajas. En primer lugar, las anclas a menudo proporcionan descripciones ms precisas de
las pginas web que los propios pginas. En segundo lugar, pueden existir anclajes para los
documentos que no pueden ser indexados por un motor de bsqueda basado en texto, como
imgenes, programas y bases de datos. Esto hace que sea posible para volver las pginas
web que en realidad no se han rastreado. Tenga en cuenta que las pginas que no se han
rastreado pueden causar problemas, ya que nunca se comprueban para la validez antes de
ser devuelto al usuario. En este caso, el motor de bsqueda incluso puede devolver una
pgina que nunca ha existido en realidad, pero tena hipervnculos apuntando a la misma.
Sin embargo, es posible ordenar los resultados, por lo que este problema particular, rara vez
sucede.
Esta idea de propagar texto de anclaje a la pgina se refiere a se implement en el Worm
World Wide Web [McBryan 94] sobre todo porque ayuda a la bsqueda de informacin no
textual, y ampla la cobertura de bsqueda con un menor nmero de documentos
descargados. Utilizamos la propagacin de anclaje sobre todo porque el ancla de texto
puede ayudar a proporcionar mejores resultados de calidad. El uso de texto de anclaje es
eficiente tcnicamente difcil debido a las grandes cantidades de datos que deben ser
procesados. En nuestro rastreo actual de 24 millones de pginas, tuvimos ms de 259
millones de anclajes que hemos indexado.
3 Trabajo relacionado
Investigacin Bsqueda en la web tiene una historia breve y conciso. El gusano de la World
Wide Web (WWWW) [McBryan 94] fue uno de los primeros motores de bsqueda web.
Fue seguido posteriormente por otros buscadores acadmicos, muchos de los cuales son
ahora las empresas pblicas. En comparacin con el crecimiento de la Web y la importancia
de los motores de bsqueda, hay muy pocos documentos sobre los ltimos motores de
bsqueda [Pinkerton 94]. Segn Michael Mauldin (jefe cientfico, Lycos Inc) [Mauldin],
"los diferentes servicios (incluyendo Lycos) vigilan de cerca los detalles de estas bases de
datos". Sin embargo, ha habido una buena cantidad de trabajo en las caractersticas
especficas de los motores de bsqueda. Especialmente bien representado es un trabajo que
puede obtener resultados por el post-procesamiento de los resultados de los motores de
bsqueda comerciales existentes o producir pequeos motores de bsqueda escala
"individualizados". Por ltimo, ha habido un montn de investigacin en sistemas de
Otra gran diferencia entre la web y colecciones bien controlados tradicionales es que no hay
prcticamente ningn control sobre lo que la gente puede poner en la web. Si unimos esto
flexibilidad para publicar cualquier cosa con la enorme influencia de los motores de
bsqueda para enrutar el trfico y las empresas que la manipulacin deliberada los motores
de bsqueda con fines de lucro convertido en un problema grave. Este problema que no ha
sido abordado en los sistemas de recuperacin de informacin cerrada tradicionales.
Adems, es interesante observar que los metadatos esfuerzos han fracasado en gran medida
con los motores de bsqueda web, ya que cualquier texto en la pgina que no est
directamente representado al usuario se abusa de manipular los motores de bsqueda.
Incluso hay numerosas empresas que se
especializan en la manipulacin de los
motores de bsqueda con fines de lucro.
Anatoma 4 Sistema
En primer lugar, vamos a ofrecer un debate
de alto nivel de la arquitectura. Entonces,
hay algunas descripciones en profundidad
de las estructuras de datos importantes. Por
ltimo, las principales aplicaciones: rastreo,
indexacin y bsqueda sern examinadas
en profundidad.
archivo de anclajes. Este archivo contiene informacin suficiente para determinar donde
cada enlace apunta desde y hacia, y el texto del enlace.
El URLresolver lee el archivo de anclas y convierte las direcciones URL relativas en URLs
absolutas y a su vez en docIDs. Se pone el texto de anclaje en el ndice hacia adelante,
asociado con el docID que los puntos de anclaje a. Tambin genera una base de datos de
enlaces que son pares de docIDs. La base de datos enlaces se utiliza para calcular
PageRanks para todos los documentos.
El clasificador toma los barriles, que se ordenan por docID (esto es una simplificacin,
vase la Seccin 4.2.5), y les recurre por wordID para generar el ndice invertido. Esto se
hace en lugar de modo que se necesita poco espacio temporal para esta operacin. El
clasificador tambin produce una lista de wordIDs y desplazamientos en el ndice invertido.
Un programa llamado DumpLexicon toma esta lista junto con el lxico producido por el
indexador y genera un nuevo lxico para ser utilizado por el buscador. El buscador est
dirigido por un servidor web y utiliza el lxico construido por DumpLexicon junto con el
ndice invertido y los PageRanks para responder consultas.
seguido por una lista de de wordID con hitlists que corresponden a esas palabras. Este
esquema requiere un poco ms de almacenamiento debido a docIDs duplicados pero la
diferencia es muy pequea para un nmero razonable de cubos y ahorra considerable
tiempo y la complejidad de codificacin en la fase final de la indexacin realizada por el
clasificador. Por otra parte, en lugar de almacenar de wordID reales, almacenamos cada
wordID como una diferencia relativa del wordID mnimo que cae en el can del wordID
es. De esta manera, podemos utilizar slo 24 bits para los aos wordID en los barriles sin
ordenar, dejando 8 bits para la longitud lista de resultados.
4.2.7 ndice invertido
El ndice invertido se compone de las mismas barricas como el ndice hacia adelante,
excepto que han sido procesados por el clasificador. Por cada wordID vlida, el lxico
contiene un puntero en el barril que wordID cae en. Apunta a una doclist de docID de junto
con sus correspondientes listas de xitos. Este doclist representa todas las ocurrencias de
esa palabra en todos los documentos.
Una cuestin importante es en qu orden los docID de deben aparecer en el doclist. Una
solucin simple es almacenarlos ordenados por docID. Esto permite una rpida fusin de
diferentes doclists para varias consultas de palabras. Otra opcin es almacenarlos segn un
ranking de la aparicin de la palabra en cada documento. Esto hace que responder una
consulta de palabras triviales y hace probable que las respuestas a varias consultas de
palabras son cerca del inicio. Sin embargo, la fusin es mucho ms difcil. Adems, esto
hace que el desarrollo mucho ms difcil en que un cambio en la funcin de clasificacin
requiere una reconstruccin del ndice. Elegimos un compromiso entre estas opciones,
mantener dos conjuntos de barriles invertidas - un conjunto de listas de resultados que
incluyen xitos de ttulo o de anclaje y otro conjunto de todas las listas de xitos. De esta
manera, se comprueba la primera serie de barriles primero y si no hay suficientes resultados
dentro de esos barriles comprobamos los ms grandes.
bsqueda de DNS antes de meterse cada documento. Cada uno de los cientos de conexiones
puede estar en un nmero de diferentes estados: mirando hacia arriba DNS, conectando con
el anfitrin, el envo de la solicitud, y la recepcin de la respuesta. Estos factores hacen que
el rastreador un componente complejo del sistema. Utiliza asncrono IO para gestionar
eventos, y un nmero de colas para pasar la pgina obtiene de estado a estado.
Resulta que la ejecucin de un rastreador que conecta a ms de medio milln de servidores,
y genera decenas de millones de entradas de registro genera una buena cantidad de correo
electrnico y llamadas telefnicas. Debido a la gran cantidad de personas que vienen en la
lnea, siempre hay aquellos que no saben lo que es un rastreador es, porque este es el
primero que han visto. Casi a diario, recibimos un correo electrnico algo como, "Wow, te
veas a una gran cantidad de pginas de mi sitio web. Cmo te gusta?" Tambin hay
algunas personas que no conocen el protocolo de exclusin de robots, y piensan que su
pgina debe ser protegido de la indexacin de una declaracin como, "Esta pgina tiene
derechos de autor y no debe ser indexados", que no hace falta decir que es difcil para los
rastreadores web entender. Tambin, debido a la enorme cantidad de datos involucrados,
cosas inesperadas sucedern. Por ejemplo, nuestro sistema intent arrastrarse un juego en
lnea. Esto dio lugar a un montn de mensajes de basura en el centro de su juego! Resulta
que este era un problema fcil de solucionar. Pero este problema no se haba acercado hasta
que habamos descargado decenas de millones de pginas. Debido a la inmensa variacin
en las pginas web y servidores, es prcticamente imposible probar un rastreador sin
ejecutar en gran parte de la Internet. Invariablemente, hay cientos de problemas oscuros que
slo pueden ocurrir en una pgina de toda la web y hacer que el rastreador se bloquee, o
peor, provocar un comportamiento impredecible o incorrecta. Los sistemas que acceden a
grandes partes de la Internet deben ser diseados para ser muy robusta y cuidadosamente
probado. Desde los grandes sistemas complejos como rastreadores invariablemente causar
problemas, es necesario que sean importantes recursos dedicados a la lectura del correo
electrnico y la solucin de estos problemas a medida que surgen.
este cambio en todas las bsquedas anteriores que fueron clasificados. Aunque lejos
de ser perfecto, esto nos da
una idea de cmo un cambio Pregunta: bill clinton
en la funcin de clasificacin http://www.whitehouse.gov/
100,00%
(sin fecha) (0K)
afecta a los resultados de
http://www.whitehouse.gov/
bsqueda.
5 Resultados y
Rendimiento
La medida ms importante
de un motor de bsqueda es
la calidad de sus resultados
de bsqueda. Si bien una
evaluacin de usuario
completa est ms all del
"No oficial" de Bill Clinton
alcance de este trabajo,
94,06% (11 de noviembre 1997) (14K)
nuestra propia experiencia
http://zpub.com/un/un-bc.html
con Google ha demostrado
Bill Clinton se rene La encoge
que para producir mejores
86,27%
(29 de junio 1997) (63K)
http://zpub.com/un/un-bc9.html
resultados que los principales
presidente Bill Clinton - El lado oscuro
motores de bsqueda
97,27% (10 de noviembre 1997) (15K)
comerciales para la mayora http://www.realchange.org/ clinton.htm
de las bsquedas. Como un $ 3 Bill Clinton
ejemplo que ilustra el uso de 94,73% (sin fecha) (4K)
PageRank, el ancla de texto, http://www.gatewy.net/~tjohnson/clinton1.html
Figura 4. Resultados de ejemplo de Google
y la proximidad, la figura 4
muestra los resultados de
Google para una bsqueda en "bill clinton". Estos resultados demuestran algunas de
las caractersticas de Google. Los resultados se agrupan por servidor. Esto ayuda
considerablemente cuando tamizado a travs de conjuntos de resultados. Una serie
de resultados son de dominio whitehouse.gov que es lo que uno puede esperar
razonablemente de tal bsqueda. En la actualidad, la mayora de los principales
motores de bsqueda comercial no devuelven ningn resultado de whitehouse.gov,
mucho menos los ms adecuados. Observe que no hay ningn ttulo para el primer
resultado. Esto se debe a que no se ha rastreado. En su lugar, Google se bas en el
texto de anclaje para determinar esto era una buena respuesta a la consulta. Del
mismo modo, el quinto resultado es una direccin de correo electrnico que, por
supuesto, no es rastreable. Tambin es un resultado de texto de anclaje.
Todos los resultados son razonablemente pginas de alta calidad y, en ltima
comprobacin, ninguno era enlaces rotos. Esto es en gran parte porque todos tienen
alto PageRank. Los PageRanks son los porcentajes en rojo junto con grficos de
barras. Por ltimo, no hay resultados sobre un proyecto de ley que no sea Clinton o
sobre un Clinton aparte de Bill. Esto se debe a que le damos pesada importancia de
la proximidad de las ocurrencias de palabras. Por supuesto una verdadera prueba de
147.8 GB Repositorio
Comprimido
53.5 GB
4.1 GB
293 MB
Datos de anclaje
temporal
(no en total)
6.6 GB
ndice de documentos
Incl.
9.7 GB
Ancho de datos variables
Enlaces Base de datos
3.9 GB
55.2 GB
108.7
GB
Estadsticas de Almacenamiento
Nmero de de 404
millones
millones de pginas (incluyendo errores). Sin embargo, una vez que el sistema
estaba funcionando sin problemas, se corra mucho ms rpido, la descarga de los
ltimos 11 millones de pginas en slo 63 horas, con un promedio de poco ms de 4
millones de pginas al da o 48,5 pginas por segundo. Corrimos el indexador y el
rastreador de forma simultnea. El indexador corri solo ms rpido que los
rastreadores. Esto es en gran parte porque pasamos el tiempo justo optimizar el
indexador de modo que no sera un cuello de botella. Estas optimizaciones incluyen
actualizaciones masivas al ndice de documentos y colocacin de estructuras de
datos crticos en el disco local. El indexador funciona a aproximadamente 54
pginas por segundo. Los clasificadores pueden ejecutarse completamente en
paralelo; utilizando cuatro mquinas, todo el proceso de clasificacin toma
alrededor de 24 horas.
6. Conclusiones
Google est diseado para ser un motor de bsqueda escalable. El objetivo principal
es proporcionar resultados de bsqueda de alta calidad sobre un mundo en rpido
crecimiento Wide Web. Google emplea una serie de tcnicas para mejorar la calidad
de bsqueda incluyendo fila de la pgina, el texto de anclaje, y la informacin de
proximidad. Adems, Google es una arquitectura completa para la recopilacin de
la calidad de las pginas web. El uso de enlaces de texto como una descripcin de lo
que el enlace apunta a ayuda al retorno de motores de bsqueda relevantes (y hasta
cierto punto de alta calidad) resultados. Por ltimo, el uso de la informacin de
proximidad ayuda a aumentar la relevancia de un gran negocio para muchas
consultas.
7 Agradecimientos
De Scott Hassan y Alan Steremberg han sido fundamentales para el desarrollo de
Google. Sus contribuciones talentosos son insustituibles, y los autores les debemos
mucha gratitud. Tambin nos gustara dar las gracias a Hctor Garca-Molina,
Rajeev Motwani, Jeff Ullman, y Terry Winograd y todo el grupo WebBase por su
apoyo y discusiones interesantes. Por ltimo, nos gustara reconocer el generoso
apoyo de nuestros donantes de equipos IBM, Intel y Sun y nuestros financiadores.
La investigacin descrita aqu se llev a cabo como parte del Proyecto de Biblioteca
Digital Integrado de Stanford, con el apoyo de la National Science Foundation bajo
el Acuerdo Cooperativo IRI-9411306. La financiacin de este acuerdo de
cooperacin tambin es proporcionada por DARPA y la NASA, y por Interval
Referencias
o
o
Vitae
Sergey Brin recibi su licenciatura en
competidores. Este tipo de sesgo es muy difcil de detectar, pero todava podra
tener un efecto significativo en el mercado. Por otra parte, los ingresos de
publicidad a menudo proporciona un incentivo para proporcionar resultados de
bsqueda de mala calidad. Por ejemplo, hemos observado un importante motor de
bsqueda no volvera pgina de inicio de una gran compaa area cuando el
nombre de la compaa area se le dio como una consulta. Dio la casualidad de que
la aerolnea haba colocado un anuncio costoso, vinculado a la consulta que era su
nombre. Una mejor motor de bsqueda no habra requerido este anuncio, y
posiblemente como resultado la prdida de los ingresos de la compaa area al
motor de bsqueda. En general, se podra argumentar desde el punto de vista del
consumidor que la mejor es, se necesitar el motor de bsqueda de los menos
anuncios para el consumidor para encontrar lo que quieren. Por supuesto, esto
erosiona la publicidad apoyada modelo de negocio de los motores de bsqueda
existentes. Sin embargo, siempre habr dinero de los anunciantes que quieren un
cliente para cambiar los productos, o que tienen algo que es realmente nuevo. Pero
creemos que la cuestin de la publicidad hace que suficientes incentivos mixtos que
es fundamental contar con un motor de bsqueda competitiva que es transparente y
en el mbito acadmico.
9 Apndice B: Escalabilidad
9. 1 Escalabilidad de Google
Hemos diseado Google para ser escalable en el corto plazo a una meta de 100
millones de pginas web. Acabamos de recibir el disco y mquinas para manejar
ms o menos de esa cantidad. Todas las piezas que requieren mucho tiempo del
sistema son paralelizar y hora ms o menos lineal. Estos incluyen cosas como los
rastreadores, indexadores y clasificadores. Tambin pensamos que la mayora de las
estructuras de datos se ocupar con gracia con la expansin. Sin embargo, en 100
millones de pginas web que estaremos muy cerca contra todo tipo de lmites del
sistema operativo en los sistemas operativos ms comunes (actualmente corremos
tanto en Solaris y Linux). Estos incluyen cosas como la memoria direccionable, el
nmero de descriptores de archivos abiertos, tomas de corriente de red y ancho de
banda, y muchos otros. Creemos que la ampliacin a un montn ms de 100
millones de pginas que aumentara considerablemente la complejidad de nuestro
sistema.