You are on page 1of 6

Investigacin sobre el comportamiento de la publicidad dirigida en Internet Mvil

LIU Jian-yi1, Wang Cong2, Zhang Ru1, Zhao Xin-yi1


1. School of Computer, Beijing University of Posts and Telecommunications, Beijing 100876, China
2. School of Software Engineering, Beijing University of Posts and Telecommunications, Beijing 100876,
China
Abstract:
Este artculo disea e implementa el sistema de publicidad y recomendacin basado en el comportamiento
del usuario bajo Internet mvil. Analizando el comportamiento en lnea del usuario, usando perfiles que
incluyen intereses a largo plazo y se pueden obtener los intereses de corto plazo. Al final de este artculo,
se calcula la similitud entre los grupos de comportamiento y la publicidad, la cual es usada para clasificar
y seleccionar la publicidad ms apropiada. Los experimentos muestran que el sistema puede colocar la
publicidad apropiada de acuerdo a los diversos intereses de los usuarios.
Palabras clave: Internet Mvil, comportamiento de usuario, publicidad contextual
1.

Introduccin

2.

El negocio oficial del 4G y la


promulgacin de licencias de operadores
virtuales de telecomunicaciones, ha
revolucionado el entorno del Internet
Mvil en los aspectos tcnico y
econmico. La integracin amplia y
profunda de la red (redes de
telecomunicacin, redes de televisin,
redes de computadoras), negocios
(servicios
de
telecomunicaciones,
aplicaciones de Internet, servicios de
video), modelo comercial (libre, cargo,
pago a terceros), terminales (televisin
mvil y fija, telfono, computadora, etc.)
producirn varios nuevos negocios. La
publicidad mvil para estos interactivos,
de enorme capacidad de informacin,
amplia cobertura y bajos costos, ha
llegado a ser uno de los principales
modelos del Internet Mvil.

3.

Actualmente, la publicidad mvil no


considera los intereses del usuario, los
usuarios tienden a aceptar pasivamente
algunos contenidos publicitarios en el que
ellos no estn interesados, de forma que
muchos usuarios mantienen actitudes
hostiles
contra
estos
anuncios.
nicamente colocando publicidad basada
en el anlisis de los intereses del usuario,
podemos lograr el efecto de anunciar.
Est es tambin la inevitable tendencia
del desarrollo de la publicidad mvil.

4.

La tecnologa de la publicidad
recomendada
incluye
bsqueda
patrocinada, publicidad contextual y
focalizacin conductual [1]. La bsqueda
patrocinada tambin conocida como
publicidad clave, por que usa un motor de
bsqueda para buscar palabras clave de
los usuarios, devuelve publicidad

asociada con la palabra clave de la


biblioteca de anuncios. Por ejemplo, el
programa AdSense de Google, paga
servicios de clasificacin de Baidu y
otros. La investigacin de bsqueda de
publicidad patrocinada se enfoc en la
optimizacin de la publicidad, prediccin
de publicidad por click, ranking pagado,
consulta de palabras reescritas y otros
aspectos [2-6].
5.

La publicidad contextual entrega anuncios


de contenido relacionado en la pgina
web basndose en el contenido web [7].
Por ejemplo, el Match contextual de
Yahoo, la plataforma de publicidad online
de Microsoft Service Network(MSN)

6.

La publicidad contextual es una nueva


forma de modelo de publicidad. Su
propsito es usar el comportamiento de la
bsqueda en Internet de los usuarios,
proporcionando informacin publicitaria
de acuerdo a la intencin del usuario.
Analizando el historial de registros de
web de los usuarios, se accede a
comportamientos valiosos de los usuarios
y se les entrega anuncios relacionados, de
esta forma la focalizacin conductual
puede proporcionar anuncios que abarcan
las necesidades de los usuarios [8].
Actualmente no hay mucha produccin
acadmica
en
investigacin
de
focalizacin conductual. En el artculo [910], el comportamiento de los clicks de
los usuarios es utilizado en la focalizacin
conductual. En el artculo [11-3], se
clasifica primero a los usuarios utilizando
anlisis probabilstico semntico latente,
entonces recomienda informacin de
publicidad basada en el comportamiento
de los clicks del mismo grupo de
usuarios. En la industria, muchos sistemas

comerciales desarrollaron funciones de


focalizacin conductual. Por ejemplo,
Adlink[14] considera el comportamiento
conversacional de los usuarios a corto
plazo. DoubleClick[15] usa buscadores y
el sistema operativo de los usuarios para
mejorar
el
rendimiento
de
la
segmentacin
de
los
usuarios.
Specificmedia[16] puede predecir cada
inters del usuario y su voluntad para
comprar.
7.

Debido a la naturaleza personal del


terminal mvil, los datos adquiridos
tienen caractersticas personales precisas,
de forma que es fcil para los operadores
y publicistas identificar usuarios, analizar
el comportamiento de esos usuarios y
encontrar sus intereses. Este artculo
estudia el sistema de publicidad
recomendada
basada
en
el
comportamiento del usuario y coloca
publicidad analizando los registros de
navegacin del usuario y calculando los
intereses a largo plazo y a corto plazo de
los usuarios.

8.

Arquitectura del sistema

9.

El sistema de recomendacin de
publicidad focalizada en la conducta est
diseada para mejorar la eficiencia de la
publicidad modelando el comportamiento
de
los
usuarios
y
precisando
recomendaciones para los usuarios basada
en los datos de comportamiento de los
usuarios. La arquitectura del sistema se
muestra en la Figura 1, incluyendo el
subsistema de anlisis de comportamiento
de los usuarios, sistema de publicidad,
pgina de protocolo de aplicacin
inalmbrico (WAP) del subsistema de
anlisis.

10.

11. Figura 1 Arquitectura del sistema de la


publicidad en mviles focalizado en el
comportamiento.

12. Todo el subsistema arriba, pgina web


WAP del sistema de anlisis contiene el
mdulo de anlisis, mdulo de
segmentacin
y
el
mdulo
de
clasificacin de pginas. El mdulo de
anlisis de pginas realiza la funcin de la
extraccin de texto de la pgina Web. El
mdulo de anlisis de la pgina web
eliminar la informacin irrelevante de la
pgina WAP, tales como links de
navegacin, imgenes, msica y otra
informacin.
13. El mdulo de anlisis de la pgina usa
principalmente tecnologas de remocin
de etiquetas HTML para extraer pginas
de texto encontrando las etiquetas del
script de la pgina. La salida es el texto
que contiene la pgina web (con el ttulo
y algunas etiquetas), el texto de la pgina
es procesado por el mdulo de
segmentacin.
El
mdulo
de
segmentacin usa un algoritmo avanzado
para dividir sentencias largas del texto en
palabras individuales y da la parte lxica
de la palabra para buscarla en el
diccionario. El mdulo de clasificacin de
la pgina utiliza el algoritmo de
clasificacin bayesiana para identificar el
tema de la web e identificar los intereses
del usuario por el tema.
14. En el subsistema del anlisis del
comportamiento del usuario, el proceso
de navegacin y comportamiento del
usuario es almacenado en la bitcora del
WAP. El sistema establece el modelo de
las caractersticas de comportamiento del
usuario de acuerdo al historial de
bsquedas de la bitcora del WAP y
distingue los intereses a largo y corto
plazo de ese periodo de navegacin. Los
intereses de largo plazo reflejan un
comportamiento estable de navegacin de
los usuarios en un periodo de tiempo
relativamente largo, de modo que es
predecible. Los intereses de corto plazo
reflejan comportamientos ocasionales de
los usuarios en un corto periodo de
tiempo. Por ejemplo, un usuario varn
busca cantidades de pginas web sobre el
da de San Valentn para comprar regalos
para su esposa, esto es difcil de predecir.
15. El sistema de publicidad usa categoras de
pginas y un modelo de caractersticas de
comportamiento de los usuarios haciendo
uso de alguna estrategia de publicidad.
De acuerdo a la categora de la pgina, el
sistema busca los avisos de esta categora,
entonces coloca publicidad similar a los

intereses de los usuarios buscando en esta


publicidad.
16. Algoritmo
de
anlisis
comportamiento del usuario

de

17. Los estudios sicolgicos sugieren que la


memoria humana est dividida en
memoria de largo plazo y memoria de
corto plazo correspondiente a los
intereses. El inters de largo plazo es una
preferencia relativamente fija de los
usuarios la cual se obtiene por
acumulacin en un periodo largo de
tiempo, su desempeo general es que el
usuario est interesado en algo por un
largo periodo de tiempo. En el internet
mvil se aprecia que los usuarios
continuamente prestan atencin a ciertos
tipos de pginas Web. Los intereses de
corto plazo se aprecian por el
comportamiento de los usuarios, su
funcionamiento se basa en que el usuario
est interesado en algunos tipos de cosas
en un cierto periodo de tiempo). En el
Internet mvil usualmente se presenta que
el acceso a algunas pginas se incrementa
de repente y despus retorne al mismo
nivel. El corto plazo es a menudo activo y
mutable, el cual necesita para tomar
respuestas rpidas. De esta forma, este
articulo usa un mtodo de ventana
deslizante

esimo tema Tj en el tema de coleccin,


dividiendo el nmero total en Tj. Pr(Tj) es
la frecuencia de muestreo de Tj. Mientras
Pr(fi|D) es estimado por el nmero de
apariciones de la frecuencia fi en D,
dividiendo la frecuencia total de trminos
en D.
2) Si la pgina D pertenece a un cierto tema en
conjunto de intereses actual, entonces se
adiciona esto dentro de este conjunto de temas
y actualiza el modelo de clasificacin de este
tema.
3) Si la pgina D no pertenece a ningn tema del
conjunto de intereses actual, entonces vemos
la pgina como una nueva clase de inters y la
adicionamos dentro del conjunto de intereses
actuales.
4) Nos quedamos con todas las pginas Web de
acuerdo con los paso arriba. Cuando un
usuario visita nueva pgina web maneje esto
con los pasos de arriba. Deslice la ventana de
izquierda a derecha y las pginas viejas
pueden deslizarse fuera de la ventana y
entonces remueva esto del conjunto actual.

20.

22. Luego de los pasos de arriba, se forman


varios temas de inters de los usuarios.
Como todos los temas, pueden ser
algunos temas los cuales se forman por
acceso aleatorio de los usuarios. Estos
temas contienen menos muestras de
pginas y no expresan los intereses de los
usuarios de forma que estos pueden ser
filtrados como ruido. De acuerdo al
acceso de los usuarios en orden de
tiempo, la importancia de los diferentes
temas de inters es diferente. La
importancia de los ltimos intereses de
corto plazo y los intereses de largotrmino estables son ms grandes que los
intereses de corto plazo previos. La
importancia de los intereses de largo
tiempo depende de la regularidad del
acceso de la frecuencia de acceso de los
usuarios. As como los temas de inters de
corto plazo wi, usan el tiempo de acceso
promedio de las muestras de pginas en el
tema de inters a medir. Por la
importancia de los temas de largo plazo
wi, usamos el error medio cuadrtico del
tiempo de acceso de las muestra de
pginas en el tema de inters a medir.

21. En esta frmula, F es el conjunto


caractersticos de la pgina clasificada D,
Pr(fi|T), se estima con el nmero del j-

23. Cuando un usuario navega en una pgina


web e identifica su categora de la pgina
Web. Entonces busca los anuncios de esta
categora en el sistema y adopta los
intereses de los usuarios para calcular en
la biblioteca de anuncios, finalmente
obtenemos los anuncios que pareces ms

18. La nueva pgina web continuamente se


desliza en la ventana desde el lado
derecho del modelo de corto plazo que se
actualiza rpidamente.
19. Para un registro de acceso bitcora de
ciertos usuarios, se supone el tamao de
una ventana deslizante es K, de acuerdo a
la secuencia de tiempo esta contiene K
pginas web llamadas P1, P2, Pk al
cual le corresponde el tiempo de acceso
t1, t2,y el usuario corriente se
establece.
1) Toma la pgina web D cerca de acuerdo al
tiempo y usa el algoritmo de clasificacin
Bayesiana para clasificar la pgina web. La
frmula de clasificacin es la siguiente:

similares con los intereses del usuario, la


frmula es como sigue:
24.

S ij =w i S(T i i . A j )

25. En esta frmula. Ti es el ith inters. Wi es


el peso de su inters y Aj es la jth
publicidad.
Calculamos
el
S(a,b)
mediante el coseno de la frmula y

S ij

es la similitud del ith inters y el

jth anuncio. En este caso, cada anuncio


tendr varios puntajes, se toma el puntaje
max{Sij} como la publicidad Sj.
Finalmente seleccionamos la publicidad
que es apropiada para el usuario de
acuerdo al orden del ms alto al ms bajo
puntaje de Sj.

32. En medio de estas pginas, hay 21


pginas relacionadas en la categora 1 y
22 pginas relacionadas en la categora 2,
incluso distribuyendo a travs de las
primeras 80 pginas. Las pginas en la
categora 3 distribuyen incluso a travs de
las primeras 50 pginas y las pginas en
la categora 4 se enfocan en los ltimos
accesos a las pginas. Las pginas en
estas 4 categoras cuentan con el 75% de
los usuarios que acceden a la pgina,
otros temas de pginas Web son
relativamente dispersos y manejables
como ruido. La clasificacin y la
distribucin de la pgina web se muestran
en la figura 2
33.

26. Datos experimentales y anlisis.


27. 4.1 Dataset
28. Este artculo usa la bitcora del WAP de
un operador de telecomunicaciones el
cual es nombrado por los datos. Cada
parmetro en las bitcoras est separado
por espacios y cada lnea es un
comportamiento del usuario.
29. Los nombres de parmetros especficos y
la interpretacin de estos son como sigue:

34. 4.2 Anlisis de os resultados


comportamiento a corto plazo.

30.

35. Para el comportamiento de los usuarios a


corto plazo, el peso de un tema de inters
depende principalmente del tiempo de
acceso de la muestra de pginas en el
tema. El ms cercano es el tiempo de
acceso, el ms alto es el que tiene ms
peso.

31. Los datos de publicidad usados en este


artculo es el anuncio de palabras clave
adquiridas de Baidu, Google y otros
motores de bsqueda que contengan algo
de 2000 temas y 10000 diferentes
publicidades de informacin. Los datos
experimentales son tomados de cerca de
100 pginas web de un registro de acceso
de usuarios involucrando una variedad de
clasificaciones.

del

36. La figura 3 muestra el impacto de los


comportamientos de los usuarios a corto
plazo de los usuarios en el peso de
clasificaciones,
el
eje
horizontal
representa el nmero de ventanas de
seguimiento y el eje vertical representa
los cambios de pesos de los temas de
inters como el incremento del tiempo.
Cuando el nmero de una clasificacin en
la ventana es ms bajo que el nmero de
pginas efectivas, esta clasificacin se
filtrara como ruido. En el primer paso,
clase 1, clase 2 y clase 3 se distribuyen
incluso en la muestra, sin embargo el peso
distribuido desigualmente por el impacto
del ruido filtrado en la ventana de
seguimiento. En la ltima etapa, el peso
decrece porque en la clase 3 existe
ventana de seguimiento, al mismo tiempo,
el peso de la clase 4 se incrementa
notablemente por que los usuarios se

concentraron en navegar la clase 4 en la


ltima
etapa.
Desde
que
otras
clasificaciones logran el nmero efectivo
de pginas Web, ellos han sido filtrados
como ruido.
37.

clases 1 y 2. Desde que otras


clasificaciones no consiguen el nmero de
pginas efectivas ellas se filtran como
ruido.
42. Por lo tanto, las clases 1 y clase 2 pueden
representar intereses de largo plazo del
usuario. De modo que cuando se
coloquen anuncios para este usuario, los
anuncios relacionados clase 1 y clase 2
pueden ser colocados primeramente.
43.

38. En los resultados de los pesos, podemos


encontrar que con los mismos puntos, por
ejemplo en la ventana 26-36 las
diferencias de pesos no es pequea entre
las clases 1 y clases 2, de forma que el
tipo de publicidad
puede ser
recomendado de acuerdo al valor del
peso.
39. 4.3 anlisis de los resultados
comportamiento de corto plazo.

de

40. Para el comportamiento de los usuarios,


el peso de un cierto tema de inters
depende principalmente del grado de
dispersin de la pgina. La ms regular
frecuencia de actualizacin de los
usuarios y el peso es algo alto.
41. La figura 4 muestra el impacto del
comportamiento a largo plazo en el peso
de los temas de inters, el eje x vertical
representa los cambios de peso de cada
clasificacin como el incremento del
tiempo. Cuando el nmero de una
clasificacin en la ventana es ms bajo
que el nmero de la pgina efectiva, esta
clasificacin ser filtrada como ruido.
Tanto para la clase 1 como la 2, porque
sus muestras se distribuyen incluso en la
parte anterior, el peso del comportamiento
es alto. Para la clase 3, se distribuye
incluso en la primera parte de la muestra,
esto no se distribuye incluso con la clase
1 y la clase 2 en la ltima parte, de forma
que el peso de la clase 3 es menor que el
de la clase 1 y 2. Al mismo tiempo, el
peso de la clase 4 se incrementa
notablemente porque el usuario se
concentra en buscar la clase 4 en la ltima
etapa, pero esto no contina cuando el
peso de la clase 3 es menor que el de las

44. Conclusiones
45. Este artculo disea e implementa el
sistema de recomendacin y publicidad
basado en el comportamiento del usuario
en la Internet mvil. Este sistema
contiene un subsistema de anlisis de
comportamiento. Para representar con
algoritmos de anlisis de caractersticas,
perfiles de usuario que incluyen intereses
de largo plazo y los intereses de corto
plazo pueden ser obtenidos. Y al final se
calcula la similitud entre el grupo de
comportamiento y la publicidad, la cual
se utiliza para rankear y seleccionar la
publicidad ms apropiada. El experimento
muestra que el sistema puede colocar la
publicidad de acuerdo a los intereses de
los usuarios.
46. Entre tanto la exactitud del algoritmo
arriba descrito es aun mejorable. El
algoritmo propuesto an necesita pruebas
de estabilidad, verificacin as cmo
asegurar la exactitud y la estabilidad del
algoritmo.
47. Reconocimientos
48. Este trabajo fue soportado por el Beijing
Higher Education Young Elite Teacher
Project (YETP0448), National Key
Technology Research and Development
Program (2012BAH08B02), Beijing
Municipal Science and Technology
Project
(Z131100001113034),
la
Specialized Research Fund for the

Doctoral Program of Higher Education


(2013114), el Hi-Tech Research and
Development
Program
of
China
(2012AA012606), the Digital Right
Management Technology Research and
Development Project (1681300000119).
49.
50. Referencias
51.
52.
1. Broder A, Fontoura M, Josifovski
V, et al. A semantic approach to
contextual advertising. Proceedings of the
30th International Conference on SIGIR ,
Amsterdam, 2007: 559566
53.
2.
Anastasakos T, Hillard D,
Kshetramade S, et al. A collaborative
filtering approach to ad recommendation
using the query-ad click graph. Proceedings
on CIKM, 2009: 19271930
54.
3.
Attenberg J, Pandey S, Suel T.
Modeling and predicting user behavior in
sponsored search. Proceedings on KDD,
2009: 10671076
55.
4.
Hillard
D,
Schroedl
S,
Manavoglu E, et al. Leggetter. Improving
ad relevance in sponsored search. Proceedings
on WSDM, 2010: 361370
56.
5. Zhang W, He X, Rey B, et al.
Query rewriting using active learning for
sponsored search. Proceedings on SIGIR,
2007: 853854
57.
6.
Zhang W, Jones R. Comparing
click logs and editorial labels for training
query rewriting. Proceedings on WWW
Workshop on Query Log Analysis, Social and
Technological Challenges, 2007

58.
7. Shi S C, Cehng T, Wang X, et al.
Advertisement-Promotion Research Based on
the Content of Webpage. Journal of
Chinese information processing,
59.
8.
Yu S P, Chen G. An efficient
algorithm of behavior-targeted advertising.
60. Computer Applications
and Software, 2011, 28(4):
47
61.
9.
Chakrabarti D, Agarwal D,
Josifovski V. Contextual advertising by
combining relevance with click feedback.
WWW 2008
62. 10. Li T, Liu N, Yan J, Wang G, et al. A
Markov chain model for integrating
behavioral
targeting
into
contextual
advertising.
In Proceedings of KDD
Workshop on Data Mining and Audience
Intelligence for Advertising. 2009:
63. 11.
Wu X H, Yan J, Liu N, et al.
Probabilistic
latent
semantic
user
segmentation
for
behavioral
targeted
advertising. KDD Workshop on Data Mining
and Audience Intelligence for Advertising,
2009: 1017
64. 12. Yan J, Liu M, Wang G, et al. How
much the Behavioral targeting can help
online advertising? In Proceeding of
WWW09, 2009: 261270
65.
13. Ahmed A, Low Y, Aly M,
et al Scalable distributed inference of
dynamic
66. user interests for behavioral targeting.
Proceedings of the l7th ACM SIGKIDD
International Conference on Knowledge
Discovery and Data Mining, 2011

67.

You might also like