Professional Documents
Culture Documents
Datos disponibles:
Fichero de conexiones al Campus Virtual (5
semestres)
Identfcador (anonimizado va SHA-256 + random)
Fecha y hora de conexin (login) en formato
YYYYMMDDHHMMSS
Fecha y hora de desconexin (logout)
> 61 millones de conexiones
6 GBytes
El Campus Virtual de la UOC
Patrones de conexin de los usuarios
Ejemplos de preguntas a responder:
Usuario con ms conexiones
Duracin media de las conexiones
Da de la semana con ms conexiones (login)
Hora (y/o minuto) con ms conexiones
...
El Campus Virtual de la UOC
Paradigma Map / Reduce
...
Cual s la hora y minuto con ms conexiones (login)?
Cual s la hora y minuto con ms usuarios conectados
al mismo tempo?
(0000, 1), (0001, 1), ..., (0059, 1), (0100, 1), ..., (0109, 1)
El Campus Virtual de la UOC
Ejemplo (HHMMin > HHMMout)
(1819, 1), (1820, 1), ..., (2359, 1), (0000, 1), ..., (0017, 1)
El Campus Virtual de la UOC
Pseudocdigo Map
HHMMi=subcadena(<timestamp_login>, 9, 4)
HHMMo=subcadena(<timestamp_logout>, 9, 4)
si (HHMMi > HHMMo) {
mientras (HHMMi != '0000') {
generar el par (HHMMi, 1)
avanzar HHMMi
}
}
mientras (HHMMi <= HHMMo) {
generar el par (HHMMi, 1)
avanzar HHMMi
}
El Campus Virtual de la UOC
Idoneidad del paradigma Map / Reduce
Qu pasa si no se puede asegurar que toda la
informacin necesaria se encuentra en un mismo
fragmento de fchero?
Duracin media / mxima entre conexiones
consecutvas de un mismo usuario
Patrones de conexin sospechosos (muy frecuentes,
regulares, ...)
Descomponer las fases Map / Reduce en varias
consecutvas: (Map / (Map / Reduce)) / Reduce, p.e.
ordenando primero por usuario