Professional Documents
Culture Documents
Primavera 2018
Jaime Miranda y Josué Salinas
TALLER COMPUTACIONAL 1
BUSINESS INTELLIGENCE – ENGIN460/01
Índice
Resumen Ejecutivo.......................................................................................... 2
Introducción..................................................................................................... 3
Capítulo 1: Discusión de la recomendación................................................4
1.1 Análisis estadístico y exploratorio de datos años 2014-2017....................4
1.2 Perfilamiento de películas..........................................................................6
Capítulo 2: Modelo Predictivo (Proceso KDD).............................................8
2.1 Selección de Variables............................................................................. 8
2.1.1 Análisis Estadístico................................................................................. 9
2.1.2 Criterio Experto..................................................................................... 11
2.1.3 Modelo.................................................................................................. 14
2.2 Pre-procesamiento................................................................................. 15
2.2.1 Missing Values...................................................................................... 15
2.2.2 Outliers................................................................................................. 15
2.3 Transformación........................................................................................ 17
2.3.1 Normalización....................................................................................... 18
2.4 Data Mining.............................................................................................. 20
2.5 Conocimiento........................................................................................... 22
2.5.1 Selección de Método............................................................................. 23
2.5.2 Perfil de películas.................................................................................. 23
Éxito........................................................................................................... 24
Fracaso....................................................................................................... 24
Capítulo 3: Recomendaciones.....................................................................24
3.1 Políticas Comerciales............................................................................... 24
Capítulo 4: Conclusiones.............................................................................. 25
Anexos............................................................................................................. 27
1
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Resumen Ejecutivo
Actualmente, las operadoras de múltiples canales de TV se encuentran
en un panorama más difícil de competir debido a que la competencia ha
desarrollado productos que han provocado la migración de la audiencia
televisiva. En ese contexto, la empresa lo cual afecta negativamente sus
estructuras de ingresos, por lo cual, la única manera de ser competitivo es
emitiendo películas que sean exitosas y provoque la preferencia de los
televidentes. En ese contexto, la empresa TeNeTe se enfrenta al problema de
selección de películas para ofrecer en sus canales, lo cual le permitirá tener
una mayor audiencia y, en consecuencia, mayores ingresos. Además, la
empresa ha recibido diferentes recomendaciones sobre su criterio de selección;
sin embargo, tiene dificultades para elegir la más apropiada y segura.
En ese sentido, nuestro equipo tiene la necesidad de hacer
recomendaciones sólidas, ya que los errores asumidos en nuestra predicción
serán los mínimos posibles. Sobre ello, por un lado, la empresa podría incurrir
en costos alternativos significativo debido a que recomendaríamos no comprar
películas que, según la predicción serán un fracaso, pero que en realidad
fueron un éxito. Por otro lado, nuestra recomendación puede llevar a la
empresa a comprar películas que, según nuestra predicción serán un éxito,
pero que en realidad fueron un fracaso.
Nuestro enfoque de solución se basó en la Minería de Datos y en un
modelo predictivo. Este modelo tiene el carácter clasificador, puesto que
clasificará una película como éxito o fracaso. Para lo cual se realizó el Proceso
de Extracción de Conocimiento sobre la base de datos de la empresa.
Producto del trabajo realizado, se determinó que el método de Árbol de
decisiones fue el modelo más óptimo de predicción porque generó un accuracy
mayor a 96%, lo cual permitirá generar utilidades más óptimas a la empresa
que asciende a 941,000 $. También, se demostró la debilidad del criterio de
compra de películas del 2017, ya que se debe analizar bajo un set de variables
que permita obtener mejor conocimiento. Adicionalmente, se obtuvo que el
perfil de una película exitosa debe estar en función de elenco, número usuarios
votantes, número de usuarios por review y número de críticas por review.
Partiendo del perfil mencionado, la empresa debería desarrollar
aplicaciones móviles para que los usuarios evalúen en base a un puntaje le
darían a la película reproducida, ya sea en función a los personajes, directores,
etc y hacer sorteos de paquetes especiales entre los usuarios que participan.
En complemento, la empresa podría hacer ofertas especiales a los clientes que
promuevan la suscripción de clientes nuevos a los servicios de la empresa.
Finalmente, el capítulo 1 se desarrolló el análisis estadístico y
exploratorio para la discusión de la recomendación de los analistas de
negocios, en el capítulo 2 se desarrolló un modelo predictivo para seleccionar
películas exitosas, en el capítulo 3 se hicieron las recomendaciones y en el
capítulo 4 las conclusiones.
2
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Introducción
El sector empresarial de canales de TV se ha convertido más competitivo
que hace años atrás debido al gran impacto que ha tenido el consumo
televisivo, lo cual ha generado la migración de la audiencia y, en consecuencia,
fuertes repercusiones en la estructura de ingresos de las compañías
televisivas.
En este contexto, la empresa operadora de múltiples canales de TV
llamada TeNeTe tiene problemas para seleccionar películas, ya que desconoce
de antemano si una película será un éxito o un fracaso, en términos de utilidad.
Por esta razón, la empresa está buscando recomendaciones que le permita
tener mayor seguridad en la selección de las películas a comprar.
Para llegar a dicha respuesta, nuestro enfoque se basó en; por un lado,
la realización adecuada del Proceso KDD: Knowledge Discovery in Databases,
de acuerdo con los diferentes pasos realizados. Por otro lado, la obtención del
conocimiento relevante experto del sector de películas.
En ese orden de ideas, la mencionada respuesta fue preparada en función a
nuestro informe que tendrá la siguiente estructura:
Capítulo 1: Discusión de las recomendaciones.
Capítulo 2: Modelo Predictivo.
Capítulo 3: Recomendaciones.
Capítulo 4: Conclusiones.
3
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Éxitos y Fracasos
200
181
180
160 153
140 131
120
100
80
60 50
39 42
40 35
21
20
0
2014 2015 2016 2017
Éxi tos Fracas os
1.1 Análisis
estadístico y exploratorio de datos años 2014-2017
4
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Ratio
40.00% 37.50%
35.00%
30.00%
24.28%
25.00%
21.65%
20.31%
20.00%
15.00%
10.00%
5.00%
0.00%
2014 2015 2016 2017
Creemos,
basándonos en el gráfico Éxitos y Fracasos y en el análisis de la base de datos, que es absurdo
basarse solamente en ese criterio (comprar las películas del año 2017). No obstante, el ratio entre
películas exitosas y películas lanzadas ha ido incrementando con los años.
Si bien hay una tendencia al alza en cuanto al porcentaje de películas exitosas con el
tiempo (que, por cierto, fundamenta nuestra decisión sobre incluir el año en el modelo), no es
criterio suficiente como para decidir comprar películas solamente del año 2017. Lo anterior puesto
a que, como se ve en el gráfico Éxitos y Fracasos, hay más películas exitosas en los años anteriores
que en el 2017.
Ingresos y Utilidades
$600,000
$500,000
$500,000
$420,000
$390,000
$400,000
$300,000 $250,000
$195,000 $210,000 $210,000
$200,000
$105,000
$100,000
$-
2014 2015 2016 2017
Ingres o Util idad 1
Esta
información es valiosa, ya que con un modelo predictor efectivo (como el que presentamos), es
5
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
posible capitalizar esta oportunidad. Bajo este escenario, los ingresos y utilidades se comportarían
algo así:
Pérdida
$700,000 $655,000
$600,000 $570,000
$500,000
$445,000
$400,000
$300,000
$200,000
$100,000 $70,000
$-
2014 2015 2016 2017
El
escenario del gráfico anterior es el óptimo. Es decir, comprar solamente las películas exitosas. Con
nuestro modelo, es posible acercarse a esto con gran precisión.
Además, debemos mencionar que comprar todas las películas en cada año genera
pérdidas, las cuales se minimizan para el año 2017.
Dicho todo lo anterior, creemos que es una mala decisión comprar solamente las películas
del año 2017, ya que hay oportunidades que aportan mayor utilidad, proveniente de años
anteriores, las cuales pueden ser aprovechadas por nuestro modelo.
6
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Variable: Año
Además, esta variable nos permite definir, utilizando la misma metodología, que año
presenta un mayor porcentaje de películas “fracaso” respecto del total de películas del año en
cuestión.
Bajo este criterio de selección subyace un supuesto muy fuerte, que es que se deberían
considerar las características de las películas de todo aquel año clasificadas como éxito, como parte
de un perfil para seleccionar, el cual puede o no depender de las características predominantes de
esta muestra acotada al año 2017. Es decir, puede haber otras características más relevantes para
determinar si una película será exitosa o no, que no estén presentes en esta muestra de películas
(muestra del año 2017).
7
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Para considerar el país de origen como una variable que puede determinar el éxito o no, es
necesario hacer un análisis al respecto.
En la Tabla 2 adjunta se puede observar que existe una marcada tendencia respecto del
origen de la mayor cantidad de películas que pertenecen a la clase éxito, estos países son en orden
decreciente: Reino Unido con un 26,86% (76 películas exitosas de un total de 283); Nueva Zelandia
con un 25% (2 películas de un total de 8); Estados Unidos con un 23,46% (612 películas de un total
de 2.609); Sudáfrica con un 20% (1 película de un total de 4); Irlanda con un 11,11% (1 película de
un total de 8); Alemania con un 10,77% (7 películas de un total de 65).
Variable: Lenguaje
Esta variable tiene una inclinación extrema a la hora de determinar la clase éxito para una
determinada película, ya que solo las películas cuyo lenguaje sea inglés podrían entrar en esta
clase. Por el contrario, todas aquellas películas que tienen otra categoría de lenguaje, distinta de
inglés, en un 100% entran en la clase fracaso. El porcentaje de éxito y fracaso según la categoría
inglés puede observarse en la Tabla 3.
Variable: Duración
Respecto de esta variable, las películas más exitosas están entre el intervalo de tiempo de
90 y 123 minutos, considerando para esto un número de películas de la clase éxito por sobre 15
películas. Esto se hace evidente al observar el Gráfico 1.
8
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Gráfico 1.
De acuerdo con las variables anteriores en la Tabla 4 se describen los dos perfiles para la
clase éxito y la clase fracaso:
1. Perfiles “éxito”:
1.1. Una película del año 1982, cuyo país de origen sea USA, de lenguaje inglés y cuya
duración sea de 90 a 110 minutos.
1.2. Una película del año 2017, cuyo país de origen sea Reino Unido, de lenguaje inglés y
cuya duración sea de 110 a 123 minutos.
2. Perfiles “fracaso”:
2.1. Una película del año 2010, cuyo país de origen sea India, en un lenguaje que no sea
inglés y cuya duración sea de 138 a 150 minutos.
2.2. Una película del año 2001, cuyo país de origen sea Francia, de lenguaje francés, y cuya
duración sea mayor a 150 minutos.
Tabla 4. Tabla de perfiles de éxito y fracaso.
9
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
10
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
sea significante.
Tabla 6. Regresión Probit que muestra la significancia de las variables consideradas como relevantes.
11
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
12
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Color - No incluida
Ya que menos del 1% de las películas de la base son en blanco y negro
se considera que, no es una variable relevante que se utilice como criterio de
clasificación.
Duración
Al igual que la variable anterior, la duración es más bien un indicador. En
nuestro subconsciente social, una mayor duración se asocia con una mejor
película, lo cual no está del todo errado. Si bien la relación no implica
causalidad, la duración sí indica un nivel de desarrollo en la película y en su
mensaje. Indica una mayor elaboración.
Género - No incluida
Desafortunadamente, no sabemos cuál es el género más popular
actualmente, pero se tiene la certeza de que debe haber géneros más vistos
que otros, por lo que vale la pena incluir esta variable en el modelo, de ser
numérico.
Al no serlo, creemos que su tratamiento es complejo y que ralentiza el
modelo, por lo que no se incluirá.
Nombre de Director
A juicio de todo el equipo, creemos que un director sí indica, con gran
certeza, la calidad de la película, ya que es inherente al director de la película
un prestigio determinado y por tanto la calidad mencionada anteriormente.
Este prestigio es algo conocido por los espectadores que pueden decidir ver o
no una película si su director es más prestigioso o no, sin incluso saber de qué
trata la trama.
Por desgracia, al ser una variable tan difícil de manipular, se decidió no
incluir en el modelo tal como se presenta en la tarea. Se incluyó dentro una
variable sintética que se explicará con mayor detalle en la sección de
Transformación (etapa 3).
Likes en general - No incluida
Parte de esta decisión de no incluir los likes en el modelo es debido al
sesgo que pueden tener. Un actor con más likes que otros no significa que la
película será mejor, ni tampoco que será un éxito. Consideramos el caso de
Nicholas Cage, quien, a pesar de ser un buen actor (al menos en el pasado),
actualmente solamente aparece en malas películas.
Adicionalmente, la fuente de estos likes podrían ser robots o cuentas
falsas, por lo que no es una buena representación de la población realmente.
Por fortuna para nosotros, esta decisión agiliza el proceso.
Número de críticas por review
13
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
14
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
2.1.3 Modelo
Luego de todo, con el equipo se llegó al modelo que implica las
siguientes variables:
Año
Duración
Ingreso
Presupuesto
IMDB Score
Nombre Director
Nombre Actor 1, 2 y 3
Content Rating
15
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
2.2 Pre-procesamiento
Considerando las variables incluidas en el modelo, se analizó los Missing
Values para cada variable independiente. En azul las celdas con valores. En
naranjo, los Missing Values.
16
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Missing Values
100.00%
99.79%
98.64%
93.34%
88.35%
66.82%
66.70%
66.64%
66.50%
66.50%
66.08%
65.51%
62.69%
37.31%
34.49%
33.92%
33.50%
33.50%
33.36%
33.30%
33.18%
11.65%
Porcenta je
6.66%
1.36%
0.21%
o n R R 1 2 3 o es R t S
0.00%
D
A
ñ ió re N
C U r r r es nt
C ge B
c N o o o gr d D
ra b ct ct ct ta u
IM
u o
m A A A In Vo
B
D N o
er
m
ú
N
Va ri abl e
Gráfico 3. Gráfico que muestra la relación entre missing values y los datos totales
para cada una de las variables del modelo.
17
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
2.2.2 Outliers
Los principales outliers los comprenden las variables de duración,
presupuesto y año.
Duración:
Se consideró como outlier a las duraciones menores a 50 minutos y a las
mayores a 210 minutos. Estos valores se trataron como NA. En conjunto,
ambos grupos comprendían el 1,57% de los valores de duración.
Presupuesto:
Para el caso del presupuesto, los outliers son mucho más claros. Se
decidió considerar como NA a todos los presupuestos sobre $500.000.000, cifra
que corresponde al 0,14% de los datos y a los menores a $1.100.
18
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
presupuesto.
Año:
Películas se consideraron de todos los años porque hay películas que tienen
éxito y son muy antiguas.
2.3 Transformación
Para incluir datos valiosos dentro del modelo pero sin perjudicar su
desarrollo, se crearon dos variables sintéticas:
Elenco
Rating
19
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
∑ r ai+ r d
Elenco= i =1
4
Donde:
ai corresponde al Actor i.
d corresponde al Director.
r corresponde a Rating.
Catego
ría Valor
Bajo <=0,05
Medio <=0,15
Alto >0,15
Tabla 7. Esta tabla muestra las categorías creadas para la variable rating.
20
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
2.3.1 Normalización
Todas las variables numéricas, a excepción de ID y las tres variables
dummy, fueron escaladas para que la magnitud del coeficiente de cada una de
ellas no alterara el resultado de la predicción.
Para ello, se usó la fórmula para escalar, vista en clases:
X− X min
Escalar=
X max− X min
Donde X es un valor puntual dentro de una variable independiente. Xmin
es el mínimo valor de una variable y Xmax es el máximo.
Este procedimiento es necesario ya que elimina el efecto que los
coeficientes de las variables tienen en el desempeño de la predicción y,
además, los deja expresado en coeficientes que son comparables. Vale decir, si
una variable tiene un coeficiente igual a 7 y otra tiene coeficiente igual a
2.500.000, el modelo le pondrá más atención a la variable con mayor
coeficiente, creyendo que ella es la que tiene más ponderación en el modelo.
No obstante, el 7 puede representar el 70% del máximo valor de la
variable en la base de datos, mientras que el 2.500.000 podría ser tan solo el
25%. Al no escalar, se estaría cometiendo un grave error.
Por lo mismo, el proceso de escalar deja todos los coeficientes
expresados en el porcentaje que representan en función del máximo valor,
haciendo que esta equivocación en el modelo se elimine y la predicción sea
mucho más precisa.
A modo de corroborar nuestro modelo, se hizo los siguientes análisis en
STATA.
21
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Tabla 9. Tabla de regresión Probit para variables relevantes independientes, considerando label como
variable dependiente.
22
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Utilidad
$1,000,000 $941,000
$900,000 $814,000
$800,000 $723,000
$700,000
$600,000
$500,000
$400,000
$300,000
$200,000
$100,000
$-
NN DT SVM
Gráfico 7. Gráfico de utilidades asociadas al pronóstico con cada uno de los métodos.
23
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Accuracy
SVM 0.9214
DT 0.9305
NN 0.9103
π es Utilidad.
24
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Éxitos y Fracasos
29.09%
70.91%
Fracas o Éxi to
Gráfico 9. Gráfico que muestra el pronóstico realizado por el método Decision Tree.
2.5 Conocimiento
En esta etapa se responderá directamente a las inquietudes de la
dirección de la compañía. Para ello, antes de comenzar perfilaremos las
películas. O sea, identificaremos las características que una película exitosa
comprende. Todo esto se hará en el Excel Maestro bajo la pestaña
“Conocimiento”, el cual será presentado junto con este informe.
El perfil se hará basándose en el modelo final propuesto por los
integrantes, el cual está presente en la pestaña “M2 Escalada”. En esta
pestaña se encuentra tanto la base Train como la base Test dada por el equipo
docente, escalada y con nuestras variables sintéticas incluidas. Las variables
no incluidas en el modelo, claramente no formarán parte del perfil de la
película.
25
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Considerar, por lo tanto, que para el perfil se ocupará solamente los IDs
desde el 1 hasta el 5135, correspondientes a la base Train, la cual se
distribuyen de la siguiente manera:
% de Películas en Train
20.70%
79.30%
Éxi to Fraca s o
26
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Tabla 10. Tabla resumen de precisión y utilidad generada por cada uno de los métodos utilizados.
Éxito
Películas con alto NCFR
Las películas que tengan 651 críticas o más, tienen un ratio de 87,50%.
Las que tienen entre 488 y 651, un 68,75%.
Películas con alto NUFR
27
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Las películas con 4.048 número de usuarios por review o más tienen un
100% de ratio. Por otro lado, con usuarios entre 1.013 y 3.036 tienen un 66%
en promedio (aprox) de éxito, abarcando el segundo y tercer quintil.
Películas con alto NVU
Las películas con 1.013.860 de usuarios votantes o más tienen 100% de
ratio, abarcando dos quintiles. Además, tienen un 66% de ratio
aproximadamente cuando están dentro del rango: 337.957 a 1.013.860,
también abarcando el segundo y tercer quintil.
Películas con elenco medio
Por último, películas con elenco entre 0,4 y 0,6 tienen,
aproximadamente, un 62% de éxito (tercer quintil).
Fracaso
Las películas fracasadas serán aquellas seleccionadas en base a un presupuesto, año,
duración y un número de críticas por review menor a 488.
Capítulo 3: Recomendaciones
Capítulo 4: Conclusiones
28
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
29
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
30
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Anexos
1.
2.
31
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
Éxito Fracaso
País de Origen Total
Q % Q %
Australia 5 13,89% 31 86,11% 36
Cameroon 1 100,00% 0 0,00% 1
Canada 8 9,52% 76 90,48% 84
China 2 9,09% 20 90,91% 22
France 6 5,50% 103 94,50% 109
Germany 7 10,77% 58 89,23% 65
India 1 4,35% 22 95,65% 23
Ireland 1 11,11% 8 88,89% 9
New Zealand 2 25,00% 6 75,00% 8
South Africa 1 20,00% 4 80,00% 5
Spain 2 8,70% 21 91,30% 23
UK 76 26,86% 207 73,14% 283
USA 612 23,46% 1997 76,54% 2609
3.
32
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
4.
33
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
5.
34
Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
35