Informe 1 BI Entrega

Business Intelligence – ENGIN460/01
Primavera 2018
Jaime Miranda y Josué Salinas
TALLER COMPUTACIONAL 1
BUSINESS INTELLIGENCE – ENGIN460/01
S CABELLO – V MÁRQUEZ – J OYARZÚN – J RUIZ

UNIVERSIDAD DE CHILE
Facultad de Economía y Negocios
Primavera 2018
Índice
Resumen Ejecutivo.......................................................................................... 2
Introducción..................................................................................................... 3
Capítulo 1: Discusión de la recomendación................................................4
1.1 Análisis estadístico y exploratorio de datos años 2014-2017....................4
1.2 Perfilamiento de películas..........................................................................6
Capítulo 2: Modelo Predictivo (Proceso KDD).............................................8
2.1 Selección de Variables............................................................................. 8
2.1.1 Análisis Estadístico................................................................................. 9
2.1.2 Criterio Experto..................................................................................... 11
2.1.3 Modelo.................................................................................................. 14
2.2 Pre-procesamiento................................................................................. 15
2.2.1 Missing Values...................................................................................... 15
2.2.2 Outliers................................................................................................. 15
2.3 Transformación........................................................................................ 17
2.3.1 Normalización....................................................................................... 18
2.4 Data Mining.............................................................................................. 20
2.5 Conocimiento........................................................................................... 22
2.5.1 Selección de Método............................................................................. 23
2.5.2 Perfil de películas.................................................................................. 23
Éxito........................................................................................................... 24
Fracaso....................................................................................................... 24
Capítulo 3: Recomendaciones.....................................................................24
3.1 Políticas Comerciales............................................................................... 24
Capítulo 4: Conclusiones.............................................................................. 25
Anexos............................................................................................................. 27
1
Primavera 2018
Resumen Ejecutivo
Actualmente, las operadoras de múltiples canales de TV se encuentran
en un panorama más difícil de competir debido a que la competencia ha
desarrollado productos que han provocado la migración de la audiencia
televisiva. En ese contexto, la empresa lo cual afecta negativamente sus
estructuras de ingresos, por lo cual, la única manera de ser competitivo es
emitiendo películas que sean exitosas y provoque la preferencia de los
televidentes. En ese contexto, la empresa TeNeTe se enfrenta al problema de
selección de películas para ofrecer en sus canales, lo cual le permitirá tener
una mayor audiencia y, en consecuencia, mayores ingresos. Además, la
empresa ha recibido diferentes recomendaciones sobre su criterio de selección;
sin embargo, tiene dificultades para elegir la más apropiada y segura.
En ese sentido, nuestro equipo tiene la necesidad de hacer
recomendaciones sólidas, ya que los errores asumidos en nuestra predicción
serán los mínimos posibles. Sobre ello, por un lado, la empresa podría incurrir
en costos alternativos significativo debido a que recomendaríamos no comprar
películas que, según la predicción serán un fracaso, pero que en realidad
fueron un éxito. Por otro lado, nuestra recomendación puede llevar a la
empresa a comprar películas que, según nuestra predicción serán un éxito,
pero que en realidad fueron un fracaso.
Nuestro enfoque de solución se basó en la Minería de Datos y en un
modelo predictivo. Este modelo tiene el carácter clasificador, puesto que
clasificará una película como éxito o fracaso. Para lo cual se realizó el Proceso
de Extracción de Conocimiento sobre la base de datos de la empresa.
Producto del trabajo realizado, se determinó que el método de Árbol de
decisiones fue el modelo más óptimo de predicción porque generó un accuracy
mayor a 96%, lo cual permitirá generar utilidades más óptimas a la empresa
que asciende a 941,000 $. También, se demostró la debilidad del criterio de
compra de películas del 2017, ya que se debe analizar bajo un set de variables
que permita obtener mejor conocimiento. Adicionalmente, se obtuvo que el
perfil de una película exitosa debe estar en función de elenco, número usuarios
votantes, número de usuarios por review y número de críticas por review.
Partiendo del perfil mencionado, la empresa debería desarrollar
aplicaciones móviles para que los usuarios evalúen en base a un puntaje le
darían a la película reproducida, ya sea en función a los personajes, directores,
etc y hacer sorteos de paquetes especiales entre los usuarios que participan.
En complemento, la empresa podría hacer ofertas especiales a los clientes que
promuevan la suscripción de clientes nuevos a los servicios de la empresa.
Finalmente, el capítulo 1 se desarrolló el análisis estadístico y
exploratorio para la discusión de la recomendación de los analistas de
negocios, en el capítulo 2 se desarrolló un modelo predictivo para seleccionar
películas exitosas, en el capítulo 3 se hicieron las recomendaciones y en el
capítulo 4 las conclusiones.
2
Primavera 2018
Introducción
El sector empresarial de canales de TV se ha convertido más competitivo
que hace años atrás debido al gran impacto que ha tenido el consumo
televisivo, lo cual ha generado la migración de la audiencia y, en consecuencia,
fuertes repercusiones en la estructura de ingresos de las compañías
televisivas.
En este contexto, la empresa operadora de múltiples canales de TV
llamada TeNeTe tiene problemas para seleccionar películas, ya que desconoce
de antemano si una película será un éxito o un fracaso, en términos de utilidad.
Por esta razón, la empresa está buscando recomendaciones que le permita
tener mayor seguridad en la selección de las películas a comprar.
Hasta el momento, la empresa ha obtenido recomendaciones de

analistas de negocios basadas en la compra de las últimas películas que
salieron al mercado en el año 2017. En ese sentido, nuestro equipo tiene como
objetivo brindar una respuesta solida sobre los criterios de la elección de las
películas que la empresa debería utilizar sobre los perfiles de películas que
garantizan el éxito.
Para llegar a dicha respuesta, nuestro enfoque se basó en; por un lado,
la realización adecuada del Proceso KDD: Knowledge Discovery in Databases,
de acuerdo con los diferentes pasos realizados. Por otro lado, la obtención del
conocimiento relevante experto del sector de películas.
En ese orden de ideas, la mencionada respuesta fue preparada en función a
nuestro informe que tendrá la siguiente estructura:
Capítulo 1: Discusión de las recomendaciones.
Capítulo 2: Modelo Predictivo.
Capítulo 3: Recomendaciones.
Capítulo 4: Conclusiones.
3
Primavera 2018
Capítulo 1: Discusión de la recomendación

En la siguiente sección, se atenderán las inquietudes A1 y A2, respectivamente.
Éxitos y Fracasos
200
181
180
160 153
140 131
120
100
80
60 50
39 42
40 35
21
20
0
2014 2015 2016 2017
Éxi tos Fracas os
1.1 Análisis
estadístico y exploratorio de datos años 2014-2017
4
Primavera 2018
Ratio
40.00% 37.50%
35.00%
30.00%
24.28%
25.00%
21.65%
20.31%
20.00%
15.00%
10.00%
5.00%
0.00%
2014 2015 2016 2017
Creemos,
basándonos en el gráfico Éxitos y Fracasos y en el análisis de la base de datos, que es absurdo
basarse solamente en ese criterio (comprar las películas del año 2017). No obstante, el ratio entre
películas exitosas y películas lanzadas ha ido incrementando con los años.
Si bien hay una tendencia al alza en cuanto al porcentaje de películas exitosas con el
tiempo (que, por cierto, fundamenta nuestra decisión sobre incluir el año en el modelo), no es
criterio suficiente como para decidir comprar películas solamente del año 2017. Lo anterior puesto
a que, como se ve en el gráfico Éxitos y Fracasos, hay más películas exitosas en los años anteriores
que en el 2017.
Ingresos y Utilidades
$600,000
$500,000
$500,000
$420,000
$390,000
$400,000
$300,000 $250,000
$195,000 $210,000 $210,000
$200,000
$105,000
$100,000
$-
2014 2015 2016 2017
Ingres o Util idad 1
Esta
información es valiosa, ya que con un modelo predictor efectivo (como el que presentamos), es
5
Primavera 2018
posible capitalizar esta oportunidad. Bajo este escenario, los ingresos y utilidades se comportarían
algo así:
Pérdida
$700,000 $655,000
$600,000 $570,000
$500,000
$445,000
$400,000
$300,000
$200,000
$100,000 $70,000
$-
2014 2015 2016 2017
El
escenario del gráfico anterior es el óptimo. Es decir, comprar solamente las películas exitosas. Con
nuestro modelo, es posible acercarse a esto con gran precisión.
Además, debemos mencionar que comprar todas las películas en cada año genera
pérdidas, las cuales se minimizan para el año 2017.
Dicho todo lo anterior, creemos que es una mala decisión comprar solamente las películas
del año 2017, ya que hay oportunidades que aportan mayor utilidad, proveniente de años
anteriores, las cuales pueden ser aprovechadas por nuestro modelo.
Todo el análisis anterior se puede encontrar en la pestaña “A1D” en el Excel Maestro.
6
Primavera 2018
1.2 Perfilamiento de películas

De acuerdo con lo planteado por los analistas, la empresa debería comprar todas las
películas que salieron durante el año 2017 como estrategia comercial, ahorrándose el costo de
pagar por una asesoría. Esto, tal vez lo sustenten dado la relación (porcentaje) de aquel año entre
películas clasificadas como éxito y el total de las películas del año en cuestión. Este porcentaje es
de 37,50%, y se obtiene del total de películas de ese año que fueron éxito (21) divididas por el
total de películas de ese año (56).
El análisis de los datos y consideración de variables para determinar qué tipo

(características) de películas comprar, se hace sobre la base disponible sin realizar algún tipo de
cambio, por lo que se toman en cuenta aquellas variables que pueden ser interpretadas de
acuerdo con las características que poseen. Aparte de la variable año, se evalúan: país de origen,
lenguaje, duración.
Variable: Año
Considerando este criterio de decisión (porcentaje de películas clasificadas como éxito)

para comprar películas para la empresa, la decisión es la incorrecta, ya que existe un año que
presenta un ratio más alto y que por lo mismo podría significar una mejor inversión. Es el año
1982, con un ratio de 45,71%, que muestra la relación entre las películas del año clasificadas
como éxito (16) con el total de películas del año en cuestión (35). Ver Tabla 1.
Año Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

2017 21 37,50% 35 62,50% 56
1982 16 45,71% 19 54,29% 35
2010 29 15,10% 163 84,90% 192
2001 24 17,02% 117 82,98% 141
Tabla 1. Tabla que muestra cantidad y porcentaje del año en que existen más películas exitosas y menos
películas exitosas (o más películas “fracaso”). La tabla completa se muestra en Anexo 1.
Además, esta variable nos permite definir, utilizando la misma metodología, que año
presenta un mayor porcentaje de películas “fracaso” respecto del total de películas del año en
cuestión.
Bajo este criterio de selección subyace un supuesto muy fuerte, que es que se deberían
considerar las características de las películas de todo aquel año clasificadas como éxito, como parte
de un perfil para seleccionar, el cual puede o no depender de las características predominantes de
esta muestra acotada al año 2017. Es decir, puede haber otras características más relevantes para
determinar si una película será exitosa o no, que no estén presentes en esta muestra de películas
(muestra del año 2017).
Variable: País de origen
7
Primavera 2018
Para considerar el país de origen como una variable que puede determinar el éxito o no, es
necesario hacer un análisis al respecto.
En la Tabla 2 adjunta se puede observar que existe una marcada tendencia respecto del
origen de la mayor cantidad de películas que pertenecen a la clase éxito, estos países son en orden
decreciente: Reino Unido con un 26,86% (76 películas exitosas de un total de 283); Nueva Zelandia
con un 25% (2 películas de un total de 8); Estados Unidos con un 23,46% (612 películas de un total
de 2.609); Sudáfrica con un 20% (1 película de un total de 4); Irlanda con un 11,11% (1 película de
un total de 8); Alemania con un 10,77% (7 películas de un total de 65).
País de Origen Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

UK 76 26,86% 207 73,14% 283
USA 612 23,46% 1997 76,54% 2609
India 1 4,35% 22 95,65% 23
France 6 5,50% 103 94,50% 109
Tabla 2. Tabla que muestra cantidad y porcentaje del País de Origen en el que existen más películas exitosas y
menos películas exitosas (o más películas “fracaso”). La tabla completa se muestra en Anexo 2.
Variable: Lenguaje
Esta variable tiene una inclinación extrema a la hora de determinar la clase éxito para una
determinada película, ya que solo las películas cuyo lenguaje sea inglés podrían entrar en esta
clase. Por el contrario, todas aquellas películas que tienen otra categoría de lenguaje, distinta de
inglés, en un 100% entran en la clase fracaso. El porcentaje de éxito y fracaso según la categoría
inglés puede observarse en la Tabla 3.
Lenguaje Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

English 1063 21,96% 3777 78,04% 4840
Tabla 3. Tabla que muestra cantidad y porcentaje de películas respecto de su variable lenguaje en el que
existen más películas exitosas y menos películas exitosas (o más películas “fracaso”). Todas las otras
categorías de lenguaje se clasifican en un 100% como fracaso. La tabla completa se muestra en Anexo 3.
Variable: Duración
Respecto de esta variable, las películas más exitosas están entre el intervalo de tiempo de
90 y 123 minutos, considerando para esto un número de películas de la clase éxito por sobre 15
películas. Esto se hace evidente al observar el Gráfico 1.
8
Primavera 2018
Cantidad de películas exitosas según su duración

40
35
30
25
20 Tota l
15
10
5
0
90 97 104 111 118 125 132 139 146 153 162 174 189
Gráfico 1.
De acuerdo con las variables anteriores en la Tabla 4 se describen los dos perfiles para la
clase éxito y la clase fracaso:
1. Perfiles “éxito”:
1.1. Una película del año 1982, cuyo país de origen sea USA, de lenguaje inglés y cuya
duración sea de 90 a 110 minutos.
1.2. Una película del año 2017, cuyo país de origen sea Reino Unido, de lenguaje inglés y
cuya duración sea de 110 a 123 minutos.
2. Perfiles “fracaso”:
2.1. Una película del año 2010, cuyo país de origen sea India, en un lenguaje que no sea
inglés y cuya duración sea de 138 a 150 minutos.
2.2. Una película del año 2001, cuyo país de origen sea Francia, de lenguaje francés, y cuya
duración sea mayor a 150 minutos.
Tabla 4. Tabla de perfiles de éxito y fracaso.
Capítulo 2: Modelo Predictivo (Proceso

KDD)
2.1 Selección de Variables
Para la selección de variables nos apoyamos, principalmente, en
Microsoft Excel, STATA y en criterio experto. La mayor parte del análisis
estadístico se hizo en Excel, por lo que incluiremos gráficos y relacionados
provenientes de dicha fuente, además de la proveniente de STATA.
Debemos mencionar, además, que la elección de variables fue pensando

tanto en el desempeño de la predicción del modelo como la complejidad del
mismo. Vale decir, propondremos un modelo capaz de predecir con una buena
precisión y que, al mismo tiempo, no sea tan demandante al momento de
correr en los computadores. Esto último implica la transformación de variables
que profundizaremos a lo largo del informe.
9
Primavera 2018
Por otra parte, consideramos el formato de las variables independientes

al momento de decidir su inclusión en el modelo, debido a que hay gran parte
de ellas a las cuales no se les puede someter un análisis estadístico sin un
previo ajuste.
2.1.1 Análisis Estadístico

Para partir el análisis estadístico, analizamos la correlación existente
entre cada una de las variables independientes con la variable dependiente
label. Cabe destacar que este análisis fue posible solamente para las variables
numéricas.
Gráfico 2. Gráfico que muestra la correlación de las variables independientes con la

variable label.
Además de lo anterior, se hizo un análisis en STATA, a modo de conocer

la significancia de las variables y la correlación entre ellas.
El VIF mide las correlaciones entre las variables independientes. Mientras
más alto el valor, peor elección de variables tiene el modelo. Valores cercanos
a 1 son los más interesantes y, sobre 10, ya es mejor sacarlo. Los likes,
principalmente, son los más correlacionados entre ellos.
10
Primavera 2018
Tabla 5. Tabla que muestra la correlación entre las variables independientes.
Por otro lado, la regresión Probit nos muestra la significancia de cada

variable. Las variables significativas son las que tienen valores de P>|z|
cercanos a cero. Este indicador expresa la probabilidad de que la variable no
sea significante.
Tabla 6. Regresión Probit que muestra la significancia de las variables consideradas como relevantes.
El ratio y los likes son, con bastante seguridad, no significativos. Lo que

fundamenta, todavía más, su exclusión.
11
Primavera 2018
Apoyándonos en todo lo anterior, las variables candidatas al modelo son:

● Año
● Duración
● Número de críticas por review
● Número de usuarios por review
● Ingreso
● Número de votantes usuarios
● IMDB Score
2.1.2 Criterio Experto

ID
Debido a la naturaleza de esta variable, no se incluirá dentro del modelo.
En otras palabras, la función del ID es simplemente ser un punto de referencia,
pero no aporta gran información en los análisis.
Título
Además de ser una variable muy difícil de tratar, dada su formato de
texto, no creemos que sea significativa para predecir el éxito de una película.
No obstante, esto no significa que una película pueda tener cualquier nombre
porque, por temas de Marketing y relacionados, el nombre de la película sí
cumple un rol atractor para los espectadores.
Sin embargo y retomando lo explicado al inicio de este título, el
tratamiento de esta variable es difícil, por la que decidimos no incluirla en el
modelo para facilitar el desarrollo del mismo.
Año
El año por sí solo no dice nada, pero si es un indicador importante en lo
que se refiere a tecnología. Podemos afirmar, con absoluta seguridad, que a
medida que avanzan los años, la tecnología y avances tecnológicos van in
crescendo.
Dicha tecnología puede, perfectamente, ser aplicada a la industria del
cine, lo que tiene un impacto muy positivo y notorio en la calidad de la película
y en su éxito.
El concepto de tecnología no solamente lo relacionamos a lo que se
refiere a software y hardware, sino que también a la actuación. Con el avance
de los años, el mundo es cada vez más global e interconectado, lo que permite
una mejor difusión de técnicas de actuación, el desarrollo y aparición de
nuevas habilidades que en antaño eran difíciles de adquirir, enseñar y difundir.
En definitiva, los actores, técnicas de actuación y efectos son mejores.
Lo mismo sucede con la escenografía, cámaras de video y mecanismos
de control y de gestión.
12
Primavera 2018
Color - No incluida
Ya que menos del 1% de las películas de la base son en blanco y negro
se considera que, no es una variable relevante que se utilice como criterio de
clasificación.
Duración
Al igual que la variable anterior, la duración es más bien un indicador. En
nuestro subconsciente social, una mayor duración se asocia con una mejor
película, lo cual no está del todo errado. Si bien la relación no implica
causalidad, la duración sí indica un nivel de desarrollo en la película y en su
mensaje. Indica una mayor elaboración.
Género - No incluida
Desafortunadamente, no sabemos cuál es el género más popular
actualmente, pero se tiene la certeza de que debe haber géneros más vistos
que otros, por lo que vale la pena incluir esta variable en el modelo, de ser
numérico.
Al no serlo, creemos que su tratamiento es complejo y que ralentiza el
modelo, por lo que no se incluirá.
Nombre de Director
A juicio de todo el equipo, creemos que un director sí indica, con gran
certeza, la calidad de la película, ya que es inherente al director de la película
un prestigio determinado y por tanto la calidad mencionada anteriormente.
Este prestigio es algo conocido por los espectadores que pueden decidir ver o
no una película si su director es más prestigioso o no, sin incluso saber de qué
trata la trama.
Por desgracia, al ser una variable tan difícil de manipular, se decidió no
incluir en el modelo tal como se presenta en la tarea. Se incluyó dentro una
variable sintética que se explicará con mayor detalle en la sección de
Transformación (etapa 3).
Likes en general - No incluida
Parte de esta decisión de no incluir los likes en el modelo es debido al
sesgo que pueden tener. Un actor con más likes que otros no significa que la
película será mejor, ni tampoco que será un éxito. Consideramos el caso de
Nicholas Cage, quien, a pesar de ser un buen actor (al menos en el pasado),
actualmente solamente aparece en malas películas.
Adicionalmente, la fuente de estos likes podrían ser robots o cuentas
falsas, por lo que no es una buena representación de la población realmente.
Por fortuna para nosotros, esta decisión agiliza el proceso.
Número de críticas por review
13
Primavera 2018
Por experiencia propia, mientras más reviews tiene una película, es

porque más atención se le da, y no cualquier película puede generar una
atención tal para estar en boca de todos.
Si bien es cierto que estas reviews pueden estar sesgadas y su
procedencia puede ser dudosa, como dijimos anteriormente en los likes,
suponemos que estas reviews son hechas por personas conocedoras y con
ánimo de contribuir, más que destruir. Sostendremos este supuesto hasta el
final del informe.
Número de usuarios por review
Bastante parecida a la anterior. En conjunto, ambas pueden dar una idea
de la “discusión” que se entabló en la review. Vale decir; si una película tiene 1
crítica y 100 usuarios, podemos afirmar que dicha review hizo que 100
personas discutieran, comentaran o refutaran la review, cosa que en sí habla
bien de la misma.
Nombre de Actores
Sucede lo mismo que en el caso de los directores.
Ingreso
Lo consideramos valioso, ya que indica indirectamente la audiencia lo
que, a su vez, indica el éxito o fracaso de una película.
Número de votantes
Al igual que para ingreso, el número de votantes es un proxy del éxito de
una película. No cualquier película puede convocar una gran cantidad de
votantes, solamente las buenas o las realmente malas, donde los votantes
tienen ánimo de bullying. En consecuencia, seguiremos sosteniendo nuestro
supuesto: el ánimo es de contribuir y no de destruir.
Plot Keywords - No incluida
Muy difícil de tratar y todos llegamos a un consenso de que no vale la
pena.
Lenguaje - No incluida
No creemos que el lenguaje sea determinante del éxito de una película,
ya que existen los subtítulos que permiten una mayor diversificación global.
Aprovechamos de mencionar que hubiera sido interesante esta variable, ya
que creemos que mientras más doblajes y subtítulos tenga una película, más
exitosa será.
País - No incluida
Pese a que como equipo creemos que el país de origen de una película sí
puede, de cierta forma, perfilar a una película como exitosa o fracaso, no
14
Primavera 2018
creemos que es lo suficientemente poderosa como para incluirla. Además, es

difícil de tratar.
Content Rating
Pese a que es difícil de tratar y hay inconsistencia en los datos (debido a
que en cada país, hay un distinto mecanismo para otorgarle el content rating
para una película), decidimos incluirlo dentro del modelo, pero a través de una
variable sintética que será explicado en la etapa 3.
Presupuesto
Si bien la relación entre el presupuesto y éxito no es causal y pese a que
hay una muy baja correlación, sostenemos firmemente que sí es un indicador
clave en el éxito de una película, por lo que la incluiremos.
Aspect Ratio - No incluida
Definitivamente no.
IMDB Score
Sumamente importante y muy representativa del éxito de una película.
Es un puntaje que busca ser lo más objetivo y preciso posible y los jueces son
personas que entrenaron para eso. Son profesionales.
2.1.3 Modelo
Luego de todo, con el equipo se llegó al modelo que implica las
siguientes variables:
 Año
 Duración
 Número de críticas por review
 Número de usuarios por review
 Ingreso
 Número de votantes usuarios
 Presupuesto
 IMDB Score
 Nombre Director
 Nombre Actor 1, 2 y 3
 Content Rating
15
Primavera 2018
2.2 Pre-procesamiento
Considerando las variables incluidas en el modelo, se analizó los Missing
Values para cada variable independiente. En azul las celdas con valores. En
naranjo, los Missing Values.
16
Primavera 2018
Missing Values
100.00%
99.79%
98.64%
93.34%
88.35%
66.82%
66.70%
66.64%
66.50%
66.50%
66.08%
65.51%
62.69%
37.31%
34.49%
33.92%
33.50%
33.50%
33.36%
33.30%
33.18%
11.65%
Porcenta je
6.66%
1.36%
0.21%
o n R R 1 2 3 o es R t S
0.00%
D
A
ñ ió re N
C U r r r es nt
C ge B
c N o o o gr d D
ra b ct ct ct ta u
IM
u o
m A A A In Vo
B
D N o
er
m
ú
N
Va ri abl e
Gráfico 3. Gráfico que muestra la relación entre missing values y los datos totales
para cada una de las variables del modelo.
Decidimos considerar como NA todos los valores de presupuesto igual a

cero. Lo mismo sucede en el caso de la duración, ya que lo consideramos
imposible.
2.2.1 Missing Values

Para rellenar los Missing Values, se usó la librería Mice en RStudio. Se
optó por esta opción porque es la que menos afecta el desempeño de la
predicción del modelo.
17
Primavera 2018
Al rellenar los NA con la moda o la media, se incurre en un grave error,

ya que se sesga la predicción. Además, la moda y la media son, en muchos
casos, no representativas.
2.2.2 Outliers
Los principales outliers los comprenden las variables de duración,
presupuesto y año.
Duración:
Se consideró como outlier a las duraciones menores a 50 minutos y a las
mayores a 210 minutos. Estos valores se trataron como NA. En conjunto,
ambos grupos comprendían el 1,57% de los valores de duración.
Gráfico 4. Gráfico que muestra los outliers contenidos en la variable duración.
Presupuesto:
Para el caso del presupuesto, los outliers son mucho más claros. Se
decidió considerar como NA a todos los presupuestos sobre $500.000.000, cifra
que corresponde al 0,14% de los datos y a los menores a $1.100.
18
Primavera 2018
Gráfico 5. Gráfico que

muestra los outliers
contenidos en la variable
presupuesto.
Año:
Gráfico 6. Gráfico que muestra los outliers contenidos en la variable año.
Películas se consideraron de todos los años porque hay películas que tienen
éxito y son muy antiguas.
2.3 Transformación
Para incluir datos valiosos dentro del modelo pero sin perjudicar su
desarrollo, se crearon dos variables sintéticas:
 Elenco
 Rating
19
Primavera 2018
La variable Elenco viene dada por la siguiente sumatoria:

3
∑ r ai+ r d
Elenco= i =1
4
Donde:
 ai corresponde al Actor i.
 d corresponde al Director.
 r corresponde a Rating.
Este último término, rating, es, básicamente, un indicador de éxito para

cada uno de los actores y directores. Este indicador está presente en las
pestañas “Actores” y “Directores” del Excel Maestro. Este indicador es el
cociente entre la cantidad de películas actuadas y/o dirigidas (dependiendo del
caso) y la cantidad de películas exitosas (label = 1).
La variable Rating fue categorizada en tres niveles excluyentes entre sí,
siendo éstos variables dummy. Estas categorías corresponden a: Rating Bajo,
Rating Medio y Rating Alto.
Dicha variable Rating es una categorización de las variables content
rating, aportadas en el enunciado. Se contó el total de películas de la base
Train para cada una de los 17 content ratings en el enunciado y se agruparon
en función de su edad. Vale decir, por ejemplo, que las variables content rating
Aprroved, G, TV-Y7 y TV-G fueron capturadas bajo el nombre “Apto para todo”
(variable sintética rating).
Luego, se contó la cantidad total de éxitos para cada una de las nuevas
categorías rating para obtener un indicador, el cual después se comparó contra
los valores de la tabla siguiente para definir si dicha variable sería baja, media
o alta.
Catego
ría Valor
Bajo <=0,05
Medio <=0,15
Alto >0,15
Tabla 7. Esta tabla muestra las categorías creadas para la variable rating.
Al ser canales excluyentes, una película puede tener un valor igual a 1

en solamente una de estas categorías. Las demás tendrán valor 0.
20
Primavera 2018
2.3.1 Normalización
Todas las variables numéricas, a excepción de ID y las tres variables
dummy, fueron escaladas para que la magnitud del coeficiente de cada una de
ellas no alterara el resultado de la predicción.
Para ello, se usó la fórmula para escalar, vista en clases:
X− X min
Escalar=
X max− X min
Donde X es un valor puntual dentro de una variable independiente. Xmin
es el mínimo valor de una variable y Xmax es el máximo.
Este procedimiento es necesario ya que elimina el efecto que los
coeficientes de las variables tienen en el desempeño de la predicción y,
además, los deja expresado en coeficientes que son comparables. Vale decir, si
una variable tiene un coeficiente igual a 7 y otra tiene coeficiente igual a
2.500.000, el modelo le pondrá más atención a la variable con mayor
coeficiente, creyendo que ella es la que tiene más ponderación en el modelo.
No obstante, el 7 puede representar el 70% del máximo valor de la
variable en la base de datos, mientras que el 2.500.000 podría ser tan solo el
25%. Al no escalar, se estaría cometiendo un grave error.
Por lo mismo, el proceso de escalar deja todos los coeficientes
expresados en el porcentaje que representan en función del máximo valor,
haciendo que esta equivocación en el modelo se elimine y la predicción sea
mucho más precisa.
A modo de corroborar nuestro modelo, se hizo los siguientes análisis en
STATA.
Tabla 8. Tabla de correlación dela variables seleccionadas.
Los valores cercanos a 1 indican que no hay correlación entre las

variables independientes, lo que es positivo.
21
Primavera 2018
Tabla 9. Tabla de regresión Probit para variables relevantes independientes, considerando label como
variable dependiente.
Pese a que esperábamos resultados mejores, la variable sintética elenco

es significativa. La menos significativas son title_year, duration, num_critics y
budget. Desconocemos la razón, ya que pensábamos que serían más
significantes. No obstante, los resultados no son tan malos como para sacarlas
del modelo.
2.4 Data Mining

En esta etapa, se usan los siguientes métodos para predecir el éxito o
fracaso de una película: Red Neuronal (NN), Decission Tree (DT) y Support
Vector Machine (SVM) (detalles en Anexo).
Se dividió la base de datos entregada por el equipo docente en dos:
entrenamiento y test, representando al 70% y 30% de la muestra
respectivamente. Se entrenó a los modelos en ese dominio, los cuales estaban
provistos de label, para luego predecir en el 30% restante. Este último también
contenía los labels respectivos, por lo que el modelo comparó su predicción con
la real.
Posteriormente, se usará el método seleccionado para realmente
predecir la clasificación de una película, aplicándola a la base Test entregado
por el equipo docente, la cual no está provista de label. La comparación de la
predicción con el resultado real es tarea de los ayudantes y profesores.
22
Primavera 2018
Seleccionamos esos modelos porque consideramos que cada uno de

ellos tiene una fortaleza que los identifica.
Por un lado, la NN es de las mejores para los problemas de clasificación,
como es el que se presenta para este trabajo.
Por otro, los DT son bastante certeros, ya que incluyen el proceso de
selección de variables, lo que lo hace una especie de “dos en uno”. Además, R
se encarga, por sí solo, de regular el sobreajuste que puede tener la base de
datos, haciendo lo que se denomina una “poda”.
Finalmente, el SVM es un método que puede manejar muestras con
clasificaciones (éxito y fracaso) desbalanceadas, lo que es un problema para
los demás modelos, ya que empeora el desempeño de la predicción.
Antes de comenzar con el resumen de cada uno de los métodos, todos
bajo el programa R, presentamos la tabla resumen, la cual considera todos los
criterios de la decisión.
Utilidad
$1,000,000 $941,000
$900,000 $814,000
$800,000 $723,000
$700,000
$600,000
$500,000
$400,000
$300,000
$200,000
$100,000
$-
NN DT SVM
Gráfico 7. Gráfico de utilidades asociadas al pronóstico con cada uno de los métodos.
23
Primavera 2018
Accuracy
SVM 0.9214
DT 0.9305
NN 0.9103
0.9000 0.9050 0.9100 0.9150 0.9200 0.9250 0.9300 0.9350
Gráfico 8. Gráfico de precisión de cada uno de los modelos.
Considerando ambos gráficos y las fortalezas previamente descritas,

decidimos quedarnos con el Decission Tree, ya que es el más preciso y el que
genera más utilidad. Debemos mencionar que niveles de accuracy tan altos
son indicios de un modelo sobre ajustado. Frente a esta posibilidad, hacemos
hincapié en la fortaleza de método: la función de poda, la cual justamente
corrige el sobreajuste.
Para ser breves, el sobreajuste es la “mala costumbre” que tiene un
modelo de aprender de solamente los datos presentes en la base de
entrenamiento. Cuando se enfrenta a un dato que nunca vio durante la etapa
de entrenamiento, entonces, no sabe cómo comportarse ni qué hacer, lo que
influye negativamente en el rendimiento de la predicción. No sabe cómo tratar
a los datos nuevos.
Debemos mencionar que el cálculo de las utilidades fue apoyándonos en
la función dada en el encabezado y en la matriz de confusión que obtuvimos a
través de R, la cuales se detallarán en imágenes siguientes.
π =$ 10.000∗a−($ 5.000∗( α + β ) +$ 3.000∗γ)

En donde:
 π es Utilidad.
 α películas compradas como éxito.
24
Primavera 2018
 β películas compradas como fracaso.
 γ costo alternativo de cada película que no se compró por pensar

que era fracaso, pero en realidad era exitosa.
El DT aplicado sobre la base test, de 2.200 filas, arrojó lo siguiente:
Éxitos y Fracasos
29.09%
70.91%
Fracas o Éxi to
Gráfico 9. Gráfico que muestra el pronóstico realizado por el método Decision Tree.
2.5 Conocimiento
En esta etapa se responderá directamente a las inquietudes de la
dirección de la compañía. Para ello, antes de comenzar perfilaremos las
películas. O sea, identificaremos las características que una película exitosa
comprende. Todo esto se hará en el Excel Maestro bajo la pestaña
“Conocimiento”, el cual será presentado junto con este informe.
El perfil se hará basándose en el modelo final propuesto por los
integrantes, el cual está presente en la pestaña “M2 Escalada”. En esta
pestaña se encuentra tanto la base Train como la base Test dada por el equipo
docente, escalada y con nuestras variables sintéticas incluidas. Las variables
no incluidas en el modelo, claramente no formarán parte del perfil de la
película.
25
Primavera 2018
Considerar, por lo tanto, que para el perfil se ocupará solamente los IDs
desde el 1 hasta el 5135, correspondientes a la base Train, la cual se
distribuyen de la siguiente manera:
% de Películas en Train
20.70%
79.30%
Éxi to Fraca s o
Gráfico 10. Gráfico de pronóstico sobre base Train.
2.5.1 Selección de Método

Esta inquietud fue tratada en la etapa de pre-procesamiento. En la
Tabla se puede ver la información resumida de la precisión y utilidad de cada
método aplicado al modelo:
Método Accuracy Utilidad

$
NN 0,9500 1.028.000
$
DT 0,9610 1.173.000
$
SVM 0,9591 1.125.000
26
Primavera 2018
Tabla 10. Tabla resumen de precisión y utilidad generada por cada uno de los métodos utilizados.
De la tabla se desprende que el método de Árbol de Decisión (DT por sus

cifras en inglés), es el mejor modelo; tanto en precisión como en utilidad.
2.5.2 Perfil de películas

De acuerdo a la siguiente tabla determinaremos el perfil de las películas,
tanto exitosas como fracaso. La tabla está dividida en cinco rangos iguales,
representando quintiles de la muestra total de películas. Los valores que toma
el rango en sus puntos mínimo y máximo son valores escalados en función a
cada variable. Por ejemplo, si la variable NUFR (Número de usuarios por review)
tiene un valor entre 0,8 y 1, entonces se afirma que la película será exitosa.
Por un lado, para perfilar una película como exitosa, se estableció que el
porcentaje mínimo sea 60%. En consecuencia, las únicas variables candidatas
son: NCFR (Número de críticas por review), NUFR, NVU (Número de usuarios
votantes) y Elenco.
Tabla 11. Tabla de porcentaje de éxito asociado a cada variable.
El proceso de “desescalamiento”, para poder llegar a un número

interpretable por la gerencia de TeNeTe, está desarrollado en la pestaña
“Desnormalizado”.
Por otro lado, después del análisis previo se determinó que las variables
candidatas para perfilar a fracaso son las siguientes: año, duración,
presupuesto y IMDB.
Dicho todo lo anterior, se establecen los siguientes perfiles:
Éxito
Películas con alto NCFR
Las películas que tengan 651 críticas o más, tienen un ratio de 87,50%.
Las que tienen entre 488 y 651, un 68,75%.
Películas con alto NUFR
27
Primavera 2018
Las películas con 4.048 número de usuarios por review o más tienen un
100% de ratio. Por otro lado, con usuarios entre 1.013 y 3.036 tienen un 66%
en promedio (aprox) de éxito, abarcando el segundo y tercer quintil.
Películas con alto NVU
Las películas con 1.013.860 de usuarios votantes o más tienen 100% de
ratio, abarcando dos quintiles. Además, tienen un 66% de ratio
aproximadamente cuando están dentro del rango: 337.957 a 1.013.860,
también abarcando el segundo y tercer quintil.
Películas con elenco medio
Por último, películas con elenco entre 0,4 y 0,6 tienen,
aproximadamente, un 62% de éxito (tercer quintil).
Fracaso
Las películas fracasadas serán aquellas seleccionadas en base a un presupuesto, año,
duración y un número de críticas por review menor a 488.
Capítulo 3: Recomendaciones
3.1 Políticas Comerciales

1. La empresa debería desarrollar aplicaciones móviles para que los usuarios evalúen, en la cual
podrán asignar un puntaje a la película reproducida, ya sea en función a los personajes, directores,
etc. Esto se debe a que de acuerdo al perfil de la película exitosa, la empresa tendrá que usar como
referencia al IMDb Score y, al tener su propia base de datos, volverse más independiente.
2. Para promover la participación de los usuarios en la votación y asegurar la calidad al mismo

tiempo, TeNeTe debería hacer sorteos con paquetes especiales entre los usuarios que participan.
Dichos paquetes podrían consistir en un título distintivo, membresías gratis por meses, invitaciones
a eventos relaciones con la cinematografía, entre otros.
3. Buscando aumentar la cartera de clientes, sugerimos ofrecer beneficios e incentivos a los

clientes actuales para que ellos mismos recluten a los nuevos, práctica que se da en muchos otros
negocios. Dentro de los beneficios, recomendamos establecer una cantidad monetaria a pagar por
cada cliente reclutado activo, membresías extendidas, viajes todo pagado para conocer al elenco
de las series y películas favoritas para un cliente en específico, entre otros.
Capítulo 4: Conclusiones
 Al comparar la decisión de los analistas de la empresa con el resultado

obtenido por el proceso KDD, la diferencia es notoria, ya que la decisión
de los analistas parece ser tomada sin un procesamiento o tratamiento
28
Primavera 2018
de los datos existentes en sus bases, ni un set de variables, ni menos

haber aplicado un método de pronóstico para poder acertar con una
mayor probabilidad sobre la elección de películas que sean exitosas.
Esta decisión de los analistas debe tener un costo mayor debido a una
alta probabilidad asociada de errar a la hora de escoger su cartera de
películas para que sean programadas y que estas tengan una alta
sintonía, es decir sean exitosas, pero por otro lado obtienen el beneficio
de la rapidez de la decisión.
 La etapa de pre-procesamiento y transformación de datos permite

obtener primero una base más completa y con datos que permiten
realizar un análisis cuantitativo para la toma de decisiones, ya que se
corrigieron los datos que distorsionan la información (como missing
values y outliers) y se generaron variables significativas (elenco y rating)
para el modelo.
 La etapa de Data Mining permite obtener un output de clases éxito y

fracaso con una precisión por sobre un 96% en base a varias variables,
tarea que era imposible de lograr mediante un simple análisis
estadístico. Además de entregar una alta fiabilidad y mayor certeza de
un resultado, aporta también la velocidad para generar una respuesta,
por tanto existe un beneficio operacional derivado de la eficiencia del
sistema de apoyo de decisiones implementado, que se traduce en una
disminución efectiva del tiempo en la toma de decisiones, y por otro lado
genera la oportunidad de realizar este análisis de manera frecuente, de
tal manera de poder incorporar nuevas variables que según el contexto
cambiante se han trasformado en variables relevantes en determinar
qué películas son exitosas y cuales no lo son.
 El sistema de apoyo a la toma de decisiones presentado por la

consultora entrega, por tanto, una herramienta fácil de implementar,
muy viable, ya que es posible descargar el software en cualquier
computador, en el cual nuevos datos y variables pueden ser integrados
con rapidez y analizados con precisión para ir generando nuevos
pronósticos. La metodología recomendada es la de Decission Tree, por
su resultado experimental de mayor precisión (sobre un 93%), pero es
una elección que puede variar, y que puede ser hecha de manera simple
observando la matriz de confusión. Como alternativas se pueden por una
rede neuronal un método SVM.
 Esta metodología puede entregar a la empresa información valiosísima a

la hora de tomar decisiones comerciales a la hora de definir una política
de compra de películas que deban tener éxito. También permitió obtener
29
Primavera 2018
una mayor precisión en la selección de películas a comprar y el método

de Árbol de Decisiones resaltó en dicha precisión, debido a la mayor
utilidad ofrecida en base a sus resultados ($941.000), en donde se
incluyeron los costos de errores de predicción: comprar una película
“exitosa” cuando realmente fue un fracaso y no comprar una película
“fracaso” cuando realmente fue un éxito ($3.000).
 La predicción realizada, en base a los perfiles de las películas, serán

optimas de realizar siempre que el nivel del valor de los espacios
publicitarios esté en función de la alta audiencia que tenga una película.
 Las variables elenco, numero de usuario votantes, número de usuarios

por review y numero de críticas por review serán optimas siempre que
se asuma que las críticas y votaciones realizadas por los usuarios son
constructivas.
30
Primavera 2018
Anexos
1.
2.
31
Primavera 2018
Éxito Fracaso
País de Origen Total
Q % Q %
Australia 5 13,89% 31 86,11% 36
Cameroon 1 100,00% 0 0,00% 1
Canada 8 9,52% 76 90,48% 84
China 2 9,09% 20 90,91% 22
France 6 5,50% 103 94,50% 109
Germany 7 10,77% 58 89,23% 65
India 1 4,35% 22 95,65% 23
Ireland 1 11,11% 8 88,89% 9
New Zealand 2 25,00% 6 75,00% 8
South Africa 1 20,00% 4 80,00% 5
Spain 2 8,70% 21 91,30% 23
UK 76 26,86% 207 73,14% 283
USA 612 23,46% 1997 76,54% 2609
3.
32
Primavera 2018
4.
33
Primavera 2018
5.
34
Primavera 2018
35

Informe 1 BI Entrega

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Informe 1 BI Entrega

Uploaded by

Copyright:

Available Formats

Business Intelligence – ENGIN460/01

S CABELLO – V MÁRQUEZ – J OYARZÚN – J RUIZ

Hasta el momento, la empresa ha obtenido recomendaciones de

Capítulo 1: Discusión de la recomendación

Todo el análisis anterior se puede encontrar en la pestaña “A1D” en el Excel Maestro.

1.2 Perfilamiento de películas

El análisis de los datos y consideración de variables para determinar qué tipo

Considerando este criterio de decisión (porcentaje de películas clasificadas como éxito)

Año Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

Variable: País de origen

País de Origen Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

Lenguaje Éxito (cantidad) Éxito % Fracaso (cantidad) Fracaso % TOTAL

Cantidad de películas exitosas según su duración

Capítulo 2: Modelo Predictivo (Proceso

Debemos mencionar, además, que la elección de variables fue pensando

Por otra parte, consideramos el formato de las variables independientes

2.1.1 Análisis Estadístico

Gráfico 2. Gráfico que muestra la correlación de las variables independientes con la

Además de lo anterior, se hizo un análisis en STATA, a modo de conocer

Tabla 5. Tabla que muestra la correlación entre las variables independientes.

Por otro lado, la regresión Probit nos muestra la significancia de cada

El ratio y los likes son, con bastante seguridad, no significativos. Lo que

Apoyándonos en todo lo anterior, las variables candidatas al modelo son:

2.1.2 Criterio Experto

Por experiencia propia, mientras más reviews tiene una película, es

creemos que es lo suficientemente poderosa como para incluirla. Además, es

 Número de críticas por review

 Número de usuarios por review

 Número de votantes usuarios

Decidimos considerar como NA todos los valores de presupuesto igual a

2.2.1 Missing Values

Al rellenar los NA con la moda o la media, se incurre en un grave error,

Gráfico 4. Gráfico que muestra los outliers contenidos en la variable duración.

Gráfico 5. Gráfico que

Gráfico 6. Gráfico que muestra los outliers contenidos en la variable año.

La variable Elenco viene dada por la siguiente sumatoria:

Este último término, rating, es, básicamente, un indicador de éxito para

Al ser canales excluyentes, una película puede tener un valor igual a 1

Tabla 8. Tabla de correlación dela variables seleccionadas.

Los valores cercanos a 1 indican que no hay correlación entre las

Pese a que esperábamos resultados mejores, la variable sintética elenco

2.4 Data Mining

Seleccionamos esos modelos porque consideramos que cada uno de

0.9000 0.9050 0.9100 0.9150 0.9200 0.9250 0.9300 0.9350

Gráfico 8. Gráfico de precisión de cada uno de los modelos.

Considerando ambos gráficos y las fortalezas previamente descritas,

π =$ 10.000∗a−($ 5.000∗( α + β ) +$ 3.000∗γ)

 α películas compradas como éxito.

 β películas compradas como fracaso.

 γ costo alternativo de cada película que no se compró por pensar

El DT aplicado sobre la base test, de 2.200 filas, arrojó lo siguiente:

Gráfico 10. Gráfico de pronóstico sobre base Train.

2.5.1 Selección de Método

Método Accuracy Utilidad

De la tabla se desprende que el método de Árbol de Decisión (DT por sus

2.5.2 Perfil de películas

Tabla 11. Tabla de porcentaje de éxito asociado a cada variable.

El proceso de “desescalamiento”, para poder llegar a un número

3.1 Políticas Comerciales

2. Para promover la participación de los usuarios en la votación y asegurar la calidad al mismo

3. Buscando aumentar la cartera de clientes, sugerimos ofrecer beneficios e incentivos a los

 Al comparar la decisión de los analistas de la empresa con el resultado

de los datos existentes en sus bases, ni un set de variables, ni menos