Professional Documents
Culture Documents
DATOS
Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de
informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin se
pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qu de las
cosas y no son orientativos para la accin. Ejemplo: El precio del crudo de petrleo es de $80
dlares por barril.
Tambien un dato es un conjunto discreto, de factores objetivos sobre un hecho real. Dentro de
un contexto empresarial, el concepto de dato es definido como un registro de transacciones. Un
dato no dice nada sobre el porqu de las cosas, y por s mismo tiene poca o ninguna relevancia
o propsito. Las organizaciones actuales normalmente almacenan datos mediante el uso de
tecnologas.
Desde un punto de vista cuantitativo, las empresas evalan la gestin de los datos en trminos
de coste, velocidad y capacidad. Todas las organizaciones necesitan datos y algunos sectores
son totalmente dependientes de ellos. Bancos, compaas de seguros, agencias
gubernamentales y la Seguridad Social son ejemplos obvios. En este tipo de organizaciones la
buena gestin de los datos es esencial para su funcionamiento, ya que operan con millones de
transacciones diarias. Pero en general, para la mayora de las empresas tener muchos datos no
siempre es bueno.
Las organizaciones almacenan datos sin sentido. Realmente esta actitud no tiene sentido por
dos razones. La primera es que demasiados datos hacen ms complicado identificar aquellos
que son relevantes. Segundo, y todava ms importante, es que los datos no tienen significado
en s mismos. Los datos describen nicamente una parte de lo que pasa en la realidad y no
proporcionan juicios de valor o interpretaciones, y por lo tanto no son orientativos para la
accin. La toma de decisiones se basar en datos, pero estos nunca dirn lo que hacer. Los datos
no dicen nada acerca de lo que es importante o no. A pesar de todo, los datos son importantes
para las organizaciones, ya que son la base para la creacin de informacin.
Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisin.
Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico como un papel,
un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una persona. En este sentido
las tecnologas de la informacin han aportado mucho a recopilacin de datos.
Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organizacin,
pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.
Los datos estructurados son aquellos que tienen un modelo definido o residen dentro
de un campo fijo que se encuentra en un registro, como las bases de datos de clientes
de una empresa dedicada al comercio minorista o los precios de acciones en la bolsa.
Por otro lado,
Los datos no estructurados son aquellos que no tienen un modelo predefinido o no
estn organizados de una manera definida, ejemplos de estos datos son las
publicaciones en redes sociales o documentos de texto.
INFORMACIN
Como han hecho muchos investigadores que han estudiado el concepto de informacin, lo
describiremos como un mensaje, normalmente bajo la forma de un documento o algn tipo de
comunicacin audible o visible. Como cualquier mensaje, tiene un emisor y un receptor. La
informacin es capaz de cambiar la forma en que el receptor percibe algo, es capaz de impactar
sobre sus juicios de valor y comportamientos. Tiene que informar; son datos que marcan la
diferencia. La palabra informar significa originalmente dar forma a y la informacin es capaz
de formar a la persona que la consigue, proporcionando ciertas diferencias en su interior o
exterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el que decide si el
mensaje que ha recibido es realmente informacin, es decir, si realmente le informa. Un informe
lleno de tablas inconexas, puede ser considerado informacin por el que lo escribe, pero a su
vez puede ser juzgado como ruido por el que lo recibe. La informacin se mueve en torno a
las organizaciones a travs de redes formales e informales. Las redes formales tienen una
infraestructura visible y definida: cables, buzones de correo electrnico, direcciones,... Los
mensajes que estas redes proporcionan incluyen e-mail, servicio de entrega de paquetes, y
transmisiones a travs de Internet. Las redes informales son invisibles. Se hacen a medida. Un
ejemplo de este tipo de red es cuando alguien te manda una nota o una copia de un artculo con
las siglas FYI (For Your Information). A diferencia de los datos, la informacin tiene significado
(relevancia y propsito). No slo puede formar potencialmente al que la recibe, si no que est
organizada para algn propsito. Los datos se convierten en informacin cuando su creador les
aade significado.
CONOCIMIENTO
El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve como
marco para la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se
origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no slo se
encuentra dentro de documentos o almacenes de datos, sino que tambin est en rutinas
organizativas, procesos, prcticas, y normas. Ejemplo: La declaracin cuando los precios del
crudo suben $10 dlares por barril, es probable que los precios de la gasolina suban 2 centavos
por litro, expresa conocimiento
Estas actividades de creacin de conocimiento tienen lugar dentro y entre personas. Al igual que
encontramos datos en registros, e informacin en mensajes, podemos obtener conocimiento de
individuos, grupos de conocimiento, o incluso en rutinas organizativas.
Recopilar datos es caro, y para que el esfuerzo merezca la pena hay que tener muy claro lo que
necesitamos y cmo vamos a usarlo. Una de las principales finalidades de que las organizaciones
recopilen datos es monitorizar y mejorar su rendimiento. Medir lo que importa podra ser un
poco clich, pero si usted quiere tener la informacin que precisa para supervisar y mejorar el
funcionamiento de su organizacin, necesitar:
Para que sean tiles, los datos deben satisfacer diversas condiciones. Deben ser:
Un gerente que est investigando la falta de puntualidad de los trenes de una lnea en particular
necesita tener toda la informacin de llegada de los trenes de esa lnea. Los datos de otras lneas
son irrelevantes, a menos que las demoras estn causando problemas de conexin en otras
lneas.
Tan importante como tener esos datos ser que el gerente los emplee correctamente. Un da
de trabajo de ingeniera tendr un impacto enorme en los resultados de toda una semana. Si los
resultados se interpretan errneamente, se podra llegar a identificar un problema donde no lo
hay.
En ltima instancia, la gran cantidad de informacin generada slo ser til si puede aplicarse a
la creacin de conocimiento dentro de la organizacin. Acumular y organizar conocimientos es
uno de los grandes retos que enfrentan las organizaciones en el siglo XXI. Se platica mucho sobre
la economa del conocimiento y para muchas organizaciones es ese conocimiento o know how
lo que define su ventaja competitiva.
Instintivo, subconsciente, tcito u oculto. Dentro de las organizaciones hay personas con
conocimientos especficos o que estn en posesin de cierto know how: El ao pasado hice
algo muy parecido y esto es lo que sucedi.
La informacin por s sola no crea una organizacin basada en el conocimiento pero es un pilar
fundamental para ello. Tener la informacin correcta impulsa el desarrollo de capital intelectual,
lo que a su vez promueve la innovacin y mejora el rendimiento.
Aprovechar los datos permite a las empresas conseguir sus objetivos de negocio y estar un paso
delante de su competencia. Pero la cada vez mayor cantidad de datos existentes obliga a las
empresas a saber en realidad cmo encontrar y aprovechar los datos que son relevantes para el
negocio, aquellos que permitan tomar decisiones ms rpidas y mejor informadas, aquellos que
generan informacin de valor.
Un proceso para determinar qu datos son tiles es la minera de datos, cuya finalidad es buscar
lo que puede ser til para la empresa y desechar aquello que no lo es. Pero en la actualidad ese
concepto podra cambiar. Mick McWilliams, SVP De Metodologa de Investigacin en LRW,
sugiere que ese nombre podra ser errneo. La minera de datos debera llamarse minera de
conocimiento.
SISTEMA DE INFORMACIN
Personas.
Datos.
Actividades o tcnicas de trabajo.
Recursos materiales en general (generalmente recursos informticos y de
comunicacin, aunque no necesariamente).
BIG DATA
Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo
tamao (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan
su captura, gestin, procesamiento o anlisis mediante tecnologas y herramientas
convencionales, tales como bases de datos relacionales y estadsticas convencionales o
paquetes de visualizacin, dentro del tiempo necesario para que sean tiles.
En la mayora de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con
datos estructurados (normalmente de una base de datos relacional) de una aplicacin comercial
ms convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer
Relationship Management).
Lo que hace que Big Data sea tan til para muchas empresas es el hecho de que proporciona
respuestas a muchas preguntas que las empresas ni siquiera saban que tenan. En otras
palabras, proporciona un punto de referencia. Con una cantidad tan grande de informacin, los
datos pueden ser moldeados o probados de cualquier manera que la empresa considere
adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una forma
ms comprensible.
El anlisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios ms
inteligentes, operaciones ms eficientes, mayores ganancias y clientes ms felices. Las empresas
con ms xito con Big Data consiguen valor de las siguientes formas:
Reduccin de coste. Las grandes tecnologas de datos, como Hadoop y el anlisis basado en la
nube, aportan importantes ventajas en trminos de costes cuando se trata de almacenar
grandes cantidades de datos, adems de identificar maneras ms eficientes de hacer negocios.
Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la
satisfaccin a travs de anlisis viene el poder de dar a los clientes lo que quieren. Con la analtica
de Big Data, ms empresas estn creando nuevos productos para satisfacer las necesidades de
los clientes.
Por ejemplo:
A. Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la
satisfaccin del cliente puede ser difcil de medir, especialmente en el momento
oportuno. Resorts y casinos, por ejemplo, slo tienen una pequea oportunidad de dar
la vuelta a una mala experiencia de cliente. El anlisis de Big data ofrece a estas
empresas la capacidad de recopilar datos de los clientes, aplicar anlisis e identificar
inmediatamente posibles problemas antes de que sea demasiado tarde.
B. Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria.
Los registros de pacientes, planes de salud, informacin de seguros y otros tipos de
informacin pueden ser difciles de manejar, pero estn llenos de informacin clave una
vez que se aplican las analticas. Es por eso que la tecnologa de anlisis de datos es tan
importante para el cuidado de la salud. Al analizar grandes cantidades de informacin -
tanto estructurada como no estructurada - rpidamente, se pueden proporcionar
diagnsticos u opciones de tratamiento casi de inmediato.
C. Administracin: La administracin se encuentra ante un gran desafo: mantener la
calidad y la productividad con unos presupuestos ajustados. Esto es particularmente
problemtico con lo relacionado con la justicia. La tecnologa agiliza las operaciones
mientras que da a la administracin una visin ms holstica de la actividad.
D. Retail: El servicio al cliente ha evolucionado en los ltimos aos, ya que los compradores
ms inteligentes esperan que los minoristas comprendan exactamente lo que necesitan,
cuando lo necesitan. El Big Data ayuda a los minoristas a satisfacer esas demandas.
Armados con cantidades interminables de datos de programas de fidelizacin de
clientes, hbitos de compra y otras fuentes, los minoristas no slo tienen una
comprensin profunda de sus clientes, sino que tambin pueden predecir tendencias,
recomendar nuevos productos y aumentar la rentabilidad.
E. Empresas manufactureras: Estas despliegan sensores en sus productos para recibir
datos de telemetra. A veces esto se utiliza para ofrecer servicios de comunicaciones,
seguridad y navegacin. sta telemetra tambin revela patrones de uso, tasas de
fracaso y otras oportunidades de mejora de productos que pueden reducir los costos de
desarrollo y montaje.
F. Empresas-Redes sociales
Cada vez ms los internautas tienden a subir a las redes sociales toda su actividad y la
de sus conocidos. Las empresas utilizan esta informacin para cruzar los datos de los
candidatos a un trabajo. Oracle ha desarrollado una herramienta llamada Taleo Social
Sourcing,36 la cual est integrada con las API de Facebook, Twitter y LinkedIn. Gracias a
su uso, los departamentos de recursos humanos pueden ver, entrando la identidad del
candidato, su perfil social y profesional en cuestin de segundos. Por otro lado, les
permite crear una lista de posibles candidatos segn el perfil profesional necesario, y as
pasar a ofrecer el puesto de trabajo a un pblico mucho ms objetivo.Por otro lado,
Gate Gourmet una compaa de cterin para aerolneas experimentaba una tasa de
abandono del 50 % de sus trabajadores asignados al aeropuerto de Chicago, y
sospecharon que el problema exista en el tiempo dedicado al viaje. Para demostrarlo,
hicieron anlisis juntando varios data sets de sus sistemas internos y de otros externos
como datos demogrficos, datos de trfico y datos de uso de redes sociales. Los
resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la
alta tasa de abandono con la distancia del lugar de trabajo a casa y la accesibilidad al
transporte pblico.37
G. Empresas -consumo
Amazon es lder en ventas cruzadas. El xito se basa en la minera de datos masiva
basando los patrones de compra de un usuario cruzados con los datos de compra de
otro, creando as anuncios personalizados y boletines electrnicos que incluyen justo
aquello que el usuario quiere en ese instante.38 Tambin hay casos sin conexin de
aplicaciones de macrodatos. Los telfonos mviles envan peticiones de escucha WiFi a
todos los puntos de acceso que se cruzan. Algunas compaas han decidido hacer un
trazo de estas peticiones con su localizacin y direccin MAC para saber qu dispositivo
hace cul ruta dentro de un recinto. No hay que asustarse ya que con la direccin MAC
no pueden invadir la intimidad.39 Las grandes superficies aprovechan estos datos para
sacar informacin como contabilizar cunto tiempo pasan los clientes en su interior, qu
rutas siguen, dnde permanecen ms tiempo (ya sea escogiendo un producto o el
tiempo de espera en caja) o cul es la frecuencia de visita.
H. Publicidad: La proliferacin de telfonos inteligentes y otros dispositivos GPS ofrece a
los anunciantes la oportunidad de dirigirse a los consumidores cuando estn cerca de
una tienda, una cafetera o un restaurante. Esto abre nuevos ingresos para los
proveedores de servicios y ofrece a muchas empresas la oportunidad de conseguir
nuevos prospectos.
I. Otros ejemplos del uso efectivo de Big Data existen en las siguientes reas:
Uso de la voluminosa informacin histrica de un Call Center de forma rpida, con el fin
de mejorar la interaccin con el cliente y aumentar su satisfaccin.
Las especiales caractersticas del Big Data hacen que su calidad de datos se enfrente a mltiples
desafos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad, Variedad, Veracidad y Valor,
que definen la problemtica del Big Data.
Estas 5 caractersticas del big data provocan que las empresas tengan problemas para extraer
datos reales y de alta calidad, de conjuntos de datos tan masivos, cambiantes y complicados.
Hasta la llegada del Big Data, mediante ETL podamos cargar la informacin estructurada que
tenamos almacenada en nuestro sistema ERP y CRM, por ejemplo. Pero ahora, podemos cargar
informacin adicional que ya no se encuentra dentro de los dominios de la empresa:
comentarios o likes en redes sociales, resultados de campaas de marketing, datos estadsticos
de terceros, etc. Todos estos datos nos ofrecen informacin que nos ayuda a saber si nuestros
productos o servicios estn funcionando bien o por el contrario estn teniendo problemas.
ALGUNOS DESAFOS A LOS QUE SE ENFRENTA LA CALIDAD DE DATOS DE BIG DATA SON:
Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integracin de datos
aumenta.
Como ya hemos visto, el volumen de datos es enorme, y eso complica la ejecucin de un proceso
de calidad de datos dentro de un tiempo razonable.
Es difcil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rpida. Se necesita
mucho tiempo para transformar los tipos no estructurados en tipos estructurados y procesar
esos datos.
3. Mucha volatilidad
Los datos cambian rpidamente y eso hace que tengan una validez muy corta. Para solucionarlo
necesitamos un poder de procesamiento muy alto.
En 1987 la Organizacin Internacional de Normalizacin (ISO) public las normas ISO 9000 para
garantizar la calidad de productos y servicios. Sin embargo, el estudio de los estndares de
calidad de los datos no comenz hasta los aos noventa, y no fue hasta 2011 cuando ISO public
las normas de calidad de datos ISO 8000.
La calidad de datos de big data es clave, no solo para poder obtener ventajas competitivas sino
tambin impedir que incurramos en graves errores estratgicos y operacionales basndonos en
datos errneos con consecuencias que pueden llegar a ser muy graves.
Existen muchsimas herramientas para tratar con big data. Algunos ejemplos incluyen Hadoop,
NoSQL, Cassandra, Inteligencia empresarial, Aprendizaje automtico y MapReduce. Estas
herramientas tratan con algunos de los tres tipos de big data
A. Datos estructurados: datos que tienen bien definidos su longitud y su formato, como
las fechas, los nmeros o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo
son las bases de datos relacionales y las hojas de clculo.
B. Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen
de un formato especfico. No se pueden almacenar dentro de una tabla ya que no se
puede desgranar su informacin a tipos bsicos de datos. Algunos ejemplos son los PDF,
documentos multimedia, correos electrnicos o documentos de texto.
C. Datos semiestructurados: datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos. Es una informacin poco
regular como para ser gestionada de una forma estndar. Estos datos poseen sus
propios metadatos semiestructurados19 que describen los objetos y las relaciones entre
ellos, y pueden acabar siendo aceptados por convencin. Un ejemplo es el HTML, el XML
o el JSON.
Marketing electrnico y web: se generan una gran cantidad de datos cuando se navega
por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los
mismos usuarios se convierten en creadores de contenido gracias a su interaccin con
el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayora con fines
de marketing y anlisis de negocio. Los movimientos de ratn quedan grabados
en mapas de calor y queda registro de cunto pasamos en cada pgina y cundo las
visitamos.
Mquina a mquina (machine to machine, M2M): son las tecnologas que comparten
datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de
presin, de sonido que transforman las magnitudes fsicas o qumicas y las convierten
en datos. Existen desde hace dcadas, pero la llegada de las comunicaciones
inalmbricas (Wi-Fi, Bluetooth, RFID) ha revolucionado el mundo de los sensores.
Algunos ejemplos son los GPS en la automocin o los sensores de signos vitales en la
medicina.
ALMACENAMIENTO
El trmino NoSQL se refiere a Not Only SQL y son sistemas de almacenamiento que no cumplen
con el esquema entidad-relacin. Proveen un sistema de almacenamiento mucho ms flexible
y concurrente y permiten manipular grandes cantidades de informacin de manera mucho ms
rpida que las bases de datos relacionales.
Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas
o diccionarios de datos, donde se accede al dato a partir de una clave nica. Los valores (datos)
son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden
ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de
almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere
un formateo de los datos muy estricto.
Son tiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad
de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados
los archivos que hay que incluir segn el id de usuario y que han sido calculados con
anterioridad. Apache Cassandra es la tecnologa de almacenamiento clave-valor ms reconocida
por los usuarios.
Almacenamiento documental: las bases de datos documentales guardan un gran parecido con
las bases de datos Clave-Valor, diferencindose en el dato que guardan. Si en el anterior no se
requera una estructura de datos concreta, en este caso guardamos datos semiestructurados.
Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary
JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave nica con la que pueden ser accedidos e identificados
explcitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados
y lanzar queries sobre ellos. Un ejemplo que aclare cmo se usa lo encontramos en un blog: se
almacena el autor, la fecha, el ttulo, el resumen y el contenido del post.
CouchDB o MongoDB son quiz las ms conocidas. Hay que hacer mencin especial
a MapReduce, una tecnologa de Google inicialmente diseada para su algoritmo PageRank, que
permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra
coleccin, y a Hadoop que es una tecnologa de Apache diseada para almacenar y procesar
grandes cantidades de datos.
Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan
en la teora de grafos, donde se establece que la informacin son los nodos y las relaciones entre
la informacin son las aristas, algo similar al modelo relacional. Su mayor uso se contempla en
casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo,
los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las
operaciones de join se sustituyen por recorridos a travs del grafo, y se guarda una lista de
adyacencias entre los nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada
nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios,
o aristas de publicacin con nodos de contenidos. Soluciones como Neo4J y GraphDB son las
ms conocidas dentro de las bases de datos en grafo.