You are on page 1of 13

DATOS, INFORMACIN Y CONOCIMIENTO

En qu se diferencia el conocimiento de los datos y de la informacin? En una conversacin


informal, los tres trminos suelen utilizarse indistintamente y esto puede llevar a una
interpretacin libre del concepto de conocimiento. Quizs la forma ms sencilla de diferenciar
los trminos sea pensar que los datos estn localizados en el mundo y el conocimiento est
localizado en agentes de cualquier tipo (personas, empresas, mquinas...), mientras que la
informacin adopta un papel mediador entre ambos.

Los conceptos que se muestran a continuacin se basan en las definiciones de Davenport y


Prusak (1999).

DATOS

Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de
informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin se
pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qu de las
cosas y no son orientativos para la accin. Ejemplo: El precio del crudo de petrleo es de $80
dlares por barril.

Tambien un dato es un conjunto discreto, de factores objetivos sobre un hecho real. Dentro de
un contexto empresarial, el concepto de dato es definido como un registro de transacciones. Un
dato no dice nada sobre el porqu de las cosas, y por s mismo tiene poca o ninguna relevancia
o propsito. Las organizaciones actuales normalmente almacenan datos mediante el uso de
tecnologas.

Desde un punto de vista cuantitativo, las empresas evalan la gestin de los datos en trminos
de coste, velocidad y capacidad. Todas las organizaciones necesitan datos y algunos sectores
son totalmente dependientes de ellos. Bancos, compaas de seguros, agencias
gubernamentales y la Seguridad Social son ejemplos obvios. En este tipo de organizaciones la
buena gestin de los datos es esencial para su funcionamiento, ya que operan con millones de
transacciones diarias. Pero en general, para la mayora de las empresas tener muchos datos no
siempre es bueno.

Las organizaciones almacenan datos sin sentido. Realmente esta actitud no tiene sentido por
dos razones. La primera es que demasiados datos hacen ms complicado identificar aquellos
que son relevantes. Segundo, y todava ms importante, es que los datos no tienen significado
en s mismos. Los datos describen nicamente una parte de lo que pasa en la realidad y no
proporcionan juicios de valor o interpretaciones, y por lo tanto no son orientativos para la
accin. La toma de decisiones se basar en datos, pero estos nunca dirn lo que hacer. Los datos
no dicen nada acerca de lo que es importante o no. A pesar de todo, los datos son importantes
para las organizaciones, ya que son la base para la creacin de informacin.

Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisin.
Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico como un papel,
un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una persona. En este sentido
las tecnologas de la informacin han aportado mucho a recopilacin de datos.

Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organizacin,
pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.

Existen dos tipos de datos: los estructurados y los no estructurados.

Los datos estructurados son aquellos que tienen un modelo definido o residen dentro
de un campo fijo que se encuentra en un registro, como las bases de datos de clientes
de una empresa dedicada al comercio minorista o los precios de acciones en la bolsa.
Por otro lado,
Los datos no estructurados son aquellos que no tienen un modelo predefinido o no
estn organizados de una manera definida, ejemplos de estos datos son las
publicaciones en redes sociales o documentos de texto.

INFORMACIN

La informacin se puede definir como un conjunto de datos procesados y que tienen un


significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin debe
tomar decisiones, al disminuir su incertidumbre. Ejemplo: El precio del crudo de petrleo ha
subido de $70 a $80 dlares por barril aporta significado a los datos, por eso se dice que aporta
informacin a la persona que estudia los precios del crudo.

Como han hecho muchos investigadores que han estudiado el concepto de informacin, lo
describiremos como un mensaje, normalmente bajo la forma de un documento o algn tipo de
comunicacin audible o visible. Como cualquier mensaje, tiene un emisor y un receptor. La
informacin es capaz de cambiar la forma en que el receptor percibe algo, es capaz de impactar
sobre sus juicios de valor y comportamientos. Tiene que informar; son datos que marcan la
diferencia. La palabra informar significa originalmente dar forma a y la informacin es capaz
de formar a la persona que la consigue, proporcionando ciertas diferencias en su interior o
exterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el que decide si el
mensaje que ha recibido es realmente informacin, es decir, si realmente le informa. Un informe
lleno de tablas inconexas, puede ser considerado informacin por el que lo escribe, pero a su
vez puede ser juzgado como ruido por el que lo recibe. La informacin se mueve en torno a
las organizaciones a travs de redes formales e informales. Las redes formales tienen una
infraestructura visible y definida: cables, buzones de correo electrnico, direcciones,... Los
mensajes que estas redes proporcionan incluyen e-mail, servicio de entrega de paquetes, y
transmisiones a travs de Internet. Las redes informales son invisibles. Se hacen a medida. Un
ejemplo de este tipo de red es cuando alguien te manda una nota o una copia de un artculo con
las siglas FYI (For Your Information). A diferencia de los datos, la informacin tiene significado
(relevancia y propsito). No slo puede formar potencialmente al que la recibe, si no que est
organizada para algn propsito. Los datos se convierten en informacin cuando su creador les
aade significado.

Los datos se pueden transforman en informacin aadindoles valor:

Contextualizando: se sabe en qu contexto y para qu propsito se generaron.


Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
Calculando: los datos pueden haber sido procesados matemtica o estadsticamente.
Corrigiendo: se han eliminado errores e inconsistencias de los datos.
Condensando: los datos se han podido resumir de forma ms concisa (agregacin).

Un problema muy comn es confundir la informacin (o el conocimiento) con la tecnologa que


la soporta. Desde la televisin a Internet, es importante tener en cuenta que el medio no es el
mensaje. Lo que se intercambia es ms importante que el medio que se usa para hacerlo.
Muchas veces se comenta que tener un telfono no garantiza mantener conversaciones
brillantes. En definitiva, que actualmente tengamos acceso a ms tecnologas de la informacin
no implica que hayamos mejorado nuestro nivel de informacin.

Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz de


cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor y sus
comportamientos.

Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)

CONOCIMIENTO

El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve como
marco para la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se
origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no slo se
encuentra dentro de documentos o almacenes de datos, sino que tambin est en rutinas
organizativas, procesos, prcticas, y normas. Ejemplo: La declaracin cuando los precios del
crudo suben $10 dlares por barril, es probable que los precios de la gasolina suban 2 centavos
por litro, expresa conocimiento

La mayora de la gente tiene la sensacin intuitiva de que el conocimiento es algo ms amplio,


ms profundo y ms rico que los datos y la informacin. Vamos a intentar realizar una primera
definicin de conocimiento que nos permita comunicar que queremos decir cuando hablamos
de conocimiento dentro de las organizaciones. Para Davenport y Prusak (1999) el conocimiento
es una mezcla de experiencia, valores, informacin y saber hacer que sirve como marco para
la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se origina y aplica
en la mente de los conocedores. En las organizaciones con frecuencia no slo se encuentra
dentro de documentos o almacenes de datos, sino que tambin est en rutinas organizativas,
procesos, prcticas, y normas. Lo que inmediatamente deja claro la definicin es que ese
conocimiento no es simple. Es una mezcla de varios elementos; es un flujo al mismo tiempo que
tiene una estructura formalizada; es intuitivo y difcil de captar en palabras o de entender
plenamente de forma lgica.

El conocimiento existe dentro de las personas, como parte de la complejidad humana y de


nuestra impredecibilidad. Aunque solemos pensar en activos definibles y concretos, los activos
de conocimiento son mucho ms difciles de manejar. El conocimiento puede ser visto como un
proceso (flujo) o como un stock.
El conocimiento se deriva de la informacin, as como la informacin se deriva de los datos. Para
que la informacin se convierta en conocimiento es necesario realizar acciones como:

Comparacin con otros elementos.


Prediccin de consecuencias.
Bsqueda de conexiones.
Conversacin con otros portadores de conocimiento.

Estas actividades de creacin de conocimiento tienen lugar dentro y entre personas. Al igual que
encontramos datos en registros, e informacin en mensajes, podemos obtener conocimiento de
individuos, grupos de conocimiento, o incluso en rutinas organizativas.

CONVERTIR DATOS EN INFORMACIN

Los datos se transforman en informacin cuando se aplican a un propsito concreto y


proporcionan valor al receptor. Por ejemplo, un listado de cifras de ventas son puros datos. Para
el Director de Ventas encargado de resolver un problema de bajada de ventas en una regin
determinada o de decidir la direccin de una nueva iniciativa de ventas, esos datos crudos
tendrn que ser procesados y transformados en un reporte. Ese reporte de ventas es lo que
proporcionar la informacin.

Recopilar datos es caro, y para que el esfuerzo merezca la pena hay que tener muy claro lo que
necesitamos y cmo vamos a usarlo. Una de las principales finalidades de que las organizaciones
recopilen datos es monitorizar y mejorar su rendimiento. Medir lo que importa podra ser un
poco clich, pero si usted quiere tener la informacin que precisa para supervisar y mejorar el
funcionamiento de su organizacin, necesitar:

Recopilar datos de los indicadores que realmente afectan al rendimiento


Recopilar datos de forma confiable y peridica
Ser capaz de transformar los datos en la informacin que usted necesita

Para que sean tiles, los datos deben satisfacer diversas condiciones. Deben ser:

Relevantes para el propsito especfico


Completos
Ciertos
Actuales; los datos que llegan despus de tomada la decisin no valen nada
En el formato correcto; la informacin slo puede analizarse en una hoja de clculo si
todos los datos pueden ser ingresados en el sistema de cmputo
Disponibles a un precio adecuado; los beneficios que aporten los datos deben justificar
su costo de adquisicin o recopilacin.

El mismo criterio es aplicable a la informacin, por ello se habla repetidamente de la importancia


de:

Obtener la informacin apropiada y


Obtener la informacin correctamente

Un gerente que est investigando la falta de puntualidad de los trenes de una lnea en particular
necesita tener toda la informacin de llegada de los trenes de esa lnea. Los datos de otras lneas
son irrelevantes, a menos que las demoras estn causando problemas de conexin en otras
lneas.
Tan importante como tener esos datos ser que el gerente los emplee correctamente. Un da
de trabajo de ingeniera tendr un impacto enorme en los resultados de toda una semana. Si los
resultados se interpretan errneamente, se podra llegar a identificar un problema donde no lo
hay.

CONVERTIR INFORMACIN EN CONOCIMIENTO

En ltima instancia, la gran cantidad de informacin generada slo ser til si puede aplicarse a
la creacin de conocimiento dentro de la organizacin. Acumular y organizar conocimientos es
uno de los grandes retos que enfrentan las organizaciones en el siglo XXI. Se platica mucho sobre
la economa del conocimiento y para muchas organizaciones es ese conocimiento o know how
lo que define su ventaja competitiva.

Con frecuencia se confunden o mezclan los trminos informacin y conocimiento. Para


aclararlo, resulta til pensar en dos tipos de conocimiento:

Formal, explcito o generalmente disponible. Este es el conocimiento que ha sido capturado y


utilizado para desarrollar polticas y procedimientos operativos, por ejemplo.

Instintivo, subconsciente, tcito u oculto. Dentro de las organizaciones hay personas con
conocimientos especficos o que estn en posesin de cierto know how: El ao pasado hice
algo muy parecido y esto es lo que sucedi.

Obviamente, ambos tipos de conocimiento son esenciales para la organizacin.

La informacin por s sola no crea una organizacin basada en el conocimiento pero es un pilar
fundamental para ello. Tener la informacin correcta impulsa el desarrollo de capital intelectual,
lo que a su vez promueve la innovacin y mejora el rendimiento.

LOS DATOS PRODUCEN CONOCIMIENTO TIL PARA LAS EMPRESAS

Aprovechar los datos permite a las empresas conseguir sus objetivos de negocio y estar un paso
delante de su competencia. Pero la cada vez mayor cantidad de datos existentes obliga a las
empresas a saber en realidad cmo encontrar y aprovechar los datos que son relevantes para el
negocio, aquellos que permitan tomar decisiones ms rpidas y mejor informadas, aquellos que
generan informacin de valor.

Un proceso para determinar qu datos son tiles es la minera de datos, cuya finalidad es buscar
lo que puede ser til para la empresa y desechar aquello que no lo es. Pero en la actualidad ese
concepto podra cambiar. Mick McWilliams, SVP De Metodologa de Investigacin en LRW,
sugiere que ese nombre podra ser errneo. La minera de datos debera llamarse minera de
conocimiento.

SISTEMA DE INFORMACIN

Un sistema de informacin es un conjunto de elementos interrelacionados que recogen,


procesan y almacenan, adaptados al procedimiento y administracin de datos e informacin,
organizados y listos para su uso posterior, creados para satisfacer una necesidad o un objetivo.

Estos elementos formarn parte de alguna de las siguientes clases:

Personas.
Datos.
Actividades o tcnicas de trabajo.
Recursos materiales en general (generalmente recursos informticos y de
comunicacin, aunque no necesariamente).

Principales tipos de informacin en organizaciones

Sistemas de apoyo a ejecutivos (ESS) Executive Support Systems


Sistemas de apoyo a la toma de decisiones (DSS) Decision Support Systems
Sistemas de Informacin Gerencial (MIS) Management Information Systems
Sistemas de trabajo de conocimiento (KWS) Knowledge Work Systems
Sistemas de Automatizacin de Oficina (OAS) Office Automation Systems.
Sistemas de procesamiento de transacciones (TPS) Transaction Processing Systems

BIG DATA
Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo
tamao (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan
su captura, gestin, procesamiento o anlisis mediante tecnologas y herramientas
convencionales, tales como bases de datos relacionales y estadsticas convencionales o
paquetes de visualizacin, dentro del tiempo necesario para que sean tiles.

Aunque el tamao utilizado para determinar si un conjunto de datos determinado se considera


Big Data no est firmemente definido y sigue cambiando con el tiempo, la mayora de los
analistas y profesionales actualmente se refieren a conjuntos de datos que van desde 30-50
Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de


gran parte de los datos generados por las tecnologas modernas, como los web logs, la
identificacin por radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehculos, las bsquedas en Internet, las redes sociales como Facebook,
computadoras porttiles, telfonos inteligentes y otros telfonos mviles, dispositivos GPS y
registros de centros de llamadas.

En la mayora de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con
datos estructurados (normalmente de una base de datos relacional) de una aplicacin comercial
ms convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer
Relationship Management).

IMPORTANCIA DEL BIG DATA

Lo que hace que Big Data sea tan til para muchas empresas es el hecho de que proporciona
respuestas a muchas preguntas que las empresas ni siquiera saban que tenan. En otras
palabras, proporciona un punto de referencia. Con una cantidad tan grande de informacin, los
datos pueden ser moldeados o probados de cualquier manera que la empresa considere
adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una forma
ms comprensible.

La recopilacin de grandes cantidades de datos y la bsqueda de tendencias dentro de los datos


permiten que las empresas se muevan mucho ms rpidamente, sin problemas y de manera
eficiente. Tambin les permite eliminar las reas problemticas antes de que los problemas
acaben con sus beneficios o su reputacin.

El anlisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios ms
inteligentes, operaciones ms eficientes, mayores ganancias y clientes ms felices. Las empresas
con ms xito con Big Data consiguen valor de las siguientes formas:

Reduccin de coste. Las grandes tecnologas de datos, como Hadoop y el anlisis basado en la
nube, aportan importantes ventajas en trminos de costes cuando se trata de almacenar
grandes cantidades de datos, adems de identificar maneras ms eficientes de hacer negocios.

Ms rpido, mejor toma de decisiones. Con la velocidad de Hadoop y la analtica en memoria,


combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar
la informacin inmediatamente y tomar decisiones basadas en lo que han aprendido.

Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la
satisfaccin a travs de anlisis viene el poder de dar a los clientes lo que quieren. Con la analtica
de Big Data, ms empresas estn creando nuevos productos para satisfacer las necesidades de
los clientes.

Por ejemplo:

A. Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la
satisfaccin del cliente puede ser difcil de medir, especialmente en el momento
oportuno. Resorts y casinos, por ejemplo, slo tienen una pequea oportunidad de dar
la vuelta a una mala experiencia de cliente. El anlisis de Big data ofrece a estas
empresas la capacidad de recopilar datos de los clientes, aplicar anlisis e identificar
inmediatamente posibles problemas antes de que sea demasiado tarde.
B. Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria.
Los registros de pacientes, planes de salud, informacin de seguros y otros tipos de
informacin pueden ser difciles de manejar, pero estn llenos de informacin clave una
vez que se aplican las analticas. Es por eso que la tecnologa de anlisis de datos es tan
importante para el cuidado de la salud. Al analizar grandes cantidades de informacin -
tanto estructurada como no estructurada - rpidamente, se pueden proporcionar
diagnsticos u opciones de tratamiento casi de inmediato.
C. Administracin: La administracin se encuentra ante un gran desafo: mantener la
calidad y la productividad con unos presupuestos ajustados. Esto es particularmente
problemtico con lo relacionado con la justicia. La tecnologa agiliza las operaciones
mientras que da a la administracin una visin ms holstica de la actividad.
D. Retail: El servicio al cliente ha evolucionado en los ltimos aos, ya que los compradores
ms inteligentes esperan que los minoristas comprendan exactamente lo que necesitan,
cuando lo necesitan. El Big Data ayuda a los minoristas a satisfacer esas demandas.
Armados con cantidades interminables de datos de programas de fidelizacin de
clientes, hbitos de compra y otras fuentes, los minoristas no slo tienen una
comprensin profunda de sus clientes, sino que tambin pueden predecir tendencias,
recomendar nuevos productos y aumentar la rentabilidad.
E. Empresas manufactureras: Estas despliegan sensores en sus productos para recibir
datos de telemetra. A veces esto se utiliza para ofrecer servicios de comunicaciones,
seguridad y navegacin. sta telemetra tambin revela patrones de uso, tasas de
fracaso y otras oportunidades de mejora de productos que pueden reducir los costos de
desarrollo y montaje.
F. Empresas-Redes sociales
Cada vez ms los internautas tienden a subir a las redes sociales toda su actividad y la
de sus conocidos. Las empresas utilizan esta informacin para cruzar los datos de los
candidatos a un trabajo. Oracle ha desarrollado una herramienta llamada Taleo Social
Sourcing,36 la cual est integrada con las API de Facebook, Twitter y LinkedIn. Gracias a
su uso, los departamentos de recursos humanos pueden ver, entrando la identidad del
candidato, su perfil social y profesional en cuestin de segundos. Por otro lado, les
permite crear una lista de posibles candidatos segn el perfil profesional necesario, y as
pasar a ofrecer el puesto de trabajo a un pblico mucho ms objetivo.Por otro lado,
Gate Gourmet una compaa de cterin para aerolneas experimentaba una tasa de
abandono del 50 % de sus trabajadores asignados al aeropuerto de Chicago, y
sospecharon que el problema exista en el tiempo dedicado al viaje. Para demostrarlo,
hicieron anlisis juntando varios data sets de sus sistemas internos y de otros externos
como datos demogrficos, datos de trfico y datos de uso de redes sociales. Los
resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la
alta tasa de abandono con la distancia del lugar de trabajo a casa y la accesibilidad al
transporte pblico.37
G. Empresas -consumo
Amazon es lder en ventas cruzadas. El xito se basa en la minera de datos masiva
basando los patrones de compra de un usuario cruzados con los datos de compra de
otro, creando as anuncios personalizados y boletines electrnicos que incluyen justo
aquello que el usuario quiere en ese instante.38 Tambin hay casos sin conexin de
aplicaciones de macrodatos. Los telfonos mviles envan peticiones de escucha WiFi a
todos los puntos de acceso que se cruzan. Algunas compaas han decidido hacer un
trazo de estas peticiones con su localizacin y direccin MAC para saber qu dispositivo
hace cul ruta dentro de un recinto. No hay que asustarse ya que con la direccin MAC
no pueden invadir la intimidad.39 Las grandes superficies aprovechan estos datos para
sacar informacin como contabilizar cunto tiempo pasan los clientes en su interior, qu
rutas siguen, dnde permanecen ms tiempo (ya sea escogiendo un producto o el
tiempo de espera en caja) o cul es la frecuencia de visita.
H. Publicidad: La proliferacin de telfonos inteligentes y otros dispositivos GPS ofrece a
los anunciantes la oportunidad de dirigirse a los consumidores cuando estn cerca de
una tienda, una cafetera o un restaurante. Esto abre nuevos ingresos para los
proveedores de servicios y ofrece a muchas empresas la oportunidad de conseguir
nuevos prospectos.
I. Otros ejemplos del uso efectivo de Big Data existen en las siguientes reas:

Uso de registros de logs de TI para mejorar la resolucin de problemas de TI, as como


la deteccin de infracciones de seguridad, velocidad, eficacia y prevencin de sucesos
futuros.

Uso de la voluminosa informacin histrica de un Call Center de forma rpida, con el fin
de mejorar la interaccin con el cliente y aumentar su satisfaccin.

Uso de contenido de medios sociales para mejorar y comprender ms rpidamente el


sentimiento del cliente y mejorar los productos, los servicios y la interaccin con el
cliente.

Deteccin y prevencin de fraudes en cualquier industria que procese transacciones


financieras online, tales como compras, actividades bancarias, inversiones, seguros y
atencin mdica.

Uso de informacin de transacciones de mercados financieros para evaluar ms


rpidamente el riesgo y tomar medidas correctivas.

DESAFOS DE LA CALIDAD DE DATOS EN BIG DATA

Las especiales caractersticas del Big Data hacen que su calidad de datos se enfrente a mltiples
desafos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad, Variedad, Veracidad y Valor,
que definen la problemtica del Big Data.

Estas 5 caractersticas del big data provocan que las empresas tengan problemas para extraer
datos reales y de alta calidad, de conjuntos de datos tan masivos, cambiantes y complicados.

Hasta la llegada del Big Data, mediante ETL podamos cargar la informacin estructurada que
tenamos almacenada en nuestro sistema ERP y CRM, por ejemplo. Pero ahora, podemos cargar
informacin adicional que ya no se encuentra dentro de los dominios de la empresa:
comentarios o likes en redes sociales, resultados de campaas de marketing, datos estadsticos
de terceros, etc. Todos estos datos nos ofrecen informacin que nos ayuda a saber si nuestros
productos o servicios estn funcionando bien o por el contrario estn teniendo problemas.

ALGUNOS DESAFOS A LOS QUE SE ENFRENTA LA CALIDAD DE DATOS DE BIG DATA SON:

1. Muchas fuentes y tipos de datos

Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integracin de datos
aumenta.

Las fuentes de datos de big data son muy amplias:

Datos de internet y mviles.


Datos de Internet de las Cosas.
Datos sectoriales recopilados por empresas especializadas.
Datos experimentales.

Y los tipos de datos tambin lo son:

Tipos de datos no estructurados: documentos, vdeos, audios, etc.


Tipos de datos semi-estructurados: software, hojas de clculo, informes.
Tipos de datos estructurados

Solo el 20% de informacin es estructurada y eso puede provocar muchos errores si no


acometemos un proyecto de calidad de datos.

2. Tremendo volumen de datos

Como ya hemos visto, el volumen de datos es enorme, y eso complica la ejecucin de un proceso
de calidad de datos dentro de un tiempo razonable.

Es difcil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rpida. Se necesita
mucho tiempo para transformar los tipos no estructurados en tipos estructurados y procesar
esos datos.

3. Mucha volatilidad

Los datos cambian rpidamente y eso hace que tengan una validez muy corta. Para solucionarlo
necesitamos un poder de procesamiento muy alto.

Si no lo hacemos bien, el procesamiento y anlisis basado en estos datos puede producir


conclusiones errneas, que pueden llevar a cometer errores en la toma de decisiones.

4. No existen estndares de calidad de datos unificados

En 1987 la Organizacin Internacional de Normalizacin (ISO) public las normas ISO 9000 para
garantizar la calidad de productos y servicios. Sin embargo, el estudio de los estndares de
calidad de los datos no comenz hasta los aos noventa, y no fue hasta 2011 cuando ISO public
las normas de calidad de datos ISO 8000.

Estas normas necesitan madurar y perfeccionarse. Adems, la investigacin sobre la calidad de


datos de big data ha comenzado hace poco y no hay apenas resultados.

La calidad de datos de big data es clave, no solo para poder obtener ventajas competitivas sino
tambin impedir que incurramos en graves errores estratgicos y operacionales basndonos en
datos errneos con consecuencias que pueden llegar a ser muy graves.

HERRAMIENTAS QUE UTILIZA EL BIG DATA

Existen muchsimas herramientas para tratar con big data. Algunos ejemplos incluyen Hadoop,
NoSQL, Cassandra, Inteligencia empresarial, Aprendizaje automtico y MapReduce. Estas
herramientas tratan con algunos de los tres tipos de big data

A. Datos estructurados: datos que tienen bien definidos su longitud y su formato, como
las fechas, los nmeros o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo
son las bases de datos relacionales y las hojas de clculo.
B. Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen
de un formato especfico. No se pueden almacenar dentro de una tabla ya que no se
puede desgranar su informacin a tipos bsicos de datos. Algunos ejemplos son los PDF,
documentos multimedia, correos electrnicos o documentos de texto.
C. Datos semiestructurados: datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos. Es una informacin poco
regular como para ser gestionada de una forma estndar. Estos datos poseen sus
propios metadatos semiestructurados19 que describen los objetos y las relaciones entre
ellos, y pueden acabar siendo aceptados por convencin. Un ejemplo es el HTML, el XML
o el JSON.

CAPTURA Y EMPRESAS QUE LA UTILIZAN EL BIG DATA

Catalogamos la procedencia de los datos segn las siguientes categoras:

Generados por las personas: el hecho de enviar correos electrnicos o mensajes


por WhatsApp, publicar un estado en Facebook, tuitear contenidos o responder a una
encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos
y metadatos que pueden ser analizados. Se estima que cada minuto al da se envan ms
de 200 millones de correos electrnicos, se comparten ms de 700.000 piezas de
contenido en Facebook, se realizan dos millones de bsquedas en Google o se editan 48
horas de vdeo en YouTube. Por otro lado, las trazas de utilizacin en un sistema ERP,
incluir registros en una base de datos o introducir informacin en una hoja de
clculo son otras formas de generar estos datos.

Transacciones de datos: la facturacin, las llamadas o las transacciones entre cuentas


generan informacin que tratada puede ser datos relevantes. Un ejemplo ms claro lo
encontraremos en las transacciones bancarias: lo que el usuario conoce como un
ingreso de X euros, la computacin lo interpretar como una accin llevada a cabo en
una fecha y momento determinado, en un lugar concreto, entre unos usuarios
registrados, y ms metadatos.

Marketing electrnico y web: se generan una gran cantidad de datos cuando se navega
por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los
mismos usuarios se convierten en creadores de contenido gracias a su interaccin con
el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayora con fines
de marketing y anlisis de negocio. Los movimientos de ratn quedan grabados
en mapas de calor y queda registro de cunto pasamos en cada pgina y cundo las
visitamos.

Mquina a mquina (machine to machine, M2M): son las tecnologas que comparten
datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de
presin, de sonido que transforman las magnitudes fsicas o qumicas y las convierten
en datos. Existen desde hace dcadas, pero la llegada de las comunicaciones
inalmbricas (Wi-Fi, Bluetooth, RFID) ha revolucionado el mundo de los sensores.
Algunos ejemplos son los GPS en la automocin o los sensores de signos vitales en la
medicina.

Biomtrica: son el conjunto de datos que provienen de la seguridad, defensa y servicios


de inteligencia. Son cantidades de datos generados por lectores biomtricos como
escneres de retina, escneres de huellas digitales, o lectores de cadenas de ADN. El
propsito de estos datos es proporcionar mecanismos de seguridad y suelen estar
custodiados por los ministerios de defensa y departamentos de inteligencia. Un ejemplo
de aplicacin es el cruce de ADN entre una muestra de un crimen y una muestra en
nuestra base de datos.

ALMACENAMIENTO

El trmino NoSQL se refiere a Not Only SQL y son sistemas de almacenamiento que no cumplen
con el esquema entidad-relacin. Proveen un sistema de almacenamiento mucho ms flexible
y concurrente y permiten manipular grandes cantidades de informacin de manera mucho ms
rpida que las bases de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas
o diccionarios de datos, donde se accede al dato a partir de una clave nica. Los valores (datos)
son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden
ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de
almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere
un formateo de los datos muy estricto.

Son tiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad
de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados
los archivos que hay que incluir segn el id de usuario y que han sido calculados con
anterioridad. Apache Cassandra es la tecnologa de almacenamiento clave-valor ms reconocida
por los usuarios.

Almacenamiento documental: las bases de datos documentales guardan un gran parecido con
las bases de datos Clave-Valor, diferencindose en el dato que guardan. Si en el anterior no se
requera una estructura de datos concreta, en este caso guardamos datos semiestructurados.
Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary
JSON o el que acepte la misma base de datos.

Todos los documentos tienen una clave nica con la que pueden ser accedidos e identificados
explcitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados
y lanzar queries sobre ellos. Un ejemplo que aclare cmo se usa lo encontramos en un blog: se
almacena el autor, la fecha, el ttulo, el resumen y el contenido del post.

CouchDB o MongoDB son quiz las ms conocidas. Hay que hacer mencin especial
a MapReduce, una tecnologa de Google inicialmente diseada para su algoritmo PageRank, que
permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra
coleccin, y a Hadoop que es una tecnologa de Apache diseada para almacenar y procesar
grandes cantidades de datos.

Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan
en la teora de grafos, donde se establece que la informacin son los nodos y las relaciones entre
la informacin son las aristas, algo similar al modelo relacional. Su mayor uso se contempla en
casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo,
los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las
operaciones de join se sustituyen por recorridos a travs del grafo, y se guarda una lista de
adyacencias entre los nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada
nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios,
o aristas de publicacin con nodos de contenidos. Soluciones como Neo4J y GraphDB son las
ms conocidas dentro de las bases de datos en grafo.

Almacenamiento orientado a columnas: por ltimo, el almacenamiento Column-Oriented es


parecido al Documental. Su modelo de datos es definido como un mapa de
datos multidimensional poco denso, distribuido y persistente. Se orienta a almacenar datos con
tendencia a escalar horizontalmente, por lo que permite guardar
diferentes atributos y objetos bajo una misma clave. A diferencia del documental y el clave-
valor, en este caso se pueden almacenar varios atributos y objetos, pero no sern interpretables
directamente por el sistema. Permite agrupar columnas en familias y guardar la informacin
cronolgicamente, mejorando el rendimiento. Esta tecnologa se acostumbra a usar en casos con
100 o ms atributos por clave. Su precursor es BigTable de Google, pero han aparecido nuevas
soluciones como HBase o HyperTable.

You might also like