Big Data

Introducción

En el Siglo XXI ha aumentado la movilidad, las redes sociales, banda ancha, la computación en la nube, la geolocalización, y se han reducido los costos de conectividad. Esto trajo aparejado un problema, ya que los volúmenes de datos comenzaron a crecer de modo exponencial; como ejemplo podemos citar que en el año 2012 se crearon en todo el mundo 2.8 ZB de datos (1ZB=1 billón de gigabytes), de acuerdo a datos de la consultora IDC (International Data Corporation) en su estudio “El Universo Digital de Datos 2012” publicado en diciembre del 2012.

Big Data ya es una realidad establecida. Los analistas de datos y científicos de datos son y serán los profesionales más buscados por las empresas.

La cantidad de datos que cada día se genera, captura, almacena y posteriormente analiza ha dado origen a la nueva tendencia que conocemos como Big Data.

Big Data no solo consiste en tomar información de las redes sociales, sino que abarca un concepto más amplio, como por ejemplo M2M (machine to machine) o internet de las cosas, mejoras en el sector de salud (diagnóstico médico), implementación de ciudades inteligentes (Smart Cities), etc.

Esta revolución de datos propone un cambio en la toma de decisiones, en adelante las empresas que no implementen Big Data se verán en inferioridad de condiciones con respecto a las que sí lo hagan.

Han entrado en escena nuevas profesiones emergentes dentro del mundo de la tecnología, tales como el Data Scientist o científico de datos, quien deberá tener una formación estadística y analítica.

El análisis de datos ha ido evolucionando a medida que los grandes volúmenes de datos iban creciendo y las herramientas de inteligencia de negocios han ido tomando las tecnologías bien de OLAP (procesamiento analítico en línea) o bien de informes y consultas (ReportingQueries). Big Data en cambio, toma información de minería Web, de texto y social para la toma de decisiones.

Definición de Big Data

Conforme a una de las más prestigiosas consultoras tecnológicas, IDC, Big Data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes a alta velocidad, extrayendo, además, valor económico.

Como se ve en la definición, se hace hincapié en 3 factores, velocidad, variedad y volumen, no obstante, también se agregan valor y veracidad, formando lo que se conoce como “Modelo V5”.

Además, se hace especial hincapié en la convivencia entre sistemas tradicionales (Datawarehouse DW, sistemas de gestión de base de datos RDBMS versus sistemas no tradicionales (clicks web, mail, notas, etc.).
A medida que avance el tiempo será necesario más volumen de datos para ser considerado Big Data. Los tiempos de procesamiento desbordan las capacidades de los servidores de bases de datos relacionales y la probabilidad de fallos exige el procesamiento en paralelo con redundancia.  Ejemplos de aplicabilidad de Big Data son, Log DataSocial Sentiment Analysis (análisis social de sentimientos), procesamiento de imágenes, detección de fraudes, etc.  Big Data utiliza un framework para el almacenamiento de datos en clusters y tiene dos componentes, HDFS (Hadoop File System) y Map Reduce.

Arquitectura de Big Data

La arquitectura de Big Data debe de considerar la integración de las nuevas tecnologías y herramientas de los grandes volúmenes de datos y su integración con los datos tradicionales y con la infraestructura existente en las empresas.

Entradas

  • Social Media, M2M, movilidad, biometría, etc.
  • Datos estructurados (sqlserver, Oracle, etc)
  • Datos no estructurados (Cassandra, MongoDB, CouchDB, etc)
  • DataWarehouse
  • Bases de datos en memoria (SAP-HANA)

Proceso

  • Hadoop; framework para procesar grandes volúmenes de datos.

Salida

  • Herramientas de analítica e informes (reporting)
  • Consultas (query)

 

Componentes de Big Data

 

HDFS (Hadoop File System) permite dividir los datos de manera que sean procesados en forma distribuida.

 

Todo está duplicado: Ningún nodo que falle detiene el proceso.

 

Funcionamiento de Hadoop

 

En HadoopMapReduce se integra con HDFS para proporcionar los mismos beneficios en el procesamiento de datos.

Sectores estratégicos

Los sectores que se ven y verán más afectados por Big Data serán;

Salud: principalmente en investigación genómica, operativa clínica, atención al paciente y colaboración ciudadana.

Sector público: donde se aplica y aplicará en educación, seguridad interior y exterior, relaciones con el ciudadano, etc.

Consumo: distribución, viajes y alojamientos tomando datos de las redes sociales.

Comercio electrónico: integrando la gran cantidad de textos, imágenes, clicks, etc. con perfiles de clientes para mejorar la eficacia del comercio electrónico.

Según información obtenida de IDC (International Data Corporation) en el año 2011 en el sector Salud en Estados Unidos el uso de Big Data utilizado de manera creativa, eficiente y con calidad podía generar al sector un valor de más de 300 billones de dólares en un año, reduciendo los gastos de atención médica en Estados Unidos alrededor de un 8% y mejorando la calidad de atención al paciente.

En países más desarrollados de Europa, los sectores públicos podrían ahorrar más de 100 mil millones de euros en mejorar su gestión utilizando Big Data, sin incluir el uso de Big Data para reducir el fraude y los errores, aumentando así la recaudación de impuestos.

Además, las empresas dedicadas a estar continuamente en contacto con las redes sociales y social media, podrán analizar a gran velocidad los grandes volúmenes de datos que se presentarán en el futuro facilitando así la detección de patrones ocultos y correlaciones desconocidas en los usuarios. Todo lo anteriormente explicado será facilitado por las presentes y futuras tendencias en cuanto a; Big Data, Movilidad, Nube y Social Media provocando una gran explosión en los países emergentes.

Presente y futuro de Big Data

Muchísimo espacio para almacenar datos. Sitio suficiente para guardar 250.000 millones de DVD. Zettabyte es una palabra a la que tendremos que acostumbrarnos, porque a partir de ahora necesitaremos usarla para comprender la cantidad de información que se genera en todo el mundo. Según diversos cálculos del IDC, la cantidad de información almacenada en todo el mundo se duplica cada dos años y se debe en gran parte, según la misma empresa, a los contenidos de videos.

Las tendencias que se pueden ver para los próximos años se dividen en 4 pilares, la nube (cloud computing), lo social (social media), la movilidad (dispositivos) y Big Data. En los siguientes años se espera que el concepto de Big Data se popularice en las organizaciones y empresas. Para el 2020, de acuerdo a previsiones de IDC, habrá 40 ZB (zettabytes) de información digital en todo el planeta y habrá que sacar provecho a esa información mediante Big Data.

Compartir
Publicado el 16/08/2018
Origin Software
Content Manager

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *