BIG-DATA

Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.El concepto de Big Data también engloba las infraestructuras, tecnologías y servicios que han sido creados para poder gestionar esta gran cantidad de información.

PARA QUE SIRVE

Big Data es poder diseñar nuevos productos y servicios basándose en los nuevos insights que adquirimos sobre nuestros clientes, sobre nuestra competencia o el mercado en general.

TIPOS

DATOS ESTRUCTURADOS

Todos los datos que pueden almacenarse, consultarse y procesarse en forma de una clasificación fija se conocen como datos "estructurados".

DATOS NO ESTRUCTURADOS

Datos no estructurados es una fuente de datos heterogénea que contiene una combinación de archivos de texto simples, imágenes, vídeos, etc. Hay organizaciones que tienen una gran cantidad de datos, pero desafortunadamente no saben cómo pueden serle útiles esos datos.Un ejemplo de datos no estructurados son los resultados de búsqueda que Google Search le brinda.

DATOS SEMIESTRUCTURADOS

Los datos semiestructurados pueden contener ambas formas de datos. Podemos ver los datos semiestructurados como estructurados, pero no definidos, como una definición de tabla en el DBMS relacional. Ejemplo de datos semiestructurados es un archivo XML.

VENTAJAS Y DESVENTAJAS

VENTAJAS Mejora en la toma de decisionesFeedback a tiempo realConocimiento del mercadoTecnología del presente y del futuroDESVENTAJAS Ataques informáticosEl exceso de datosCiberseguridad

CARACTERISTICAS

VOLUMEN

Volumen de informaciónEL volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.

VELOCIDAD

La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a la rapidez en la que son creados, almacenados y procesados en tiempo real.

VARIEDAD

La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil.

VERACIDAD

Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida.Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra.

VIABILIDAD

La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.

VISUALIZACIÓN

Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar.

HERRAMIENTAS

Hadoopes una de las herramientas más habituales a la hora de procesar datos ya que es capaz de gestionar y analizar grandes volúmenes de información que después será de gran utilidad. Es imprescindible para el análisis de datos en tiemporeal y al ser la gran primera plataforma que salió a la luz sirve como modelo para las demás.Apache Storm permite analizar los flujos constantes de información con gran rapidez. Es capaz de procesar millones de datos en cuestión de segundos y las empresas utilizan esta herramienta para obtener la información que se genera en las redes sociales o para conocer cómo los usuarios están utilizando los servicios que ofrece la empresa.Pythonsu principal ventaja es que está destinada a cualquier usuario con nociones mínimas de informática. Es una herramienta muy eficiente porque en torno a ella se crea una gran comunidad de usuarios, aunque su principal inconveniente es que el proceso de ejecución es más lento que el de otros programas similares. Elasticsearch este sistema procesa grandes cantidades de datos a gran escala en tiempo real y con información de cualquier tipo. Además, ayuda a entender mejor los datos mediante diversos tipos de gráficos que evolucionan en tiempo real, usando aquellos que mejor se adapten para encontrar las respuestas a las preguntas que se plantean.Apache Spark es un motor de procesamiento de datos de código abierto que funciona con gran rapidez. Se considera el primer software open source que hace la programación distribuida muy accesible a los científicos de datos. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R.MongoDB pertenece a las bases de datos NoSQL y está orientada a entornos que requieren escalabilidad. Se está convirtiendo en una alternativa para almacenar los datos de las aplicaciones de los usuarios.