CONCLUSION
- De las herramientas de análisis de datos que utilizaría, en primera instancia sería Excel, ya que si decido tener una empresa, esta me brindaría un análisis de datos sencillos, ofrece medición del comportamiento de los consumidores, es decir, te permite conocer donde tuviste mas ingresos y mayor interés por parte de los consumidores; además, facilita la toma de decisiones, ya que al realizar el análisis de datos puedes conseguir mejores conclusiones sobre como ha avanzado la empresa en un periodo determinado de tiempo. Lo anterior, permite tomar decisiones más adecuadas para el futuro y potenciar aquellas estrategias ya aplicadas con buenos resultados. Otro factor muy importante por el cual utilizaría Excel es que facilita la detección de riesgos de negocio, debido a que las cifras pueden decir si existe la posibilidad de perder dinero o clientes, cabe resaltar que los riesgos es una empresa siempre van a existir, sin embargo, conocer estos datos permitirá reducirlo y tomar acciones oportunas y preventivas con el fin de que las consecuencias sean menores.
- Otra herramienta de análisis de datos que utilizaría es Power Bi, ya que permite hacer múltiples análisis de datos en un solo informe o panel, es decir, en un mismo Dashboard se pueden consultar múltiples análisis a la vez; además, es una herramienta que permite que estén conectados un alto número de usuarios, permitiendo así que los paneles se puedan publicar o compartir con toda la empresa, lo anterior fomenta el trabajo en equipo y el análisis de datos dentro de la compañía. Por otro lado, Power Bi, incluye herramientas como Power View y Power Map que permiten ver los datos en mapas geográficos, permitiendo así un análisis avanzado y mostrar, por ejemplo, los datos según variables de ubicación. Otro factor para destacar es que esta herramienta permite consultas en vivo, garantizando que se esté viendo la última versión del documento, ya que es colaborativo o está alojado en la nube, detecta tendencias y hace predicciones de lo que sucederá en una empresa sobre actividades de ventas. Cabe resaltar que Power Bi se integra a la perfección con Excel, los paneles de Power Bi se pueden exportar y conectar de una manera sencilla c
HERRAMIENTAS DE ANALISIS DE DATOS
PHYTON
Tiene numerosas bibliotecas y paquetes como Pandas, NumPy y Matplotlib, que facilitan la manipulación y visualización de datos.
- Lentitud
- Consumo de memoria
- Desarrollo móvil
- Lenguaje de alto nivel
- Polivalente y de paradigmas
- Bibliotecas y frameworks
- Portabilidad
- Gratis y de código abierto
- Baja curva de aprendizaje
- Comunidad fuerte
MATLAB
Es un entorno de programación y análisis numérico utilizado en ciencia e ingeniería. Es conocido por su amplia gama de funciones y herramientas para el análisis y visualización de datos.
- Gestión “oscura” de la memoria
- Problemas eventuales de velocidad
- Proceso laborioso susceptible a cometer errores en la programación de algoritmos; es conveniente depurar correctamente los códigos realizados.
- Distribución de ejecutables.
- Es preciso linkar con librerías numéricas y gráficas; y es usual que dependan del lenguaje de programación y del sistema operativo.
- El ordenador donde la aplicación tiene que ser utilizada necesita MCR(MATLAB Component Runtime) para que los archivos MATLAB funcionen correctamente.
- Las herramientas de debugging y profiling no suelen ser fáciles de utilizar para algunos usuarios.
- Con adecuadas optimizaciones, son rápidos en ejecución y de alta precisión.
- Amplio soporte Matemático además de posibilidad de uso de precisión extendida en los cálculos.
- Pueden ser paralelizados (MPI, PVM, OpenMP).
- Amplio soporte de funciones ya desarrolladas.
- Rápido prototipado.
- Integración con dispositivos hardware.
- Una comunidad muy extendida, hay foros en la web donde se comparten experiencias como soporte e ilustración a los usuarios.
- Comercial, es fácil de adquirir y no habrá problemas a la hora de interactuar con otros programadores.
R
Es especialmente conocido por sus capacidades estadísticas y gráficas. R cuenta con una amplia gama de paquetes para el análisis de datos específicos.
- No soporta gráficos en tres dimensiones o dinámicos. El resultado de cada informe puede ser algo pobre visualmente y bastante anticuado en comparación con el ofrecido por otros programas.
- Su lentitud le resta efectividad y competitividad. Existen lenguajes de programación más rápidos que ofrecen una capacidad de respuesta más adecuada.
- Los algoritmos no están unificados. Cada uno de ellos se almacena en un paquete distinto, por lo que hay que ir cambiando de opción para leer los datos obtenidos.
- Su origen está en S, un lenguaje de programación bastante anticuado que no ha sabido adaptarse a los tiempos. Otras alternativas, como Python, son más competitivas.
- Debido a la acumulación de opciones, aprender a manejarlo totalmente lleva bastante tiempo y no siempre es fácil de alcanzar este objetivo. No es la mejor opción para personas que no tienen cierto conocimiento previo de programación. Incluso programadores expertos cometen errores en su uso al necesitar una formación concreta en un lenguaje que tiene pocos puntos en común con otros con los que comparte objetivos.
- Sus restricciones y su incompatibilidad con otros lenguajes de programación impiden que se pueda usar para crear aplicaciones web.
- Acumula todos los datos en una única carpeta que termina ocupando demasiado espacio en una memoria física. Esta circunstancia conlleva que sea necesario volcar los datos de forma periódica para evitar el colapso de los dispositivos de almacenamiento.
- No tiene medidas de seguridad, por lo que es muy fácil de vulnerar por parte de los ciberdelincuentes. Poner en riesgo la información personal de los clientes de una empresa puede provocar la toma de medidas legales que terminen generando un serio problema económico.
- Su actualización constante conlleva tener que aprender las características de cada apartado continuamente. Así, el analista de los datos no siempre tendrá la seguridad necesaria al usar un programa en evolución permanente que puede cambiar de un día para otro.
- La adquisición de los datos a través de bases de datos o archivos.
- La preparación de la información recopilada eliminando datos duplicados, errores en la captación de datos y similares.
- El análisis de los datos para la creación de modelos de clasificación, predicción o agrupamiento, entre otros.
- La elaboración de un informe con los resultados del análisis listo para su uso.
- La valoración de los resultados y la puesta en marcha de las medidas que indiquen los modelos predictivos en comparación con los datos obtenidos en periodos anteriores.
POWER BI
Es una herramienta de análisis de datos y visualización empresarial desarrollada por Microsoft. Permite la conexión a diversas fuentes de datos, la creación de paneles interactivos y la colaboración en tiempo real.
- Personalización limitada de visualizaciones
- Integración limitada con otras herramientas
- Limitaciones de datos
- Unifica los procesos analíticos.
- Es una herramienta visual e intuitiva.
- Se integra con otras plataformas.
- Seguridad y privacidad.
- Más control y más rentabilidad.
TABLEAU
permite crear visualizaciones interactivas y tableros de control. Facilita la exploración y presentación de datos de manera intuitiva.
- No es posible usar las agregaciones COUNTD y MEDIAN en la conexión secundaria, lo que implica que tendrás que cambiar el formato para poder añadir los datos que tengas en estos lenguajes.
- A medida que empieces a implementar el mezclado de conexiones en Tableau notarás que habrá cierta pérdida de dinamismo en los filtros.
- En los cuadros de mando solo se pueden compartir filtros de hojas que tengan la misma conexión primaria.
- Evidentemente, la primera ventaja radica en que es posible utilizar datos de dos orígenes diferentes en el mismo informe.
- Los campos de la segunda conexión los podrás utilizar en cálculos junto con los de la conexión principal.
- El mezclado de conexiones en relaciones se caracteriza por ser flexible, ya que se adapta a la estructura del análisis según cada hoja de trabajo.
- Te brinda la posibilidad de usar los campos de la conexión secundaria como filtros.
EXCEL
Es una herramienta más conocida para hojas de cálculo, también se utiliza mucho para el análisis de datos. Ofrece funciones estadísticas y de manipulación de datos que permiten realizar análisis básicos.
- Problemas con las diferentes versiones
- Curva de aprendizaje
- Fórmulas complejas
- Manejo de grandes volúmenes de datos
- Costo de la licencia Microsoft
- Permite crear bases de datos muy completas
- Sus fórmulas disponibles
- Plantillas disponibles
- Funcionalidad de gráficos
- Tablas dinámicas
SAS
Es un conjunto de software utilizado para el análisis de datos y la minería de datos. Ofrece una amplia gama de funciones estadísticas y herramientas para el análisis de datos complejos.
- No es un código abierto
- De alto precio
- Mala representación gráfica
- Más resistente que R
- Dificultad en la minería de texto
Vemtajas
- Fácil de entender y aprender
- Fácilmente depurable
- Gran capacidad de gestión de bases de datos
- Alta seguridad de datos
- Servicios de atención al cliente adecuados
- Algoritmos completamente evaluados
- Asombrosa interfaz gráfica de usuario (GUI)
- Salida precisa
- Grandes oportunidades de trabajo
APACHE SPARK
Es otro marco de procesamiento de datos distribuido que ofrece un rendimiento rápido y eficiente. Proporciona capacidades de análisis en tiempo real y es compatible con varios lenguajes de programación, incluidos Python y R.
- Complejidad de configuración
- Requisitos de recursos
- Requisitos de recursos
- Dificultades de depuración
- Una plataforma de código abierto con una comunidad activa
- Una plataforma rápida
- Una plataforma unificada para gestionar datos
- Consola interactiva
- Una gran API para trabajar con los datos
SQL
Es un lenguaje de programación utilizado para administrar y consultar bases de datos relacionales. Permite extraer, manipular y analizar datos almacenados en bases de datos.
- SQL tiene una interfaz difícil que hace que pocos usuarios se sientan incómodos al tratar con la base de datos.
- Algunas versiones son costosas y, por lo tanto, los programadores no pueden acceder a ellas.
- Debido a las reglas comerciales ocultas, no se otorga un control completo a la base de datos.
- Se recupera una gran cantidad de datos de forma rápida y eficaz. Operaciones como inserción, borrado, manipulación de datos también se realizan en muy poco tiempo.
- Para la recuperación de datos, no se requiere una gran cantidad de líneas de código. Se utilizan todas las palabras clave básicas como SELECT, INSERT INTO, UPDATE, etc. y además las reglas sintácticas no son complejas en SQL, lo que lo convierte en un lenguaje fácil de usar.
- Debido a la documentación y el largo establecimiento durante años, proporciona una plataforma uniforme en todo el mundo para todos sus usuarios.
- Se puede utilizar en programas en PC, servidor, portátiles independientemente de cualquier plataforma (sistema operativo, etc). Además, se puede integrar con otras aplicaciones según la necesidad / requisito / uso.
- Fácil de aprender y comprender, las respuestas a consultas complejas se pueden recibir en segundos.
APACHE HADOOP
Es una plataforma de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadora. Es especialmente útil para el análisis de datos a gran escala.
Desventajas
- Hadoop no es adecuado para el acceso a datos de baja latencia.
- Hadoop no puede almacenar una gran cantidad de archivos pequeños de manera eficiente.
- Hadoop no admite la escritura multiusuario y la modificación arbitraria de archivos.
Ventajas
- Hadoop tiene una alta confiabilidad de almacenamiento de bits y capacidades de procesamiento de datos.
- Hadoop distribuye datos a través de los clústeres de computadoras disponibles para completar las tareas de almacenamiento y cálculo Estos clústeres se pueden expandir fácilmente a miles de nodos y tienen una alta escalabilidad.
- Hadoop puede mover datos dinámicamente entre nodos y asegurar el equilibrio dinámico de cada nodo La velocidad de procesamiento es muy rápida y altamente eficiente.
- Hadoop puede guardar automáticamente múltiples copias de datos y puede redistribuir automáticamente las tareas fallidas, con alta tolerancia a fallas.