Resumen de la Semana 21 del 2021 en Damavis

Evitar UDFs en Apache Spark, trabajar en Damavis y una guía para descubrir qué herramienta open-source es la más adecuada
Evitar UDFs en Apache Spark, trabajar en Damavis y una guía para descubrir qué herramienta open-source es la más adecuada
Es bien sabido que el uso de UDFs (User Defined Functions) en Apache Spark, y sobretodo usando la API python, puede penalizar muchísimo el rendimiento de nuestros aplicativos. Por eso, en Damavis intentamos evitar su uso todo lo posible a…
Airflow avanzado, creación de pipelines de machine learning e inteligencia artificial en supermercados
En este artículo vamos a contarte algunas formas de solucionar problemas relacionados con la complejidad de la ingeniería de datos en sí misma. Un DAG de Airflow puede llegar a ser muy complejo si empezamos a incluir todas las dependencias…
Configuración básica de un nodo Nota: el código de este post ha sido probado utilizando Apache Hadoop 2.10.1. Por favor, consulta nuestro post anterior, Introducción a Apache Hadoop, para configurar esta versión de Hadoop, en caso de que no lo…
¿Qué es y cómo funciona Apache Airflow? Uno de los procesos de trabajo de un data engineer es el llamado ETL (Extract, Transform, Load) que permite a las organizaciones tener la capacidad de cargar el dato desde diferentes fuentes, aplicar…
Programa, orquesta y monitoriza tus tareas de Kettle con este plugin de Pentaho PDI para Airflow En Damavis sabemos la importancia que tiene el procesado de los datos. Extraer, limpiar, transformar, agregar, cargar o cruzar múltiples fuentes de datos permiten…