Resumen de la Semana 21 del 2021 en Damavis

Es bien sabido que el uso de UDFs (User Defined Functions) en Apache Spark, y sobretodo usando la API python, puede penalizar muchísimo el rendimiento de nuestros aplicativos. Por eso, en Damavis intentamos evitar su uso todo lo posible a…
En este artículo vamos a contarte algunas formas de solucionar problemas relacionados con la complejidad de la ingeniería de datos en sí misma. Un DAG de Airflow puede llegar a ser muy complejo si empezamos a incluir todas las dependencias…
Configuración básica de un nodo Nota: el código de este post ha sido probado utilizando Apache Hadoop 2.10.1. Por favor, consulta nuestro post anterior, Introducción a Apache Hadoop, para configurar esta versión de Hadoop, en caso de que no lo…
¿Qué es y cómo funciona Apache Airflow? Uno de los procesos de trabajo de un data engineer es el llamado ETL (Extract, Transform, Load) que permite a las organizaciones tener la capacidad de cargar el dato desde diferentes fuentes, aplicar…
Programa, orquesta y monitoriza tus tareas de Kettle con este plugin de Pentaho PDI para Airflow En Damavis sabemos la importancia que tiene el procesado de los datos. Extraer, limpiar, transformar, agregar, cargar o cruzar múltiples fuentes de datos permiten…