


Introducción a Apache YARN
Configuración básica de un nodo Nota: el código de este post ha sido probado utilizando Apache Hadoop 2.10.1. Por favor, consulta nuestro post anterior, Introducción a Apache Hadoop, para configurar esta versión de Hadoop, en caso de que no lo…

Resumen de la semana 8 del 2021 en Damavis

Compilación cruzada en Java
Una situación que se da con frecuencia es tener que escribir código para un proyecto que está en una versión antigua de java. En Damavis, siempre nos gusta hacer uso de las últimas herramientas añadidas al lenguaje, por lo que…

Resumen de la semana 7 del 2021 en Damavis

Despliegue de Airflow: CeleryExecutor en Kubernetes
Cómo desplegar el orquestador de procesos Apache Airflow en Kubernetes ¿Qué es y cómo funciona Apache Airflow? Uno de los procesos de trabajo de un data engineer es el llamado ETL (Extract, Transform, Load) que permite a las organizaciones tener…

Resumen de la semana 6 del 2021

Introducción a Apache Hadoop
Configuración de un único nodo sin Yarn A veces puede resultar un poco agobiante entender el papel de las tecnologías open source más comunes utilizadas en contextos de big data. Por ejemplo, probablemente la mayoría de vosotros ha oído hablar…

Primeros pasos con Pyspark y Pycharm
Guía definitiva para poder configurar el entorno de desarrollo de Pyspark en Pycharm; una de las opciones más completas. Spark se ha convertido en la herramienta Big Data por excelencia, nos ayuda a procesar grandes volúmenes de datos de una…

Plugin de Pentaho PDI para Airflow
Programa, orquesta y monitoriza tus tareas de Kettle con este plugin de Pentaho PDI para Airflow En Damavis sabemos la importancia que tiene el procesado de los datos. Extraer, limpiar, transformar, agregar, cargar o cruzar múltiples fuentes de datos permiten…