Categoría Data Engineering

Custom Data Source en Spark 3

Introducción En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente…

Machine Learning en contenedores Docker

machine-learning-en-contenedores-docker

Introducción Si alguna vez has compartido código, es bastante probable que hayas dicho aquello de “pues en mi máquina funciona” al ver como los demás tienen dificultades para ejecutarlo. Configuración incorrecta, diferencias de versiones o dependencias no instaladas suelen ser…