Categoría Data Engineering

Bases de datos vectoriales

Bases de datos vectoriales: ¿Qué es y cómo funciona?

Este artículo asume que hay un conocimiento base de embeddings de objetos, ya sean de texto o imágenes. En caso de que no se tengan nociones sobre el tema, el post sobre Text Embeddings: la base del NLP moderno explica…

Custom Data Source en Spark 3

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Machine Learning en contenedores Docker

Machine Learning en contenedores Docker

Si alguna vez has compartido código, es bastante probable que hayas dicho aquello de “pues en mi máquina funciona” al ver como los demás tienen dificultades para ejecutarlo. Configuración incorrecta, diferencias de versiones o dependencias no instaladas suelen ser algunas…