Categoría Data Engineering

Data Engineering

Ejemplos prácticos con Apache Spark: Structured Streaming

En un artículo anterior, hicimos una introducción teórica a Spark Structured Streaming donde analizamos en profundidad la API de alto nivel que proporciona Spark para el procesamiento de flujos de datos masivos en tiempo real (Structured Streaming). En él, vimos…

Agustín Mora
2024-08-29

Data Engineering

¿Qué es Minikube en Kubernetes y cómo funciona?

En el mundo del desarrollo de aplicaciones, es cada vez más frecuente encontramos con entornos de despliegue basados en contenedores y Kubernetes se ha consolidado como el estándar para la orquestación de este tipo de elementos. Sin embargo, para muchos…

Óscar García
2024-08-08

Data Engineering

Protocolo OData v4: Metadatos y consultas básicas

En el mundo empresarial contemporáneo, el tratamiento y el consumo de datos son elementos esenciales. Por este motivo, existen unas misteriosas piezas de software, comúnmente abreviadas como APIs, cuyo rol es fundamental en éste tráfico de información. Las API (Application…

Lluc Sementé
2024-07-25

Data Engineering

Introducción teórica a Spark Structured Streaming

En los últimos años, el procesamiento del dato con baja latencia, prácticamente en tiempo real, se está convirtiendo en un requisito cada vez más demandado por las empresas en sus procesos Big Data. Es en este contexto donde se introduce…

Agustín Mora
2024-07-17

Data Engineering

Modelos de relación de datos en un Data Warehouse

En el campo del Data Engineering, el diseño eficiente de bases de datos es esencial para manejar grandes volúmenes de datos y proporcionar análisis efectivos. A lo largo de mi experiencia como Data Engineer, he trabajado con los principales sistemas…

Óscar García
2024-06-28

Data Engineering

Bases de datos vectoriales

Este artículo asume que hay un conocimiento base de embeddings de objetos, ya sean de texto o imágenes. En caso de que no se tengan nociones sobre el tema, el post sobre Text Embeddings: la base del NLP moderno explica…

Antoni Casas
2024-05-30

Data Engineering

Apache Parquet: Introducción y conceptos clave

Cuando se trata de lidiar con cantidades importantes de datos, la forma en que los guardas puede marcar la diferencia entre el éxito y el fracaso. En este post, vamos a echar un vistazo a un formato de archivo que…

Paul Sasieta
2024-04-19

Data Engineering

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Ocean Berlinghieri
2024-04-02

Data Engineering

Modelos, Snapshots y Materializaciones de DBT

En otros espacios de discusión elaboramos una comparación entre DBT, Pentaho y Spark para realizar transformaciones de datos. En este post, veremos algunos de los conceptos claves de DBT: modelos, snapshots y materializaciones. En el contexto de DBT, encontramos una…

Vanessa Pradas
2024-01-25

Data Engineering

Buenas prácticas en BigQuery para optimizar costes

BigQuery se ha convertido en los últimos años en una potente herramienta de almacenamiento y análisis de datos en la nube. Su tamaño, escalabilidad y todas las características que ofrece, serían por coste y logística difícilmente replicables por un usuario…

Miguel Acedo
2023-12-15