Bases de datos vectoriales

Este artículo asume que hay un conocimiento base de embeddings de objetos, ya sean de texto o imágenes. En caso de que no se tengan nociones sobre el tema, el post sobre Text Embeddings: la base del NLP moderno explica…
Este artículo asume que hay un conocimiento base de embeddings de objetos, ya sean de texto o imágenes. En caso de que no se tengan nociones sobre el tema, el post sobre Text Embeddings: la base del NLP moderno explica…
Cuando se trata de lidiar con cantidades importantes de datos, la forma en que los guardas puede marcar la diferencia entre el éxito y el fracaso. En este post, vamos a echar un vistazo a un formato de archivo que…
En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…
En otros espacios de discusión elaboramos una comparación entre DBT, Pentaho y Spark para realizar transformaciones de datos. En este post, veremos algunos de los conceptos claves de DBT: modelos, snapshots y materializaciones. En el contexto de DBT, encontramos una…
BigQuery se ha convertido en los últimos años en una potente herramienta de almacenamiento y análisis de datos en la nube. Su tamaño, escalabilidad y todas las características que ofrece, serían por coste y logística difícilmente replicables por un usuario…
Sabemos que existe una gran cantidad de productos en el ecosistema de la ingeniería de datos para realizar el tratamiento de los datos de una empresa y que la mayoría de ellos proporciona las herramientas necesarias para poder llevar a…
En este post, vamos a analizar cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. DBT es un framework que nos facilita el diseño del modelado de datos a lo largo de los diferentes ciclos…
Este post trata sobre el impacto que puede tener el código bloqueante en una aplicación y la importancia de utilizar librerías que soportan nativamente la programación asíncrona. El objetivo es que se entienda que una llamada bloqueante es siempre bloqueante. …
Desde el lanzamiento de nuestro plugin PDI de Pentaho para Apache Airflow, hemos visto un cambio en la industria hacia el uso de Apache Hop para el procesamiento de datos. ¿Qué es Apache Hop? Apache Hop comenzó (a finales de…
Si alguna vez has compartido código, es bastante probable que hayas dicho aquello de “pues en mi máquina funciona” al ver como los demás tienen dificultades para ejecutarlo. Configuración incorrecta, diferencias de versiones o dependencias no instaladas suelen ser algunas…