Damavis Blog - Data - Machine Learning - Visualization

Damavis

Team building en Damavis: Paintball y Warriors

Ser un equipo que trabaja duro y que saca adelante grandes proyectos no está reñido con poder organizar actividades diferentes y divertidas con las que fomentar un buen clima laboral. En Damavis esto lo ponemos en práctica haciendo que todo…

Laura Rodríguez
2024-06-20

Data Engineering

Bases de datos vectoriales

Este artículo asume que hay un conocimiento base de embeddings de objetos, ya sean de texto o imágenes. En caso de que no se tengan nociones sobre el tema, el post sobre Text Embeddings: la base del NLP moderno explica…

Antoni Casas
2024-05-30

Data Science

Implementaciones y extensiones de RAG

En un artículo anterior detallamos qué es el RAG (Retrieval Augmented Generation) y cómo aprovechar los modelos de embedding para ampliar el conocimiento de un LLM con nuestra propia base documental. En este post, hablaremos de la implementación de un…

Jesús Aguado
2024-05-23

Comparativa de Looker Studio vs Looker Studio Pro

Software

Comparativa Looker Studio y Looker Studio Pro

Looker Studio es un visualizador y plataforma de gestión de datos que permite extraer información manteniendo su gobernanza, seguridad, accesibilidad y agilidad en el uso. La principal ventaja de su empleo reside en que posee un proceso de aprendizaje rápido,…

Vanessa Pradas
2024-05-10

Qué es la Heterocedasticidad y cómo impacta en la Regresión Lineal

Data Science

Heteroscedasticidad: Impacto en la regresión lineal

El modelo de regresión lineal es una de las herramientas más útiles en el maletín de utensilios de todo científico de datos. Aunque este post está orientado a personas que conozcan de primera mano este modelo estadístico, nunca está de…

Agustín Mora
2024-04-26

Data Engineering

Apache Parquet: Introducción y conceptos clave

Cuando se trata de lidiar con cantidades importantes de datos, la forma en que los guardas puede marcar la diferencia entre el éxito y el fracaso. En este post, vamos a echar un vistazo a un formato de archivo que…

Paul Sasieta
2024-04-19

Software

Testing en Apache Airflow

Hoy vamos a hablar de dos formas de realizar testing en Apache Airflow. Históricamente, realizar tests en Airflow ha sido algo que nos ha traído de cabeza a todos los usuarios del famoso framework. El acoplamiento del código con la…

Óscar García
2024-04-11

Data Engineering

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Ocean Berlinghieri
2024-04-02

Software

Tipos de Scheduler en Apache Airflow: Timetables y Datasets

Apache Airflow es una herramienta de código abierto diseñada para la orquestación de flujos de trabajo especialmente útil en el campo de la ingeniería de datos. Los DAGs se definen en ficheros de Python y establecen la relación y dependencias…

Guillermo Camps
2024-03-21

Data Science

Retrieval Augmented Generation: ¿Qué es el RAG?

RAG son siglas para «retrieval augmented generation», o en castellano “generación aumentada por recuperación”. Con RAG se pretende que un «gran modelo de lenguaje» (LLM en adelante, siglas en inglés de «Large Language Model») pueda utilizar información adicional suministrada por…

Jesús Aguado
2024-03-15