Por qué un Data Scientist debe aprender ingeniería de datos

En este artículo, nos gustaría compartir con vosotros lo útil que podría ser para un científico de datos de Damavis tener un buen conocimiento sobre ingeniería de datos. Para los que tengáis un perfil de estadistas y matemáticos y no estéis completamente seguros de lo que queremos decir con “buen conocimiento de la ingeniería de datos”, a continuación os proporcionamos una descripción más detallada.

Científico de datos en Damavis
Qué valoramos en un Científico de Datos

Científico de datos en Damavis

Comencemos por definir brevemente lo que hace un puro científico de datos en Damavis. Desde nuestro punto de vista, este tipo de perfil debe tener un conocimiento profundo de matemáticas y estadística. No es suficiente con saber cómo utilizar herramientas estadísticas específicas para entrenar modelos con el fin de generar predicciones.

Nos gusta el siguiente dicho “un buen estadista no es el que te proporciona una predicción, sino el que te proporciona un intervalo de confianza preciso”. Para obtener estos intervalos de confianza, el científico de datos debe tener una buena comprensión de los supuestos estadísticos subyacentes de cada modelo a fin de evaluar si dicho nivel de confianza es una medida válida o no.

Por otro lado, ¿qué ocurre con la inferencia causal? Aquellos de vosotros que hayáis intentado hacer inferencias causales con anterioridad, probablemente sepáis que entrenar un modelo usando un software estadístico generalmente no es suficiente para obtener inferencias válidas. Un buen conocimiento de econometría es fundamental en estos casos.

Profundicemos ahora en cuándo los científicos de datos pueden convertirse en estrellas en Damavis. Damavis es una consultora de Big Data con sede en Mallorca, una hermosa isla ubicada en las Islas Baleares (España). No somos una empresa de un tamaño grande (conoce a nuestro equipo), por lo que una habilidad muy útil en Damavis es la flexibilidad. Esta habilidad consiste en tener la capacidad de involucrarse en proyectos de diferente tipología. Un ejemplo sería poder moverse de un proyecto de predicción estadística a un proyecto de desarrollo de aplicaciones de big data.

La utilidad de la flexibilidad en nuestro caso se debe a que las necesidades de nuestros clientes pueden requerir que, de repente, tengamos que dedicar toda nuestra atención a un tipo diferente del que estamos involucrados en un momento concreto. Tener esta capacidad permite a Damavis adaptarse fácil y rápidamente a las necesidades de nuestros clientes.

La siguiente pregunta a responder es, ¿qué queremos decir con «buen conocimiento de ingeniería de datos»? Aquí proporcionamos una lista de algunas de las habilidades que valoramos de los científicos de datos:

Qué valoramos en un Científico de Datos

Fuertes habilidades de programación. Es importante tener en cuenta que programar en un notebook o usar un lenguaje de programación estadístico como R, Stata, Matlab, SAS… puede no ser suficiente para garantizar una buena comprensión de los principios de programación. Es por ello que valoramos un buen conocimiento de lenguajes como Python, Scala o Java, entre otros, dado que se utilizan conceptos de programación como clases, métodos, interfaces, extensiones, herencia, etc. Desde nuestro punto de vista, tener habilidades de programación sólidas implica tener una buena comprensión de los principios SOLID, que son un conjunto de buenas prácticas de programación.

Estar familiarizado con el ecosistema Hadoop. Comprender herramientas como HDFS, YARN, Spark, Sqoop, entre otras herramientas del ecosistema Hadoop, puede ser muy útil dado que constantemente interactuamos con tecnologías que permiten a nuestros clientes escalar horizontalmente, para así adaptarse rápidamente a contextos de big data.

Familiarización con herramientas de orquestación y visualización. En la mayoría de los proyectos que desarrollamos suele haber dos denominadores comunes: procesos que se tienen que ejecutar periódicamente de forma automatizada y la necesidad de realizar cuadros de mando que comuniquen a nuestros clientes el razonamiento detrás de un modelo de aprendizaje automático. Por lo tanto, tener un buen conocimiento de estos dos tipos de herramientas es definitivamente útil. Dado que en Damavis estamos especialmente entusiasmados de las tecnologías de código abierto, nos gusta trabajar con el orquestador Apache Airflow y la herramienta de visualización Apache Superset. Dicho esto, en nuestro día a día estamos acostumbrados a trabajar con software privativo, por lo que estar familiarizado con ellos es definitivamente un valor añadido.

Por supuesto, muchos pueden argumentar que los científicos de datos no tienen que aprender estos conceptos del mundo de la ingeniería de datos. Sin embargo, como se explicó anteriormente, la flexibilidad es muy útil cuando el contexto es trabajar en Damavis. En la siguiente imagen, se puede ver a todo el equipo, en nuestras reuniones diarias, explicando sus logros y desafíos a los que se enfrentan en su día a día.

damavis-team — Nuestro equipo en una reunión diaria mientras uno de nuestros ingenieros de datos comparte su proyecto

Para predicar con el ejemplo, aquí tienes unos cuantos artículos que nuestro científico de datos Daniel Bestard ha escrito sobre Apache YARN. Una serie de artículos particularmente útiles para los perfiles de ingenieros de datos:

Introducción a Apache Hadoop: Configurando y ejecutando una de las herramientas open source más comunes utilizadas en contextos de big data.
Introducción a Apache YARN: Cómo configurar Apache YARN para ejecutar jobs en paralelo
Primeros pasos para la personalización de Apache YARN: Introducción a una configuración más avanzada para mejorar el rendimiento de YARN.

¿Eres de los que también cree que es genial que los científicos de datos sean capaces de comprender el lenguaje de los ingenieros de datos?

Te invitamos a compartir este artículo con tus amigos. Recuerda etiquetarnos para hacernos llegar tu opinión (@DamavisStudio). ¡Nos vemos en redes!

damavis, data science, open source