23 de enero de 2025

Del dato bruto a la inteligencia empresarial a través de los data lake

“Scientia potentia est”, la información es poder. Ya en el siglo XVII se apreciaba la importancia del conocimiento, pero actualmente el dato lo ocupa todo, vivimos en una sociedad hiperconectada que convive entre flujos de información.

Todos los datos que se generan y que han explotado desde la adopción mayoritaria de Internet, originan una ingente cantidad de información. Esto es oro digital para las organizaciones, ya que la información es un activo que proporciona perspectiva y ayuda a tomar decisiones más acertadas.

Para hacernos una idea, es tal el volumen total de datos que se crean a nivel mundial, que solo en un minuto se suben más de 500 horas de vídeo a YouTube y 1,7 millones de posts a Facebook.

¿Qué es un data lake?

El concepto de data lake o lago de datos fue introducido por primera vez por James Dixon, entonces CTO de Pentaho, una plataforma especializada en integración y análisis de datos. Dixon, a través de una publicación en su blog titulada «Union of the State – A Data Lake Use Case», acuñó el término para describir un nuevo enfoque en el almacenamiento y gestión de grandes volúmenes de información.

A diferencia de las bases de datos convencionales, que imponen una estructura predefinida a los datos, los data lakes ofrecen un enfoque más flexible. Almacenan información en su formato original, sin procesar, lo que permite albergar una amplia variedad de tipos de datos: hojas de cálculo, correos electrónicos, imágenes, grabaciones de audio y video. Es decir recopilan datos “en bruto”.

Esta capacidad de albergar datos diversos en un único repositorio abre nuevas posibilidades para el análisis y el descubrimiento de patrones que serían difíciles de detectar con las estructuras rígidas de las bases de datos tradicionales.

Almacenamiento en un data lake

En un data lake, la idea de almacenamiento se centra en la conservación total de los datos. A diferencia de otros sistemas, no se realiza una purga o filtrado previo a su almacenamiento, lo que significa que la información se guarda en su estado original, sin procesar. Estos datos permanecen en un estado indefinido hasta que se requiere su análisis.

Ventajas de un data lake

La principal ventaja de un data lake es su capacidad para albergar esta gran diversidad de datos, lo que abre la puerta a un espectro más amplio de análisis. De esta manera, los científicos de datos pueden acceder a esta reserva para realizar análisis exploratorios, descubrir correlaciones ocultas y desarrollar modelos predictivos sin la restricción de un esquema predefinido.

Esta flexibilidad es particularmente valiosa en un entorno empresarial dinámico, donde las necesidades de análisis pueden cambiar rápidamente.

La implementación de un data lake necesita una planificación cuidadosa. Sin una adecuada gestión y gobernanza, hay un riesgo de que el data lake se convierta en un «pantano de datos”.

La flexibilidad, una de sus principales fortalezas, puede ser también una fuente de complicaciones si no se gestiona correctamente. Es importante definir políticas de gestión de datos sólidas que aseguren la calidad y la seguridad de la información almacenada. Definir metadatos descriptivos, implementar controles de acceso y establecer procesos para la limpieza y la transformación de los datos cuando sea necesario.

Los data lakehouse

Una nueva tendencia está ganando terreno, buscando combinar las ventajas de los data lake y de los data warehouse (almacén de datos): los Data Lakehouse. La idea es poder implementar las capacidades de estructuración y administración de datos propias de un data warehouse, pero conservando la adaptabilidad y el coste que caracterizan a un data lake.