Data Lakes: convertir en datos la información

En la Edad Media, la materia prima era la tierra. En la era industrial, lo importante era el acero. Hoy, la celula minima de las cosas son los bits. Y, más precisamente, los datos, un término que solo tiene sentido cuando a la información se la da valor y un contexto. El concepto de Data Lakes tiene que ser entendido bajo el paraguas de esa definición. Porque implica, como su nombre lo dice, enfrentarse a un verdadero Lago Ness de información no estructurada. O, dicho de otra manera, ninguna información es lo suficientemente pequeña para no ser guardada en un Data Lake y, hasta que no se le de sentido y se la analice con herramientas de Big Data o Business Intelligence, no tienen ninguna relevancia para los negocios.
Los lagos de datos son repositorios donde se guarda información de manera plana, sin ser tabulada o clasificada. Se están volviendo populares como catálogos altamente escalables para almacenar información de orígenes diversos. Una organización que maneja datos, por ejemplo, los "vierte" en este lago y los recupera cuando son necesarios: ahí es cuando les da orden y estructura para poder analizarlos y crear valor. Las diversas herramientas que surgen de Big Data se encargan de este segundo trabajo. "La idea es tener repositorios que integran la información pero preservando, nunca accediendo. Todos los ríos de información aterrizan ahí y los Data Lakes concentran también la llave para crear una gobernanza. Tener un mecanismo único nos permite mejorar los controles y acceder directamente a los servicios", dice Gustavo Guaragna, CEO de Snoop Consulting. Lo que se logra, además, es crear perfiles y anonimizar datos, creando una capa de aislación entre el usuario y la compañía a quien le cede información. Cuando la cede a un tercero, lo que importa es el dato, y no el usuario.
Hoy, las compañías están invirtiendo en recolectar los datos, por más que todavía no estén haciendo mucho para darles sentido. Es, como dice Gabriel Zurdo, CEO de la consultora BTR, una mina de oro cuyo potencial está lejos de explotarse.Sin grandes jugadoresHoy distintas compañías venden servicios de lagos de datos aunque su explotación todavía es incipiente. Está la empresa que lleva el nombre mismo del concepto, DataLakes, y otras como Pivotal. "Hoy hay software que crean los mismos proveedores. De hecho, Data Lakes es una marca. IBM tiene una herramienta que funciona con Watson, un gestor de inteligencia artificial. Pero la experiencia que hay es bastante limitada. No hay grandes jugadores que hayan salido al mercado agresivamente. Un banco de consumo masivo, que procesa un alto número de transacciones, no está saliendo a contratar servicios para explotación de un Data Lake; hoy solo están agregando información", dice Zurdo.
Para el CEO de BTR, la adopción de Data Lakes podría modificar, incluso, el rol de ciertos trabajos dentro de Sistemas. "A medida que esa información amorfa crezca va a ser imposible que el Security Officer lo maneje solo. Es necesario empezar a formar figuras de gestores de construcción de datos. Ya no alcanza con BI o con construir un meta algoritmo para Big Data; hay que formar perfiles de Data Analysts", dice.
F.P.
Noticias de tu interés