Por el término "Big Data" se entiende a la gran cantidad de información que únicamente se puede procesar mediante el uso de herramientas digitales. Se utiliza para responder preguntas a través del análisis de enormes volúmenes de datos. Este paradigma está caracterizado por lo que se conoce como las cinco V del Big data: volumen, velocidad, variedad, veracidad y valor.
Las cinco V del Big Data hacen alusión a las distintas variables que caracterizan a este paradigma: Volumen (hay una gran cantidad de datos procesados a través de herramientas digitales); Velocidad (se transmiten grandes cantidades de datos en forma continua); Variedad (los datos son recolectados a partir de distintas fuentes de información); Valor (creación de nuevas oportunidades de desarrollo) y Veracidad (fuentes de información que sean confiables para el análisis).
La Subsecretaría de Tecnologías de la Información y las Comunicaciones (SseTIC), en el marco del Observatorio Nacional de Big Data, tiene el objetivo de promover la discusión en torno a la evolución de las tecnologías de Big Data en Argentina, promoviendo el intercambio entre las distintas propuestas e investigaciones relacionadas con la responsabilidad de los intermediarios en Internet, el impacto socioeconómico derivado de las tecnologías de procesamiento automatizado de la información y el uso de los datos personales en entornos digitales.
Creado a través de la Resol. 11/17, el Observatorio Nacional de Big Data tiene por objetivo analizar la evolución de la tecnología de Big Data en términos de las posibilidades de innovación, uso público, beneficios tecnológicos, políticos, económicos y sociales en un marco sustentable. Entre sus funciones está: analizar el marco regulatorio del uso de datos personales y su relación con el desarrollo y promoción de Big Data; promoción y creación de plataformas públicas seguras para innovación y nuevas aplicaciones dentro y fuera del Estado; el intercambio con Estados municipales y provinciales, PyMES, emprendedores; análisis de riesgos y formulación de normas de buenas prácticas para el buen uso del Big Data.
Al almacenar la información, es posible aprovechar los datos que se generan de manera diaria para mejorar la competitividad entre empresas, reducir los costos de los procesos ya que estos están automatizados, aumentar los beneficios mediante estrategias personalizadas; favorecer la creación de nuevos productos, optimizar las acciones mediante la analítica y desarrollar estrategias en tiempo real. Desde la fiabilidad analítica de los datos se ofrecen distintas respuestas como soluciones.
Se requiere tecnología avanzada que sea capaz de analizar y extraer datos estructurados y no estructurados, con el objetivo de procesarlos para alcanzar los objetivos de una empresa, negocio u organización. Las herramientas destacadas para abarcar esta complejidad son, entre otras: Pig, Hive, Apache Hadoop, Apache Cassandra, Apache Kafta, Apache Spark, Storm, Hive, NoSOL, Tensor Flow, R.
Existen distintos tipos de datos asociados al Big Data. En cuanto a la clasificación según su estructura podemos distinguir tres tipos: los estructurados, semi-estructurados y no estructurados. En el caso de los primeros, se trate de base de datos relacionales que tienen definido su formato, tamaño y longitud. Los semiestructurados se caracterizan por datos como HTML, XML, JSON y las hojas de cálculo como Excel, en donde los datos se almacenan con metadatos definidos y una estructura flexible. Por último, los no estructurados o ficheros de texto como Word, PDF, correos electrónicos, videos o imágenes, en donde los datos no tienen un formato específico.