¿Cuáles han sido las principales tendencias en Big Data en 2013?

  1. Muchas compañías están tratando de hacer que SQL funcione mucho más rápido en Hadoop. Puede apuntar a casi cualquier proveedor de Hadoop o una multitud de nuevas empresas y ha habido una gran inversión para mejorar la colmena o crear una plataforma separada. Creo que esto se remonta a tratar de resolver el mayor problema con la pila Hadoop: es increíblemente lento (incluso en conjuntos de datos pequeños) y difícil de usar (si no eres un experto en Java y gurú de Linux). Si bien Hive es una gran herramienta, es realmente la más adecuada para las tareas de ELT y no puede reemplazar lo que los almacenes de datos hacen hoy. Muchas compañías están tratando de poner “Big Data en manos de los analistas”, y hay muchos enfoques diferentes para esto. Será interesante ver lo que despega.
  2. Los almacenes de datos NoSQL están agregando lentamente características similares a SQL. IE, Mongo agregó agregación: SQL a la tabla de asignación de agregación, Couch tiene herramientas que simplifican la reducción de mapas: encontrar sus datos con vistas, y Neo4j también agregó comandos de agregación: 12.5. Agregación. Creo que lo que está sucediendo lentamente es que a medida que más personas prueban estas tecnologías, rápidamente se dan cuenta de que su aplicación no tiene una base tan amplia como sugeriría. Para ayudar a expandir su atractivo, algunos proveedores están tomando páginas de las características RDBMS.
  3. Todos están creando conectores para HDFS, Hive y hCatalog. Es difícil encontrar una herramienta de análisis o integración de datos que no tenga algún tipo de conexión con la pila Hadoop.
  4. Las empresas que pueden resolver problemas comunes en todas las industrias o funciones comerciales generales que aprovechan las herramientas de big data están creciendo rápidamente. A compañías como Splunk y Palantir les está yendo muy bien y hacen una oferta atractiva para la mayoría de las empresas. Construir sus propios clústeres (alojados o no) y tener equipos de desarrolladores y administradores es costoso y difícil. En última instancia, veo que este tipo de empresas son los verdaderos ganadores en “Big Data” en lugar de los desarrolladores de la plataforma.
  5. Con el advenimiento de Yarn en Hadoop, comenzarán a surgir soluciones más creativas que aprovechen la plataforma Hadoop. Para cualquiera que haya usado map-reduce, se vuelve dolorosamente obvio de inmediato que no es adecuado para muchos problemas. Un ejemplo de esto es Pivotal aprovechando HDFS como el sistema de archivos para los archivos de la base de datos Greenplum. Y creo que el último santo grial de los datos es una plataforma de almacenamiento y procesamiento que puede aprovechar múltiples formatos de almacenamiento y arquitecturas de procesamiento. Y creo que hay una tendencia a aprovechar Hadoop como una plataforma que podría hacer eso. Es decir, no me sorprendería ver un almacén de documentos y RDBMS se convertirá en la pila de Hadoop en los próximos años.
  6. “Big Data” todavía no tiene una definición comúnmente aceptada y seguirá sin tenerla.

Esta pregunta tiene fuertes paralelos con la pregunta ¿Cuáles son los 10 principales problemas en Big Data para 2013?

La mayoría de las cosas emocionantes de este año ha sido en la capa de aplicaciones donde el conocimiento del dominio y la heurística empresarial hacen un uso inteligente de la infraestructura y la plomería de big data para ofrecer un valor comercial específico.

Por favor, eche un vistazo a nuestra extensa cobertura en la serie Thought Leaders in Big Data en el blog 1Mby1M.