Con la aparición de las tecnologías de Big Data (por ejemplo, Hadoop, NoSQL, DB en memoria, etc.), ¿morirán las tecnologías de almacenamiento de datos / minería de datos / ETL?

La coexistencia de almacenes de datos y Hadoop juntos en una arquitectura de datos es la tendencia predominante, y no tiene sentido para la mayoría de las organizaciones intentar reemplazar su DW con Hadoop / NoSQL. En particular, los almacenes de datos siguen siendo una gran fuente de información confiable y controlada que está lista para que los analistas de negocios accedan a través de informes / visualización, y como se indica en otras respuestas: SQL tiene sus ventajas (¡y es un conjunto de habilidades ampliamente adoptado!). Si bien Hadoop ha sido un gran lugar para el procesamiento escalable de datos, a la mayoría de las empresas se les desaconsejaría permitir que grandes grupos de analistas de negocios tengan acceso analítico directo a él (a través de SQL en las herramientas de Hadoop) debido a las preocupaciones sobre la gobernanza, el rendimiento y la información general. complejidad.

Un patrón de caso de uso que puede proporcionar lo mejor de ambos mundos es la Refinería de datos optimizados de Pentaho, que aprovecha la velocidad / escalabilidad de Hadoop, pero automatiza un proceso que combina y procesa datos en Hadoop y luego entrega un conjunto de datos modelado y gobernado a un almacén de datos o base de datos analítica para acceso interactivo de BI. Vea aquí para más detalles: Refinería de datos optimizada

No veo una razón por la cual. SQL tiene grandes ventajas sobre los métodos no SQL cuando la cantidad de datos puede ser manejada por él.

  • Es más fácil trabajar con él y, a menudo, no requiere habilidades de codificación.
  • SQL sigue siendo un mejor lenguaje de consulta que sus contrapartes en el mundo de big data, que en su mayoría intentan imitarlo.
  • Muchos sistemas actuales y heredados contienen datos en la forma tradicional.
  • En cantidades manejables, el rendimiento suele ser mejor, ya que los datos están más estructurados.

Incluso en la corporación más grande del mundo, los datos como los datos de los empleados, la nómina, etc. todavía se pueden administrar en los servidores SQL. Para este caso de uso y similares, no veo ninguna ventaja en migrar a entornos sin sql.

Por lo tanto, los procesos de extracción, transformación y carga sirven como la columna vertebral para el almacenamiento de datos empresariales. Sin embargo, con la popularidad de las herramientas ETL de big data, como Hadoop, algunos expertos en TI están viendo un nuevo método para transformar los datos.

Este desarrollo específico ha proporcionado el forraje para la controversia. Por ejemplo, los defensores de Hadoop creen que la plataforma de datos es un lugar ideal para administrar la transformación de datos, ya que presenta beneficios de costos y escalabilidad sobre el software ETL de tipo convencional.

Alternativamente, los defensores del software ETL dicen que la transformación de datos a través de Hadoop no elimina los procesos de extracción y carga, ni aborda componentes como la gobernanza o la calidad de los datos. Sin embargo, algunos especialistas de TI creen que los grandes datos están reemplazando a ETL. Otros creen que ETL simplemente está sufriendo una alteración pero, en última instancia, prevalecerá.

El debate sobre Big Data vs. ETL

Los problemas de capacidad de respuesta y calidad de datos no son necesariamente buenas razones para mudarse a Hadoop.

¿Cómo abordaría * I * este problema? Antes de implementar un reemplazo para sus sistemas de bases de datos existentes, investigaría las causas reales del problema. Por ejemplo, si la red es la causa de la poca capacidad de respuesta, reemplazar sus bases de datos será una pérdida de tiempo costosa y frustrante. La cuestión de la calidad de los datos puede ser un indicador de que los procesos del cliente están interrumpidos o de que sus bases de datos existentes no se diseñaron correctamente.

Antes de solucionar un vago problema con “algo moderno como Hadoop”, investigaría los problemas. De lo contrario, corre el riesgo de reemplazar su automóvil porque se quedó sin gasolina.

Como cualquier tecnología, no mueren, solo evolucionan.