Los procesos ETL tradicionales están bloqueando la expansión digital: es hora de una alternativa

Regresemos a 1989 cuando Internet le sucedió al usuario de computadora común. Entonces, los procesos de datos eran secuenciales, estáticos e inflexibles en el verdadero sentido. La integración en esa época fue una revolución, mientras que ETL (extraer, transformar y cargar) fue la tecnología contemporánea más allá del alcance de una empresa promedio.

Avance rápido hasta la actualidad, Internet tiene miles de millones de usuarios que producen un volumen inimaginable de datos en todo momento. Es una reencarnación en paisajes de sistemas más nuevos y todo bajo demanda. Como muchos procesos de esa época, el ETL tradicional destinado a entornos locales ya no funciona. A pesar de la evolución a lo largo de los años, los procesos ETL tradicionales han perdido la carrera hacia la locura llamada big data.

Según Gartner, solo el 20% de la información analítica generará resultados comerciales clave. Como se especula, los datos inexactos e insuficientes es una de las principales razones aquí.

Desventajas del ETL tradicional

ETL tradicional tiene las siguientes desventajas:

  • Dado que el requisito empresarial de cada transformación es único, los ingenieros de datos tienen que trabajar en programas y scripts codificados a medida. Como era de esperar, les obliga a desarrollar habilidades especializadas e intransferibles. Esto hace que la gestión del código base sea un asunto complicado.
  • ETL viene adjunto con costos generales continuos. Exige ciclos prolongados de reingeniería por parte de ingenieros de datos dedicados.
  • En ETL, los científicos de datos reciben los conjuntos de datos solo después de que los ingenieros los transforman y refinan. No solo hace que el proceso sea rígido, sino que también limita la agilidad de los resultados.
  • Inicialmente, ETL estaba destinado a sesiones periódicas de procesamiento por lotes. No es compatible con la transmisión de datos continua y automatizada. Además, su rendimiento de procesamiento, ingestión e integración de datos es insuficiente en tiempo real.

Ahora, además de todo lo anterior, el cambio revolucionario en el panorama empresarial de las instalaciones a la nube también cambió las tendencias de integración de datos. Esto llevó a un aumento explosivo en el volumen de datos producidos y consumidos en tiempo real.

Inicialmente, el procesos de preparación de datos fueron diseñados para el modelo de almacén en el que las corrientes se diseñaron estratégicamente de forma sistemática. Eso no encaja en la configuración contemporánea en la que todo está alojado en un entorno de nube.

Aquí, el modelo de lago de datos es más valioso. Un lago captura datos de múltiples fuentes en un solo lugar antes de impulsar los conjuntos para refinar los datos. Por lo tanto, en lugar de transformar cada conjunto de datos por separado de diferentes fuentes, todos se recopilan en un lago y luego se transforman en el destino.

Un mejor enfoque

Para los procesos ETL tradicionales, manejar esta locura se volvió casi imposible y ha llevado al surgimiento de una alternativa conocida como ELT.

En ELT, la integración de datos ocurre entre el sistema de origen y el de destino sin las transformaciones impulsadas por la lógica empresarial como se hizo anteriormente. ELT simplemente reordena las fases de la integración tradicional, y la transformación ocurre al final.

Los pasos revisados ​​funcionan de la siguiente manera:

  • Extracción – Capture conjuntos de datos sin procesar de fuentes distribuidas, como aplicaciones locales, aplicaciones SaaS y bases de datos.
  • Cargando – Cargue directamente los datos en el sistema de destino, incluido el esquema de datos y los tipos incluidos en el proceso. Los datos extraídos se cargan en un almacén de datos, ya sea un lago de datos o un almacén, o una base de datos no relacional.
  • Transformación – La transformación ocurre en el sistema objetivo. Utilice herramientas de terceros para informar y para otros fines. Las transformaciones de datos se realizan en el lago de datos o en el almacén, principalmente mediante scripts.

Dicho esto, el proceso ELT tiene sus propias limitaciones que pueden no ser un desafío hoy, pero podrían causar interrupciones no deseadas en el futuro. Por ejemplo;

  • El cumplimiento es un cuello de botella importante con ELT. Dado que no encripta ni enmascara el flujo de datos, el cumplimiento de las regulaciones de privacidad es vulnerable a compromisos.
  • ELT requiere una infraestructura avanzada para ponerse al día con las tecnologías de almacenamiento contemporáneas, como lagos de datos y almacenes. Los equipos de datos tienen que dividir continuamente los conjuntos para obtener una alimentación más ágil de los análisis.
  • Conectividad insuficiente a entornos heredados, principalmente sistemas locales. Esto seguirá siendo un problema hasta que los sistemas locales se vuelvan obsoletos.

El futuro de la integración de datos

A medida que la integración de datos se vuelve ágil, las alternativas personalizadas a ETL están ganando aceptación. Por ejemplo, transmisión de datos a través de la canalización se basa en entidades comerciales y no en tablas de bases de datos. Aquí, la capa de abstracción lógica, al principio, captura todos los atributos de una entidad comercial de todas las fuentes de datos. Posteriormente, los datos se recopilan, refinan y archivan en un activo de datos finalizados.

En la fase de extracción, los datos de la entidad solicitada se capturan de todas las fuentes. En la fase de transformación, los conjuntos de datos se filtran, anonimizan y transforman según las reglas predeterminadas para una instancia de entidad digital. Finalmente, los conjuntos se entregan al big data store en la fase de carga.

Este enfoque procesa miles de entidades comerciales en un momento dado y asegura tiempos de respuesta de rendimiento de nivel empresarial. A diferencia del procesamiento por lotes, este enfoque captura continuamente los cambios de datos en tiempo real de diversos sistemas de origen. Luego, estos se transmiten a la fuente de datos de destino a través de la capa de entidad comercial.

En última instancia, la recopilación, el procesamiento y la canalización de datos basados ​​en entidades comerciales producen activos de datos nuevos e integrados. En lo que respecta a la adopción, eETL de K2View es un ejemplo clásico. El renombrado tejido de datos La herramienta ofrece datos preparados para análisis utilizando el enfoque anterior. Garantiza una transferencia segura, segura y rápida de conjuntos de datos de todas y cada una de las fuentes a cualquier almacén de datos específico. Esto es compatible con todos los métodos de integración, como CDC, mensajería, virtualización, transmisión, JDBC y API.

Para no perderse, proporciona soporte continuo para consultas complejas al tiempo que elimina la necesidad de ejecutar uniones de tablas de procesamiento pesado.

Conclusión

A medida que nos acerquemos a más datos, los enfoques avanzados en la integración de datos serán una necesidad. Las empresas que no se han alejado de las prácticas convencionales deben evaluar su pila de ciencia de datos y deben apuntar a una transmisión de datos más rápida, clara e inteligente.

Copyright © 2021 IDG Communications, Inc.