Los procesos ETL son probablemente los componentes más importantes y de mayor valor añadido en una infraestructura que implique la integración de varias fuentes de datos. En consecuencia, representan un pilar fundamental tanto de simples proyectos de recopilación como de soluciones complejas de Big Data o Business Intelligence, especialmente si se requiere mucha precisión o actualización en los datos.
Aunque suelen resultar transparentes a los usuarios, los procesos ETL son los encargados de recuperar información de todos los orígenes necesarios, formatearla, limpiarla e integrarla en un datamart, un datawarehouse, una base de conocimiento o cualquier otro tipo de repositorio digital. En resumen, los procesos ETL recopilan los datos y hacen posible que la información subyacente pueda ser presentada mediante las herramientas de análisis y reporting pertinentes. En el caso de Classora, los propios robots son los encargados de complementar y enriquecer cada dato con los metadatos correspondientes (fecha de carga, fuente, fiabilidad del dato, frecuencia de refresco, significado, relaciones… etc.) que permiten su posterior procesado y recuperación.
Como su propio nombre indica, los procesos ETL se dividen en tres fases:
Para los que nos dedicamos profesionalmente a la monitorización continua de fuentes Open Data disponibles en Internet, existen numerosos desafíos si queremos implementar unos procesos ETL eficaces y fiables, que se pueden resumir en los siguientes puntos:
Actualmente, existen herramientas comerciales, e incluso de software libre, con una gran potencia para la extracción de datos. De hecho, los problemas de rapidez y rendimiento no suelen suponer hoy en día un gran escollo técnico para la extracción y la carga. Donde realmente se sitúa el cuello de botella es en la transformación de datos: en este punto la información desestructurada debe ser convertida en información estructurada para poder ser integrada con el resto de los datos que ya existen en el sistema destino. De hecho, la automatización de este proceso es sólo uno de los grandes retos de la Web Semántica.
Para que la base de conocimiento de Classora tenga información actualizada y realmente útil es necesario que se nutra constantemente de datos disponibles en distintas fuentes públicas. De hecho, dada la amplitud proyecto, estas fuentes pueden oscilar desde plataformas de referencia oficiales y completamente estructuradas (como es el caso de Eurostat, el Instituto Nacional de Estadística, o la FIFA) hasta fuentes no oficiales, escritas en texto plano o dotadas de escasos niveles de estructuración (como pueden ser blogs, noticias de medios digitales o incluso la propia Wikipedia). Con este fin, Classora Technologies ha desarrollado tres tipos de robots para la gestión de datos:
No obstante, en valores absolutos, los millones de unidades de conocimiento que atesora Classora Knowledge Base son una cantidad minúscula de la información pública realmente disponible en La Red. Además, como hemos visto antes, cada nueva fuente de datos incorporada aumenta la complejidad de la integración con los datos previamente cargados, ya que se incrementa el número de transformaciones. Sin una supervisión manual (cada vez más costosa e inviable), esto se traduce a medio plazo en que la calidad de los datos puede disminuir a medida que crece la cantidad de los mismos.
Sin embargo, estas limitaciones se pueden paliar parcialmente con un mayor esfuerzo en I+D+i. Por ello, nuestra empresa plantea un proceso de mejora continua para los robots de carga que permitan incorporar más fuentes de datos, con menor nivel de estructuración, en más idiomas, y con una mejor integración con los datos previamente cargados. El problema original al que nos enfrentamos es, en el fondo, uno de los mayores retos que ha impuesto la evolución tecnológica: la transformación de información desestructurada a información estructurada.
Si te interesa saber más sobre el tema no dudes en contactar con nosotros para que te enviemos documentación adicional. Esperamos haber conseguido despejar algunas dudas sobre los procesos ETL, tan importantes para muchos proyectos de Big Data, Open Data, Linked Data y Business Intelligence, y que sin embargo suelen permanecer en la sombra, pasando desapercibidos para el usuario que los utiliza en última instancia.
me gustaria saber mas sobre formas que esta manejado en el etl los siguientes aspectos:
a). trazabilidad
b). parametrización.
c). configuración.
d). control de calidad.
e). optimización de carga de datos.
Buenas noches, estoy escribiendo una tesis y me interesan todos lo temas relacionado con ETL, aun me estoy sumergiendo en este mundo, se los agredeceria si pudieran compartirme mas informacion.
mi hermano yo ahora en estos momentos estoy como tu en aquel entonces, ya que veo que tu comentario es de hace casi 12 meses, me encuentro ahora escribiendo una tesis relacionada con ETL, te agradecería que me pudieras ayudar con algo de informacion acerca del tema, saludos, atentamente José Pedro.
Me interesa que me envien documentacion relacionada etl con oracle y con integration services practicas con el entorno de desarrollo se los agradeceria demaciado
Hola, les agradecería me compartan mayor información acerca de los ETL’s así como también de algunas herramientas de Inteligencia de Negocios.
Buenas, estaría necesitando mayor información sobre los procesos etl, les estaría muy agradecido si pudieran enviarme información o vínculos en los próximos días.
Carai, aquí todo el mundo pidiendo información. A mí también me vendría muy bien. Descubrí este blog que también habla mucho sobre el tema y ya sigo hace tiempo por si les es útil:
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288844/Qu%C3%A9-son-los-procesos-ETL
Muchas gracias! 🙂
Juan.
Hola,
Tengo una consulta respecto a la extracción de datos… Si al iniciar un proyecto no tenemos acceso a los datos orígenes y dejamos esta etapa de extracción de datos para el final del proyecto… ¿Qué consecuencias puede conllevar esta decisión?
Gracias y un saludo.