TALLER 6
1) Resumen de mantenimiento de bodega de datos (todas las fases ETL)
Correspondencia.
decidir las transformaciones que se van a aplicar a los datos(extraídos) de los sistemas operacionales.
decidir las operaciones o cálculos que se deben aplicar a los datos operacionales (regla de derivación).
Fase de Extracción.
Lectura de datos del sistemaoperacional.
a) durante la carga inicial
b) mantenimiento del AD
Extracción:
En el mantenimiento del AD, antes de realizar la extracción es preciso identificar los cambios.
Fase de transformación.
Enlos datos operacionales existen errores debidos a:
– desarrollos independientes a lo largo del tiempo,
– fuentes heterogéneas de datos,
– problemas en la fase de extracción
Fase de transformación.Limpieza:
- eliminar datos irrelevantes,
- eliminar datos duplicados,
- detectar y corregir o eliminar datos erróneos,
- detectar y tratar valores anómalos (outliers values)
- detectar y tratar valoresfaltantes (missing values)
Fase de transformación.
Valores duplicados: deben ser eliminados.
Limpieza
• SQL
• Restricciones de integridad
Transformación de datos:
- discretización
- numerización- codificación
- unificación
- estandarización
– Integración de datos de distintas fuentes
– Cálculo de nuevos datos
Fase de transporte. (carga)
– La fase de transporte consiste en mover los datosdesde las fuentes operacionales o el almacenamiento intermedio hasta el almacén de datos y cargar los datos en las correspondientes estructuras de datos.
– La carga puede consumir mucho tiempo
– Enla carga inicial del AD se mueven grandes volúmenes de datos.
– En los mantenimientos periódicos del AD se mueven pequeños volúmenes de datos.
– La frecuencia del mantenimiento periódico estádeterminada por el gránulo del AD y los requisitos de los usuarios.
Fase de transporte.
Creación y mantenimiento de un AD.
– Crear el AD (base de datos)
– En intervalos de tiempo fijos añadir cambios al...
Regístrate para leer el documento completo.