Semana 7: DAMA-DMBOK, calidad de datos, ciclo de vida, arquitectura y metadatos
Microcredencial en Inteligencia Artificial y Análisis de Datos
Universidad Latinoamericana de Ciencia y Tecnología
Febrero 2026
Contenidos de la sesión
La gobernanza de datos como factor determinante del éxito en IA
La gobernanza de datos se ha convertido en el factor determinante del éxito o fracaso de los proyectos de IA. Las organizaciones están invirtiendo masivamente en modelos, pero la infraestructura de datos que los sostiene permanece críticamente subdesarrollada.
"La IA no fallará por falta de modelos. Fallará por falta de disciplina de datos." -- Publicis Sapient, Guía 2026
La distinción estratégica que define el éxito organizacional
"La especificación de derechos de decisión y un marco de rendición de cuentas para asegurar el comportamiento apropiado en la valoración, creación, consumo y control de datos y analítica." -- Gartner, 2025
Es estratégica: define el "qué" y "por qué". Establece políticas, estándares, roles y derechos de decisión. Los stakeholders son CDOs, consejos de gobernanza y oficiales de cumplimiento.
"La ejecución de procesos técnicos para dar vida a la visión establecida por la gobernanza." -- Alation, 2025
Es operacional: define el "cómo". Incluye ingesta, almacenamiento, transformación, ETL y pipelines. Los stakeholders son ingenieros de datos, DBAs y operaciones IT.
| Dimensión | Gobernanza de datos | Gestión de datos |
|---|---|---|
| Enfoque | Estrategia, políticas, rendición de cuentas | Ejecución, operaciones, implementación técnica |
| Actividades | Creación de políticas, derechos de decisión, estándares | Ingesta, almacenamiento, transformación, ETL |
| Relación | Establece las reglas | Implementa las reglas |
| Analogía | La constitución de un país | Las instituciones que ejecutan las leyes |
La gobernanza se transforma con IA, regulación y nuevos paradigmas
El 71% de las organizaciones reporta tener un programa de gobernanza de datos en 2025 (frente al 60% en 2023). Sin embargo, Gartner predice que el 80% de las iniciativas de gobernanza fracasarán para 2027 por problemas de adopción. El mercado de gestión de datos impulsada por IA se proyecta alcanzar los $30,500 millones para 2026.
Verificación de cumplimiento un 60% más rápida y reducción del 40% en documentación manual. La IA monitorea, clasifica y valida datos automáticamente.
Cada dataset se trata como un activo reutilizable con propietario, SLAs y garantías de calidad. Es un cambio cultural: los datos dejan de ser un subproducto para convertirse en un producto con ciclo de vida propio.
Equilibra supervisión central con ownership a nivel de dominio. Los contratos de datos emergen como mecanismo para formalizar formato, calidad y garantías entre equipos descentralizados.
Impulsada por el EU AI Act y regulaciones similares, las organizaciones necesitan ahora gobernar no solo los datos, sino también los modelos, su linaje y su explicabilidad. En enero 2025, Gartner público su primer Magic Quadrant para Plataformas de Gobernanza de Datos y Analítica, marcando la maduración del campo como categoría de mercado independiente.
El cuerpo de conocimiento que se reinventa para la era de la IA
DAMA International posiciona la gobernanza de datos en el centro de su modelo, rodeada por 10 áreas de conocimiento. El modelo funciona como una rueda donde la gobernanza coordina y supervisa todas las demás actividades.
Planificación, supervisión y control sobre la gestión de datos y el uso de datos y recursos relacionados.
Estructura general de datos como parte de la arquitectura empresarial.
Análisis, diseño, construcción y mantenimiento de modelos de datos.
Despliegue y gestión de activos de datos físicos.
Privacidad, confidencialidad y acceso apropiado.
Adquisición, transformación y entrega de datos.
Documentos, datos maestros, BI, metadatos y calidad
Gestión de datos no estructurados: documentos, imágenes, videos y contenido multimedia.
Consistencia en entidades de datos clave que se comparten a través de la organización.
Soporte a analítica y toma de decisiones basada en datos.
Mantenimiento de "datos sobre datos": definiciones, linaje, clasificaciones y relaciones entre datos.
Gestión de la aptitud de los datos para su uso: medición, monitoreo y mejora continua.
Aproximadamente 13,000 profesionales a nivel mundial poseen la certificación CDMP (Certified Data Management Professional) de DAMA. En América Latina, DAMA tiene 4 capítulos activos (Brasil, Chile, Colombia, México) y 5 en formación (Argentina, Bolivia, Ecuador, Perú, Uruguay). El DMBOK 2.0 fue traducido al español por voluntarios de la región.
Un framework en evolución continua
Publicada en marzo de 2025 con mejoras significativas: definiciones actualizadas, actividades reordenadas cronológicamente, reemplazo del término "programa de gobernanza" por "función de gobernanza", y la expansión de las dimensiones de calidad con la adición de currency (vigencia) como novena dimensión.
Iniciativa comunitaria "evergreening" con 11 editores especializados y contribuciones globales. Áreas nuevas incluyen gobernanza de IA (ciclo de vida de modelos, detección de sesgos), entornos cloud-nativos, plataformas modernas (data mesh, data fabric) y ética de datos y sostenibilidad. A febrero de 2026, permanece en desarrollo activo.
El talón de Aquiles de la IA que las organizaciones no pueden ignorar
Fidelidad de los datos respecto a las entidades del mundo real que representan. Un dato es exacto si refleja correctamente la realidad.
Todos los valores requeridos están presentes. Incluye completitud de registros, de campos y de valores.
Uniformidad de los datos entre sistemas. Un mismo dato no debe tener valores contradictorios en diferentes fuentes.
Disponibilidad oportuna que refleja el estado actual de la entidad representada. Datos desactualizados pueden llevar a decisiones erróneas.
Conformidad con formatos, reglas de negocio y rangos definidos. Un dato válido cumple con los parámetros establecidos para su campo.
Ausencia de duplicados. Cada entidad del mundo real debe estar representada una sola vez en el dataset.
La edición revisada de DMBOK 2.0 agregó currency como novena dimensión, distinta de la actualidad: se refiere a si los datos siguen siendo vigentes y relevantes para el propósito actual, no solo a si son recientes. DAMA mantiene una lista comprehensiva de 65 dimensiones y subdimensiones de calidad de datos.
Estadísticas alarmantes y su impacto en las organizaciones
Datos inexactos de turnos laborales causaron que gerentes de más de 6,000 tiendas anularan manualmente el 84% de los horarios generados por IA. El sistema era técnica y algorítmicamente sofisticado, pero la calidad de los datos de entrada lo invalidó.
El 81% de las empresas lucha con la calidad de datos para IA, y el 96% de profesionales de datos advirtió que la falta de priorización de calidad podría llevar a "crisis generalizadas" en las organizaciones.
Mala calidad de datos en la entrada produce modelos de IA sesgados, decisiones incorrectas, pérdida de confianza organizacional y potencial incumplimiento regulatorio. El principio "garbage in, garbage out" aplica con mayor fuerza en la era de la IA.
La IA mejora la calidad pero también crea nuevos riesgos
Automatización: herramientas de IA automatizan perfilado, validación y detección de anomalías a escala.
Clasificación: IA generativa asiste en clasificación automática, enriquecimiento y documentación de datos.
Monitoreo en tiempo real: detección de patrones con ML habilita supervisión continua.
Caso JPMorgan Chase: implementó validación en tiempo real verificando datos transaccionales en milisegundos.
Caso Mayo Clinic: automatizó protocolos de estandarización de imágenes médicas con cumplimiento HIPAA.
Datos sintéticos: menor calidad lleva a mayores tasas de error en modelos entrenados con datos generados por IA.
Bucles de retroalimentación: datos generados por IA que alimentan otros modelos degradan la calidad progresivamente, causando divergencia del mundo real.
Colapso de modelo: amplificación de sesgos en entrenamiento recursivo.
Contaminación de datos: Europol estima que para 2026, el 90% del contenido en línea podría ser generado por IA, levantando preocupaciones serias sobre datos de entrenamiento.
Modelos actualizados para la era de la IA
El modelo predominante en 2025-2026 mantiene cinco etapas, aunque modelos expandidos añaden distribución y descomponen etapas intermedias. La evolución más significativa es la gestión del ciclo de vida impulsada por inteligencia: sistemas que interpretan contenido, comprenden contexto empresarial y se ajustan automáticamente.
Generación, captura o adquisición de datos desde fuentes internas o externas.
Depósito seguro en bases de datos, data lakes, warehouses o la nube.
Consulta, análisis, procesamiento y toma de decisiones con los datos.
Preservación a largo plazo de datos que ya no se usan activamente.
5. Destrucción: eliminación segura cuando los datos cumplen su periodo de retención. El paradigma de "ciclo de vida de producto de datos" (alineado con data mesh) trata los datos como productos iterativos: requisitos, diseño, despliegue, monitoreo, iteración, depreciación.
El costo ambiental de gestionar datos en la era de la IA
Una consulta a ChatGPT usa aproximadamente 10 veces la electricidad de una búsqueda en Google. Los centros de datos consumieron ~460 TWh globalmente en 2024 (~1.5% de la electricidad mundial) y se proyecta que alcancen ~945 TWh para 2030.
Esto tiene implicaciones directas para la gobernanza de datos: cada dato almacenado innecesariamente, cada copia redundante, cada pipeline ineficiente tiene un costo energético y ambiental.
La gobernanza de datos responsable debe incorporar la sostenibilidad: políticas de retención estrictas, eliminación oportuna de datos obsoletos, y arquitecturas que minimicen la huella energética son ahora requisitos éticos además de operacionales.
Lakehouse domina, mesh madura, fabric conecta
Gartner lo elevó a estatus "transformacional" en su Hype Cycle 2025. Adopción creció un 44% interanual. Combina lo mejor de data lakes (almacenamiento flexible) y data warehouses (consultas estructuradas). La arquitectura Medallion (capas Bronze/Silver/Gold) se ha convertido en el patrón estándar para gobernanza de calidad.
Solo el 18% de las organizaciones tiene madurez de gobernanza suficiente para adoptarlo. Se entiende cada vez más como un enfoque organizacional (quien es dueño de los datos), no una tecnología. Los contratos de datos emergen como mecanismo clave para formalizar garantías entre equipos descentralizados.
Arquitectura impulsada por metadatos que conecta fuentes diversas mediante grafos de conocimiento semántico, automatización por IA y orquestación consciente de linaje. Diferenciador clave: no requiere transformación cultural y se construye sobre activos existentes. Ideal para sectores regulados.
Databricks: posición más alta en Magic Quadrant de Gartner, 12,000+ clientes, crecimiento del 45% interanual. Snowflake: 23% de cuota de mercado en data warehousing empresarial. Microsoft Fabric: unifica lakehouse, warehouse y Power BI, reportando 40% de reducción en tiempo de desarrollo ETL. Los formatos de tabla abiertos (Apache Iceberg, Delta Lake, Hudi) habilitan interoperabilidad entre proveedores.
La infraestructura invisible que habilita la IA autónoma
Solo el 11% de las organizaciones reporta alta madurez en gestión de metadatos. Los metadatos han sido elevados de función documental a fundamento estratégico para IA. Los modelos de IA consumen metadatos, no datos crudos: la capa semántica donde residen los metadatos proporciona a la IA definiciones estandarizadas, relaciones y clasificaciones.
Catálogos estáticos consultados manualmente. Documentación que se desactualiza rápidamente. Requieren esfuerzo humano constante para mantenerse relevantes. No generan valor por sí mismos.
Dinámicos, analizados continuamente por ML. Detectan anomalías, generan recomendaciones y disparan acciones automatizadas. Para IA de agentes (agentic AI), los metadatos proporcionan la capa semántica que los agentes necesitan para descubrir, evaluar y usar datos autónomamente.
Los tipos críticos de metadatos para IA/ML incluyen: de negocio, técnicos, operacionales, de cumplimiento, de comportamiento/uso, y específicos de ML (hiperparámetros, model cards, proveniencia de datos de entrenamiento, monitoreo de drift).
Estándares abiertos, herramientas modernas y metadata lakehouse
Proyecto graduado de LF AI & Data Foundation. Se consolida como estándar abierto para recolección de metadatos de linaje de datos a través de sistemas heterogéneos.
Define contratos formales entre productores y consumidores de datos: formato, calidad, SLAs y garantías. Es "el avance más significativo para la gobernanza de datos".
Nuevo paradigma para exponer contexto de metadatos a agentes de IA. Permite que los agentes descubran y comprendan datos disponibles automáticamente.
Informatica IDMC: plataforma líder de inteligencia de datos.
Collibra: inteligencia de datos con calidad embebida.
Alation: catálogo de datos basado en comportamiento y colaboración.
Atlan: metadatos activos con enfoque moderno.
OpenMetadata: catálogo de datos open source con gobernanza integrada.
DataHub (LinkedIn): plataforma de metadatos extensible.
Great Expectations: pruebas declarativas de calidad de datos.
Soda: lenguaje SodaCL para verificaciones legibles de calidad.
Arquitectura donde los metadatos se almacenan en formatos abiertos y consultables, aplicando los mismos principios del data lakehouse a los propios metadatos. Gartner predice que el 60% de tareas de gestión de datos serán automatizadas para 2027.
La gobernanza de datos se integra con la gobernanza de IA
Primer estándar internacional certificable para sistemas de gestión de IA (AIMS). A octubre 2025, no es legalmente obligatorio pero es crecientemente referenciado en contratación y regulación. El 76% de organizaciones planea certificarse (CSA 2025).
Principios clave: rendición de cuentas, equidad, explicabilidad, privacidad de datos y confiabilidad.
ISO/IEC 42005:2025 complementa con evaluación de impacto de IA.
AI RMF 1.0 (enero 2023) complementado por el Perfil de IA Generativa (NIST AI 600-1, julio 2024) con 13 riesgos únicos y 400+ acciones.
Actualización de marzo 2025: categorías ampliadas de amenazas para LLMs (envenenamiento, evasión, extracción, manipulación).
Un crosswalk oficial mapea AI RMF a ISO 42001, habilitando programas de gobernanza unificados.
ISO 42001 proporciona gobernanza top-down (estructura organizacional, políticas, certificación) mientras NIST AI RMF ofrece gestión de riesgos bottom-up (identificar riesgos, medir desempeño, abordar confiabilidad). La Colorado AI Act referencia explícitamente NIST AI RMF como base aceptable para programas de riesgo.
Regulaciones que redefinen la gobernanza de datos
Aplicación plena para sistemas de alto riesgo en agosto de 2026. Multas de hasta 35 millones EUR o 7% de ingresos globales. Primera revisión de prácticas prohibidas (Art. 5) realizada en febrero 2026.
Vigentes enero 2026 con evaluaciones de riesgo obligatorias, divulgación de plazos de retención y derechos ampliados. Kentucky, Rhode Island e Indiana aplican nuevas leyes de privacidad desde enero 2026.
Vigente febrero 2026. Impone requisitos de notificación, divulgación y mitigación de riesgo para sistemas de IA de alto riesgo. Referencia explícitamente NIST AI RMF.
La Garante italiana multó a OpenAI con 15 millones EUR por violaciones de GDPR en el entrenamiento de ChatGPT. TikTok recibió 530 millones EUR por transferencia ilegal de datos a China. Meta: 479 millones EUR por manipulación de consentimiento.
Un continente en aceleración con realidades diversas
Perú: primer país latinoamericano con regulación general de IA en vigor (enero 2026), implementación sectorial escalonada hasta 2028.
Chile: Ley 21.719 aprobada (agosto 2024), vigencia plena diciembre 2026. Crea agencia de protección de datos con sanciones de hasta 4% de ingresos. Alineada con GDPR.
Brasil: ANPD transformada en agencia regulatoria independiente (septiembre 2025). Ordenó a Meta suspender uso de datos personales para entrenar IA. Borrador de adecuación de la UE publicado.
Perú advierte sobre una brecha crítica: regulación de IA sin un marco robusto de gobernanza de datos. La lección es clara: la gobernanza de IA sin gobernanza de datos es como construir un edificio sin cimientos.
De la teoría a la práctica de la gobernanza de datos
Sin datos gobernados, los modelos de IA amplifican sesgos, violan privacidad y producen resultados no confiables. El 60% de los proyectos de IA fracasan por falta de datos "AI-ready", no por limitaciones algorítmicas.
Con DMBOK 3.0 en desarrollo, el framework incorpora gobernanza de IA, ética de datos y sostenibilidad. La integración con NIST AI RMF e ISO 42001 permite programas de gobernanza unificados.
Con Perú liderando en regulación de IA, Chile implementando protección de datos al nivel GDPR, y Brasil emergiendo como potencia regulatoria, la región avanza desigualmente pero con urgencia creciente.
La calidad de datos, los metadatos y la arquitectura no son preocupaciones puramente técnicas sino pilares éticos y regulatorios. Cada dato mal gestionado tiene un costo financiero, ambiental y potencialmente humano. Las herramientas y frameworks existen; el desafío es implementar gobernanza real con compromiso organizacional genuino.
A continuación: actividad práctica en equipos. Trabajaremos un caso de análisis ético-crítico donde aplicaremos los conceptos de gobernanza de datos vistos hoy.