ULACIT
1 / 20

Fundamentos de gobernanza de datos

Semana 7: DAMA-DMBOK, calidad de datos, ciclo de vida, arquitectura y metadatos

Microcredencial en Inteligencia Artificial y Análisis de Datos
Universidad Latinoamericana de Ciencia y Tecnología
Febrero 2026

Agenda de hoy

Contenidos de la sesión

Parte 1: Gobernanza de datos

  • Gobernanza vs. gestión de datos: la distinción estratégica
  • Tendencias 2025-2026: gobernanza automatizada, datos como producto
  • DAMA-DMBOK: las 11 áreas de conocimiento
  • DMBOK 2.0 revisado y el proyecto DMBOK 3.0

Parte 2: Calidad de datos

  • Las 6 dimensiones fundamentales (+ currency)
  • El costo real de la mala calidad de datos
  • Impacto bidireccional de la IA generativa en calidad
  • Herramientas modernas de calidad de datos

Parte 3: Ciclo de vida y arquitectura

  • Ciclo de vida del dato: modelos actualizados
  • Sostenibilidad: la nueva dimensión imperativa
  • Arquitecturas modernas: lakehouse, mesh, fabric
  • Formatos abiertos y plataformas dominantes

Parte 4: Metadatos y marcos

  • Metadatos pasivos vs. metadatos activos
  • Metadatos como fundamento para IA
  • ISO 42001, NIST AI RMF: convergencia de marcos
  • Actividad práctica en equipos

El panorama actual: por qué la gobernanza importa ahora

La gobernanza de datos como factor determinante del éxito en IA

La gobernanza de datos se ha convertido en el factor determinante del éxito o fracaso de los proyectos de IA. Las organizaciones están invirtiendo masivamente en modelos, pero la infraestructura de datos que los sostiene permanece críticamente subdesarrollada.

60%
Proyectos de IA serán abandonados por falta de datos "AI-ready" (Gartner)
95%
Proyectos corporativos de IA no generan valor medible (MIT)
4%
Organizaciones con alta madurez en gobernanza de datos e IA
#1
Calidad de datos es la tendencia principal en analítica para 2026 (BARC)

"La IA no fallará por falta de modelos. Fallará por falta de disciplina de datos." -- Publicis Sapient, Guía 2026

Gobernanza de datos vs. gestión de datos

La distinción estratégica que define el éxito organizacional

Gobernanza de datos

"La especificación de derechos de decisión y un marco de rendición de cuentas para asegurar el comportamiento apropiado en la valoración, creación, consumo y control de datos y analítica." -- Gartner, 2025

Es estratégica: define el "qué" y "por qué". Establece políticas, estándares, roles y derechos de decisión. Los stakeholders son CDOs, consejos de gobernanza y oficiales de cumplimiento.

Gestión de datos

"La ejecución de procesos técnicos para dar vida a la visión establecida por la gobernanza." -- Alation, 2025

Es operacional: define el "cómo". Incluye ingesta, almacenamiento, transformación, ETL y pipelines. Los stakeholders son ingenieros de datos, DBAs y operaciones IT.

Dimensión Gobernanza de datos Gestión de datos
Enfoque Estrategia, políticas, rendición de cuentas Ejecución, operaciones, implementación técnica
Actividades Creación de políticas, derechos de decisión, estándares Ingesta, almacenamiento, transformación, ETL
Relación Establece las reglas Implementa las reglas
Analogía La constitución de un país Las instituciones que ejecutan las leyes

Tendencias emergentes en gobernanza (2025-2026)

La gobernanza se transforma con IA, regulación y nuevos paradigmas

Estado actual: crecimiento con desafíos de adopción

El 71% de las organizaciones reporta tener un programa de gobernanza de datos en 2025 (frente al 60% en 2023). Sin embargo, Gartner predice que el 80% de las iniciativas de gobernanza fracasarán para 2027 por problemas de adopción. El mercado de gestión de datos impulsada por IA se proyecta alcanzar los $30,500 millones para 2026.

Gobernanza automatizada por IA

Verificación de cumplimiento un 60% más rápida y reducción del 40% en documentación manual. La IA monitorea, clasifica y valida datos automáticamente.

Datos como producto

Cada dataset se trata como un activo reutilizable con propietario, SLAs y garantías de calidad. Es un cambio cultural: los datos dejan de ser un subproducto para convertirse en un producto con ciclo de vida propio.

Gobernanza federada

Equilibra supervisión central con ownership a nivel de dominio. Los contratos de datos emergen como mecanismo para formalizar formato, calidad y garantías entre equipos descentralizados.

Tendencia crítica: gobernanza de IA como disciplina separada

Impulsada por el EU AI Act y regulaciones similares, las organizaciones necesitan ahora gobernar no solo los datos, sino también los modelos, su linaje y su explicabilidad. En enero 2025, Gartner público su primer Magic Quadrant para Plataformas de Gobernanza de Datos y Analítica, marcando la maduración del campo como categoría de mercado independiente.

DAMA-DMBOK: el framework de referencia global

El cuerpo de conocimiento que se reinventa para la era de la IA

Las 11 áreas de conocimiento

DAMA International posiciona la gobernanza de datos en el centro de su modelo, rodeada por 10 áreas de conocimiento. El modelo funciona como una rueda donde la gobernanza coordina y supervisa todas las demás actividades.

1. Gobernanza de datos (centro)

Planificación, supervisión y control sobre la gestión de datos y el uso de datos y recursos relacionados.

2. Arquitectura de datos

Estructura general de datos como parte de la arquitectura empresarial.

3. Modelado y diseño de datos

Análisis, diseño, construcción y mantenimiento de modelos de datos.

4. Almacenamiento y operaciones

Despliegue y gestión de activos de datos físicos.

5. Seguridad de datos

Privacidad, confidencialidad y acceso apropiado.

6. Integración e interoperabilidad

Adquisición, transformación y entrega de datos.

DAMA-DMBOK: áreas 7-11

Documentos, datos maestros, BI, metadatos y calidad

7. Documentos y contenido

Gestión de datos no estructurados: documentos, imágenes, videos y contenido multimedia.

8. Datos de referencia y maestros (MDM)

Consistencia en entidades de datos clave que se comparten a través de la organización.

9. Data warehousing e inteligencia de negocios

Soporte a analítica y toma de decisiones basada en datos.

10. Gestión de metadatos

Mantenimiento de "datos sobre datos": definiciones, linaje, clasificaciones y relaciones entre datos.

11. Calidad de datos

Gestión de la aptitud de los datos para su uso: medición, monitoreo y mejora continua.

Certificación CDMP

Aproximadamente 13,000 profesionales a nivel mundial poseen la certificación CDMP (Certified Data Management Professional) de DAMA. En América Latina, DAMA tiene 4 capítulos activos (Brasil, Chile, Colombia, México) y 5 en formación (Argentina, Bolivia, Ecuador, Perú, Uruguay). El DMBOK 2.0 fue traducido al español por voluntarios de la región.

DMBOK 2.0 revisado y el proyecto DMBOK 3.0

Un framework en evolución continua

DMBOK 2.0 Edición Revisada (marzo 2025)

Publicada en marzo de 2025 con mejoras significativas: definiciones actualizadas, actividades reordenadas cronológicamente, reemplazo del término "programa de gobernanza" por "función de gobernanza", y la expansión de las dimensiones de calidad con la adición de currency (vigencia) como novena dimensión.

Proyecto DMBOK 3.0 (lanzado junio 2025)

Iniciativa comunitaria "evergreening" con 11 editores especializados y contribuciones globales. Áreas nuevas incluyen gobernanza de IA (ciclo de vida de modelos, detección de sesgos), entornos cloud-nativos, plataformas modernas (data mesh, data fabric) y ética de datos y sostenibilidad. A febrero de 2026, permanece en desarrollo activo.

Casos de implementación recientes de DAMA-DMBOK

  • Banca: Un banco mutual australiano implementó DAMA-DMBOK en seis semanas, alineando gobernanza con los estándares del regulador financiero APRA
  • Finanzas + IA: Un marco estratégico integró DAMA-DMBOK con el NIST AI RMF para instituciones financieras que implementan IA en aprobación de préstamos
  • Cooperativas: Delta Community Credit Union operacionalizó confianza en datos y toma de decisiones usando el framework con la plataforma OvalEdge

Calidad de datos: las dimensiones fundamentales

El talón de Aquiles de la IA que las organizaciones no pueden ignorar

Exactitud

Fidelidad de los datos respecto a las entidades del mundo real que representan. Un dato es exacto si refleja correctamente la realidad.

Completitud

Todos los valores requeridos están presentes. Incluye completitud de registros, de campos y de valores.

Consistencia

Uniformidad de los datos entre sistemas. Un mismo dato no debe tener valores contradictorios en diferentes fuentes.

Actualidad / Frescura

Disponibilidad oportuna que refleja el estado actual de la entidad representada. Datos desactualizados pueden llevar a decisiones erróneas.

Validez

Conformidad con formatos, reglas de negocio y rangos definidos. Un dato válido cumple con los parámetros establecidos para su campo.

Unicidad

Ausencia de duplicados. Cada entidad del mundo real debe estar representada una sola vez en el dataset.

Currency: la novena dimensión (DMBOK 2.0 revisado)

La edición revisada de DMBOK 2.0 agregó currency como novena dimensión, distinta de la actualidad: se refiere a si los datos siguen siendo vigentes y relevantes para el propósito actual, no solo a si son recientes. DAMA mantiene una lista comprehensiva de 65 dimensiones y subdimensiones de calidad de datos.

El costo real de la mala calidad de datos

Estadísticas alarmantes y su impacto en las organizaciones

15%
De los ingresos anuales perdidos por mala calidad de datos (Gartner)
62%
De organizaciones reporta datos incompletos
$5M+
Pérdidas anuales en +25% de organizaciones por mala calidad (IBM)
30%
Del tiempo organizacional dedicado a tareas sin valor por datos deficientes (McKinsey)

Caso Harvard Business School (feb 2025)

Datos inexactos de turnos laborales causaron que gerentes de más de 6,000 tiendas anularan manualmente el 84% de los horarios generados por IA. El sistema era técnica y algorítmicamente sofisticado, pero la calidad de los datos de entrada lo invalidó.

Encuesta Qlik (2025)

El 81% de las empresas lucha con la calidad de datos para IA, y el 96% de profesionales de datos advirtió que la falta de priorización de calidad podría llevar a "crisis generalizadas" en las organizaciones.

Efecto cascada

Mala calidad de datos en la entrada produce modelos de IA sesgados, decisiones incorrectas, pérdida de confianza organizacional y potencial incumplimiento regulatorio. El principio "garbage in, garbage out" aplica con mayor fuerza en la era de la IA.

Impacto bidireccional: IA generativa y calidad de datos

La IA mejora la calidad pero también crea nuevos riesgos

Impactos positivos de la IA en calidad

Automatización: herramientas de IA automatizan perfilado, validación y detección de anomalías a escala.

Clasificación: IA generativa asiste en clasificación automática, enriquecimiento y documentación de datos.

Monitoreo en tiempo real: detección de patrones con ML habilita supervisión continua.

Caso JPMorgan Chase: implementó validación en tiempo real verificando datos transaccionales en milisegundos.

Caso Mayo Clinic: automatizó protocolos de estandarización de imágenes médicas con cumplimiento HIPAA.

Impactos negativos y nuevos riesgos

Datos sintéticos: menor calidad lleva a mayores tasas de error en modelos entrenados con datos generados por IA.

Bucles de retroalimentación: datos generados por IA que alimentan otros modelos degradan la calidad progresivamente, causando divergencia del mundo real.

Colapso de modelo: amplificación de sesgos en entrenamiento recursivo.

Contaminación de datos: Europol estima que para 2026, el 90% del contenido en línea podría ser generado por IA, levantando preocupaciones serias sobre datos de entrenamiento.

Ciclo de vida del dato

Modelos actualizados para la era de la IA

Las cinco etapas centrales

El modelo predominante en 2025-2026 mantiene cinco etapas, aunque modelos expandidos añaden distribución y descomponen etapas intermedias. La evolución más significativa es la gestión del ciclo de vida impulsada por inteligencia: sistemas que interpretan contenido, comprenden contexto empresarial y se ajustan automáticamente.

147 ZB
Zettabytes de datos existentes globalmente
460 TWh
Consumo energético de centros de datos en 2024
945 TWh
Consumo proyectado para 2030 (equivalente a Japón)

1. Creación

Generación, captura o adquisición de datos desde fuentes internas o externas.

2. Almacenamiento

Depósito seguro en bases de datos, data lakes, warehouses o la nube.

3. Uso

Consulta, análisis, procesamiento y toma de decisiones con los datos.

4. Archivo

Preservación a largo plazo de datos que ya no se usan activamente.

5. Destrucción: eliminación segura cuando los datos cumplen su periodo de retención. El paradigma de "ciclo de vida de producto de datos" (alineado con data mesh) trata los datos como productos iterativos: requisitos, diseño, despliegue, monitoreo, iteración, depreciación.

Sostenibilidad: la nueva dimensión imperativa

El costo ambiental de gestionar datos en la era de la IA

El costo ambiental de la IA

Una consulta a ChatGPT usa aproximadamente 10 veces la electricidad de una búsqueda en Google. Los centros de datos consumieron ~460 TWh globalmente en 2024 (~1.5% de la electricidad mundial) y se proyecta que alcancen ~945 TWh para 2030.

Esto tiene implicaciones directas para la gobernanza de datos: cada dato almacenado innecesariamente, cada copia redundante, cada pipeline ineficiente tiene un costo energético y ambiental.

Respuesta regulatoria y del mercado

  • La Directiva de Eficiencia Energética de la UE requiere reporte de métricas energéticas para centros de datos mayores a 500kW
  • Comisión Europea prepara un paquete de eficiencia energética para centros de datos (previsto inicios 2026)
  • El mercado de centros de datos verdes se valora en $90,000 millones en 2025, con crecimiento proyectado al 22% CAGR
  • La gestión del ciclo de vida del dato incluye ahora la eliminación responsable como práctica de sostenibilidad

La gobernanza de datos responsable debe incorporar la sostenibilidad: políticas de retención estrictas, eliminación oportuna de datos obsoletos, y arquitecturas que minimicen la huella energética son ahora requisitos éticos además de operacionales.

Arquitecturas de datos modernas

Lakehouse domina, mesh madura, fabric conecta

Data lakehouse

Gartner lo elevó a estatus "transformacional" en su Hype Cycle 2025. Adopción creció un 44% interanual. Combina lo mejor de data lakes (almacenamiento flexible) y data warehouses (consultas estructuradas). La arquitectura Medallion (capas Bronze/Silver/Gold) se ha convertido en el patrón estándar para gobernanza de calidad.

Data mesh

Solo el 18% de las organizaciones tiene madurez de gobernanza suficiente para adoptarlo. Se entiende cada vez más como un enfoque organizacional (quien es dueño de los datos), no una tecnología. Los contratos de datos emergen como mecanismo clave para formalizar garantías entre equipos descentralizados.

Data fabric

Arquitectura impulsada por metadatos que conecta fuentes diversas mediante grafos de conocimiento semántico, automatización por IA y orquestación consciente de linaje. Diferenciador clave: no requiere transformación cultural y se construye sobre activos existentes. Ideal para sectores regulados.

Plataformas dominantes en 2025-2026

Databricks: posición más alta en Magic Quadrant de Gartner, 12,000+ clientes, crecimiento del 45% interanual. Snowflake: 23% de cuota de mercado en data warehousing empresarial. Microsoft Fabric: unifica lakehouse, warehouse y Power BI, reportando 40% de reducción en tiempo de desarrollo ETL. Los formatos de tabla abiertos (Apache Iceberg, Delta Lake, Hudi) habilitan interoperabilidad entre proveedores.

Metadatos: de documentación a infraestructura estratégica

La infraestructura invisible que habilita la IA autónoma

El cambio paradigmático: metadatos pasivos vs. activos

Solo el 11% de las organizaciones reporta alta madurez en gestión de metadatos. Los metadatos han sido elevados de función documental a fundamento estratégico para IA. Los modelos de IA consumen metadatos, no datos crudos: la capa semántica donde residen los metadatos proporciona a la IA definiciones estandarizadas, relaciones y clasificaciones.

Metadatos pasivos (enfoque tradicional)

Catálogos estáticos consultados manualmente. Documentación que se desactualiza rápidamente. Requieren esfuerzo humano constante para mantenerse relevantes. No generan valor por sí mismos.

Metadatos activos (paradigma moderno)

Dinámicos, analizados continuamente por ML. Detectan anomalías, generan recomendaciones y disparan acciones automatizadas. Para IA de agentes (agentic AI), los metadatos proporcionan la capa semántica que los agentes necesitan para descubrir, evaluar y usar datos autónomamente.

Los tipos críticos de metadatos para IA/ML incluyen: de negocio, técnicos, operacionales, de cumplimiento, de comportamiento/uso, y específicos de ML (hiperparámetros, model cards, proveniencia de datos de entrenamiento, monitoreo de drift).

Estándares, herramientas y el futuro de los metadatos

Estándares abiertos, herramientas modernas y metadata lakehouse

OpenLineage

Proyecto graduado de LF AI & Data Foundation. Se consolida como estándar abierto para recolección de metadatos de linaje de datos a través de sistemas heterogéneos.

Open Data Contract Standard (ODCS) 3.1

Define contratos formales entre productores y consumidores de datos: formato, calidad, SLAs y garantías. Es "el avance más significativo para la gobernanza de datos".

Model Context Protocol (MCP)

Nuevo paradigma para exponer contexto de metadatos a agentes de IA. Permite que los agentes descubran y comprendan datos disponibles automáticamente.

Herramientas comerciales líderes

Informatica IDMC: plataforma líder de inteligencia de datos.
Collibra: inteligencia de datos con calidad embebida.
Alation: catálogo de datos basado en comportamiento y colaboración.
Atlan: metadatos activos con enfoque moderno.

Herramientas de código abierto

OpenMetadata: catálogo de datos open source con gobernanza integrada.
DataHub (LinkedIn): plataforma de metadatos extensible.
Great Expectations: pruebas declarativas de calidad de datos.
Soda: lenguaje SodaCL para verificaciones legibles de calidad.

Concepto emergente: metadata lakehouse

Arquitectura donde los metadatos se almacenan en formatos abiertos y consultables, aplicando los mismos principios del data lakehouse a los propios metadatos. Gartner predice que el 60% de tareas de gestión de datos serán automatizadas para 2027.

ISO 42001 y NIST AI RMF: convergencia de marcos

La gobernanza de datos se integra con la gobernanza de IA

ISO/IEC 42001:2023

Primer estándar internacional certificable para sistemas de gestión de IA (AIMS). A octubre 2025, no es legalmente obligatorio pero es crecientemente referenciado en contratación y regulación. El 76% de organizaciones planea certificarse (CSA 2025).

Principios clave: rendición de cuentas, equidad, explicabilidad, privacidad de datos y confiabilidad.

ISO/IEC 42005:2025 complementa con evaluación de impacto de IA.

NIST AI RMF: evolución continua

AI RMF 1.0 (enero 2023) complementado por el Perfil de IA Generativa (NIST AI 600-1, julio 2024) con 13 riesgos únicos y 400+ acciones.

Actualización de marzo 2025: categorías ampliadas de amenazas para LLMs (envenenamiento, evasión, extracción, manipulación).

Un crosswalk oficial mapea AI RMF a ISO 42001, habilitando programas de gobernanza unificados.

ISO 42001 proporciona gobernanza top-down (estructura organizacional, políticas, certificación) mientras NIST AI RMF ofrece gestión de riesgos bottom-up (identificar riesgos, medir desempeño, abordar confiabilidad). La Colorado AI Act referencia explícitamente NIST AI RMF como base aceptable para programas de riesgo.

Ola regulatoria 2025-2026

Regulaciones que redefinen la gobernanza de datos

EU AI Act

Aplicación plena para sistemas de alto riesgo en agosto de 2026. Multas de hasta 35 millones EUR o 7% de ingresos globales. Primera revisión de prácticas prohibidas (Art. 5) realizada en febrero 2026.

CCPA/CPRA actualizadas

Vigentes enero 2026 con evaluaciones de riesgo obligatorias, divulgación de plazos de retención y derechos ampliados. Kentucky, Rhode Island e Indiana aplican nuevas leyes de privacidad desde enero 2026.

Colorado AI Act

Vigente febrero 2026. Impone requisitos de notificación, divulgación y mitigación de riesgo para sistemas de IA de alto riesgo. Referencia explícitamente NIST AI RMF.

$7,100M
Multas GDPR acumuladas desde 2018, con $1,200M solo en 2025
3,322
Incidentes de compromiso de datos en EE.UU. en 2025 (récord histórico)

Primera multa GDPR a empresa de IA generativa

La Garante italiana multó a OpenAI con 15 millones EUR por violaciones de GDPR en el entrenamiento de ChatGPT. TikTok recibió 530 millones EUR por transferencia ilegal de datos a China. Meta: 479 millones EUR por manipulación de consentimiento.

Perspectiva latinoamericana: transformación regulatoria

Un continente en aceleración con realidades diversas

Avances destacados

Perú: primer país latinoamericano con regulación general de IA en vigor (enero 2026), implementación sectorial escalonada hasta 2028.

Chile: Ley 21.719 aprobada (agosto 2024), vigencia plena diciembre 2026. Crea agencia de protección de datos con sanciones de hasta 4% de ingresos. Alineada con GDPR.

Brasil: ANPD transformada en agencia regulatoria independiente (septiembre 2025). Ordenó a Meta suspender uso de datos personales para entrenar IA. Borrador de adecuación de la UE publicado.

Desafíos y retrocesos

  • México: el INAI fue disuelto (marzo 2025), transfiriendo funciones al ejecutivo. CIDH cuestiona el modelo. Expertos lo consideran regresión democrática
  • Costa Rica: Ley 8968 (2011) requiere modernización. Bill 23097 propone alinearla con GDPR. Tres proyectos de ley de IA en debate pero ninguno aprobado
  • Ciberseguridad: 42% de empresas latinas sufrió filtraciones. Brasil cuadruplicó incidentes de fuga de datos de ~906 a 4,000+ entre 2023 y 2024

Perú advierte sobre una brecha crítica: regulación de IA sin un marco robusto de gobernanza de datos. La lección es clara: la gobernanza de IA sin gobernanza de datos es como construir un edificio sin cimientos.

Conclusiones: tres ideas fundamentales

De la teoría a la práctica de la gobernanza de datos

1. La gobernanza de datos es el fundamento de la IA responsable

Sin datos gobernados, los modelos de IA amplifican sesgos, violan privacidad y producen resultados no confiables. El 60% de los proyectos de IA fracasan por falta de datos "AI-ready", no por limitaciones algorítmicas.

2. DAMA-DMBOK evoluciona para la era de la IA

Con DMBOK 3.0 en desarrollo, el framework incorpora gobernanza de IA, ética de datos y sostenibilidad. La integración con NIST AI RMF e ISO 42001 permite programas de gobernanza unificados.

3. América Latina vive un momento decisivo

Con Perú liderando en regulación de IA, Chile implementando protección de datos al nivel GDPR, y Brasil emergiendo como potencia regulatoria, la región avanza desigualmente pero con urgencia creciente.

Para profesionales en gobernanza de datos e IA

La calidad de datos, los metadatos y la arquitectura no son preocupaciones puramente técnicas sino pilares éticos y regulatorios. Cada dato mal gestionado tiene un costo financiero, ambiental y potencialmente humano. Las herramientas y frameworks existen; el desafío es implementar gobernanza real con compromiso organizacional genuino.

A continuación: actividad práctica en equipos. Trabajaremos un caso de análisis ético-crítico donde aplicaremos los conceptos de gobernanza de datos vistos hoy.