Semana 5: Explainable AI (XAI), métodos técnicos y marco regulatorio
Microcredencial en Inteligencia Artificial y Análisis de Datos
Universidad Latinoamericana de Ciencia y Tecnología
Febrero 2026
Contenidos de la sesión
Regulación acelerada vs. transparencia en declive
Mientras la regulación global se acelera, la transparencia real de las empresas está en declive. El Stanford Foundation Model Transparency Index 2025 revela que la puntuación promedio cayó de 58/100 a 40/100 en un solo año.
La explicabilidad en inteligencia artificial atraviesa un momento paradójico: mientras gobiernos de todo el mundo implementan mandatos de transparencia sin precedentes (EU AI Act, leyes estatales de EE.UU., estrategias latinoamericanas), las empresas tecnológicas se vuelven menos transparentes, no más.
Salud, justicia, crédito y empleo
Más del 90% de los dispositivos médicos de IA aprobados por la FDA no reportan información básica sobre datos de entrenamiento o arquitectura (npj Digital Medicine, 2025). Un sistema de IA que recomienda tratamiento sin explicación pone en riesgo vidas humanas.
El EU AI Act clasifica los sistemas de IA en aplicación de la ley como de alto riesgo, exigiendo decisiones documentadas y explicables. Un algoritmo opaco que determina sentencias viola derechos fundamentales de debido proceso.
FICO obtuvo patentes en octubre 2025 para modelos de evaluación crediticia más explicables. Sin XAI, los sesgos algorítmicos en decisiones de préstamo permanecen invisibles e incuestionables, perpetuando discriminación histórica.
Universidad de Washington (2024): herramientas de IA de selección de currículos favorecen nombres asociados a personas blancas el 85% de las veces, frente a solo 9% para nombres asociados a personas negras. NYC Local Law 144 y EU AI Act exigen transparencia.
NIST establece cuatro principios para XAI: explicación, significatividad, precisión de la explicación y conocimiento de límites. Investigadores del MIT SERC (2025) añaden: para que algo sea verdaderamente "explicable", debe demostrarse que fue recibido y comprendido por el destinatario.
Definiciones y taxonomía
Explainable AI se define como la capacidad de un sistema de IA para proporcionar evidencia o razones comprensibles sobre sus resultados. No basta con que un modelo produzca una predicción precisa; debe poder articular por qué llegó a esa conclusión de una manera que los humanos puedan entender y verificar.
Grado en que un humano puede entender la causa de una decisión. Los modelos lineales son inherentemente interpretables; las redes neuronales profundas no lo son.
Local: explicar una decisión individual específica. Global: entender el comportamiento general del modelo a través de todas las predicciones posibles.
Agnósticos: funcionan con cualquier modelo (LIME, SHAP). Específicos: diseñados para arquitecturas particulares (attention mechanisms para transformers).
Distinción crucial: interpretabilidad es una propiedad del modelo (cómo está construido), mientras que explicabilidad es una capacidad que puede añadirse post-hoc mediante técnicas como LIME o SHAP. Un modelo puede ser no interpretable pero explicable.
Del mito a la realidad de 2026
Durante años se asumió un trade-off inevitable: modelos más precisos (redes neuronales profundas) eran cajas negras inexplicables, mientras modelos explicables (regresión lineal, árboles de decisión) sacrificaban precisión. La premisa era: elige entre rendimiento y comprensión.
Demostraron que la explicabilidad no está directamente relacionada con si un modelo es caja negra o interpretable. Hallazgo clave: más información puede confundir a los usuarios. La explicabilidad es función de la comunicación, no solo de la arquitectura.
Introdujeron el Composite Interpretability Score: la relación precisión-interpretabilidad "no es estrictamente monotónica". Existen instancias donde modelos interpretables son más ventajosos. El trade-off no es inherente sino función de búsqueda insuficiente.
Concepto del Efecto Rashomon: múltiples modelos igualmente precisos pero más interpretables existiendo en el espacio de soluciones. Los Sparse Autoencoders con JumpReLU (2025) representan cambio de paradigma: descomponen modelos precisos en características interpretables sin degradar rendimiento. Conclusión: no debemos elegir entre rendimiento y comprensión; podemos y debemos tener ambos.
Local Interpretable Model-agnostic Explanations
LIME explica predicciones individuales aproximando localmente el modelo complejo con un modelo simple interpretable. Para una predicción específica, LIME genera perturbaciones de la entrada, obtiene predicciones del modelo original, y entrena un modelo lineal local que aproxima el comportamiento en esa región del espacio de características.
Agnóstico al modelo: funciona con cualquier clasificador de caja negra
Explicaciones locales: se centra en una instancia específica
Rápido: ~400ms para datos tabulares
Variantes especializadas: GraphLIME para grafos, Spectral Zones-Based LIME para química (Analytical Chemistry, 2025)
Solo explicaciones locales: no proporciona comprensión global
Consistencia limitada: 65-75% en ranking de características entre ejecuciones
No captura no linealidad: usa aproximación lineal local
Sensible a perturbaciones: resultados pueden variar según muestreo
LIME sigue siendo ampliamente utilizado en 2026 por su simplicidad y velocidad, especialmente útil para explicar predicciones individuales en producción. Sin embargo, para aplicaciones empresariales críticas, SHAP se ha consolidado como el método dominante por sus garantías matemáticas superiores.
SHapley Additive exPlanations
SHAP se basa en los valores de Shapley de teoría de juegos: ¿cómo distribuir equitativamente la "ganancia" (predicción del modelo) entre los "jugadores" (características)? Calcula la contribución marginal promedio de cada característica considerando todas las coaliciones posibles.
Garantías matemáticas: eficiencia, simetría, axiomas dummy
Local + Global: explicaciones a ambos niveles
Detección no lineal: captura interacciones complejas
TreeSHAP: variante rápida para árboles
DeepSHAP: para redes neuronales, captura fragmentos semánticos en NLP
Se ha consolidado como el método estándar para explicaciones en producción. Implementaciones maduras: Google TensorFlow, Microsoft Azure ML, Amazon SageMaker Clarify. IBM demostró aplicación concreta en el US Open de tenis, aumentando equidad en asignación de canchas de 71% a 82% con watsonx.governance.
| Métrica | SHAP | LIME |
|---|---|---|
| Alcance | Local + Global | Solo local |
| Base teórica | Valores de Shapley (garantías matemáticas) | Modelos sustitutos lineales |
| Detección no lineal | Sí | No |
| Consistencia | Alta | 65-75% |
| Velocidad | Más lento | Más rápido (~400ms tabular) |
| Ajuste regulatorio | Fuerte (garantías formales) | Moderado |
Visualización de atención y sus limitaciones
En arquitecturas transformer (base de GPT, BERT, Claude), los mecanismos de atención permiten al modelo "enfocarse" en partes relevantes de la entrada al generar cada token de salida. Podemos visualizar estas puntuaciones de atención para entender qué palabras o tokens el modelo considera importantes para una predicción.
Las herramientas de visualización muestran mapas de calor donde colores más intensos indican mayor atención. Por ejemplo, en traducción automática, podemos ver qué palabras en el idioma fuente recibieron más atención al generar cada palabra en el idioma objetivo.
Puntuaciones altas de atención no implican necesariamente importancia causal. La visualización es intuitiva pero carece de garantías de que refleje verdaderamente cómo el modelo toma decisiones.
Attention rollout: agrega atención a través de capas
Propagación basada en gradientes: combina atención con gradientes para fidelidad mejorada
Fusión de atención multicapa: integra información de múltiples cabezas de atención
Explicaciones en lenguaje natural: LLMs pueden generar explicaciones contrafactuales, identificar características clave y producir explicaciones textuales de modelos complejos (ACM survey 2025)
Interpretabilidad mecanicista
Los SAEs descomponen las neuronas complejas de los LLMs en cientos de miles de "características monosemánticas". Problema que resuelven: las redes codifican más características que neuronas disponibles (superposición). Solución: identificar las unidades reales de significado subyacentes.
Anthropic escaló los SAEs desde modelos pequeños hasta su modelo de producción Claude 3 Sonnet. Hallazgo clave: evaluadores humanos consideraron el 70% de las características genuinamente interpretables. Demostración: identificaron características para conceptos como "puente Golden Gate", "código inseguro" y "engaño".
Utilizan funciones de activación discontinuas para lograr alta dispersión sin sacrificar precisión del modelo. Aborda directamente el trade-off interpretabilidad-rendimiento. RouteSAE (marzo 2025): integra mecanismos de enrutamiento, logrando 22.5% más características y 22.3% mayor interpretabilidad.
Investigadores de Anthropic y Google advierten sobre casos donde un modelo parece usar características seguras pero realmente depende de proxies sesgados. Los benchmarks de robustez para explicaciones bajo presión adversarial son foco de investigación en 2026. La interpretabilidad mecanicista es poderosa pero no infalible.
Explicar agentes de IA que encadenan decisiones
Los agentes de IA no toman decisiones únicas; encadenan múltiples pasos de razonamiento, llaman herramientas externas y toman decisiones secuenciales. XAI tradicional explica predicción → etiqueta. XAI agéntica debe explicar: percepción → razonamiento → planificación → acción → resultado.
Ha pionerizado la "explicabilidad agéntica" — explicar no solo predicciones individuales sino la lógica paso a paso de agentes que encadenan múltiples decisiones. Ejemplo: un agente médico que consulta historiales, ordena pruebas y recomienda tratamiento debe explicar cada etapa.
Ofrece auditoría en tiempo real de agentes autónomos. ServiceNow convierte los "procesos de pensamiento" de agentes en registros de auditoría buscables. Crítico para cumplimiento regulatorio cuando agentes toman decisiones de alto riesgo.
2025 fue el "Año de los Agentes de IA" (OpenAI, Google, Anthropic lanzaron versiones tempranas). El desafío de explicabilidad se multiplica: los agentes requieren acceso a datos sensibles (cuentas bancarias, registros médicos) y comunican autónomamente. Gartner predice que 1 de cada 4 brechas empresariales involucrará mal uso de IA agéntica. La explicabilidad agéntica es crítica para gobernanza.
Del output técnico al lenguaje natural
Los outputs de XAI (valores SHAP, contrafactuales, visualizaciones de atención) son técnicos. Un paciente que recibe denegación de seguro o un solicitante de préstamo rechazado no entiende "tu valor SHAP para historial crediticio fue -0.34". Necesitan: "Tu solicitud fue denegada principalmente porque tienes 3 pagos atrasados en los últimos 6 meses."
Usar LLMs para traducir outputs técnicos de XAI a lenguaje natural comprensible. Tempus AI enlaza sugerencias diagnósticas con datos genómicos o clínicos específicos en lenguaje accesible para pacientes.
Resumen ejecutivo breve → Detalle medio → Explicación técnica completa. El usuario controla cuánta profundidad desea. Evita sobrecarga informativa.
Explicar explícitamente niveles de confianza y sesgos potenciales. "Este modelo tiene 78% de precisión en poblaciones similares a la tuya" es más honesto que silenciar la incertidumbre.
Un estudio en Electronic Markets (2025) sobre detección de desinformación encontró que las características de explicabilidad no mejoraron inherentemente la confianza ni la usabilidad, y en algunos casos introdujeron incertidumbre y redujeron el acuerdo en clasificación. Más explicación no equivale automáticamente a mejor comprensión.
Dedicó pista completa a XAI centrado en humanos: contextualización de explicaciones para usuarios no expertos, refinamiento con retroalimentación humana, mecanismos adaptativos de granularidad. Principios de diseño clave: visibilidad, interpretabilidad, control del usuario y equilibrio entre exhaustividad y sobrecarga informativa.
EU AI Act, GDPR, regulación estadounidense y estándares internacionales
Requisitos de transparencia del Artículo 50, obligaciones para sistemas de alto riesgo del Anexo III y etiquetado de contenido generado por IA se harán exigibles. Sanciones: hasta €35 millones o 7% de facturación global. Primer Borrador del Código de Práctica sobre Transparencia publicado en diciembre 2025.
Fallo histórico 7 abril 2025 (C-203/22, Dun & Bradstreet Austria): TJUE confirmó por primera vez la existencia del derecho a la explicación de decisiones automatizadas bajo GDPR. Principio de transparencia algorítmica vinculando derechos de acceso con capacidad de impugnar decisiones.
Gobierno Trump: EO 14179 (enero 2025) revocó EO de Biden sobre IA. EO 14365 (diciembre 2025) propone preempción federal de leyes estatales "onerosas". Iniciativa de equidad algorítmica de EEOC terminada. Propuesta de eliminar requisitos de "model cards" para IA en salud.
Colorado AI Act (postergado a junio 2026). California Transparency in Frontier AI Act (SB 53, efectiva enero 2026): primera ley estatal sobre transparencia de modelos. Múltiples leyes en California, Texas e Illinois sobre IA entraron en vigor 1 enero 2026.
ISO 42001 es el primer estándar certificable de gestión de IA del mundo. Exige explicabilidad, transparencia de datos y evaluación de riesgos. Certificaciones aumentaron 20% en 2024. NIST AI RMF 1.0 sigue como marco voluntario más adoptado. IEEE 2894 proporciona arquitectura de referencia para XAI.
GDPR, EU AI Act y marcos emergentes
Los sujetos de datos tienen derecho a no ser objeto de decisiones basadas únicamente en procesamiento automatizado que produzcan efectos legales o significativos. El controlador debe proporcionar "información significativa sobre la lógica involucrada". Fallo Dun & Bradstreet (2025) establece que complejidad de IA no es excusa válida.
Establece el derecho a obtener del desplegador "explicaciones claras y significativas del papel del sistema de IA en el procedimiento de toma de decisiones y los elementos principales de la decisión tomada." Código de Práctica final esperado para junio 2026.
Regulaciones de Tecnología de Toma de Decisiones Automatizada: aviso previo al uso informando propósito, lógica y supervisión humana. Derecho de opt-out. Solicitudes de acceso con explicación de decisiones. Aviso especial de decisión adversa.
La Ley 8968 NO establece derecho a no ser sujeto de decisiones automatizadas. Proyecto de reforma 23097 busca alinear con GDPR pero sigue pendiente. ENIA 2024-2027 reconoce explícitamente esta brecha y prioriza transparencia algorítmica. Red Iberoamericana (RIPD) establece recomendaciones aplicables a Costa Rica sobre intersección IA-privacidad.
El derecho a la explicación está consolidándose globalmente como derecho fundamental. Sin embargo, existe tensión entre mandatos legales y capacidad técnica: los LLMs actuales hacen virtualmente imposible cumplir con derechos ARCO (acceso, rectificación, cancelación, oposición) en forma tradicional.
Pionerismo centroamericano y desafíos de implementación
ENIA 2024-2027 lanzada octubre 2024. Principios clave: dignidad humana, igualdad, supervisión humana, transparencia y acceso a información, confidencialidad y protección de datos. Énfasis en auditorías periódicas de sesgo algorítmico. Costa Rica co-organizó con BID el Primer Diálogo Regional de Políticas Públicas sobre IA (diciembre 2025).
PRODHAB tiene recursos humanos y expertise tecnológico limitados para supervisar IA. Ley 8968 desactualizada (2011): NO derecho a portabilidad, NO derecho a decisiones automatizadas, sanciones débiles ($3,000-$18,000 USD). Proyecto 23097 pendiente desde 2021.
EU AI Act catalizando esfuerzos regulatorios en toda América Latina. Brasil tiene legislación más avanzada (Bill 2338/2023 aprobado Senado). Perú primer país latinoamericano en aprobar ley de IA. Índice Latinoamericano de IA (ILIA 2025) clasifica a Costa Rica como "adoptante" con mejora acelerada.
XXII Encuentro Iberoamericano (junio 2025, Cartagena): Plan Estratégico 2026-2030 prioriza intersección de IA y protección de datos. Creación del Observatorio Iberoamericano de Protección de Datos. Recomendaciones RIPD aplicables a todos los países miembros incluyendo Costa Rica para transparencia algorítmica.
La paradoja documentada: transparencia en declive
El FMTI 2025 (diciembre 2025) documentó que la transparencia de la industria ha disminuido significativamente: promedio de 40/100, contra 58/100 en 2024. Meta y OpenAI pasaron de liderar (primer y segundo lugar en 2023) a quedar en los últimos puestos en 2025. 10 de 13 empresas divulgan cero información sobre uso de energía, emisiones de carbono o consumo de agua.
Septiembre 2025: Tom Cunningham renunció a OpenAI tras concluir que era difícil publicar investigación objetiva. Más de 100 premios Nobel y profesores firmaron carta abierta (agosto 2025) exigiendo transparencia. OpenAI perdió 14 puntos en el índice, pasando de segundo lugar (2023) al penúltimo (2025).
IBM fue la única excepción con 95/100, el más alto en la historia del índice. Transparencia en datos de entrenamiento, arquitectura, capacidades, limitaciones, evaluaciones de seguridad y governance. watsonx.governance como referente de explicabilidad empresarial.
Cuando la falta de transparencia causa daño real
EFF reveló (julio 2025) que Draft One — producto de IA generativa que escribe reportes policiales desde audio de cámaras corporales — fue deliberadamente diseñado para impedir auditoría. El borrador generado por IA no se guarda; una vez copiado, desaparece. Gerente de producto de Axon confirmó "by design" para evitar "dolores de cabeza de divulgación."
Ha acumulado más de €100 millones en multas europeas combinadas (Francia €20M, Italia €20M, Grecia €20M, Países Bajos €30.5M, Reino Unido £7.5M) por base de datos ilegal de biométricos. No ha pagado ninguna. Opacidad total sobre fuentes de datos y funcionamiento del sistema.
Al menos 8 estadounidenses arrestados erróneamente por identificación mediante reconocimiento facial. Casos recientes: LaDonna Crutchfield (Detroit, enero 2024), arrestada por intento de asesinato cuando era 5 pulgadas más baja que la sospechosa. Trevis Williams (NYPD, 2025), encarcelado 2 días pese a no coincidir con descripción física.
Julio 2024: juez federal permitió demandas por discriminación racial, edad y discapacidad procedieran contra Workday bajo teoría de "agente", estableciendo precedente de que proveedores de IA pueden ser directamente responsables por discriminación laboral. Certificado como acción colectiva mayo 2025.
Estos casos revelan un patrón: la opacidad algorítmica no es un subproducto accidental de la complejidad técnica sino, frecuentemente, una decisión de diseño deliberada que sirve a intereses corporativos. Esta realidad redefine el problema de la explicabilidad: no es solo técnico sino fundamentalmente político y ético.
XAI que funciona en el mundo real
Investigadores de la Universidad de Michigan desarrollaron el framework CCR de XAI que superó a métodos existentes en precisión preservando la interpretabilidad y reduciendo el tiempo de ejecución diez veces. Presentado en ICML 2025 (conferencia premier de machine learning).
CCR refina conceptos interpretativos bajo restricciones que garantizan que las explicaciones permanezcan comprensibles para humanos mientras mantienen alta fidelidad al modelo subyacente. Combina ideas de concept-based explanations con optimización restringida para equilibrar interpretabilidad y precisión sin sacrificar ninguna.
IBM demostró aplicación concreta de XAI en el US Open de tenis, aumentando la equidad en asignación de canchas de 71% a 82% con watsonx.governance. El sistema explica sus decisiones de scheduling a organizadores, permitiendo auditoría de sesgos contra jugadores específicos.
Estos ejemplos demuestran que XAI efectivo es posible en aplicaciones del mundo real cuando hay compromiso genuino con transparencia. El desafío no es fundamentalmente técnico sino organizacional y ético: las herramientas existen; falta la voluntad de usarlas en muchos casos.
Avances técnicos vs. retrocesos institucionales
SAEs con JumpReLU: interpretabilidad mecanicista sin sacrificar precisión
SHAP consolidado: estándar de facto para explicaciones empresariales con garantías matemáticas
LLMs para traducción: outputs técnicos a lenguaje natural comprensible
Explicabilidad agéntica: herramientas emergentes para agentes de IA
Frameworks maduros: ISO 42001, NIST AI RMF, IEEE 2894
Transparencia empresarial en declive: 40/100 promedio vs. 58/100 año previo
Opacidad deliberada: casos como Axon Draft One diseñados para impedir auditoría
Desregulación en EE.UU.: gobierno Trump revirtiendo avances
Multas ignoradas: Clearview AI >€100M sin pagar
Brecha implementación: leyes existen pero enforcement débil
Derechos ARCO virtualmente inoperables en LLMs. Machine unlearning no es técnicamente viable a escala. Consentimiento significativo imposible para datasets web masivos. Trade-off entre minimización de datos y necesidades de entrenamiento. Re-identificación más fácil de lo previsto. Alucinaciones inherentes a arquitecturas generativas.
La pregunta de 2026 ya no es si podemos explicar la IA técnicamente — los métodos existen y continúan mejorando. La pregunta es si las organizaciones elegirán implementar transparencia real o continuarán la tendencia hacia mayor opacidad documentada por Stanford. Este es fundamentalmente un problema de gobernanza, no de capacidad técnica.
De la teoría a la práctica crítica
Primero, la brecha entre regulación y práctica se amplía: mientras los gobiernos aceleran mandatos de transparencia, las empresas se vuelven menos transparentes. Segundo, la tecnología de interpretabilidad está madurando genuinamente — SAEs, SHAP consolidado, explicabilidad agéntica. Tercero, los casos documentados revelan que la opacidad algorítmica es frecuentemente una decisión de diseño deliberada.
XAI no es un "nice to have" sino un requisito regulatorio con aplicación estricta comenzando agosto 2026 (EU AI Act). Las herramientas técnicas existen. El desafío es organizacional: implementar gobernanza real con supervisión humana significativa, auditorías periódicas y transparencia genuina hacia stakeholders.
Como pionero centroamericano con ENIA 2024-2027, Costa Rica está posicionada para liderar regionalmente en gobernanza ética de IA. Desafíos: fortalecer PRODHAB, aprobar reforma Ley 8968 (Proyecto 23097), desarrollar expertise técnico para supervisar IA compleja.
A continuación: Trabajo en equipos para analizar un caso real de análisis ético-crítico que cristaliza estas tensiones entre transparencia, innovación tecnológica y derechos fundamentales. Los equipos trabajarán en salas grupales, y al finalizar seleccionaremos equipos al azar para presentar su análisis.