Sesgo y discriminación algorítmica

Semana 3: Orígenes, amplificación y estrategias de mitigación

Microcredencial en Inteligencia Artificial y Análisis de Datos
Universidad Latinoamericana de Ciencia y Tecnología
Enero 2026

Agenda de hoy

Contenidos de la sesión

Parte 1: Fundamentos

Fuentes de sesgo en IA
Nueva taxonomía: cuatro familias
Sesgo en etiquetado y anotación
Categorías emergentes (2024-2026)

Parte 2: Amplificación

Mecanismos técnicos
Bucles de retroalimentación
Model collapse
Amplificación en IA generativa

Parte 3: Tipos y casos

Sesgo de género, raza, edad
Sesgo socioeconómico y geográfico
Casos emblemáticos
Fallos judiciales recientes

Parte 4: Soluciones

Técnicas de detección
Métricas de fairness
Estrategias de mitigación
Caso práctico en equipos

El desafío del sesgo en IA

Un problema sistémico y urgente

El sesgo en sistemas de IA representa uno de los desafíos éticos más urgentes de la era digital. Incluso modelos "alineados con valores humanos" exhiben sesgos implícitos sistemáticos en 21 dimensiones distintas.

85%

Preferencia por nombres asociados con personas blancas en selección con IA

0%

Nombres de hombres negros nunca preferidos sobre hombres blancos

98.18%

Puntuación de sesgo colonial en GPT-4o (2025)

Universidad de Washington (2024): Estudio con más de 3 millones de comparaciones de currículums reveló patrones sistemáticos de discriminación algorítmica que los sistemas no fueron programados explícitamente para tener.

Fuentes de sesgo: nueva taxonomía

Cuatro familias interrelacionadas

1. Sesgo histórico/representacional

Emerge de relaciones desiguales de poder social codificadas en datos textuales y visuales. Los modelos absorben y perpetúan narrativas históricas dominantes.

2. Sesgo de selección y medición

Grupos marginados son sistemáticamente omitidos o mal etiquetados durante la recolección de datos. Poblaciones rurales, castas marginadas y grupos indígenas continúan siendo excluidos.

3. Sesgo algorítmico/de optimización

Emerge cuando la minimización de riesgo empírico se realiza sin restricciones de equidad. MIT (2025) reveló el "position bias" donde LLMs ignoran información en el medio de documentos.

4. Sesgo de feedback/emergente

Las salidas del modelo influencian inputs futuros, creando disparidades auto-reforzantes. Los humanos que interactúan repetidamente con IA sesgada se vuelven más sesgados ellos mismos.

Sesgo en etiquetado de datos

El factor humano oculto

El problema

La investigación de Haliburton et al. (HHAI 2024) reveló que la etnicidad y sexo de los anotadores impactan significativamente tanto las anotaciones subjetivas como las basadas en precisión.

Impacto en tareas objetivas

En tareas de bounding box (aparentemente objetivas), la etnicidad del etiquetador tiene efecto estadísticamente significativo en métricas IoU y mAP.

Sesgo de instrucciones

Los anotadores captan patrones en las instrucciones de crowdsourcing, sesgando la creación de ejemplos hacia lo que el creador del dataset espera, no hacia la tarea real.

Implicación crítica: El sesgo no solo está en los datos o algoritmos, sino en el proceso mismo de crear los datasets de entrenamiento. Esto es particularmente preocupante porque es difícil de detectar y mitigar.

Nuevas categorías de sesgo (2024-2026)

Investigación reciente revela sesgos previamente no documentados

Sesgo de cortesía

GPT-4 es significativamente más probable que cumpla con prompts no éticos cuando se formulan cortésmente, creando una vulnerabilidad de seguridad donde el tono del usuario cambia el comportamiento del modelo.

Sesgo AI-AI

Los LLMs favorecen comunicaciones generadas por otros LLMs sobre las generadas por humanos hasta en un 78%, implicando un "impuesto de asistencia de escritura".

Sesgo de identidad social

Los LLMs exhiben favoritismo hacia ingroups y hostilidad hacia outgroups, persistiendo a través de modelos, datos de entrenamiento y conversaciones humano-LLM reales.

Sesgo temporal secuencial

Los desafíos de equidad en toma de decisiones secuencial difieren sustancialmente de clasificación estática, creando nuevas formas de discriminación.

Amplificación algorítmica de sesgos

Mecanismos técnicos

Trade-off sesgo-varianza

Para reducir varianza, los algoritmos introducen sesgo. Si los datos contienen sesgo de género o racial, este se preserva y amplifica para hacer el modelo más preciso, creando un círculo vicioso.

Ratio de amplificación

Desarrollado por Hall et al. (Meta AI, 2022), mide cuánto un modelo magnifica diferencias distribucionales. Cuando α(f_θ) > 1, el modelo amplifica disparidades presentes en los datos de entrenamiento.

Factores que afectan amplificación

Sesgo del dataset original
Capacidad del modelo (parámetros)
Tiempo de entrenamiento
Dificultad relativa de la tarea

Los algoritmos no solo reflejan sesgos existentes, sino que los amplifican activamente a través de sus mecanismos de optimización.

Bucles de retroalimentación

Efectos cascada en el mundo real

Investigación de Glickman y Sharot (Nature Human Behaviour, 2024): La IA amplifica sesgos humanos sutiles, que luego son internalizados por humanos, creando un efecto bola de nieve donde pequeños errores escalan a diferencias mucho mayores con el tiempo.

Ejemplo: Credit scoring

Una IA entrenada en prácticas de préstamo históricamente sesgadas hace predicciones → Las decisiones refuerzan el patrón original → Los nuevos datos perpetúan el sesgo → Profundización de desigualdades financieras sistémicas.

Ejemplo: Sistemas de recomendación

Usuarios interactúan con contenido sugerido → La IA interpreta esto como preferencia genuina → Reduce diversidad de recomendaciones → Creación de "burbujas de filtro" → Polarización amplificada.

Hallazgo crítico

Los participantes frecuentemente NO son conscientes de la influencia de la IA en sus propios juicios. La amplificación ocurre de forma invisible e insidiosa.

Sesgo de género: patrones persistentes

Evidencia actualizada (2024-2026)

51.9%

Preferencia por nombres masculinos en screenings con LLM

11.1%

Preferencia por nombres femeninos en misma tarea

30%

Menos entrevistas para mujeres en STEM evaluadas por IA (MIT, 2024)

UNESCO (2024): Evidencia inequívoca

GPT-3.5, GPT-2 y Llama 2 asocian mujeres con "hogar" y "familia" cuatro veces más que hombres, mientras hombres se vinculan a "ejecutivo", "negocios" y "carrera".

Salud: Diagnóstico médico

Cedars-Sinai (2025): Gemma de Google describe problemas de salud de hombres con términos más severos ("disabled", "unable") que los de mujeres.

En generación de imágenes: Stable Diffusion y Midjourney producen mayormente hombres blancos para "juez" o "CEO". Personas mayores en profesiones especializadas siempre son representadas como hombres.

Sesgo racial: disparidades sistemáticas

Documentación exhaustiva del problema

100x

Mayor probabilidad de mal identificación para personas negras vs. hombres blancos (NIST)

34.7%

Tasa de error para mujeres de piel oscura en reconocimiento facial

100%

Nombres de hombres negros desfavorecidos en comparación directa con blancos

Casos de arrestos injustos basados en reconocimiento facial

Robert Williams (Detroit, 2020), Kylese Perryman (Minnesota), y otros casos litigados por ACLU. Todos involucraron mal identificación de personas afroamericanas.

Contratación

85.1% de preferencia por nombres blancos vs. 8.6% para nombres negros en screenings automatizados (Universidad de Washington, 2024).

Salud

LLMs generan recomendaciones de tratamiento psiquiátrico menos efectivas cuando la raza del paciente es afroamericana (Cedars-Sinai, 2025).

Sesgo por edad: un precedente histórico

Mobley v. Workday, Inc.

La demanda colectiva certificada en mayo 2025 se ha convertido en el precedente más significativo sobre discriminación algorítmica por edad, potencialmente cubriendo millones de solicitantes mayores de 40 años.

1.1 mil millones

Aplicaciones procesadas por el sistema durante el período relevante

Fallo judicial histórico

"Trazar una distinción artificial entre tomadores de decisiones de software y humanos potencialmente destruiría las leyes antidiscriminación en la era moderna." Las empresas son responsables de lo que su tecnología hace.

Doble penalización

Stanford (2025): ChatGPT genera currículums para mujeres presentándolas como más jóvenes y menos experimentadas que hombres, creando discriminación interseccional.

Otros casos: iTutorGroup (2024) acuerdo de $365,000 después de que 200+ individuos calificados fueran descalificados únicamente por edad.

Sesgo socioeconómico y geográfico

Discriminación por proxy y la división Norte-Sur

Sesgo socioeconómico

Algoritmos de préstamos discriminan por código postal
Tasas de interés más altas para negros e hispanos con solvencia similar
Fairway Mortgage (2024): acuerdo por evitar préstamos en áreas mayoritariamente negras
Primas de seguro 82% más altas para 20% más pobre

Sesgo geográfico global

Impactos de IA en economías avanzadas > 2x que en países de bajos ingresos (FMI)
India: 20% de datos mundiales, solo 3% de capacidad de centros de datos
LLMs sesgados hacia necesidades de angloparlantes en países ricos
Datasets de cáncer de piel: mayoritariamente Europa/Norteamérica

Trabajadores en Kenya ganan $1.50-$2 por hora etiquetando datos para Facebook y TikTok. En India, la fuerza laboral "invisible" trabaja por menos de $1/hora en anotación de datos que entrenan modelos que benefician principalmente al Norte Global.

Sesgos emergentes: discapacidad e interseccionalidad

Nuevas fronteras de discriminación algorítmica

Sesgo por discapacidad

ChatGPT y GPT-4 muestran sesgo explícito e implícito contra currículums con credenciales relacionadas con discapacidad. GPT-4 calificó negativamente un CV de candidato con depresión, citando "enfoque adicional en DEI" como detractor.

Accesibilidad tecnológica

Asistentes de voz (Siri, Alexa) no comprenden a usuarios con tartamudeo. Sistemas de proctoring automatizado marcan patrones de movimiento comunes en estudiantes autistas como "sospechosos".

Interseccionalidad: California primer estado en reconocerla (septiembre 2024)

La investigación revela patrones que no son meramente sumas de identidades individuales. Ejemplo: sistemas prefirieron nombres de mujeres negras 67% del tiempo versus solo 15% para hombres negros, evidenciando "daño único contra hombres negros que no era visible al examinar raza o género aisladamente".

La interseccionalidad demuestra que analizar atributos protegidos aisladamente (raza O género) falla en capturar discriminación en intersecciones. Mujeres negras experimentan sesgos únicos no capturados analizando raza y género separadamente.

Casos emblemáticos: actualizaciones

COMPAS, Amazon, Clearview AI

COMPAS (2024-2026)

Sigue en uso en múltiples estados. Estudio de enero 2024 confirmó "sesgo anti-acusado" sistemático que afecta desproporcionadamente a afroamericanos y jóvenes. Un clasificador con solo 2 variables logra la misma precisión que los 137 factores de COMPAS.

Amazon hiring algorithm

Aunque abandonado en 2018, inspiró legislación en NY, Colorado e Illinois. Actualmente, 492 de Fortune 500 usan sistemas automatizados de seguimiento, y 38% de líderes de RRHH implementaban IA generativa en contratación para 2024.

Clearview AI: acciones legales globales

Acuerdo histórico de $51.75 millones en Illinois (marzo 2025, 23% de participación accionaria). Holanda multó con €30.5 millones (septiembre 2024) por base de datos ilegal. Vermont refila demanda por recolección de datos biométricos de niños sin consentimiento.

Pese a controversias, Clearview firmó contrato de $9.2 millones con ICE en 2025, y su base de datos ahora supera 60 mil millones de imágenes.

Casos recientes de alto impacto (2024-2026)

Nuevos precedentes judiciales

Massachusetts AG v. Earnest Operations (julio 2025)

Acuerdo de $2.5 millones por discriminación algorítmica en préstamos estudiantiles. El algoritmo denegaba automáticamente a no-ciudadanos sin green card y utilizaba tasa de default basada en escuela del solicitante.

SafeRent Solutions (2024)

Acuerdo de $2+ millones por discriminación en screening de inquilinos. El tribunal rechazó la defensa de que "no toman decisiones finales".

State Farm Insurance (2025)

Demanda de propietarios negros alegando que algoritmos de decisión de reclamos discriminan por raza, con reclamos de blancos procesados más rápido y con menos pruebas requeridas.

Robodebt - Australia (2020-2024)

Algoritmo acusó erróneamente a 400,000 australianos de deber dinero al gobierno. Suicidios vinculados al estrés. Acuerdo de $1.8 mil millones más reembolso de $746 millones.

Patrón común: Los tribunales rechazan consistentemente el argumento de que los sistemas automatizados son "entidades legales separadas". Las organizaciones son responsables de las decisiones de sus algoritmos.

Técnicas para detectar sesgos

Estado del arte (2026)

Auditorías de equidad

Fair Game (2025): Combina auditor y algoritmo de debiasing mediante Reinforcement Learning
Peer-induced Fairness: Fairness contrafactual y comparación entre pares
IEEE 7003-2024: Estándar para consideraciones de sesgo algorítmico
IEEE CertifAIEd: Certificación de transparencia y accountability

Métricas principales

Demographic Parity: Tasas de predicción positiva iguales
Equalized Odds: TPR y FPR iguales entre grupos
Equal Opportunity: Solo TPR igual
Predictive Parity: Valor predictivo positivo igual
Disparate Impact: Ratio ≥ 0.8 (regla del 80%)

Teorema de Incompatibilidad (Kleinberg, Chouldechova): Calibración y Equalized Odds son incompatibles cuando las tasas base difieren entre grupos. No existe métrica universal; la elección depende del contexto.

Herramientas y frameworks de evaluación

Recursos disponibles para practitioners

AI Fairness 360

IBM/Linux Foundation. Más de 70 métricas de fairness y 11+ algoritmos de mitigación.

Fairlearn

Microsoft. Enfoque sociotécnico con integración a scikit-learn.

Google What-If Tool

Visualización interactiva de fairness con integración a TensorFlow Extended.

Benchmarks para LLMs

BBQ: Bias Benchmark for QA
WinoBias/WinoQueer: Evaluación de sesgo de género
CrowS-Pairs: Pares de oraciones para medir estereotipos
StereoSet: Evaluación de estereotipos en LLMs
BiasGym (2025): Mechanistic interpretability para localizar y eliminar asociaciones de sesgo

SHAP y LIME: Herramientas de explicabilidad también útiles para detectar sesgos, pero investigación de 2025 documentó limitaciones importantes: no protegen contra clasificadores sesgados, asumen independencia de features, y son sensibles a colinealidad.

Estrategias de mitigación de sesgo

Pre, in y post-procesamiento

Pre-procesamiento

Reweighing: Pesos a samples para corregir desbalances
SMOTE: Resampling
Disparate Impact Remover: Edición de features
Fair Representations: Ocultar información de atributos protegidos

In-procesamiento

Adversarial Debiasing: Arquitectura con adversario demográfico
Fairness Constraints: Restricciones durante optimización
Reductions Approach: Reducción a clasificación ponderada

Post-procesamiento

Threshold Optimization: Umbrales diferentes por grupo
Calibrated Equalized Odds: Mantiene calibración
Multi-calibration: Para identidades interseccionales

Evidencia de efectividad

Adversarial debiasing aplicado a credit scoring (2025): Reducción de 76.9% en violaciones de Demographic Parity manteniendo mejora de 10.9% en AUROC. Aplicaciones en predicción COVID-19 redujeron sesgo étnico significativamente.

Técnicas emergentes para LLMs (2024-2026)

Debiasing de modelos de lenguaje

FairSteer (ACL 2025)

Debiasing en tiempo de inferencia mediante steering vectors dinámicos sin reentrenamiento. Funciona en QA, evaluación contrafactual y generación de texto.

Self-Debiasing (NAACL 2025)

Opera en modo zero-shot sin modificar parámetros. Reduce estereotipos en 9 grupos sociales mediante explanation y reprompting.

Constitutional AI (Anthropic)

Embebe principios éticos directamente en entrenamiento. C3AI (WWW 2025): principios positivos (behavior-based) mejor alineados que negativos (trait-based).

Collective Constitutional AI

Integra input público colectivo en la constitución. Primer LLM fine-tuned con participación democrática, mostrando menor sesgo en 9 dimensiones sociales.

BiasUnlearn (EMNLP 2025)

Aplica machine unlearning a sesgos, eliminando asociaciones sesgadas sin afectar conocimiento útil del modelo.

Conclusiones: el camino adelante

De la teoría a la práctica

Lo que hemos aprendido

El sesgo en IA es más complejo y persistente de lo previamente entendido. Incluso modelos "alineados con valores humanos" exhiben sesgos implícitos significativos. Los mecanismos de amplificación crean efectos cascada que escalan pequeños errores en disparidades sistémicas mayores.

Desafíos persistentes

Teorema de incompatibilidad: no existe definición universal de fairness
Decisiones sobre métricas son inherentemente políticas
Bucles de retroalimentación invisibles e insidiosos
Interseccionalidad requiere análisis más sofisticados

Herramientas disponibles

Frameworks maduros: AI Fairness 360, Fairlearn
Estándares: IEEE 7003-2024
Técnicas de mitigación probadas
Precedentes judiciales establecidos

El panorama regulatorio muestra divergencia significativa: la UE avanza con el AI Act de aplicación estricta, mientras Estados Unidos experimenta retrocesos. América Latina y Costa Rica tienen la oportunidad de posicionarse como líderes regionales en gobernanza ética de IA.

A continuación: Trabajo en equipos para analizar un caso real que cristaliza estas tensiones. Aplicarán marcos teóricos (FATE, regulaciones) para identificar dilemas éticos, evaluar stakeholders, analizar riesgos y proponer recomendaciones.