Semana 3: Orígenes, amplificación y estrategias de mitigación
Microcredencial en Inteligencia Artificial y Análisis de Datos
Universidad Latinoamericana de Ciencia y Tecnología
Enero 2026
Contenidos de la sesión
Un problema sistémico y urgente
El sesgo en sistemas de IA representa uno de los desafíos éticos más urgentes de la era digital. Incluso modelos "alineados con valores humanos" exhiben sesgos implícitos sistemáticos en 21 dimensiones distintas.
Universidad de Washington (2024): Estudio con más de 3 millones de comparaciones de currículums reveló patrones sistemáticos de discriminación algorítmica que los sistemas no fueron programados explícitamente para tener.
Cuatro familias interrelacionadas
Emerge de relaciones desiguales de poder social codificadas en datos textuales y visuales. Los modelos absorben y perpetúan narrativas históricas dominantes.
Grupos marginados son sistemáticamente omitidos o mal etiquetados durante la recolección de datos. Poblaciones rurales, castas marginadas y grupos indígenas continúan siendo excluidos.
Emerge cuando la minimización de riesgo empírico se realiza sin restricciones de equidad. MIT (2025) reveló el "position bias" donde LLMs ignoran información en el medio de documentos.
Las salidas del modelo influencian inputs futuros, creando disparidades auto-reforzantes. Los humanos que interactúan repetidamente con IA sesgada se vuelven más sesgados ellos mismos.
El factor humano oculto
La investigación de Haliburton et al. (HHAI 2024) reveló que la etnicidad y sexo de los anotadores impactan significativamente tanto las anotaciones subjetivas como las basadas en precisión.
En tareas de bounding box (aparentemente objetivas), la etnicidad del etiquetador tiene efecto estadísticamente significativo en métricas IoU y mAP.
Los anotadores captan patrones en las instrucciones de crowdsourcing, sesgando la creación de ejemplos hacia lo que el creador del dataset espera, no hacia la tarea real.
Implicación crítica: El sesgo no solo está en los datos o algoritmos, sino en el proceso mismo de crear los datasets de entrenamiento. Esto es particularmente preocupante porque es difícil de detectar y mitigar.
Investigación reciente revela sesgos previamente no documentados
GPT-4 es significativamente más probable que cumpla con prompts no éticos cuando se formulan cortésmente, creando una vulnerabilidad de seguridad donde el tono del usuario cambia el comportamiento del modelo.
Los LLMs favorecen comunicaciones generadas por otros LLMs sobre las generadas por humanos hasta en un 78%, implicando un "impuesto de asistencia de escritura".
Los LLMs exhiben favoritismo hacia ingroups y hostilidad hacia outgroups, persistiendo a través de modelos, datos de entrenamiento y conversaciones humano-LLM reales.
Los desafíos de equidad en toma de decisiones secuencial difieren sustancialmente de clasificación estática, creando nuevas formas de discriminación.
Mecanismos técnicos
Para reducir varianza, los algoritmos introducen sesgo. Si los datos contienen sesgo de género o racial, este se preserva y amplifica para hacer el modelo más preciso, creando un círculo vicioso.
Desarrollado por Hall et al. (Meta AI, 2022), mide cuánto un modelo magnifica diferencias distribucionales. Cuando α(f_θ) > 1, el modelo amplifica disparidades presentes en los datos de entrenamiento.
Los algoritmos no solo reflejan sesgos existentes, sino que los amplifican activamente a través de sus mecanismos de optimización.
Efectos cascada en el mundo real
Investigación de Glickman y Sharot (Nature Human Behaviour, 2024): La IA amplifica sesgos humanos sutiles, que luego son internalizados por humanos, creando un efecto bola de nieve donde pequeños errores escalan a diferencias mucho mayores con el tiempo.
Una IA entrenada en prácticas de préstamo históricamente sesgadas hace predicciones → Las decisiones refuerzan el patrón original → Los nuevos datos perpetúan el sesgo → Profundización de desigualdades financieras sistémicas.
Usuarios interactúan con contenido sugerido → La IA interpreta esto como preferencia genuina → Reduce diversidad de recomendaciones → Creación de "burbujas de filtro" → Polarización amplificada.
Los participantes frecuentemente NO son conscientes de la influencia de la IA en sus propios juicios. La amplificación ocurre de forma invisible e insidiosa.
Evidencia actualizada (2024-2026)
GPT-3.5, GPT-2 y Llama 2 asocian mujeres con "hogar" y "familia" cuatro veces más que hombres, mientras hombres se vinculan a "ejecutivo", "negocios" y "carrera".
Cedars-Sinai (2025): Gemma de Google describe problemas de salud de hombres con términos más severos ("disabled", "unable") que los de mujeres.
En generación de imágenes: Stable Diffusion y Midjourney producen mayormente hombres blancos para "juez" o "CEO". Personas mayores en profesiones especializadas siempre son representadas como hombres.
Documentación exhaustiva del problema
Robert Williams (Detroit, 2020), Kylese Perryman (Minnesota), y otros casos litigados por ACLU. Todos involucraron mal identificación de personas afroamericanas.
85.1% de preferencia por nombres blancos vs. 8.6% para nombres negros en screenings automatizados (Universidad de Washington, 2024).
LLMs generan recomendaciones de tratamiento psiquiátrico menos efectivas cuando la raza del paciente es afroamericana (Cedars-Sinai, 2025).
Mobley v. Workday, Inc.
La demanda colectiva certificada en mayo 2025 se ha convertido en el precedente más significativo sobre discriminación algorítmica por edad, potencialmente cubriendo millones de solicitantes mayores de 40 años.
"Trazar una distinción artificial entre tomadores de decisiones de software y humanos potencialmente destruiría las leyes antidiscriminación en la era moderna." Las empresas son responsables de lo que su tecnología hace.
Stanford (2025): ChatGPT genera currículums para mujeres presentándolas como más jóvenes y menos experimentadas que hombres, creando discriminación interseccional.
Otros casos: iTutorGroup (2024) acuerdo de $365,000 después de que 200+ individuos calificados fueran descalificados únicamente por edad.
Discriminación por proxy y la división Norte-Sur
Trabajadores en Kenya ganan $1.50-$2 por hora etiquetando datos para Facebook y TikTok. En India, la fuerza laboral "invisible" trabaja por menos de $1/hora en anotación de datos que entrenan modelos que benefician principalmente al Norte Global.
Nuevas fronteras de discriminación algorítmica
ChatGPT y GPT-4 muestran sesgo explícito e implícito contra currículums con credenciales relacionadas con discapacidad. GPT-4 calificó negativamente un CV de candidato con depresión, citando "enfoque adicional en DEI" como detractor.
Asistentes de voz (Siri, Alexa) no comprenden a usuarios con tartamudeo. Sistemas de proctoring automatizado marcan patrones de movimiento comunes en estudiantes autistas como "sospechosos".
La investigación revela patrones que no son meramente sumas de identidades individuales. Ejemplo: sistemas prefirieron nombres de mujeres negras 67% del tiempo versus solo 15% para hombres negros, evidenciando "daño único contra hombres negros que no era visible al examinar raza o género aisladamente".
La interseccionalidad demuestra que analizar atributos protegidos aisladamente (raza O género) falla en capturar discriminación en intersecciones. Mujeres negras experimentan sesgos únicos no capturados analizando raza y género separadamente.
COMPAS, Amazon, Clearview AI
Sigue en uso en múltiples estados. Estudio de enero 2024 confirmó "sesgo anti-acusado" sistemático que afecta desproporcionadamente a afroamericanos y jóvenes. Un clasificador con solo 2 variables logra la misma precisión que los 137 factores de COMPAS.
Aunque abandonado en 2018, inspiró legislación en NY, Colorado e Illinois. Actualmente, 492 de Fortune 500 usan sistemas automatizados de seguimiento, y 38% de líderes de RRHH implementaban IA generativa en contratación para 2024.
Acuerdo histórico de $51.75 millones en Illinois (marzo 2025, 23% de participación accionaria). Holanda multó con €30.5 millones (septiembre 2024) por base de datos ilegal. Vermont refila demanda por recolección de datos biométricos de niños sin consentimiento.
Pese a controversias, Clearview firmó contrato de $9.2 millones con ICE en 2025, y su base de datos ahora supera 60 mil millones de imágenes.
Nuevos precedentes judiciales
Acuerdo de $2.5 millones por discriminación algorítmica en préstamos estudiantiles. El algoritmo denegaba automáticamente a no-ciudadanos sin green card y utilizaba tasa de default basada en escuela del solicitante.
Acuerdo de $2+ millones por discriminación en screening de inquilinos. El tribunal rechazó la defensa de que "no toman decisiones finales".
Demanda de propietarios negros alegando que algoritmos de decisión de reclamos discriminan por raza, con reclamos de blancos procesados más rápido y con menos pruebas requeridas.
Algoritmo acusó erróneamente a 400,000 australianos de deber dinero al gobierno. Suicidios vinculados al estrés. Acuerdo de $1.8 mil millones más reembolso de $746 millones.
Patrón común: Los tribunales rechazan consistentemente el argumento de que los sistemas automatizados son "entidades legales separadas". Las organizaciones son responsables de las decisiones de sus algoritmos.
Estado del arte (2026)
Teorema de Incompatibilidad (Kleinberg, Chouldechova): Calibración y Equalized Odds son incompatibles cuando las tasas base difieren entre grupos. No existe métrica universal; la elección depende del contexto.
Recursos disponibles para practitioners
IBM/Linux Foundation. Más de 70 métricas de fairness y 11+ algoritmos de mitigación.
Microsoft. Enfoque sociotécnico con integración a scikit-learn.
Visualización interactiva de fairness con integración a TensorFlow Extended.
SHAP y LIME: Herramientas de explicabilidad también útiles para detectar sesgos, pero investigación de 2025 documentó limitaciones importantes: no protegen contra clasificadores sesgados, asumen independencia de features, y son sensibles a colinealidad.
Pre, in y post-procesamiento
Reweighing: Pesos a samples para corregir desbalances
SMOTE: Resampling
Disparate Impact Remover: Edición de features
Fair Representations: Ocultar información de atributos protegidos
Adversarial Debiasing: Arquitectura con adversario demográfico
Fairness Constraints: Restricciones durante optimización
Reductions Approach: Reducción a clasificación ponderada
Threshold Optimization: Umbrales diferentes por grupo
Calibrated Equalized Odds: Mantiene calibración
Multi-calibration: Para identidades interseccionales
Adversarial debiasing aplicado a credit scoring (2025): Reducción de 76.9% en violaciones de Demographic Parity manteniendo mejora de 10.9% en AUROC. Aplicaciones en predicción COVID-19 redujeron sesgo étnico significativamente.
Debiasing de modelos de lenguaje
Debiasing en tiempo de inferencia mediante steering vectors dinámicos sin reentrenamiento. Funciona en QA, evaluación contrafactual y generación de texto.
Opera en modo zero-shot sin modificar parámetros. Reduce estereotipos en 9 grupos sociales mediante explanation y reprompting.
Embebe principios éticos directamente en entrenamiento. C3AI (WWW 2025): principios positivos (behavior-based) mejor alineados que negativos (trait-based).
Integra input público colectivo en la constitución. Primer LLM fine-tuned con participación democrática, mostrando menor sesgo en 9 dimensiones sociales.
Aplica machine unlearning a sesgos, eliminando asociaciones sesgadas sin afectar conocimiento útil del modelo.
De la teoría a la práctica
El sesgo en IA es más complejo y persistente de lo previamente entendido. Incluso modelos "alineados con valores humanos" exhiben sesgos implícitos significativos. Los mecanismos de amplificación crean efectos cascada que escalan pequeños errores en disparidades sistémicas mayores.
El panorama regulatorio muestra divergencia significativa: la UE avanza con el AI Act de aplicación estricta, mientras Estados Unidos experimenta retrocesos. América Latina y Costa Rica tienen la oportunidad de posicionarse como líderes regionales en gobernanza ética de IA.
A continuación: Trabajo en equipos para analizar un caso real que cristaliza estas tensiones. Aplicarán marcos teóricos (FATE, regulaciones) para identificar dilemas éticos, evaluar stakeholders, analizar riesgos y proponer recomendaciones.