← Volver al Inicio
Universidad Nacional de Costa Rica

EIY403

Introducción al Análisis de Datos para Otras Carreras

Clase 1: Fundamentos y Conceptos Básicos
II Semestre 2025
Escuela de Informática y Computación
Introducción al Análisis de Datos
1 / 15
Universidad Nacional de Costa Rica

Agenda de la Clase

Bloque 1: Introducción

  • Presentaciones
  • Carta al Estudiante
  • Objetivos del curso
  • Metodología

Bloque 2: Historia

  • Historia del análisis de datos
  • Evolución tecnológica
  • Era actual de datos

Bloque 3: Herramientas

  • Lenguajes para análisis
  • Python vs R
  • Ecosistemas y comunidades

Bloque 4: Fundamentos

  • Análisis exploratorio
  • Tipos de datos
  • Práctica manual de estadísticas
2 / 15
Universidad Nacional de Costa Rica

¿Por qué Análisis de Datos en Diferentes Disciplinas?

Mundo Actual

  • Explosión de datos en todas las áreas
  • Necesidad de tomar decisiones basadas en evidencia
  • Competitividad y eficiencia en investigación
  • Descubrimiento de patrones ocultos
  • Automatización de procesos repetitivos
  • Reproducibilidad científica

Beneficios Clave

  • Precisión: Reduce errores humanos
  • Escala: Procesa grandes volúmenes
  • Velocidad: Análisis en tiempo real
  • Visualización: Comunicación efectiva

Aplicaciones por Disciplina

  • Química:
    • Análisis de espectros y cromatografías
    • Optimización de síntesis químicas
    • Control de calidad en laboratorios
    • Modelado molecular y QSAR
    • Análisis de pureza y concentraciones
  • Medicina: Diagnósticos, epidemiología
  • Educación: Rendimiento estudiantil
  • Agricultura: Optimización de cultivos
  • Negocios: Análisis de mercado
  • Ciencias Sociales: Comportamiento humano
  • Ingeniería: Optimización de procesos
  • Biología: Genómica y proteómica

Ejemplo Real: Química Analítica

Caso: Análisis de 1000+ muestras de agua
Tradicional: Semanas de trabajo manual
Con datos: Automatización + visualización en horas

3 / 15
Universidad Nacional de Costa Rica

Historia del Análisis de Datos

1600s-1700s

Estadística Clásica: Primeros censos y registros demográficos. John Graunt analiza datos de mortalidad en Londres.

1800s

Estadística Moderna: Gauss, Bayes, y otros desarrollan fundamentos matemáticos. Primeros gráficos estadísticos.

1950s-1960s

Era Computacional: Primeras computadoras permiten análisis más complejos. Nace la estadística computacional.

1990s-2000s

Internet y Bases de Datos: Explosión de datos digitales. Desarrollo de herramientas como R (1993) y Python.

2010s-Presente

Big Data e IA: Machine Learning, Deep Learning, y análisis de datos masivos en tiempo real.

4 / 15
Universidad Nacional de Costa Rica

Características de la Era Actual de Datos

Volumen y Velocidad

  • 2.5 quintillones de bytes diarios
  • Datos en tiempo real
  • Internet de las Cosas (IoT)
  • Redes sociales y sensores

Variedad

  • Datos estructurados y no estructurados
  • Texto, imágenes, audio, video
  • Datos geoespaciales
  • Streams de datos continuos

Democratización

  • Herramientas accesibles
  • Cloud computing
  • Interfaces user-friendly
  • Comunidades open source

Aplicaciones Emergentes

  • Inteligencia Artificial
  • Análisis predictivo
  • Personalización masiva
  • Toma de decisiones automatizada
5 / 15
Universidad Nacional de Costa Rica

Lenguajes que Favorecen el Análisis de Datos

Lenguaje Fortalezas Casos de Uso Típicos Curva de Aprendizaje
Python Versatilidad, grandes librerías, integración ML, AI, web scraping, automatización Moderada
R Estadística avanzada, visualización Investigación, bioestadística, reportes Moderada-Alta
SQL Manejo de bases de datos relacionales Consultas, ETL, data warehousing Baja-Moderada
Java/Scala Performance, sistemas distribuidos Big Data, sistemas empresariales Alta
Julia Velocidad, computación científica Investigación, HPC, finanzas Moderada-Alta
6 / 15
Universidad Nacional de Costa Rica

Python vs R: Comparación Detallada

Python

Ventajas:

  • Lenguaje de propósito general
  • Sintaxis clara y legible
  • Excelente para machine learning
  • Gran comunidad y ecosistema
  • Integración con web y sistemas

Librerías Clave:

  • Pandas, NumPy (manipulación)
  • Matplotlib, Seaborn (visualización)
  • Scikit-learn (ML)
  • TensorFlow, PyTorch (Deep Learning)

R

Ventajas:

  • Diseñado específicamente para estadística
  • Visualizaciones avanzadas (ggplot2)
  • Análisis estadístico superior
  • Excelente para investigación
  • Reportes reproducibles

Librerías Clave:

  • dplyr, tidyr (manipulación)
  • ggplot2 (visualización)
  • caret, randomForest (ML)
  • shiny (aplicaciones web)
7 / 15
Universidad Nacional de Costa Rica

¿Cuál Elegir Según el Contexto?

Elige Python si...

  • Quieres aprender un lenguaje versátil
  • Planeas trabajar con machine learning
  • Necesitas integrar con aplicaciones web
  • Tu background es en programación
  • Trabajas con datos muy grandes
  • Quieres automatizar procesos

Casos de Uso Python

  • Sistemas de recomendación
  • Procesamiento de lenguaje natural
  • Análisis de redes sociales
  • Computer vision

Elige R si...

  • Tu enfoque es principalmente estadístico
  • Trabajas en investigación académica
  • Necesitas visualizaciones muy específicas
  • Tu background es en matemáticas/estadística
  • Requieres análisis estadísticos avanzados
  • Produces reportes regulares

Casos de Uso R

  • Ensayos clínicos
  • Investigación en ciencias sociales
  • Análisis financiero
  • Bioestadística
8 / 15
Universidad Nacional de Costa Rica

¿Qué es el Análisis Exploratorio de Datos?

Definición

El Análisis Exploratorio de Datos (EDA) es el proceso de investigar conjuntos de datos para descubrir patrones, detectar anomalías, probar hipótesis y verificar suposiciones usando estadística descriptiva y representaciones gráficas.

Objetivos Principales

  • Entender la estructura de los datos
  • Identificar variables importantes
  • Detectar valores atípicos y errores
  • Encontrar patrones y relaciones
  • Generar hipótesis

Proceso EDA

  • 1. Inspección inicial: Tamaño, estructura, tipos
  • 2. Limpieza: Valores faltantes, duplicados
  • 3. Estadística descriptiva: Medidas centrales y dispersión
  • 4. Visualización: Gráficos y distribuciones
  • 5. Análisis de relaciones: Correlaciones
  • 6. Identificación de patrones: Tendencias, estacionalidad
9 / 15
Universidad Nacional de Costa Rica

Tipos de Datos y Variables

Datos Cuantitativos (Numéricos)

Discretos:

  • Valores contables (enteros)
  • Ejemplo: número de estudiantes, cantidad de productos

Continuos:

  • Valores en cualquier punto de un rango
  • Ejemplo: altura, peso, temperatura, tiempo

Datos Cualitativos (Categóricos)

Nominales:

  • Sin orden natural
  • Ejemplo: color, género, marca

Ordinales:

  • Con orden natural
  • Ejemplo: nivel educativo, satisfacción (bajo, medio, alto)

Escalas de Medición

Nominal:

  • Solo clasificación
  • Operaciones: igualdad, frecuencia

Ordinal:

  • Clasificación + orden
  • Operaciones: ranking, mediana

Intervalo:

  • Orden + distancia constante
  • Operaciones: suma, resta (ej: temperatura °C)

Razón:

  • Intervalo + cero absoluto
  • Operaciones: todas (ej: altura, peso)
10 / 15
Universidad Nacional de Costa Rica

Medidas de Tendencia Central

Media Aritmética ($\bar{x}$)

$$\bar{x} = \frac{\sum x}{n}$$
  • Uso: Datos simétricos sin valores extremos
  • Ventaja: Usa todos los valores
  • Desventaja: Sensible a valores atípicos

Mediana (Me)

Valor central en datos ordenados

  • n impar: valor del medio
  • n par: promedio de los dos valores centrales
  • Ventaja: Resistente a valores atípicos
  • Uso: Datos asimétricos o con outliers

Moda (Mo)

Valor(es) que aparece(n) con mayor frecuencia

  • Unimodal: una moda
  • Bimodal: dos modas
  • Multimodal: más de dos modas
  • Uso: Datos categóricos o identificar patrones

¿Cuándo usar cada una?

  • Distribución simétrica: Media
  • Distribución asimétrica: Mediana
  • Datos categóricos: Moda
  • Presencia de outliers: Mediana
11 / 15
Universidad Nacional de Costa Rica

Medidas de Dispersión

Rango

$$\text{Rango} = \text{Valor máximo} - \text{Valor mínimo}$$
  • Ventaja: Fácil de calcular
  • Desventaja: Solo usa valores extremos

Varianza (σ² o s²)

Poblacional: $$\sigma^2 = \frac{\sum(x - \mu)^2}{N}$$

Muestral: $$s^2 = \frac{\sum(x - \bar{x})^2}{n-1}$$
  • Mide dispersión promedio al cuadrado
  • Unidades: Al cuadrado de los datos originales

Desviación Estándar (σ o s)

$$\sigma = \sqrt{\sigma^2} \quad \text{o} \quad s = \sqrt{s^2}$$
  • Raíz cuadrada de la varianza
  • Ventaja: Mismas unidades que los datos
  • Interpretación más intuitiva

Coeficiente de Variación (CV)

$$CV = \frac{s}{\bar{x}} \times 100\%$$
  • Medida relativa de dispersión
  • Permite comparar conjuntos con diferentes unidades
  • CV < 15%: Baja variabilidad
  • CV > 30%: Alta variabilidad
12 / 15
Universidad Nacional de Costa Rica

Ejercicio Práctico 1: Medidas de Tendencia Central

Datos: Calificaciones de un Examen
Calificaciones (sobre 100): 85, 92, 78, 96, 88, 91, 85, 89, 94, 87

Calculemos paso a paso:

1. Media Aritmética:

$$\bar{x} = \frac{85 + 92 + 78 + 96 + 88 + 91 + 85 + 89 + 94 + 87}{10}$$ $$\bar{x} = \frac{885}{10} = 88.5$$

2. Mediana:

Primero ordenamos: 78, 85, 85, 87, 88, 89, 91, 92, 94, 96

$$n = 10 \text{ (par)}, \quad \text{entonces} \quad Me = \frac{88 + 89}{2} = 88.5$$

3. Moda:

$$Mo = 85 \text{ (aparece 2 veces)}$$
13 / 15
Universidad Nacional de Costa Rica

Ejercicio Práctico 2: Medidas de Dispersión

Usando los mismos datos: 78, 85, 85, 87, 88, 89, 91, 92, 94, 96

1. Rango:

$$\text{Rango} = 96 - 78 = 18 \text{ puntos}$$

2. Varianza Muestral:

Calculamos las desviaciones al cuadrado de la media (88.5):

$$(78-88.5)^2 + (85-88.5)^2 + (85-88.5)^2 + \ldots + (96-88.5)^2$$ $$= 110.25 + 12.25 + 12.25 + 2.25 + 0.25 + 0.25 + 6.25 + 12.25 + 30.25 + 56.25$$ $$= 242.5$$
$$s^2 = \frac{242.5}{10-1} = \frac{242.5}{9} = 26.94$$

3. Desviación Estándar:

$$s = \sqrt{26.94} = 5.19 \text{ puntos}$$

4. Coeficiente de Variación:

$$CV = \frac{5.19}{88.5} \times 100\% = 5.86\%$$
14 / 15
Universidad Nacional de Costa Rica

Próxima Clase: ¡Vamos a la compu!

Lo que haremos:

  • Configuración del entorno de trabajo
  • Primeros pasos con el lenguaje seleccionado
  • Laboratorio #1: Sintaxis básica
  • Importación y manipulación de datos
  • Implementar los cálculos que hicimos hoy

Para la próxima clase:

  • Revisar instalación del software
  • Tarea #1 (será asignada al final)
  • Pensar en datos de su área disciplinaria

Reflexión Final

Hoy aprendimos que el análisis de datos es:

  • Una herramienta poderosa para cualquier disciplina
  • Un proceso sistemático que empieza con exploración
  • Basado en fundamentos estadísticos sólidos
  • Accesible con las herramientas adecuadas

¡Gracias por su atención!

¿Preguntas o comentarios?

15 / 15