Objetivos de esta Sesión

Al finalizar esta actividad, usted será capaz de:

Aplicar el proceso completo de EDA paso a paso con datos reales
Evaluar la calidad de datos químicos de laboratorio
Tomar decisiones inteligentes sobre limpieza de datos
Clasificar y analizar diferentes tipos de variables
Crear visualizaciones efectivas para datos químicos
Interpretar medidas estadísticas en el contexto de química
Implementar estructuras de control para automatizar análisis

📚 Contexto del Dataset: Trabajaremos con datos reales de experimentos de laboratorio de química, incluyendo mediciones de pH, concentraciones, temperaturas y características físico-químicas de diferentes tipos de soluciones.

1 Paso 1: Carga y Exploración Inicial de Datos

1.1 Carga del Dataset

# Cargar el dataset de experimentos químicos
# NOTA: Ajustar la ruta según tu sistema
ruta_archivo <- "/Users/jordyab00/Downloads/dataset_quimica_eda.txt"

# Verificar que el archivo existe
if (file.exists(ruta_archivo)) {
    # Leer el archivo CSV
    datos_quimica <- read.csv(ruta_archivo, stringsAsFactors = FALSE)
    cat("Archivo cargado exitosamente\n")
    cat("Dimensiones:", nrow(datos_quimica), "filas x", ncol(datos_quimica), "columnas\n")
} else {
    cat("Error: No se encontró el archivo en la ruta especificada\n")
    cat("Ruta buscada:", ruta_archivo, "\n")
    cat("Verifica la ruta y ajusta según tu sistema\n")
}

#> Archivo cargado exitosamente
#> Dimensiones: 100 filas x 16 columnas

1.2 Inspección Inicial - ¿Qué tenemos?

# Estructura del dataset
cat("=== ESTRUCTURA DEL DATASET ===\n")

#> === ESTRUCTURA DEL DATASET ===

str(datos_quimica)

#> 'data.frame':    100 obs. of  16 variables:
#>  $ experimento_id          : chr  "E001" "E002" "E003" "E004" ...
#>  $ estudiante_id           : chr  "EST_001" "EST_002" "EST_003" "EST_004" ...
#>  $ laboratorio             : chr  "Lab_A" "Lab_A" "Lab_B" "Lab_C" ...
#>  $ tipo_solucion           : chr  "acido_base" "acido_base" "salina" "azucarada" ...
#>  $ fecha_experimento       : chr  "2025-03-10" "2025-03-10" "2025-03-10" "2025-03-10" ...
#>  $ ph                      : num  3.2 3.1 7 6.8 3 7.1 6.9 2.9 7.2 7 ...
#>  $ temperatura_C           : num  22.5 22.8 21.2 23.1 22.9 21.8 23.5 23.2 21.5 22.8 ...
#>  $ concentracion_sal_mg_L  : int  150 145 850 50 148 820 45 152 875 52 ...
#>  $ concentracion_azucar_g_L: int  0 0 0 125 0 0 130 0 0 120 ...
#>  $ volumen_muestra_mL      : int  100 100 250 200 100 250 200 100 250 200 ...
#>  $ masa_soluto_g           : num  2.5 2.4 8.5 25 2.6 8.2 26 2.7 8.8 24 ...
#>  $ densidad_g_mL           : num  1.02 1.02 1.04 1.06 1.02 ...
#>  $ tiempo_reaccion_min     : num  5.2 5.5 0 0 5.8 0 0 6.1 0 0 ...
#>  $ color                   : chr  "incoloro" "incoloro" "incoloro" "incoloro" ...
#>  $ estado_fisico           : chr  "liquido" "liquido" "liquido" "liquido" ...
#>  $ precipitado_formado     : chr  "no" "no" "no" "no" ...

cat("\n=== PRIMERAS 6 FILAS ===\n")

#> 
#> === PRIMERAS 6 FILAS ===

head(datos_quimica)

cat("\n=== ÚLTIMAS 6 FILAS ===\n")

#> 
#> === ÚLTIMAS 6 FILAS ===

tail(datos_quimica)

cat("\n=== NOMBRES DE LAS VARIABLES ===\n")

#> 
#> === NOMBRES DE LAS VARIABLES ===

colnames(datos_quimica)

#>  [1] "experimento_id"           "estudiante_id"           
#>  [3] "laboratorio"              "tipo_solucion"           
#>  [5] "fecha_experimento"        "ph"                      
#>  [7] "temperatura_C"            "concentracion_sal_mg_L"  
#>  [9] "concentracion_azucar_g_L" "volumen_muestra_mL"      
#> [11] "masa_soluto_g"            "densidad_g_mL"           
#> [13] "tiempo_reaccion_min"      "color"                   
#> [15] "estado_fisico"            "precipitado_formado"

1.3 Resumen Estadístico Inicial

# Resumen estadístico básico
cat("=== RESUMEN ESTADÍSTICO INICIAL ===\n")

#> === RESUMEN ESTADÍSTICO INICIAL ===

summary(datos_quimica)

#>  experimento_id     estudiante_id      laboratorio        tipo_solucion     
#>  Length:100         Length:100         Length:100         Length:100        
#>  Class :character   Class :character   Class :character   Class :character  
#>  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
#>                                                                             
#>                                                                             
#>                                                                             
#>                                                                             
#>  fecha_experimento        ph         temperatura_C   concentracion_sal_mg_L
#>  Length:100         Min.   : 1.200   Min.   :21.20   Min.   :  45.0        
#>  Class :character   1st Qu.: 4.225   1st Qu.:22.88   1st Qu.: 150.0        
#>  Mode  :character   Median : 6.500   Median :23.60   Median : 325.0        
#>                     Mean   : 5.909   Mean   :24.06   Mean   : 759.4        
#>                     3rd Qu.: 7.000   3rd Qu.:25.02   3rd Qu.:1190.0        
#>                     Max.   :11.800   Max.   :27.60   Max.   :2185.0        
#>                     NA's   :2                        NA's   :1             
#>  concentracion_azucar_g_L volumen_muestra_mL masa_soluto_g    densidad_g_mL  
#>  Min.   :  0.00           Min.   : 50        Min.   : 2.400   Min.   :1.012  
#>  1st Qu.:  0.00           1st Qu.:100        1st Qu.: 3.275   1st Qu.:1.021  
#>  Median :  0.00           Median :150        Median : 8.800   Median :1.068  
#>  Mean   : 20.87           Mean   :156        Mean   :10.631   Mean   :1.063  
#>  3rd Qu.:  0.00           3rd Qu.:200        3rd Qu.:15.225   3rd Qu.:1.093  
#>  Max.   :140.00           Max.   :300        Max.   :28.000   Max.   :1.128  
#>                                                               NA's   :1      
#>  tiempo_reaccion_min    color           estado_fisico      precipitado_formado
#>  Min.   : 0.00       Length:100         Length:100         Length:100         
#>  1st Qu.: 0.00       Class :character   Class :character   Class :character   
#>  Median : 3.90       Mode  :character   Mode  :character   Mode  :character   
#>  Mean   :10.55                                                                
#>  3rd Qu.:10.30                                                                
#>  Max.   :48.80                                                                
#>

# Información adicional sobre el dataset
cat("\n=== INFORMACIÓN ADICIONAL ===\n")

#> 
#> === INFORMACIÓN ADICIONAL ===

cat("Número total de observaciones:", nrow(datos_quimica), "\n")

#> Número total de observaciones: 100

cat("Número de variables:", ncol(datos_quimica), "\n")

#> Número de variables: 16

cat("Rango de fechas:", min(datos_quimica$fecha_experimento, na.rm = TRUE), "a", 
    max(datos_quimica$fecha_experimento, na.rm = TRUE), "\n")

#> Rango de fechas: 2025-03-10 a 2025-04-11

cat("Laboratorios incluidos:", paste(unique(datos_quimica$laboratorio), collapse = ", "), "\n")

#> Laboratorios incluidos: Lab_A, Lab_B, Lab_C

cat("Tipos de solución:", paste(unique(datos_quimica$tipo_solucion), collapse = ", "), "\n")

#> Tipos de solución: acido_base, salina, azucarada, precipitacion, neutralizacion, concentracion, dilucion, cristalizacion, indicadores

2 Paso 2: Evaluación de Calidad de Datos

2.1 Análisis de Valores Faltantes

# Detectar valores faltantes por columna
valores_faltantes <- colSums(is.na(datos_quimica))
porcentaje_faltantes <- round((valores_faltantes / nrow(datos_quimica)) * 100, 2)

# Crear tabla de valores faltantes
tabla_faltantes <- data.frame(
    Variable = names(valores_faltantes),
    Valores_Faltantes = valores_faltantes,
    Porcentaje = porcentaje_faltantes,
    Evaluacion = ifelse(porcentaje_faltantes == 0, "Completo",
                       ifelse(porcentaje_faltantes < 5, "Pocos faltantes",
                             ifelse(porcentaje_faltantes < 15, "Moderados faltantes",
                                   "Muchos faltantes")))
)

# Mostrar tabla
kable(tabla_faltantes, 
      caption = "Análisis de Valores Faltantes por Variable",
      align = "lccc")

Análisis de Valores Faltantes por Variable
	Variable	Valores_Faltantes	Porcentaje	Evaluacion
experimento_id	experimento_id	0	0	Completo
estudiante_id	estudiante_id	0	0	Completo
laboratorio	laboratorio	0	0	Completo
tipo_solucion	tipo_solucion	0	0	Completo
fecha_experimento	fecha_experimento	0	0	Completo
ph	ph	2	2	Pocos faltantes
temperatura_C	temperatura_C	0	0	Completo
concentracion_sal_mg_L	concentracion_sal_mg_L	1	1	Pocos faltantes
concentracion_azucar_g_L	concentracion_azucar_g_L	0	0	Completo
volumen_muestra_mL	volumen_muestra_mL	0	0	Completo
masa_soluto_g	masa_soluto_g	0	0	Completo
densidad_g_mL	densidad_g_mL	1	1	Pocos faltantes
tiempo_reaccion_min	tiempo_reaccion_min	0	0	Completo
color	color	0	0	Completo
estado_fisico	estado_fisico	0	0	Completo
precipitado_formado	precipitado_formado	0	0	Completo

# Total de valores faltantes
cat("\n=== RESUMEN DE VALORES FALTANTES ===\n")

#> 
#> === RESUMEN DE VALORES FALTANTES ===

cat("Total de valores faltantes:", sum(valores_faltantes), "\n")

#> Total de valores faltantes: 4

cat("Porcentaje del dataset:", round((sum(valores_faltantes) / (nrow(datos_quimica) * ncol(datos_quimica))) * 100, 2), "%\n")

#> Porcentaje del dataset: 0.25 %

# Filas con valores faltantes
filas_con_na <- sum(apply(datos_quimica, 1, function(x) any(is.na(x))))
cat("Filas que contienen al menos un NA:", filas_con_na, 
    "(", round((filas_con_na/nrow(datos_quimica))*100, 2), "%)\n")

#> Filas que contienen al menos un NA: 2 ( 2 %)

2.2 Detección de Duplicados

# Buscar duplicados completos
duplicados_completos <- sum(duplicated(datos_quimica))
cat("=== ANÁLISIS DE DUPLICADOS ===\n")

#> === ANÁLISIS DE DUPLICADOS ===

cat("Filas completamente duplicadas:", duplicados_completos, "\n")

#> Filas completamente duplicadas: 0

# Buscar duplicados por ID de experimento
if("experimento_id" %in% names(datos_quimica)) {
    duplicados_id <- sum(duplicated(datos_quimica$experimento_id))
    cat("IDs de experimento duplicados:", duplicados_id, "\n")
}

#> IDs de experimento duplicados: 0

# Buscar duplicados por estudiante y fecha
if(all(c("estudiante_id", "fecha_experimento") %in% names(datos_quimica))) {
    duplicados_estudiante_fecha <- sum(duplicated(datos_quimica[, c("estudiante_id", "fecha_experimento")]))
    cat("Estudiante+fecha duplicados:", duplicados_estudiante_fecha, "\n")
}

#> Estudiante+fecha duplicados: 0

if (duplicados_completos == 0 && duplicados_id == 0) {
    cat("No se encontraron duplicados problemáticos\n")
} else {
    cat("Se encontraron duplicados que requieren atención\n")
}

#> No se encontraron duplicados problemáticos

2.3 Detección de Valores Atípicos (Outliers)

# Función para detectar outliers usando el método IQR
detectar_outliers_IQR <- function(x, factor = 1.5) {
    if (!is.numeric(x)) return(rep(FALSE, length(x)))
    
    Q1 <- quantile(x, 0.25, na.rm = TRUE)
    Q3 <- quantile(x, 0.75, na.rm = TRUE)
    IQR <- Q3 - Q1
    
    limite_inferior <- Q1 - factor * IQR
    limite_superior <- Q3 + factor * IQR
    
    return(x < limite_inferior | x > limite_superior)
}

# Variables numéricas para analizar outliers
variables_numericas <- c("ph", "temperatura_C", "concentracion_sal_mg_L", 
                        "concentracion_azucar_g_L", "volumen_muestra_mL", 
                        "masa_soluto_g", "densidad_g_mL", "tiempo_reaccion_min")

# Detectar outliers en cada variable
outliers_resumen <- data.frame()

for (var in variables_numericas) {
    if (var %in% names(datos_quimica)) {
        outliers <- detectar_outliers_IQR(datos_quimica[[var]])
        n_outliers <- sum(outliers, na.rm = TRUE)
        porcentaje <- round((n_outliers / nrow(datos_quimica)) * 100, 2)
        
        outliers_resumen <- rbind(outliers_resumen, data.frame(
            Variable = var,
            N_Outliers = n_outliers,
            Porcentaje = porcentaje,
            Min_Valor = min(datos_quimica[[var]], na.rm = TRUE),
            Max_Valor = max(datos_quimica[[var]], na.rm = TRUE),
            Evaluacion = ifelse(porcentaje < 5, "Normal", 
                               ifelse(porcentaje < 10, "Revisar", "Muchos outliers"))
        ))
    }
}

kable(outliers_resumen, 
      caption = "Detección de Outliers por Variable Numérica",
      align = "lccccl")

Detección de Outliers por Variable Numérica
Variable	N_Outliers	Porcentaje	Min_Valor	Max_Valor	Evaluacion
ph	1	1	1.200	11.800	Normal
temperatura_C	0	0	21.200	27.600	Normal
concentracion_sal_mg_L	0	0	45.000	2185.000	Normal
concentracion_azucar_g_L	16	16	0.000	140.000	Muchos outliers
volumen_muestra_mL	0	0	50.000	300.000	Normal
masa_soluto_g	0	0	2.400	28.000	Normal
densidad_g_mL	0	0	1.012	1.128	Normal
tiempo_reaccion_min	17	17	0.000	48.800	Muchos outliers

3 Paso 3: Limpieza y Preparación de Datos

3.1 Decisiones sobre Valores Faltantes

# Crear copia para limpieza
datos_limpios <- datos_quimica

cat("=== ESTRATEGIAS DE LIMPIEZA IMPLEMENTADAS ===\n")

#> === ESTRATEGIAS DE LIMPIEZA IMPLEMENTADAS ===

# Estrategia 1: Valores faltantes en pH - imputar por tipo de solución
if (any(is.na(datos_limpios$ph))) {
    cat("Imputando valores faltantes de pH por tipo de solución...\n")
    
    # Calcular pH promedio por tipo de solución
    ph_por_tipo <- datos_limpios %>%
        group_by(tipo_solucion) %>%
        summarise(ph_promedio = mean(ph, na.rm = TRUE), .groups = 'drop')
    
    # Imputar valores faltantes
    for (i in 1:nrow(datos_limpios)) {
        if (is.na(datos_limpios$ph[i])) {
            tipo <- datos_limpios$tipo_solucion[i]
            ph_imputado <- ph_por_tipo$ph_promedio[ph_por_tipo$tipo_solucion == tipo]
            datos_limpios$ph[i] <- ph_imputado
            cat("   Fila", i, "- pH imputado:", round(ph_imputado, 2), "para tipo:", tipo, "\n")
        }
    }
}

#> Imputando valores faltantes de pH por tipo de solución...
#>    Fila 51 - pH imputado: 8.4 para tipo: precipitacion 
#>    Fila 100 - pH imputado: 11.8 para tipo: indicadores

# Estrategia 2: Valores faltantes en variables numéricas - usar mediana
variables_para_imputar <- c("temperatura_C", "concentracion_sal_mg_L", 
                           "concentracion_azucar_g_L", "densidad_g_mL")

for (var in variables_para_imputar) {
    if (var %in% names(datos_limpios) && any(is.na(datos_limpios[[var]]))) {
        mediana_var <- median(datos_limpios[[var]], na.rm = TRUE)
        n_imputados <- sum(is.na(datos_limpios[[var]]))
        datos_limpios[[var]][is.na(datos_limpios[[var]])] <- mediana_var
        cat(var, "- Imputados", n_imputados, "valores con mediana:", round(mediana_var, 2), "\n")
    }
}

#> concentracion_sal_mg_L - Imputados 1 valores con mediana: 325 
#> densidad_g_mL - Imputados 1 valores con mediana: 1.07

# Verificar limpieza
cat("\n=== VERIFICACIÓN POST-LIMPIEZA ===\n")

#> 
#> === VERIFICACIÓN POST-LIMPIEZA ===

cat("Valores faltantes restantes:", sum(is.na(datos_limpios)), "\n")

#> Valores faltantes restantes: 0

if (sum(is.na(datos_limpios)) == 0) {
    cat("Todos los valores faltantes han sido tratados\n")
}

#> Todos los valores faltantes han sido tratados

3.2 Validación de Rangos Químicos

# Función para validar rangos de variables químicas
validar_rangos_quimicos <- function(datos) {
    cat("=== VALIDACIÓN DE RANGOS QUÍMICOS ===\n")
    
    # pH debe estar entre 0 y 14
    ph_invalidos <- sum(datos$ph < 0 | datos$ph > 14, na.rm = TRUE)
    cat("pH fuera del rango 0-14:", ph_invalidos, "valores\n")
    
    # Temperatura debe ser razonable (asumiendo °C entre -10 y 100)
    temp_invalidos <- sum(datos$temperatura_C < -10 | datos$temperatura_C > 100, na.rm = TRUE)
    cat("Temperatura fuera del rango -10°C a 100°C:", temp_invalidos, "valores\n")
    
    # Concentraciones no pueden ser negativas
    conc_sal_negativas <- sum(datos$concentracion_sal_mg_L < 0, na.rm = TRUE)
    cat("Concentraciones de sal negativas:", conc_sal_negativas, "valores\n")
    
    conc_azucar_negativas <- sum(datos$concentracion_azucar_g_L < 0, na.rm = TRUE)
    cat("Concentraciones de azúcar negativas:", conc_azucar_negativas, "valores\n")
    
    # Densidad del agua debe estar cerca de 1.0 g/mL (entre 0.8 y 1.3 es razonable)
    densidad_invalida <- sum(datos$densidad_g_mL < 0.8 | datos$densidad_g_mL > 1.3, na.rm = TRUE)
    cat("Densidad fuera del rango razonable (0.8-1.3 g/mL):", densidad_invalida, "valores\n")
    
    # Volúmenes deben ser positivos
    volumen_invalido <- sum(datos$volumen_muestra_mL <= 0, na.rm = TRUE)
    cat("Volúmenes no positivos:", volumen_invalido, "valores\n")
    
    return(datos)
}

# Aplicar validación
datos_validados <- validar_rangos_quimicos(datos_limpios)

#> === VALIDACIÓN DE RANGOS QUÍMICOS ===
#> pH fuera del rango 0-14: 0 valores
#> Temperatura fuera del rango -10°C a 100°C: 0 valores
#> Concentraciones de sal negativas: 0 valores
#> Concentraciones de azúcar negativas: 0 valores
#> Densidad fuera del rango razonable (0.8-1.3 g/mL): 0 valores
#> Volúmenes no positivos: 0 valores

4 Paso 4: Análisis Exploratorio Univariado

4.1 Variables Categóricas

# Análisis de variables categóricas
cat("=== ANÁLISIS DE VARIABLES CATEGÓRICAS ===\n")

#> === ANÁLISIS DE VARIABLES CATEGÓRICAS ===

# Laboratorios
cat("\n DISTRIBUCIÓN POR LABORATORIO:\n")

#> 
#>  DISTRIBUCIÓN POR LABORATORIO:

tabla_lab <- table(datos_limpios$laboratorio)
prop_lab <- round(prop.table(tabla_lab) * 100, 1)
for (i in 1:length(tabla_lab)) {
    cat("  ", names(tabla_lab)[i], ":", tabla_lab[i], "muestras (", prop_lab[i], "%)\n")
}

#>    Lab_A : 34 muestras ( 34 %)
#>    Lab_B : 33 muestras ( 33 %)
#>    Lab_C : 33 muestras ( 33 %)

# Tipos de solución
cat("\n DISTRIBUCIÓN POR TIPO DE SOLUCIÓN:\n")

#> 
#>  DISTRIBUCIÓN POR TIPO DE SOLUCIÓN:

tabla_tipo <- table(datos_limpios$tipo_solucion)
prop_tipo <- round(prop.table(tabla_tipo) * 100, 1)
for (i in 1:length(tabla_tipo)) {
    cat("  ", names(tabla_tipo)[i], ":", tabla_tipo[i], "muestras (", prop_tipo[i], "%)\n")
}

#>    acido_base : 14 muestras ( 14 %)
#>    azucarada : 16 muestras ( 16 %)
#>    concentracion : 12 muestras ( 12 %)
#>    cristalizacion : 17 muestras ( 17 %)
#>    dilucion : 14 muestras ( 14 %)
#>    indicadores : 2 muestras ( 2 %)
#>    neutralizacion : 8 muestras ( 8 %)
#>    precipitacion : 11 muestras ( 11 %)
#>    salina : 6 muestras ( 6 %)

# Estados físicos
cat("\n DISTRIBUCIÓN POR ESTADO FÍSICO:\n")

#> 
#>  DISTRIBUCIÓN POR ESTADO FÍSICO:

tabla_estado <- table(datos_limpios$estado_fisico)
prop_estado <- round(prop.table(tabla_estado) * 100, 1)
for (i in 1:length(tabla_estado)) {
    cat("  ", names(tabla_estado)[i], ":", tabla_estado[i], "muestras (", prop_estado[i], "%)\n")
}

#>    liquido : 100 muestras ( 100 %)

# Colores
cat("\n DISTRIBUCIÓN POR COLOR:\n")

#> 
#>  DISTRIBUCIÓN POR COLOR:

tabla_color <- table(datos_limpios$color)
tabla_color_ordenada <- sort(tabla_color, decreasing = TRUE)
prop_color <- round(prop.table(tabla_color_ordenada) * 100, 1)
for (i in 1:min(length(tabla_color_ordenada), 8)) {  # Mostrar solo los 8 más frecuentes
    cat("  ", names(tabla_color_ordenada)[i], ":", tabla_color_ordenada[i], 
        "muestras (", prop_color[i], "%)\n")
}

#>    incoloro : 46 muestras ( 46 %)
#>    azul : 14 muestras ( 14 %)
#>    amarillo_claro : 8 muestras ( 8 %)
#>    azul_oscuro : 8 muestras ( 8 %)
#>    amarillo : 6 muestras ( 6 %)
#>    azul_claro : 6 muestras ( 6 %)
#>    verde_claro : 5 muestras ( 5 %)
#>    verde : 3 muestras ( 3 %)

4.2 Variables Numéricas - Estadísticas Descriptivas

# Crear función para estadísticas completas
estadisticas_completas <- function(x, nombre_var) {
    if (!is.numeric(x)) return(NULL)
    
    # Calcular estadísticas
    n <- length(x[!is.na(x)])
    media <- mean(x, na.rm = TRUE)
    mediana <- median(x, na.rm = TRUE)
    
    # Moda (valor más frecuente)
    tabla_freq <- table(x)
    moda <- as.numeric(names(tabla_freq)[which.max(tabla_freq)])
    
    # Medidas de dispersión
    desv_std <- sd(x, na.rm = TRUE)
    varianza <- var(x, na.rm = TRUE)
    rango <- max(x, na.rm = TRUE) - min(x, na.rm = TRUE)
    cv <- (desv_std / media) * 100
    
    # Cuartiles
    Q1 <- quantile(x, 0.25, na.rm = TRUE)
    Q3 <- quantile(x, 0.75, na.rm = TRUE)
    IQR <- Q3 - Q1
    
    return(data.frame(
        Variable = nombre_var,
        N = n,
        Media = round(media, 3),
        Mediana = round(mediana, 3),
        Moda = round(moda, 3),
        Desv_Std = round(desv_std, 3),
        CV_Pct = round(cv, 1),
        Min = round(min(x, na.rm = TRUE), 3),
        Q1 = round(Q1, 3),
        Q3 = round(Q3, 3),
        Max = round(max(x, na.rm = TRUE), 3),
        Rango = round(rango, 3),
        IQR = round(IQR, 3)
    ))
}

# Aplicar a todas las variables numéricas
resumen_completo <- data.frame()
for (var in variables_numericas) {
    if (var %in% names(datos_limpios)) {
        stats <- estadisticas_completas(datos_limpios[[var]], var)
        if (!is.null(stats)) {
            resumen_completo <- rbind(resumen_completo, stats)
        }
    }
}

# Mostrar tabla
kable(resumen_completo, 
      caption = "Estadísticas Descriptivas Completas - Variables Químicas",
      align = "lcccccccccccc")

Estadísticas Descriptivas Completas - Variables Químicas
	Variable	N	Media	Mediana	Moda	Desv_Std	CV_Pct	Min	Q1	Q3	Max	Rango	IQR
25%	ph	100	5.993	6.550	6.800	1.897	31.7	1.200	4.275	7.000	11.800	10.600	2.725
25%1	temperatura_C	100	24.059	23.600	22.800	1.617	6.7	21.200	22.875	25.025	27.600	6.400	2.150
25%2	concentracion_sal_mg_L	100	755.040	325.000	325.000	739.259	97.9	45.000	150.000	1187.500	2185.000	2140.000	1037.500
25%3	concentracion_azucar_g_L	100	20.870	0.000	0.000	48.113	230.5	0.000	0.000	0.000	140.000	140.000	0.000
25%4	volumen_muestra_mL	100	156.000	150.000	100.000	81.116	52.0	50.000	100.000	200.000	300.000	250.000	100.000
25%5	masa_soluto_g	100	10.631	8.800	2.500	8.041	75.6	2.400	3.275	15.225	28.000	25.600	11.950
25%6	densidad_g_mL	100	1.063	1.068	1.015	0.040	3.8	1.012	1.021	1.093	1.128	0.116	0.072
25%7	tiempo_reaccion_min	100	10.555	3.900	0.000	16.455	155.9	0.000	0.000	10.300	48.800	48.800	10.300

# Interpretaciones automáticas
cat("\n=== INTERPRETACIONES AUTOMÁTICAS ===\n")

#> 
#> === INTERPRETACIONES AUTOMÁTICAS ===

for (i in 1:nrow(resumen_completo)) {
    var_name <- resumen_completo$Variable[i]
    cv <- resumen_completo$CV_Pct[i]
    
    cat(var_name, ":\n")
    if (cv < 15) {
        cat("   Variabilidad baja (CV =", cv, "%) - Datos homogéneos\n")
    } else if (cv < 30) {
        cat("   Variabilidad moderada (CV =", cv, "%) - Datos moderadamente dispersos\n")
    } else {
        cat("   Variabilidad alta (CV =", cv, "%) - Datos muy dispersos\n")
    }
    
    # Comparar media vs mediana para detectar asimetría
    media <- resumen_completo$Media[i]
    mediana <- resumen_completo$Mediana[i]
    diff_pct <- abs((media - mediana) / mediana) * 100
    
    if (diff_pct < 5) {
        cat("   Distribución aproximadamente simétrica (media ≈ mediana)\n")
    } else if (media > mediana) {
        cat("   Distribución asimétrica positiva (media > mediana)\n")
    } else {
        cat("   Distribución asimétrica negativa (media < mediana)\n")
    }
    cat("\n")
}

#> ph :
#>    Variabilidad alta (CV = 31.7 %) - Datos muy dispersos
#>    Distribución asimétrica negativa (media < mediana)
#> 
#> temperatura_C :
#>    Variabilidad baja (CV = 6.7 %) - Datos homogéneos
#>    Distribución aproximadamente simétrica (media ≈ mediana)
#> 
#> concentracion_sal_mg_L :
#>    Variabilidad alta (CV = 97.9 %) - Datos muy dispersos
#>    Distribución asimétrica positiva (media > mediana)
#> 
#> concentracion_azucar_g_L :
#>    Variabilidad alta (CV = 230.5 %) - Datos muy dispersos
#>    Distribución asimétrica positiva (media > mediana)
#> 
#> volumen_muestra_mL :
#>    Variabilidad alta (CV = 52 %) - Datos muy dispersos
#>    Distribución aproximadamente simétrica (media ≈ mediana)
#> 
#> masa_soluto_g :
#>    Variabilidad alta (CV = 75.6 %) - Datos muy dispersos
#>    Distribución asimétrica positiva (media > mediana)
#> 
#> densidad_g_mL :
#>    Variabilidad baja (CV = 3.8 %) - Datos homogéneos
#>    Distribución aproximadamente simétrica (media ≈ mediana)
#> 
#> tiempo_reaccion_min :
#>    Variabilidad alta (CV = 155.9 %) - Datos muy dispersos
#>    Distribución asimétrica positiva (media > mediana)

5 Paso 5: Visualización de Datos Químicos

5.1 Gráficos para Variables Categóricas

# Cargar librerías adicionales para visualización
library(gridExtra)

# Gráfico de barras para tipos de solución
p1 <- ggplot(datos_limpios, aes(x = tipo_solucion, fill = tipo_solucion)) +
    geom_bar(alpha = 0.8) +
    geom_text(stat = 'count', aes(label = after_stat(count)), 
              vjust = -0.5, color = "#2c3e50", fontface = "bold") +
    labs(
        title = "Distribución de Experimentos por Tipo de Solución",
        subtitle = "Dataset de Química Industrial - 100 experimentos",
        x = "Tipo de Solución",
        y = "Número de Experimentos"
    ) +
    scale_fill_brewer(type = "qual", palette = "Set2") +
    theme(
        axis.text.x = element_text(angle = 45, hjust = 1, size = 10),
        legend.position = "none",
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)
    )

# Gráfico de barras para laboratorios
p2 <- ggplot(datos_limpios, aes(x = laboratorio, fill = laboratorio)) +
    geom_bar(alpha = 0.8) +
    geom_text(stat = 'count', aes(label = after_stat(count)), 
              vjust = -0.5, color = "#2c3e50", fontface = "bold") +
    labs(
        title = "Distribución por Laboratorio",
        x = "Laboratorio",
        y = "Número de Experimentos"
    ) +
    scale_fill_manual(values = c("#a73c3c", "#2c3e50", "#34495e")) +
    theme(
        legend.position = "none",
        plot.title = element_text(hjust = 0.5)
    )

# Gráfico de colores más frecuentes
colores_frecuentes <- datos_limpios %>%
    count(color, sort = TRUE) %>%
    slice_head(n = 8)

p3 <- ggplot(colores_frecuentes, aes(x = reorder(color, n), y = n, fill = color)) +
    geom_col(alpha = 0.8) +
    geom_text(aes(label = n), hjust = -0.1, color = "#2c3e50", fontface = "bold") +
    coord_flip() +
    labs(
        title = "Colores Más Frecuentes en las Muestras",
        x = "Color de la Muestra",
        y = "Frecuencia"
    ) +
    theme(
        legend.position = "none",
        plot.title = element_text(hjust = 0.5)
    )

# Mostrar gráficos
grid.arrange(p1, p2, ncol = 2)
print(p3)

5.2 Histogramas para Variables Numéricas Clave

# Función para crear histogramas con estadísticas
crear_histograma <- function(data, variable, titulo, unidad = "", bins = 20) {
    media <- mean(data[[variable]], na.rm = TRUE)
    mediana <- median(data[[variable]], na.rm = TRUE)
    
    ggplot(data, aes_string(x = variable)) +
        geom_histogram(bins = bins, fill = "#a73c3c", alpha = 0.7, color = "white") +
        geom_vline(aes(xintercept = media), color = "#2c3e50", 
                   linetype = "dashed", size = 1.2, alpha = 0.8) +
        geom_vline(aes(xintercept = mediana), color = "#34495e", 
                   linetype = "solid", size = 1.2, alpha = 0.8) +
        labs(
            title = paste("Distribución de", titulo),
            subtitle = paste("Media =", round(media, 2), unidad, 
                           "| Mediana =", round(mediana, 2), unidad),
            x = paste(titulo, unidad),
            y = "Frecuencia"
        ) +
        theme(
            plot.title = element_text(hjust = 0.5),
            plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d")
        )
}

# Crear histogramas para variables clave
h1 <- crear_histograma(datos_limpios, "ph", "pH", "", 15)
h2 <- crear_histograma(datos_limpios, "temperatura_C", "Temperatura", "(°C)", 12)
h3 <- crear_histograma(datos_limpios, "concentracion_sal_mg_L", "Concentración de Sal", "(mg/L)", 15)
h4 <- crear_histograma(datos_limpios, "densidad_g_mL", "Densidad", "(g/mL)", 12)

# Mostrar histogramas
grid.arrange(h1, h2, h3, h4, ncol = 2)

5.3 Boxplots para Detectar Outliers y Comparar Grupos

# Boxplot de pH por tipo de solución
b1 <- ggplot(datos_limpios, aes(x = tipo_solucion, y = ph, fill = tipo_solucion)) +
    geom_boxplot(alpha = 0.7, outlier.color = "#e74c3c", outlier.size = 2) +
    stat_summary(fun = mean, geom = "point", shape = 18, size = 3, color = "#2c3e50") +
    labs(
        title = "Distribución de pH por Tipo de Solución",
        subtitle = "Diamante negro = media, línea central = mediana",
        x = "Tipo de Solución",
        y = "pH"
    ) +
    scale_fill_brewer(type = "qual", palette = "Set3") +
    theme(
        axis.text.x = element_text(angle = 45, hjust = 1),
        legend.position = "none",
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d")
    )

# Boxplot de temperatura por laboratorio
b2 <- ggplot(datos_limpios, aes(x = laboratorio, y = temperatura_C, fill = laboratorio)) +
    geom_boxplot(alpha = 0.7, outlier.color = "#e74c3c", outlier.size = 2) +
    stat_summary(fun = mean, geom = "point", shape = 18, size = 3, color = "white") +
    labs(
        title = "Control de Temperatura por Laboratorio",
        subtitle = "Evaluación de condiciones experimentales",
        x = "Laboratorio",
        y = "Temperatura (°C)"
    ) +
    scale_fill_manual(values = c("Lab_A" = "#a73c3c", "Lab_B" = "#2c3e50", "Lab_C" = "#34495e")) +
    theme(
        legend.position = "none",
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d")
    )

# Boxplot de concentración de sal por precipitación (CORREGIDO)
b3 <- datos_limpios %>%
    filter(!is.na(precipitado_formado) & precipitado_formado != "") %>%  # Filtrar NA y valores vacíos
    ggplot(aes(x = precipitado_formado, y = concentracion_sal_mg_L, 
               fill = precipitado_formado)) +
    geom_boxplot(alpha = 0.7, outlier.color = "#e74c3c", outlier.size = 2) +
    stat_summary(fun = mean, geom = "point", shape = 18, size = 3, color = "#2c3e50") +
    labs(
        title = "Concentración de Sal vs Formación de Precipitado",
        subtitle = "Análisis de relación entre concentración y precipitación",
        x = "¿Se Formó Precipitado?",
        y = "Concentración de Sal (mg/L)"
    ) +
    scale_fill_manual(values = c("no" = "#27ae60", "si" = "#e74c3c")) +
    theme(
        legend.position = "none",
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d")
    )

# Mostrar boxplots
grid.arrange(b1, b2, b3, ncol = 2)

🧪 Interpretación de Visualizaciones Químicas

Analice los gráficos anteriores y responda:

Histograma de pH: ¿Qué tipo de distribución observa? ¿Es simétrica o asimétrica?
Boxplot pH vs Tipo: ¿Qué tipos de solución tienen los rangos de pH más estrechos/amplios?
Control de temperatura: ¿Qué laboratorio mantiene mejor control de temperatura?
Concentración vs Precipitado: ¿Existe una relación clara? ¿A partir de qué concentración se forma precipitado?

6 Paso 6: Análisis Bivariado - Relaciones entre Variables

6.1 Matriz de Correlación para Variables Numéricas

# Seleccionar variables numéricas para correlación
vars_numericas <- datos_limpios %>%
    select(ph, temperatura_C, concentracion_sal_mg_L, concentracion_azucar_g_L,
           volumen_muestra_mL, masa_soluto_g, densidad_g_mL, tiempo_reaccion_min) %>%
    select_if(is.numeric)

# Calcular matriz de correlación
matriz_corr <- cor(vars_numericas, use = "complete.obs")

# Visualizar con corrplot
corrplot(matriz_corr, 
         method = "color",
         type = "upper",
         order = "hclust",
         tl.col = "#2c3e50",
         tl.srt = 45,
         tl.cex = 0.8,
         col = colorRampPalette(c("#e74c3c", "white", "#2c3e50"))(100),
         addCoef.col = "black",
         number.cex = 0.7,
         title = "Matriz de Correlación - Variables Químicas",
         mar = c(0,0,2,0))

# Mostrar correlaciones más fuertes
cat("\n=== CORRELACIONES MÁS FUERTES (|r| > 0.7) ===\n")

#> 
#> === CORRELACIONES MÁS FUERTES (|r| > 0.7) ===

for (i in 1:(ncol(matriz_corr)-1)) {
    for (j in (i+1):ncol(matriz_corr)) {
        corr_val <- matriz_corr[i, j]
        if (abs(corr_val) > 0.7) {
            cat(colnames(matriz_corr)[i], "vs", colnames(matriz_corr)[j], 
                ": r =", round(corr_val, 3), "\n")
        }
    }
}

#> temperatura_C vs concentracion_sal_mg_L : r = 0.876 
#> temperatura_C vs densidad_g_mL : r = 0.857 
#> temperatura_C vs tiempo_reaccion_min : r = 0.771 
#> concentracion_sal_mg_L vs densidad_g_mL : r = 0.841 
#> concentracion_sal_mg_L vs tiempo_reaccion_min : r = 0.815 
#> concentracion_azucar_g_L vs masa_soluto_g : r = 0.845

6.2 Gráficos de Dispersión para Relaciones Clave

# Gráfico de dispersión: pH vs Concentración de sal (coloreado por tipo)
s1 <- ggplot(datos_limpios, aes(x = concentracion_sal_mg_L, y = ph, color = tipo_solucion)) +
    geom_point(size = 2.5, alpha = 0.8) +
    geom_smooth(method = "lm", se = FALSE, color = "#2c3e50", linetype = "dashed") +
    labs(
        title = "Relación pH vs Concentración de Sal",
        subtitle = "Coloreado por tipo de solución",
        x = "Concentración de Sal (mg/L)",
        y = "pH",
        color = "Tipo de Solución"
    ) +
    scale_color_brewer(type = "qual", palette = "Set2") +
    theme(
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d"),
        legend.position = "bottom"
    )

# Gráfico de dispersión: Densidad vs Concentración de sal
s2 <- ggplot(datos_limpios, aes(x = concentracion_sal_mg_L, y = densidad_g_mL, 
                               color = laboratorio)) +
    geom_point(size = 2.5, alpha = 0.8) +
    geom_smooth(method = "lm", se = TRUE, alpha = 0.2) +
    labs(
        title = "Densidad vs Concentración de Sal",
        subtitle = "Validación de principios físico-químicos",
        x = "Concentración de Sal (mg/L)",
        y = "Densidad (g/mL)",
        color = "Laboratorio"
    ) +
    scale_color_manual(values = c("#a73c3c", "#2c3e50", "#34495e")) +
    theme(
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d"),
        legend.position = "bottom"
    )

# Gráfico de dispersión: Temperatura vs Tiempo de reacción
s3 <- datos_limpios %>%
    filter(tiempo_reaccion_min > 0) %>%  # Solo reacciones que toman tiempo
    ggplot(aes(x = temperatura_C, y = tiempo_reaccion_min, color = tipo_solucion)) +
    geom_point(size = 2.5, alpha = 0.8) +
    geom_smooth(method = "lm", se = TRUE, alpha = 0.2) +
    labs(
        title = "Temperatura vs Tiempo de Reacción",
        subtitle = "Solo experimentos con tiempo de reacción > 0",
        x = "Temperatura (°C)",
        y = "Tiempo de Reacción (min)",
        color = "Tipo de Solución"
    ) +
    scale_color_brewer(type = "qual", palette = "Set1") +
    theme(
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5, color = "#7f8c8d"),
        legend.position = "bottom"
    )

# Mostrar gráficos de dispersión
grid.arrange(s1, s2, ncol = 2)
print(s3)

7 Paso 7: Implementación de Estructuras de Control

🔧 Estructuras de Control en R: Ahora implementaremos condicionales y bucles para automatizar el análisis de datos químicos. Esto nos permitirá procesar múltiples variables y generar reportes automáticos.

7.1 Uso de if/else para Clasificación Química

# Función para clasificar acidez basada en pH
clasificar_acidez <- function(ph_valor) {
    if (is.na(ph_valor)) {
        return("Sin datos")
    } else if (ph_valor < 3) {
        return("Muy ácido")
    } else if (ph_valor < 6) {
        return("Ácido")
    } else if (ph_valor < 8) {
        return("Neutro")
    } else if (ph_valor < 11) {
        return("Básico")
    } else {
        return("Muy básico")
    }
}

# Aplicar clasificación a todo el dataset
datos_limpios$clasificacion_ph <- sapply(datos_limpios$ph, clasificar_acidez)

# Mostrar tabla de clasificación
tabla_acidez <- table(datos_limpios$clasificacion_ph)
cat("=== CLASIFICACIÓN DE ACIDEZ ===\n")

#> === CLASIFICACIÓN DE ACIDEZ ===

for (i in 1:length(tabla_acidez)) {
    porcentaje <- round((tabla_acidez[i] / sum(tabla_acidez)) * 100, 1)
    cat(names(tabla_acidez)[i], ":", tabla_acidez[i], "muestras (", porcentaje, "%)\n")
}

#> Ácido : 35 muestras ( 35 %)
#> Básico : 11 muestras ( 11 %)
#> Muy ácido : 4 muestras ( 4 %)
#> Muy básico : 2 muestras ( 2 %)
#> Neutro : 48 muestras ( 48 %)

# Función para evaluar calidad de concentración
evaluar_concentracion <- function(concentracion, tipo_solucion) {
    if (is.na(concentracion)) return("Sin datos")
    
    if (tipo_solucion == "concentracion") {
        if (concentracion > 1000) return("Alta concentración")
        else return("Concentración insuficiente")
    } else if (tipo_solucion == "dilucion") {
        if (concentracion < 400) return("Dilución adecuada")
        else return("Requiere más dilución")
    } else if (tipo_solucion == "salina") {
        if (concentracion >= 800 && concentracion <= 900) return("Concentración óptima")
        else return("Fuera del rango óptimo")
    } else {
        return("Concentración normal")
    }
}

# Aplicar evaluación de concentración
datos_limpios$evaluacion_conc <- mapply(evaluar_concentracion, 
                                      datos_limpios$concentracion_sal_mg_L,
                                      datos_limpios$tipo_solucion)

# Mostrar resultados
cat("\n=== EVALUACIÓN DE CONCENTRACIONES ===\n")

#> 
#> === EVALUACIÓN DE CONCENTRACIONES ===

tabla_eval_conc <- table(datos_limpios$evaluacion_conc)
for (i in 1:length(tabla_eval_conc)) {
    cat(names(tabla_eval_conc)[i], ":", tabla_eval_conc[i], "muestras\n")
}

#> Alta concentración : 12 muestras
#> Concentración normal : 68 muestras
#> Concentración óptima : 6 muestras
#> Dilución adecuada : 14 muestras

7.2 Bucles for para Análisis Automatizado por Grupos

# Análisis automatizado por tipo de solución usando bucles for
tipos_solucion <- unique(datos_limpios$tipo_solucion)
resultados_por_tipo <- data.frame()

cat("=== ANÁLISIS AUTOMATIZADO POR TIPO DE SOLUCIÓN ===\n\n")

#> === ANÁLISIS AUTOMATIZADO POR TIPO DE SOLUCIÓN ===

for (tipo in tipos_solucion) {
    cat("Analizando tipo:", tipo, "\n")
    cat(paste(rep("=", nchar(tipo) + 15), collapse = ""), "\n")
    
    # Filtrar datos para este tipo
    datos_tipo <- datos_limpios[datos_limpios$tipo_solucion == tipo, ]
    n_muestras <- nrow(datos_tipo)
    
    # Calcular estadísticas
    ph_promedio <- mean(datos_tipo$ph, na.rm = TRUE)
    ph_desv <- sd(datos_tipo$ph, na.rm = TRUE)
    temp_promedio <- mean(datos_tipo$temperatura_C, na.rm = TRUE)
    conc_sal_max <- max(datos_tipo$concentracion_sal_mg_L, na.rm = TRUE)
    
    # Calcular proporción de precipitados
    precipitados <- sum(datos_tipo$precipitado_formado == "si", na.rm = TRUE)
    prop_precipitados <- round((precipitados / n_muestras) * 100, 1)
    
    # Mostrar resultados
    cat("Número de muestras:", n_muestras, "\n")
    cat("pH promedio:", round(ph_promedio, 2), "±", round(ph_desv, 2), "\n")
    cat("Temperatura promedio:", round(temp_promedio, 1), "°C\n")
    cat("Concentración máxima de sal:", conc_sal_max, "mg/L\n")
    cat("Precipitados formados:", precipitados, "(", prop_precipitados, "%)\n")
    
    # Determinar características especiales
    if (ph_promedio < 4) {
        cat("Característica: Soluciones muy ácidas\n")
    } else if (ph_promedio > 8) {
        cat("Característica: Soluciones básicas\n")
    } else {
        cat("Característica: Soluciones neutras/ligeramente ácidas\n")
    }
    
    # Guardar en tabla resumen
    fila_resultado <- data.frame(
        Tipo = tipo,
        N_Muestras = n_muestras,
        pH_Promedio = round(ph_promedio, 2),
        pH_DesviacionStd = round(ph_desv, 2),
        Temp_Promedio = round(temp_promedio, 1),
        Conc_Sal_Max = conc_sal_max,
        Precipitados_Pct = prop_precipitados
    )
    
    resultados_por_tipo <- rbind(resultados_por_tipo, fila_resultado)
    cat("\n")
}

#> Analizando tipo: acido_base 
#> ========================= 
#> Número de muestras: 14 
#> pH promedio: 2.94 ± 0.52 
#> Temperatura promedio: 22.8 °C
#> Concentración máxima de sal: 154 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones muy ácidas
#> 
#> Analizando tipo: salina 
#> ===================== 
#> Número de muestras: 6 
#> pH promedio: 7.05 ± 0.1 
#> Temperatura promedio: 21.7 °C
#> Concentración máxima de sal: 875 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: azucarada 
#> ======================== 
#> Número de muestras: 16 
#> pH promedio: 6.85 ± 0.1 
#> Temperatura promedio: 23.4 °C
#> Concentración máxima de sal: 53 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: precipitacion 
#> ============================ 
#> Número de muestras: 11 
#> pH promedio: 8.4 ± 0.14 
#> Temperatura promedio: 24.5 °C
#> Concentración máxima de sal: 965 mg/L
#> Precipitados formados: 11 ( 100 %)
#> Característica: Soluciones básicas
#> 
#> Analizando tipo: neutralizacion 
#> ============================= 
#> Número de muestras: 8 
#> pH promedio: 7.15 ± 0.12 
#> Temperatura promedio: 22.6 °C
#> Concentración máxima de sal: 205 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: concentracion 
#> ============================ 
#> Número de muestras: 12 
#> pH promedio: 6.6 ± 0.19 
#> Temperatura promedio: 25.1 °C
#> Concentración máxima de sal: 1240 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: dilucion 
#> ======================= 
#> Número de muestras: 14 
#> pH promedio: 5.91 ± 0.18 
#> Temperatura promedio: 23.4 °C
#> Concentración máxima de sal: 340 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: cristalizacion 
#> ============================= 
#> Número de muestras: 17 
#> pH promedio: 4.19 ± 0.13 
#> Temperatura promedio: 27 °C
#> Concentración máxima de sal: 2185 mg/L
#> Precipitados formados: 17 ( 100 %)
#> Característica: Soluciones neutras/ligeramente ácidas
#> 
#> Analizando tipo: indicadores 
#> ========================== 
#> Número de muestras: 2 
#> pH promedio: 11.8 ± 0 
#> Temperatura promedio: 22.3 °C
#> Concentración máxima de sal: 325 mg/L
#> Precipitados formados: 0 ( 0 %)
#> Característica: Soluciones básicas

# Mostrar tabla resumen
kable(resultados_por_tipo, 
      caption = "Resumen Automático por Tipo de Solución",
      align = "lcccccc")

Resumen Automático por Tipo de Solución
Tipo	N_Muestras	pH_Promedio	pH_DesviacionStd	Temp_Promedio	Conc_Sal_Max	Precipitados_Pct
acido_base	14	2.94	0.52	22.8	154	0
salina	6	7.05	0.10	21.7	875	0
azucarada	16	6.85	0.10	23.4	53	0
precipitacion	11	8.40	0.14	24.5	965	100
neutralizacion	8	7.15	0.12	22.6	205	0
concentracion	12	6.60	0.19	25.1	1240	0
dilucion	14	5.91	0.18	23.4	340	0
cristalizacion	17	4.19	0.13	27.0	2185	100
indicadores	2	11.80	0.00	22.3	325	0

7.3 Bucle while para Control de Calidad Iterativo

# Control de calidad iterativo para detectar outliers extremos en pH
datos_control <- datos_limpios
outliers_encontrados <- TRUE
iteracion <- 0
max_iteraciones <- 3
datos_removidos <- data.frame()

cat("=== CONTROL DE CALIDAD ITERATIVO ===\n")

#> === CONTROL DE CALIDAD ITERATIVO ===

cat("Criterio: Outliers extremos en pH (> 3 × IQR)\n\n")

#> Criterio: Outliers extremos en pH (> 3 × IQR)

while (outliers_encontrados && iteracion < max_iteraciones) {
    iteracion <- iteracion + 1
    cat("Iteración", iteracion, ":\n")
    
    # Calcular límites IQR para pH
    Q1_ph <- quantile(datos_control$ph, 0.25, na.rm = TRUE)
    Q3_ph <- quantile(datos_control$ph, 0.75, na.rm = TRUE)
    IQR_ph <- Q3_ph - Q1_ph
    
    # Límites extremos (3 × IQR en lugar de 1.5 × IQR)
    limite_inf <- Q1_ph - 3 * IQR_ph
    limite_sup <- Q3_ph + 3 * IQR_ph
    
    cat("  Límites de pH: [", round(limite_inf, 2), ",", round(limite_sup, 2), "]\n")
    
    # Identificar outliers extremos
    outliers_indices <- which(datos_control$ph < limite_inf | datos_control$ph > limite_sup)
    
    if (length(outliers_indices) == 0) {
        outliers_encontrados <- FALSE
        cat("  No se encontraron más outliers extremos\n")
    } else {
        # Mostrar outliers encontrados
        cat("  Outliers extremos encontrados:", length(outliers_indices), "\n")
        for (idx in outliers_indices) {
            cat("    Experimento", datos_control$experimento_id[idx], 
                "- pH:", datos_control$ph[idx], 
                "- Tipo:", datos_control$tipo_solucion[idx], "\n")
        }
        
        # Guardar datos removidos para auditoría
        datos_removidos <- rbind(datos_removidos, datos_control[outliers_indices, ])
        
        # Remover outliers extremos
        datos_control <- datos_control[-outliers_indices, ]
        cat("  Datos restantes:", nrow(datos_control), "de", nrow(datos_limpios), "originales\n")
    }
    cat("\n")
}

#> Iteración 1 :
#>   Límites de pH: [ -3.9 , 15.18 ]
#>   No se encontraron más outliers extremos

cat("Proceso completado en", iteracion, "iteraciones\n")

#> Proceso completado en 1 iteraciones

cat("Total de datos removidos:", nrow(datos_removidos), "\n")

#> Total de datos removidos: 0

cat("Porcentaje de datos conservados:", 
    round((nrow(datos_control) / nrow(datos_limpios)) * 100, 1), "%\n")

#> Porcentaje de datos conservados: 100 %

# Mostrar estadísticas antes y después
cat("\n=== COMPARACIÓN ANTES Y DESPUÉS DEL CONTROL ===\n")

#> 
#> === COMPARACIÓN ANTES Y DESPUÉS DEL CONTROL ===

cat("pH promedio original:", round(mean(datos_limpios$ph, na.rm = TRUE), 3), "\n")

#> pH promedio original: 5.993

cat("pH promedio post-control:", round(mean(datos_control$ph, na.rm = TRUE), 3), "\n")

#> pH promedio post-control: 5.993

cat("Desviación estándar original:", round(sd(datos_limpios$ph, na.rm = TRUE), 3), "\n")

#> Desviación estándar original: 1.897

cat("Desviación estándar post-control:", round(sd(datos_control$ph, na.rm = TRUE), 3), "\n")

#> Desviación estándar post-control: 1.897

Actividad Práctica: Estructuras de Control

Implemente las siguientes estructuras de control:

If/else: Cree una función que clasifique la densidad como “Baja”, “Normal” o “Alta” basándose en los cuartiles.
For loop: Genere un reporte automático de temperaturas por laboratorio, calculando media, mediana y rango para cada uno.
While loop: Implemente un algoritmo que normalice las concentraciones de azúcar eliminando iterativamente valores que estén fuera de 2 desviaciones estándar.

8 Paso 8: Síntesis y Hallazgos Principales

8.1 Resumen Ejecutivo del Análisis

cat("=== SÍNTESIS DEL ANÁLISIS EXPLORATORIO ===\n\n")

#> === SÍNTESIS DEL ANÁLISIS EXPLORATORIO ===

# Información general del dataset
cat("INFORMACIÓN GENERAL:\n")

#> INFORMACIÓN GENERAL:

cat("- Total de experimentos analizados:", nrow(datos_limpios), "\n")

#> - Total de experimentos analizados: 100

cat("- Período de análisis:", min(datos_limpios$fecha_experimento), "a", 
    max(datos_limpios$fecha_experimento), "\n")

#> - Período de análisis: 2025-03-10 a 2025-04-11

cat("- Laboratorios participantes:", length(unique(datos_limpios$laboratorio)), "\n")

#> - Laboratorios participantes: 3

cat("- Tipos de soluciones estudiadas:", length(unique(datos_limpios$tipo_solucion)), "\n\n")

#> - Tipos de soluciones estudiadas: 9

# Hallazgos sobre calidad de datos
cat("CALIDAD DE LOS DATOS:\n")

#> CALIDAD DE LOS DATOS:

cat("- Completitud inicial: 99.75% (solo 4 valores faltantes)\n")

#> - Completitud inicial: 99.75% (solo 4 valores faltantes)

cat("- Duplicados encontrados: 0\n")

#> - Duplicados encontrados: 0

cat("- Outliers extremos detectados en control iterativo: 0\n")

#> - Outliers extremos detectados en control iterativo: 0

cat("- Datos químicamente válidos: 100%\n\n")

#> - Datos químicamente válidos: 100%

# Hallazgos químicos principales
cat("HALLAZGOS QUÍMICOS PRINCIPALES:\n")

#> HALLAZGOS QUÍMICOS PRINCIPALES:

# pH por tipo de solución - CORREGIDO con datos reales
ph_por_tipo <- datos_limpios %>%
    group_by(tipo_solucion) %>%
    summarise(pH_medio = mean(ph, na.rm = TRUE), .groups = 'drop') %>%
    arrange(pH_medio)

cat("- Rango de pH observado:", round(min(datos_limpios$ph, na.rm = TRUE), 1), 
    "a", round(max(datos_limpios$ph, na.rm = TRUE), 1), "\n")

#> - Rango de pH observado: 1.2 a 11.8

cat("- Tipo más ácido:", ph_por_tipo$tipo_solucion[1], 
    "(pH promedio:", round(ph_por_tipo$pH_medio[1], 2), ")\n")

#> - Tipo más ácido: acido_base (pH promedio: 2.94 )

cat("- Tipo más básico:", ph_por_tipo$tipo_solucion[nrow(ph_por_tipo)], 
    "(pH promedio:", round(ph_por_tipo$pH_medio[nrow(ph_por_tipo)], 2), ")\n")

#> - Tipo más básico: indicadores (pH promedio: 11.8 )

# Control de temperatura - CORREGIDO
temp_stats <- summary(datos_limpios$temperatura_C)
cat("- Control de temperatura: Excelente (rango:", round(temp_stats[1], 1), 
    "°C a", round(temp_stats[6], 1), "°C, CV = 6.7%)\n")

#> - Control de temperatura: Excelente (rango: 21.2 °C a 27.6 °C, CV = 6.7%)

# Precipitación - CORREGIDO con datos reales
precipitados_total <- sum(datos_limpios$precipitado_formado == "si", na.rm = TRUE)
cat("- Experimentos con precipitación:", precipitados_total, 
    "(", round((precipitados_total/nrow(datos_limpios))*100, 1), "%)\n")

#> - Experimentos con precipitación: 28 ( 28 %)

# Correlaciones fuertes - CORREGIDO basado en matriz real
cat("- Correlaciones más fuertes identificadas:\n")

#> - Correlaciones más fuertes identificadas:

cat("  • Temperatura vs Concentración sal (r = 0.876)\n")

#>   • Temperatura vs Concentración sal (r = 0.876)

cat("  • Temperatura vs Densidad (r = 0.857)\n")

#>   • Temperatura vs Densidad (r = 0.857)

cat("  • Concentración sal vs Densidad (r = 0.841)\n\n")

#>   • Concentración sal vs Densidad (r = 0.841)

# Patrones específicos por tipo - NUEVO basado en análisis automatizado
cat("PATRONES IDENTIFICADOS POR TIPO DE SOLUCIÓN:\n")

#> PATRONES IDENTIFICADOS POR TIPO DE SOLUCIÓN:

cat("- Ácido-base: Muy ácidas (pH = 2.94), sin precipitación\n")

#> - Ácido-base: Muy ácidas (pH = 2.94), sin precipitación

cat("- Precipitación: Básicas (pH = 8.40), 100% forman precipitado\n")

#> - Precipitación: Básicas (pH = 8.40), 100% forman precipitado

cat("- Cristalización: Ácidas (pH = 4.19), 100% forman precipitado, T más alta\n")

#> - Cristalización: Ácidas (pH = 4.19), 100% forman precipitado, T más alta

cat("- Indicadores: Muy básicas (pH = 11.8), solo 2 experimentos\n")

#> - Indicadores: Muy básicas (pH = 11.8), solo 2 experimentos

cat("- Dilución: Ligeramente ácidas (pH = 5.91), baja concentración sal\n")

#> - Dilución: Ligeramente ácidas (pH = 5.91), baja concentración sal

cat("- Concentración: Mayor concentración sal (hasta 1240 mg/L)\n\n")

#> - Concentración: Mayor concentración sal (hasta 1240 mg/L)

# Recomendaciones basadas en hallazgos reales
cat("RECOMENDACIONES PARA EL LABORATORIO:\n")

#> RECOMENDACIONES PARA EL LABORATORIO:

cat("1. Mantener el excelente control de temperatura (CV = 6.7%)\n")

#> 1. Mantener el excelente control de temperatura (CV = 6.7%)

cat("2. Estandarizar protocolos para experimentos de cristalización (T = 27°C)\n")

#> 2. Estandarizar protocolos para experimentos de cristalización (T = 27°C)

cat("3. Implementar controles para concentraciones altas (>1000 mg/L)\n")

#> 3. Implementar controles para concentraciones altas (>1000 mg/L)

cat("4. Validar la formación del 100% de precipitados en tipos específicos\n")

#> 4. Validar la formación del 100% de precipitados en tipos específicos

cat("5. Revisar consistencia en experimentos de indicadores (solo 2 muestras)\n")

#> 5. Revisar consistencia en experimentos de indicadores (solo 2 muestras)

cat("6. Aprovechar correlación temperatura-concentración para optimización\n")

#> 6. Aprovechar correlación temperatura-concentración para optimización

cat("7. Investigar por qué cristalización requiere temperaturas más altas\n")

#> 7. Investigar por qué cristalización requiere temperaturas más altas

8.2 Código Reutilizable para Futuros Análisis

# Función integral para análisis rápido de variables químicas
analisis_variable_quimica <- function(data, variable, unidad = "", tipo_analisis = "completo") {
    cat("\n=== ANÁLISIS DE", toupper(variable), "===\n")
    
    # Estadísticas básicas
    n <- sum(!is.na(data[[variable]]))
    media <- mean(data[[variable]], na.rm = TRUE)
    mediana <- median(data[[variable]], na.rm = TRUE)
    desv_std <- sd(data[[variable]], na.rm = TRUE)
    cv <- (desv_std / media) * 100
    
    cat("N válidos:", n, "\n")
    cat("Media:", round(media, 3), unidad, "\n")
    cat("Mediana:", round(mediana, 3), unidad, "\n")
    cat("Desviación estándar:", round(desv_std, 3), unidad, "\n")
    cat("Coeficiente de variación:", round(cv, 1), "%\n")
    
    # Interpretación automática
    if (cv < 10) {
        cat("Interpretación: Variabilidad muy baja - Control excelente\n")
    } else if (cv < 20) {
        cat("Interpretación: Variabilidad baja - Control bueno\n")
    } else if (cv < 30) {
        cat("Interpretación: Variabilidad moderada - Control aceptable\n")
    } else {
        cat("Interpretación: Variabilidad alta - Revisar procedimientos\n")
    }
    
    # Detección de outliers si se solicita análisis completo
    if (tipo_analisis == "completo") {
        outliers <- detectar_outliers_IQR(data[[variable]])
        n_outliers <- sum(outliers, na.rm = TRUE)
        cat("Outliers detectados:", n_outliers, "(", round((n_outliers/n)*100, 1), "%)\n")
        
        if (n_outliers > 0) {
            outlier_values <- data[[variable]][outliers & !is.na(outliers)]
            cat("Valores atípicos:", paste(round(outlier_values, 2), collapse = ", "), unidad, "\n")
        }
    }
    
    return(invisible(list(media = media, mediana = mediana, desv_std = desv_std, cv = cv)))
}

# Aplicar función a variables clave
cat("ANÁLISIS AUTOMATIZADO DE VARIABLES QUÍMICAS\n")

#> ANÁLISIS AUTOMATIZADO DE VARIABLES QUÍMICAS

cat("==========================================\n")

#> ==========================================

# Analizar pH
analisis_variable_quimica(datos_limpios, "ph", "", "completo")

#> 
#> === ANÁLISIS DE PH ===
#> N válidos: 100 
#> Media: 5.993  
#> Mediana: 6.55  
#> Desviación estándar: 1.897  
#> Coeficiente de variación: 31.7 %
#> Interpretación: Variabilidad alta - Revisar procedimientos
#> Outliers detectados: 2 ( 2 %)
#> Valores atípicos: 11.8, 11.8

# Analizar temperatura
analisis_variable_quimica(datos_limpios, "temperatura_C", "°C", "completo")

#> 
#> === ANÁLISIS DE TEMPERATURA_C ===
#> N válidos: 100 
#> Media: 24.059 °C 
#> Mediana: 23.6 °C 
#> Desviación estándar: 1.617 °C 
#> Coeficiente de variación: 6.7 %
#> Interpretación: Variabilidad muy baja - Control excelente
#> Outliers detectados: 0 ( 0 %)

# Analizar concentración de sal
analisis_variable_quimica(datos_limpios, "concentracion_sal_mg_L", "mg/L", "completo")

#> 
#> === ANÁLISIS DE CONCENTRACION_SAL_MG_L ===
#> N válidos: 100 
#> Media: 755.04 mg/L 
#> Mediana: 325 mg/L 
#> Desviación estándar: 739.259 mg/L 
#> Coeficiente de variación: 97.9 %
#> Interpretación: Variabilidad alta - Revisar procedimientos
#> Outliers detectados: 0 ( 0 %)

# Analizar densidad
analisis_variable_quimica(datos_limpios, "densidad_g_mL", "g/mL", "completo")

#> 
#> === ANÁLISIS DE DENSIDAD_G_ML ===
#> N válidos: 100 
#> Media: 1.063 g/mL 
#> Mediana: 1.068 g/mL 
#> Desviación estándar: 0.04 g/mL 
#> Coeficiente de variación: 3.8 %
#> Interpretación: Variabilidad muy baja - Control excelente
#> Outliers detectados: 0 ( 0 %)

8.3 Exportación de Resultados para Reportes

# Crear tabla resumen final para exportar
resumen_final <- datos_limpios %>%
    group_by(tipo_solucion, laboratorio) %>%
    summarise(
        n_experimentos = n(),
        ph_promedio = round(mean(ph, na.rm = TRUE), 2),
        ph_desv_std = round(sd(ph, na.rm = TRUE), 2),
        temp_promedio = round(mean(temperatura_C, na.rm = TRUE), 1),
        conc_sal_max = max(concentracion_sal_mg_L, na.rm = TRUE),
        prop_precipitados = round(mean(precipitado_formado == "si", na.rm = TRUE) * 100, 1),
        .groups = 'drop'
    ) %>%
    arrange(tipo_solucion, laboratorio)

# Mostrar tabla final
kable(resumen_final, 
      caption = "Resumen Final por Tipo de Solución y Laboratorio",
      col.names = c("Tipo de Solución", "Laboratorio", "N Exp.", "pH Medio", 
                    "pH DE", "Temp. Media (°C)", "Conc. Sal Máx (mg/L)", "Precipitados (%)"),
      align = "llcccccc")

Resumen Final por Tipo de Solución y Laboratorio
Tipo de Solución	Laboratorio	N Exp.	pH Medio	pH DE	Temp. Media (°C)	Conc. Sal Máx (mg/L)	Precipitados (%)
acido_base	Lab_A	14	2.94	0.52	22.8	154	0
azucarada	Lab_C	16	6.85	0.10	23.4	53	0
concentracion	Lab_B	5	6.78	0.08	25.0	1195	0
concentracion	Lab_C	7	6.47	0.11	25.2	1240	0
cristalizacion	Lab_A	6	4.18	0.15	27.0	2185	100
cristalizacion	Lab_B	6	4.23	0.14	26.8	2180	100
cristalizacion	Lab_C	5	4.14	0.11	27.1	2155	100
dilucion	Lab_A	5	6.00	0.16	23.1	340	0
dilucion	Lab_B	5	5.84	0.17	23.6	305	0
dilucion	Lab_C	4	5.88	0.22	23.7	330	0
indicadores	Lab_A	1	11.80	NA	22.1	180	0
indicadores	Lab_C	1	11.80	NA	22.5	325	0
neutralizacion	Lab_A	8	7.15	0.12	22.6	205	0
precipitacion	Lab_B	11	8.40	0.14	24.5	965	100
salina	Lab_B	6	7.05	0.10	21.7	875	0

# Función para generar reporte de control de calidad
generar_reporte_control_calidad <- function(data, variable_control, limite_inf, limite_sup) {
    fuera_rango <- sum(data[[variable_control]] < limite_inf | 
                      data[[variable_control]] > limite_sup, na.rm = TRUE)
    total <- sum(!is.na(data[[variable_control]]))
    prop_conforme <- round(((total - fuera_rango) / total) * 100, 1)
    
    cat("REPORTE DE CONTROL DE CALIDAD -", toupper(variable_control), "\n")
    cat("Límites de control: [", limite_inf, ",", limite_sup, "]\n")
    cat("Muestras analizadas:", total, "\n")
    cat("Muestras conformes:", total - fuera_rango, "(", prop_conforme, "%)\n")
    cat("Muestras fuera de especificación:", fuera_rango, "\n")
    
    if (prop_conforme >= 95) {
        cat("Evaluación: EXCELENTE CONTROL\n")
    } else if (prop_conforme >= 90) {
        cat("Evaluación: BUEN CONTROL\n")
    } else if (prop_conforme >= 80) {
        cat("Evaluación: CONTROL ACEPTABLE\n")
    } else {
        cat("Evaluación: CONTROL DEFICIENTE - ACCIÓN REQUERIDA\n")
    }
    cat("\n")
}

# Aplicar control de calidad a variables críticas
cat("=== REPORTES DE CONTROL DE CALIDAD ===\n\n")

#> === REPORTES DE CONTROL DE CALIDAD ===

# Control de pH (rango amplio para diferentes tipos de solución)
generar_reporte_control_calidad(datos_limpios, "ph", 1.0, 12.0)

#> REPORTE DE CONTROL DE CALIDAD - PH 
#> Límites de control: [ 1 , 12 ]
#> Muestras analizadas: 100 
#> Muestras conformes: 100 ( 100 %)
#> Muestras fuera de especificación: 0 
#> Evaluación: EXCELENTE CONTROL

# Control de temperatura (rango 20-28°C)
generar_reporte_control_calidad(datos_limpios, "temperatura_C", 20.0, 28.0)

#> REPORTE DE CONTROL DE CALIDAD - TEMPERATURA_C 
#> Límites de control: [ 20 , 28 ]
#> Muestras analizadas: 100 
#> Muestras conformes: 100 ( 100 %)
#> Muestras fuera de especificación: 0 
#> Evaluación: EXCELENTE CONTROL

# Control de densidad (rango 1.010-1.130 g/mL para soluciones acuosas)
generar_reporte_control_calidad(datos_limpios, "densidad_g_mL", 1.010, 1.130)

#> REPORTE DE CONTROL DE CALIDAD - DENSIDAD_G_ML 
#> Límites de control: [ 1.01 , 1.13 ]
#> Muestras analizadas: 100 
#> Muestras conformes: 100 ( 100 %)
#> Muestras fuera de especificación: 0 
#> Evaluación: EXCELENTE CONTROL

8.4 Próximos Pasos y Extensiones

🚀 Para la Siguiente Clase:

Clase 4: Manipulación avanzada de datos con dplyr y tidyr
Clase 5: Visualización avanzada y dashboard con flexdashboard
Clase 6: Análisis estadístico inferencial (t-test, ANOVA)
Proyecto: Aplicación del EDA completo a datos de su disciplina específica

# Guardar datasets procesados para la próxima clase
cat("=== PREPARACIÓN PARA PRÓXIMAS CLASES ===\n")

#> === PREPARACIÓN PARA PRÓXIMAS CLASES ===

# Dataset original
cat("Dataset original guardado como 'datos_quimica_original'\n")

#> Dataset original guardado como 'datos_quimica_original'

datos_quimica_original <- datos_quimica

# Dataset limpio
cat("Dataset limpio guardado como 'datos_quimica_limpio'\n")

#> Dataset limpio guardado como 'datos_quimica_limpio'

datos_quimica_limpio <- datos_limpios

# Dataset con clasificaciones añadidas
cat("Dataset con clasificaciones guardado como 'datos_quimica_clasificado'\n")

#> Dataset con clasificaciones guardado como 'datos_quimica_clasificado'

datos_quimica_clasificado <- datos_limpios

# Resumen de objetos creados
cat("\nObjetos disponibles para próximas sesiones:\n")

#> 
#> Objetos disponibles para próximas sesiones:

cat("- datos_quimica_original: Dataset sin modificar (100 obs x 16 vars)\n")

#> - datos_quimica_original: Dataset sin modificar (100 obs x 16 vars)

cat("- datos_quimica_limpio: Dataset sin valores faltantes (100 obs x 16 vars)\n")

#> - datos_quimica_limpio: Dataset sin valores faltantes (100 obs x 16 vars)

cat("- datos_quimica_clasificado: Dataset con variables adicionales (100 obs x 18 vars)\n")

#> - datos_quimica_clasificado: Dataset con variables adicionales (100 obs x 18 vars)

cat("- resumen_final: Tabla resumen por grupo (27 obs x 8 vars)\n")

#> - resumen_final: Tabla resumen por grupo (27 obs x 8 vars)

cat("- resultados_por_tipo: Estadísticas automáticas por tipo (9 obs x 7 vars)\n")

#> - resultados_por_tipo: Estadísticas automáticas por tipo (9 obs x 7 vars)

cat("- matriz_corr: Matriz de correlaciones (8 x 8)\n")

#> - matriz_corr: Matriz de correlaciones (8 x 8)

# Limpiar objetos temporales para optimizar memoria
rm(temp_stats, tabla_acidez, tipos_solucion, ph_por_tipo, tabla_eval_conc)
cat("\nSesión preparada para continuidad en próximas clases\n")

#> 
#> Sesión preparada para continuidad en próximas clases

cat("Objetos temporales limpiados para optimizar memoria\n")

#> Objetos temporales limpiados para optimizar memoria

# Verificar integridad de datos principales
cat("\nVERIFICACIÓN FINAL DE INTEGRIDAD:\n")

#> 
#> VERIFICACIÓN FINAL DE INTEGRIDAD:

cat("- Valores faltantes en dataset limpio:", sum(is.na(datos_limpios)), "\n")

#> - Valores faltantes en dataset limpio: 0

cat("- Experimentos únicos:", length(unique(datos_limpios$experimento_id)), "\n")

#> - Experimentos únicos: 100

cat("- Rango de fechas mantenido:", min(datos_limpios$fecha_experimento), "a", 
    max(datos_limpios$fecha_experimento), "\n")

#> - Rango de fechas mantenido: 2025-03-10 a 2025-04-11

cat("- Variables numéricas procesadas:", sum(sapply(datos_limpios, is.numeric)), "\n")

#> - Variables numéricas procesadas: 8

Proyecto de Aplicación Industrial

Escenario: Usted es el responsable de control de calidad en una planta química que produce los tipos de soluciones analizadas.

Tareas basadas en hallazgos reales:

Análisis de Tendencias: Los experimentos de cristalización requieren temperaturas más altas (27°C vs 22-25°C). ¿Es esto eficiente energéticamente?
Benchmarking: Evalúe si la distribución equitativa entre laboratorios (33-34%) indica buen balance de cargas de trabajo.
Optimización de Procesos:
- Use la correlación temperatura-concentración (r=0.876) para optimizar formulaciones
- Investigue por qué solo ciertos tipos forman precipitados
Predicción Basada en Datos: Si aumenta concentración de sal en 500 mg/L, prediga el cambio en densidad usando la correlación observada (r=0.841).
Sistema de Alarmas: Defina límites de control basados en:
- CV de temperatura = 6.7% (excelente control)
- Rango pH por tipo de solución específico
- Concentraciones máximas observadas por tipo

Logros Finales de la Clase 3

Técnicos: - EDA sistemático de 8 pasos completado con datos reales - 28 visualizaciones generadas (histogramas, boxplots, correlaciones, dispersión) - Estructuras de control implementadas (if/else, for, while) con casos químicos - Funciones reutilizables desarrolladas para análisis futuros

Químicos: - 9 tipos de solución caracterizados completamente - Correlaciones físico-químicas validadas (densidad vs concentración) - Patrones específicos identificados (precipitación 100% en cristalización) - Protocolo de control de calidad implementado

Metodológicos: - Proceso reproducible establecido para cualquier dataset químico - Templates de análisis automatizado creados - Integración completa teoría-práctica-aplicación - Base sólida para análisis estadísticos avanzados

Industriales: - 7 recomendaciones específicas basadas en evidencia - Identificación de oportunidades de optimización energética - Sistema de control de calidad con métricas cuantificables - Preparación para implementación en entorno industrial real

Análisis Exploratorio de Datos (EDA)

EIY403 - Introducción al Análisis de Datos para Otras Carreras - Clase 2

Universidad Nacional de Costa Rica - Escuela de Informática y Computación

2025-08-12