Tema 04 - Análisis Exploratorio de Datos (AED)

Proceso para conocer y entender nuestros datos

Pedro Albarrán

Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante

Alberto Pérez

Introducción al AED

De los datos en bruto a la información

El AED es una fase inicial importante, con dos objetivos:
1. Conocer nuestros datos e identificar problemas → Preprocesamiento
  - qué variables, tipo de información, calidad (información faltante, inconsistencias, problemas en combinación de datos)
2. Análisis descriptivo: identificar patrones y encontrar escenarios de análisis
NO hay una “receta”: el proceso es diferente con distintos datos o con los mismos datos para diferentes objetivos
- Es un proceso iterativo para descubrir información

Caso de Estudio: PYMES Europeas

Una consultora analiza 500 PYMES europeas fundadas entre 1980-2020 para:
- Evaluar salud financiera y solvencia
- Identificar patrones de productividad
- Analizar riesgo crediticio
- Ofrecer recomendaciones de inversión
Fuente de datos: pymes_europa.csv
- información: diccionario_pymes.csv

Objetivo del AED:
- Limpiar y preprocesar los datos
- Entender los datos (distribuciones y relaciones entre variables)
- Descubrir patrones (riesgo de las empresa, diferencias por sector y país)

Primera Aproximación

Contexto y reconomicimiento de los datos

Contexto: conocimiento previo de los datos (fuente, cómo están almacenados, etc.)
Cargar los datos

library(rio)
pymes <- import("data/pymes_europa.csv")

Reconocimiento inicial de las características: ¿todo como esperamos?
- número de observaciones y de variables
- tipo de cada variable
- visualizar los datos

contexto:
- fuente (de dónde han salido)
- cómo están almacenados (.csv, .xlsx, …)
Reconocimiento

View(pymes)
head(pymes)
names(pymes)
dim(pymes)

str(pymes)

Consultar el “diccionario” de datos
- Descripción de cada variable y unidades de medida
- Tipo de variable esperado

diccionario <- read_csv("data/diccionario_pymes.csv")

Identificar Problemas de Calidad en los Datos

Verificar que las variables la información y el tipo adecuado
- Algunas variables deberían ser numéricas:

pymes <- pymes |>
  mutate( anio_fundacion = as.numeric(anio_fundacion),
          empleados = as.numeric(empleados),
          liquidez_ratio = as.numeric(liquidez_ratio)  )

Detectar inconsistencias en texto, fechas, unidades, etc.
- Ej.: en sector, “Tecnología”, “tecnologia”, “TECNOLOGÍA” son la misma categoría
- este tipo de problemas se puede descubrir más adelante.

# Homogeneizar texto
pymes <- pymes |> 
  mutate( sector = str_to_lower(sector),
          sector = str_replace_all(sector, "tecnologia", "tecnología"),
          sector = str_replace_all(sector, "farmaceutico", "farmacéutico"),
          sector = str_replace_all(sector, "energia", "energía") )

Identificar Problemas (cont.)

Las variables con información categórica deben ser factores

pymes <- pymes |>
  mutate(across(c(sector, pais, tipo_propiedad, tamano_ciudad), 
                ~parse_factor(.x))) |>
  mutate(rating_credito = factor(rating_credito, 
                           levels = c("AAA", "AA", "A", 
                                      "BBB", "BB", "B", 
                                      "CCC", "CC", "C", "D"),
                           ordered = TRUE)
  )

# Verificar
pymes |> select(where(is.factor)) |> str()

Identificar Valores Faltantes (NAs)

pymes |> summary()

Podríamos decidir borrar o reemplazar los NAs, pero se suele preferir decidir al modelizar

Identificar Problemas (y 3)

Detectar y eliminar filas duplicadas

sum(duplicated(pymes))
pymes <- pymes |> distinct()

Variables que contienen información redundante
- Ej., activos_total y total_recursos son pasivos + patrimonio_neto (igualdad contable)

pymes <- pymes |> select(-total_recursos)

Renombrar variables (para mayor claridad), generar nuevas
¿Mantenemos solo algunas variables u observaciones?
Otras…

NO ES UNA RECETA: más adelante podemos volver atrás, para rehacer o tomar decisiones

Resumen de Limpieza Realizada

Preprocesamiento completado:

Tipos de variables corregidos (texto → numérico)
Inconsistencias de texto homogeneizadas
Variables categóricas convertidas a factores
Duplicados eliminados
Variables redundantes eliminadas
NAs identificados (mantener por ahora)

Datos limpios: Ahora podemos comenzar el análisis exploratorio

# Dimensiones finales
dim(pymes)

Análisis de Variación (“univariante”)

Patrones de variación en los datos

Queremos entender cómo cambian los valores de una variable entre distintas observaciones (p. e., ventas de diferentes empresas), es decir, su distribución
- diferentes técnicas según el tipo de variable (numérica o categórica).

Aspectos a observar en la distribución
- Inconsistencias: categorías erróneas (“unknown”), valores fuera de rango
- Concentración de valores: ceros, números redondos o repeticiones excesivas → ¿errores o patrones reales?
- Categorías: ¿tienen sentido? ¿agrupar de manera diferente? ¿reagrupar si hay pocas observaciones?
- Continuas: dispersión o asimetría (usar log?); ¿discretizar (ej. grupos de edad)?
- Valores inusuales (“atípicos” o “outliers”): no encajan en el patrón general
  - ¿cambian los resultados del análisis sin ellos? ¿Qué los ha causado?

Notar que el análisis es diferente para variables categóricas y numéricas: es conveniente describirlas por separado en un documento final

Detectar inconsistencias en la distribución de valores o en las categorías: p.e., “unknown” en job de Bank

Valores frecuentes, concentración en valores concretos (p.e., ceros, números “redondos”, etc.): ¿por qué se producen? ¿son “esperables”?

¿Tienen sentido las categorías de las variables cualitativas? agrupar valores con pocas observaciones crear categorías más “finas”o más agregadas (ej. de países a continentes)

¿Sería preferible discretizar alguna variable continua? Ej., grupos de edad

Variables con alta dispersión o distribución asimétrica (logs?)

Variables con información redundante, homogeneizar valores, normalidad(?)

Valores inusuales (“atípicos” o “outliers”): no encajan en el patrón general

¿cambian los resultados del análisis sin ellos? ¿Qué los ha causado?

Variables Categóricas

Describimos la distribución con frecuencias y proporciones: con summary(), table(), mode() o con summarize(), count()

table(pymes$sector)

pymes |> count(sector, sort = TRUE) |> mutate(prop = n / sum(n))

Este análisis puede detectar situaciones donde queremos agrupar categorías:
- dos clases similares
- clases con pocas observaciones (análisis más difícil: visualizaciones desequilibradas, resultados poco confiables)

library(forcats)
pymes <- pymes |>
  mutate(sector_agrupado = fct_lump_min(sector, min = 5, 
                                  other_level = "Otros"), 
         sector_agrupado = fct_collapse(sector, 
                                  Grupo1 = c("manufactura", "textil"),
                                  Grupo2 = c("servicios", "comercio")))

Variables Categóricas: Visualización

Para distribuciones discretas, la mejor visualización de la distribución de los datos es un histograma.

# frecuencias absolutas
ggplot(data = pymes) + geom_bar(aes(x = tipo_propiedad))  
# frecuencias relativas (proporciones)
ggplot(data = pymes)+ geom_bar(aes(x = tipo_propiedad, 
                                   y = after_stat(prop), group = 1))

# Variantes
pymes |> count(tipo_propiedad) |> ggplot() + 
  geom_bar(aes(x = tipo_propiedad, y = n), stat = "identity")

ggplot(data = pymes) + geom_bar(aes(x = tipo_propiedad)) +
  theme(axis.text.x = element_text(angle = 90))

# barra vertical
ggplot(data = pymes) + geom_bar(aes(x = "", fill = tipo_propiedad))

Observación: la mayor parte de las PYMEs son empresas familiares o S.L.

Variables Cuantitativas

Estadísticas descriptivas básicas con summary()

summary(pymes)

Información adicional con funciones para estadísticos (rango, varianza, cuartiles, asimetría)

summary(pymes$ingresos)
pymes |>
  summarise(
    media = mean(ingresos, na.rm = TRUE),
    mediana = median(ingresos, na.rm = TRUE),
    sd = sd(ingresos, na.rm = TRUE),
    min = min(ingresos, na.rm = TRUE),
    max = max(ingresos, na.rm = TRUE),
    q25 = quantile(ingresos, 0.25, na.rm = TRUE),
    q75 = quantile(ingresos, 0.75, na.rm = TRUE),
    NAs = sum(is.na(ingresos)))

Interés particular en amplia variabilidad, distribución asimétrica

Variables Cuantitativas: Visualización

Para distribuciones numéricas, la visualización de la distribución de los datos puede realizarse con un histograma, con la densidad o ambos.

ggplot(pymes) + geom_histogram(aes(x = empleados), bins = 30)

ggplot(pymes, aes(x=empleados)) + 
  geom_histogram(aes(y=after_stat(density)), bins = 30) + 
  geom_density()

Recordar: usar varios anchos de intervalo. Esto es discretizar la variable continua de formas distintas
Si observamos una distribución muy asimétrica, considerar escala logarítmica

ggplot(pymes, aes(x = ingresos)) + geom_histogram(bins = 30) 
ggplot(pymes, aes(x = ingresos)) + geom_histogram(bins = 30) + 
  scale_x_log10()

Variables Cuantitativas: Visualización con Boxplots

Los gráficos de caja pueden ser útiles sobre la dispersión, identificar outliers y comparar distribuciones

ggplot(pymes, aes(y = roe)) +
  geom_boxplot()

Identificar Outliers: Método IQR

Método estándar: IQR (Rango Intercuartílico)

# Calcular límites
Q1 <- quantile(pymes$roe, 0.25, na.rm = TRUE)
Q3 <- quantile(pymes$roe, 0.75, na.rm = TRUE)
IQR <- Q3 - Q1
limite_inf <- Q1 - 1.5 * IQR
limite_sup <- Q3 + 1.5 * IQR

# Contar outliers
pymes <- pymes |>
  mutate(roe_outlier = roe < limite_inf | roe > limite_sup)

table(pymes$roe_outlier)

Decisión: NO eliminar automáticamente, investigar causa

Outliers pueden ser:

Errores de medición → corregir o eliminar
Casos reales extremos → mantener o analizar por separado
Empresas excepcionales → insights valiosos

Herramientas Automáticas

datasummary_skim(): vista rápida de todas las variables (o algunas seleccionada), distinguiendo automáticamente por tipo
- útil para uso personal, no necesariamente para incluir en informe final

library(modelsummary)
pymes |> datasummary_skim()

DataExplorer

library(DataExplorer)
plot_bar(pymes)        # para TODAS las variables categóricas
plot_histogram(pymes)  # para TODAS las variables numéricas

create_report(pymes)

dlookr ofrece heramientas para diagnóstico y exploración de datos

Análisis de Covariación (“multivariante”)

Análisis de Covariación

La covariación describe relaciones entre variables: tendencia a que los valores de una variable dependan de la otra
Estudiamos la distribución condicional de una variable \(\small{Y}\) dados los valores de otra \(\small{X}\)
- Si \(\small{\Pr(Y|X=x_1) = \Pr(Y|X=x_0) = \Pr(Y) \Rightarrow}\) \(\small{Y}\) NO depende de \(\small{X}\)
  - p.e., el valor esperado de \(\small{Y}\) será el mismo para distintos valores de \(\small{X}\)
- Si la probabilidad condicional de que \(\small{Y}\) tome valores altos (o bajos) depende de lo que sabemos de \(\small{X}\), se puede predecir (su valor esperado) a partir del valor de \(\small{X}\)
Punto de partida para formular modelos que explican patrones complejos de los datos

La forma de visualizar la posible existencia de relaciones depende del tipo de variables

Una variable numérica y una categórica

¿Es diferente la distribución de Y (continua) por categorías de X?
- Cuidado: podemos necesitar escala logarítmica
- También ajustes como reordenar las categorías de un factor (forcats), rotar los ejes, etc.
Podemos usar histogramas o densidades, en un mismo gráfico o con facetas

g0 <- ggplot(pymes, aes(x = ingresos)) +  scale_x_log10()
g0 + geom_density(aes(color = tamano_ciudad))
g0 + geom_density() + facet_wrap(~sector)

Con muchos grupos o uno muy pequeño, es difícil notar diferencias

pymes <- pymes |> mutate(rating = fct_collapse(rating_credito, 
                        "Rating Alto" = c("AAA", "AA", "A", "BBB"),
                        "Rating Bajo" = c("BB", "B", "CCC", "CC", "C", "D")))
ggplot(pymes, aes(x = ingresos, color = rating)) +     # color = rating_credito
            geom_density() + scale_x_log10()

También con gráficos de caja (menos información pero más fácil de comparar)
- ¿cómo se vería este gráfico si no hubiesemos homogeneizado sector?

ggplot(pymes, aes(x = sector, y = ingresos, fill = sector)) +
  geom_boxplot() + scale_y_log10()

Una variable numérica y una categórica (cont.)

También podemos calcular estadísticos concretos de la distribución de Y para distintos valores de X

pymes |> group_by(sector) |>
  summarise(media = mean(ingresos, na.rm = TRUE),
            mediana = median(ingresos, na.rm = TRUE),
            n = n(),
            sd = sd(ingresos, na.rm = TRUE))
pymes |> group_by(rating) |>
  summarise(media = mean(ingresos, na.rm = TRUE),
            mediana = median(ingresos, na.rm = TRUE),
            n = n(),
            sd = sd(ingresos, na.rm = TRUE))

NOTA: una regresión simple equivale a calcular la media de la variable continua por grupos

\[ \scriptsize E[Y|X]=\beta_0+\beta_1 X \Rightarrow \begin{cases} E[Y|X=0] &=\beta_0 \\ E[Y|X=1]&=\beta_0+\beta_1 \end{cases} \]

lm(data = pymes, ingresos ~ sector) |> summary()
lm(data = pymes, ingresos ~ rating) |> summary()

¿Y mediante la correlación? NO tiene sentido cuando una variable es categórica

pymes |> select(ingresos, rating) |> cor()

Dos variables categóricas

Partimos de la distribución conjunta de frecuencias absolutas

pymes |> count(sector, tipo_propiedad) |>
  pivot_wider(names_from = tipo_propiedad, values_from = n)

pymes |> ggplot(aes(x=tipo_propiedad)) + geom_bar(aes(fill=sector), 
                                                  position="dodge")

Pero es más informativo la tabla o visualización de la distribución condicional de frecuencias relativas de una variable dada la otra
- ¿Hay la misma proporción de los tipos de propiedad en distintos sectores?

datos <- pymes |> count(sector, tipo_propiedad) |> 
  group_by(sector) |> mutate(prop= n/sum(n)) |> select(-n) 

datos |> pivot_wider(names_from = sector, values_from = prop) 
datos |> ggplot() + geom_bar(aes(x=sector, y=prop, fill = tipo_propiedad), 
                      stat = "identity")

ggplot(pymes, aes(x = sector, fill = tipo_propiedad)) +
  geom_bar(position = "fill") +
  scale_y_continuous(labels = scales::percent)

Dos variables numéricas

La forma obvia de visualizar relaciones entre variables continuas es un gráfico de dispersión; añadir smoothers ayuda a apreciar un patrón en los puntos

ggplot(pymes, aes(x = activos_total, y = ingresos)) +
  geom_point() + geom_smooth(method = "lm", se = TRUE) +
  scale_x_log10() +  scale_y_log10()

Con GGally obtenemos una primera visión de conjunto
- PERO la automatización no permite ajustes (ej., escala logarítmica)

library(GGally)
#pymes |> select(where(is.numeric)) |> ggpairs()
pymes |> select(empleados:ingresos) |> ggpairs()

Otra posibilidad: discretizar una variable continua y usar las técnicas anteriores

pymes |> mutate(empleados_group = cut(empleados, 
                                      breaks=seq(0, 250, by=25))) |>
  ggplot() + geom_boxplot(aes(y = ingresos, x = empleados_group)) + 
             scale_y_log10()

Dos variables numéricas: correlación

Podemos estimar modelos de regresión con dos variables continuas

summary(lm(data = pymes, ingresos ~ activos_total) )

Y también correlaciones para dos (o múltiples) variables

pymes |>
  select(activos_total, ingresos, empleados, 
         beneficio_neto, roe, roa) |>
  cor(use = "complete.obs")

O visualizar las correlaciones

datos <- pymes |>
  select(activos_total, pasivos, patrimonio_neto, ingresos, 
         ebitda, beneficio_neto, liquidez_ratio, roe, roa,
         deuda_patrimonio, empleados)

datos |> correlate() |> plot()

library(corrplot)
datos |> cor() |> corrplot()
datos |> cor() |> corrplot.mixed()

Transformación: Motivación desde el AED

Crear Variables Derivadas

Usar logaritmos para variables con distribución asimétrica

Antigüedad de la empresa:
Tenemos anio_fundacion pero queremos analizar madurez
Análisis temporal reveló que empresas fundadas en diferentes décadas se comportan diferente
Para comparaciones: necesitamos años desde fundación, no año absoluto

# Calcular antigüedad
pymes <- pymes |>
  mutate(antiguedad = 2024 - anio_fundacion)

Ahora podemos: - Comparar empresas jóvenes (< 5 años) vs consolidadas (> 15 años) - Analizar relación antigüedad-rentabilidad - Identificar si hay “valle de la muerte” para PYMEs

Agrupación por tamaño: la distribución de empleados tiene un rango muy amplio

pymes |> ggplot() + geom_histogram(aes(x = empleados))
pymes <- pymes |>
  mutate(tamano_empresa = cut(empleados, breaks = c(0, 10, 50, 250, Inf),
                 labels = c("Micro", "Pequeña", "Mediana", "Grande"),
                 include.lowest = TRUE) )

Disyuntiva: Discretizar simplifica comunicación (Pequeña vs. Mediana) pero pierde información (tratamo igual a 11 y 49 empleados)

Caso 3: Productividad laboral

Motivación del AED:

Del análisis bivariante vimos: - Ingresos correlacionados con empleados (r = 0.65) - Pero la relación no es proporcional - Queremos medir eficiencia: ingresos por empleado

# Crear variable de productividad
pymes <- pymes |>
  mutate(productividad_laboral = ingresos / empleados)

Esta variable derivada permite: - Comparar eficiencia entre empresas de distinto tamaño - Identificar empresas sobre/sub-performando - Analizar productividad por sector (tech vs manufactura)

Insight del AED posterior: Tecnología tiene productividad 3x mayor que Manufactura

Agrupar categorías de rating financiero: el análisis univariante mostraba algunas categorías con pocas observaciones y otras con comportamiento similar

Decisión de negocio: Crear tres grupos significativos

# Agrupar ratings bajos
pymes <- pymes |>
  mutate(
    rating_agrupado = fct_collapse(rating_credito,
      "Grado Inversión" = c("AAA", "AA", "A", "BBB"),
      "Grado Especulativo" = c("BB", "B"),
      "Alto Riesgo" = c("CCC", "CC", "C", "D")
    )
  )

Justificación: - “Grado Inversión”: bajo riesgo, acceso fácil a financiación - “Grado Especulativo”: riesgo moderado, típico de muchas PYMES - “Alto Riesgo”: problemas financieros serios, requiere atención

Esta agrupación: - Es robusta estadísticamente (suficientes observaciones) - Tiene sentido de negocio (convención del mercado) - Facilita visualización y comunicación - Mantiene poder predictivo (verificado en análisis bivariante)

# Visualización agrupada
ggplot(pymes, aes(x = rating_agrupado, fill = rating_agrupado)) +
  geom_bar()

Agrupar cuando:
1. El análisis previo mostró que es necesario
2. Tiene sentido de negocio
3. Las categorías agrupadas tienen comportamiento similar
4. Mejora la robustez sin perder información crítica

Relación Rating - Variables Financieras

# Ratio deuda/patrimonio por rating
ggplot(pymes, aes(x = rating_agrupado, y = deuda_patrimonio, 
                  fill = rating_agrupado)) +
  geom_boxplot() +
  scale_fill_manual(values = c("green3", "gold2", "red2")) +
  coord_cartesian(ylim = c(0, 3)) +
  theme_minimal() +
  labs(title = "Ratio Deuda/Patrimonio por Categoría de Riesgo",
       x = "Categoría de Riesgo", y = "Ratio Deuda/Patrimonio") +
  theme(legend.position = "none")

Insight: Empresas de alto riesgo tienen mayor endeudamiento

Herramientas de AED Automatizado y uso de IA

La Promesa de la Automatización

El AED manualmente consume tiempo. Se pueden automatizar partes del proceso, pero con precaución
Ventajas de herramientas automatizadas: Velocidad, Exahaustividad, Primera Exploración

Limitaciones críticas:
- Ruido: muchos gráficos irrelantes
- No entienden contexto de negocio
- Interpretación superficial -> No sugieren acciones específicas
Herramientas de AED Automatizado
- Herramientas interactivas: GWalkR, explore, Radiant (también online)
- Informes completos automatizados con DataExplorer, dlookr, smartEDA, DataMaid

DataExplorer: reporte HTML completo

library(DataExplorer)
# Reporte completo automatizado
create_report(pymes, 
              output_file = "reporte_pymes.html",
              y = "rating_agrupado")

Genera automáticamente:

Estructura del dataset
Variables con missing values
Distribuciones univariantes
Correlaciones
Análisis bivariante con variable objetivo

Útil para: Primera exploración, compartir con no-técnicos

Limitación: 100+ páginas sin priorización

dlookr: Diagnóstico y análisis

Además de diagnose() y describe()

library(dlookr)
# Reporte web interactivo
pymes |> 
  mutate(across(where(is.character), as.factor)) |> 
  eda_web_report(
    target = "rating_agrupado",
    output_file = "eda_pymes.html",
    author = "Tu Nombre"
  )

Incluye:

Diagnóstico de calidad
Análisis univariante y bivariante
Tests estadísticos automáticos
Transformaciones sugeridas

Útil para: Exploración técnica detallada

Limitación: Requiere entender estadística para interpretar tests

smartEDA: Análisis exploratorio inteligente

Útil para: Balance entre detalle y usabilidad

Cuándo usar cada herramienta

Situación	Herramienta recomendada
Primera exploración de datos nuevos	`DataExplorer::create_report()`
Diagnóstico técnico de calidad	`dlookr::diagnose()`
Estadísticos rápidos con gráficos	`skimr::skim()`
Exploración interactiva	`explore::explore()` o `GWalkR`
Reportes para stakeholders	`SmartEDA::ExpReport()`
Análisis profundo experto	Manual (lo que hemos hecho)

IA Generativa para análisis de datos

El usuario debe introducir un prompt efectivo (no solo “analiza”)

Analiza pymes_europa.csv. Variables clave: ingresos, roe, sector, país. 
Contexto: PYMES europeas 2020-2024. ROE típico: 8-12%. 
Pregunta: ¿Qué características tienen empresas con ROE > 15%?
Dame: limpieza, descriptivos, visualizaciones, análisis por sector

Fortalezas
- Genera código estándar rápidamente y lo documenta
- Sugiere análisis adicionales
- Explica conceptos estadísticos

Limitaciones críticas:
1. No conoce tu contexto de negocio
2. Análisis superficial y sin identificar patrones específicos del dominio
3. Riesgo de errores
  - Puede “inventar” patrones inexistentes
  - Confunde correlación con causalidad
  - Interpretaciones estadísticamente incorrectas
4. Limitaciones técnicas: datos < 100-200MB, resultados dependen del prompt

No conoce tu contexto de negocio

❌ IA: "Un ROE de 5% es bajo"
✓ Experto: "5% es normal en retail pero bajo en tech"

Análisis superficial
- Hace análisis estándar (correlaciones, medias, etc.)
- NO identifica patrones sutiles específicos del dominio
- NO formula hipótesis de negocio interesantes

Riesgo de “hallucinations”

❌ IA podría "inventar" patrones que no existen
❌ Interpretaciones estadísticamente incorrectas
❌ Confundir correlación con causalidad

Limitación de tamaño
- ChatGPT: datasets < 100-200MB funcionan bien
- Para datos grandes: necesitas estrategias (sampling, agregación)
Dependencia de prompts
- Resultado depende de cómo preguntes
- Requiere conocer qué preguntar (¡conocimiento previo!)

Ejemplo práctico con IA

Prompt efectivo:

"Analiza pymes_europa.csv. Variables clave: ingresos, roe, 
sector, pais. 

Contexto: son PYMES europeas 2020-2024. Un ROE típico es 
8-12%. Sectores principales: Manufactura, Servicios, Tecnología.

Pregunta de negocio: ¿Qué características tienen las empresas 
con ROE > 15%?

Dame: (1) Limpieza necesaria, (2) Estadísticos descriptivos, 
(3) Visualizaciones clave, (4) Análisis por sector"

Por qué es bueno: - Da contexto de negocio - Define rangos normales - Pregunta específica de negocio - Solicita análisis estructurado

Prompt malo:

"Analiza este dataset"

→ Resultado: análisis genérico sin valor

SIEMPRE:

Verifica el código generado
- ¿Usa las variables correctas?
- ¿Maneja NAs apropiadamente?
- ¿Las transformaciones tienen sentido?

Valida interpretaciones

# IA sugiere: "La correlación es 0.85, muy fuerte"
# TÚ verificas: ¿Es espuria? ¿Hay outliers influyendo?

# IA dice: "No hay diferencias entre sectores"
# TÚ verificas: ¿Usó el test apropiado? ¿Suficiente muestra?

Cuestiona recomendaciones
- ¿Tienen sentido de negocio?
- ¿Están respaldadas por los datos?
- ¿Consideran el contexto del problema?

Filosofía: Automatización Inteligente

# 5 minutos
pymes |> skim()
pymes |> diagnose()
create_report(pymes)

Exploración rápida (automática)
Identificar áreas de interés
- ¿Qué variables tienen problemas?
- ¿Qué relaciones parecen interesantes?
- ¿Qué no tiene sentido de negocio?
Análisis manual profundo (lo que hicimos)
- Limpieza contextualizada
- Visualizaciones específicas
- Interpretación experta

Usar IA como asistente

"Ayúdame a crear una visualización que compare 
ROE por sector para empresas con >50 empleados, 
destacando el top 10% en cada sector"

SIEMPRE validación crítica de resultados de IA y documentar
- Verifica el código (piensa y re-pregunta)
- Valida las decisiones e interpretaciones (piensa y re-pregunta)
- Cuestiona las recomendaciones (piensa y re-pregunta)

Advertencias Importantes

NO hagas esto:

❌ Usar reportes automatizados como análisis final

❌ Confiar ciegamente en interpretaciones de IA

❌ Incluir todas las visualizaciones automáticas

❌ Olvidar validar hallazgos automáticos

Desarrolla criterio para saber cuándo confiar en automatización

SÍ haz esto:

✓ Usar automatización como punto de partida

✓ Validar críticamente todo output automático

✓ Combinar velocidad de herramientas con expertise humano

✓ Mantener el contexto de negocio en el centro

Regla de oro: La automatización acelera, el expertise guía. Nunca al revés.

Ejemplo: Análisis Híbrido

Flujo real de un análisis profesional:

# 1. Exploración automática (5 min)
pymes |> skim()
diagnose(pymes) |> filter(missing_percent > 10)

# 2. Pregunta a IA (2 min)
"Sugiere visualizaciones para entender la relación 
entre tamaño de empresa y rentabilidad"

# 3. Código generado por IA (revisado por ti)
ggplot(pymes, aes(x = empleados, y = roe)) +
  geom_point(alpha = 0.5) +
  geom_smooth(method = "loess") +
  scale_x_log10()

# 4. TÚ interpretas con contexto de negocio (15 min)
# Observas que empresas 20-50 empleados tienen ROE más alto
# Investigas por qué: ¿eficiencia operativa? ¿sectores?
# Validas con análisis adicional por sector
# Formulas hipótesis de negocio

# 5. TÚ decides acción (5 min)
# "Recomendar a inversores: PYMES 20-50 empleados 
# en sector Servicios muestran mejor rentabilidad..."

Distribución del Score de Inversión

#| fig-show: asis
#| fig-width: 10
#| fig-height: 5

# Visualizar distribución del score
ggplot(pymes, aes(x = factor(score_total))) +
  geom_bar(fill = "steelblue") +
  theme_minimal() +
  labs(title = "Distribución del Score de Inversión (0-9)",
       x = "Score Total", y = "Número de empresas")

# Top empresas por score
pymes |>
  filter(score_total >= 8) |>
  select(empresa_id, sector_agrupado, pais, roe, 
         liquidez_ratio, deuda_patrimonio, score_total) |>
  arrange(desc(score_total)) |>
  head(10) |>
  kable(digits = 2)

Resumen

El AED es fundamental para cualquier proyecto de datos:

Lo que logramos en este AED

Conocimos nuestros datos profundamente
- 500 empresas, 28 variables, múltiples sectores y países
- Identificamos y corregimos 11 tipos de problemas de calidad
Identificamos patrones de negocio
- Tecnología lidera en productividad e innovación
- Alemania muestra las PYMES más sólidas financieramente
- Rating crediticio correlaciona fuertemente con endeudamiento
Formulamos hipótesis de investigación
- Inversión en I+D asociada con mejor rentabilidad
- Tamaño óptimo: 20-50 empleados para máxima eficiencia
- Exportación y éxito correlacionados en ciertos sectores

Lecciones clave

NO existe una receta única para AED:

Cada dataset es diferente (industria, escala, problemas)
Cada objetivo requiere enfoques distintos (predicción vs descripción)
Es un proceso iterativo: descubrimiento → pregunta → análisis → descubrimiento

El proceso importa tanto como el resultado:

Documentar decisiones (por qué agrupaste, por qué eliminaste)
Justificar transformaciones (qué motivó crear nuevas variables)
Ser transparente sobre limitaciones (qué NO pudimos responder)

Sobre herramientas automatizadas e IA

Lo que aprendimos:

Herramientas de autoEDA: excelente punto de partida (regla 80/20)
IA generativa: útil para código y documentación
Pero: interpretación requiere expertise y contexto de negocio
Validación humana es siempre necesaria

Enfoque profesional:

Usa automatización para velocidad inicial
Aplica criterio experto para profundidad
Valida hallazgos críticamente
Mantén contexto de negocio en el centro
Documenta proceso y decisiones

La limpieza consume tiempo, pero es inversión

Tiempo típico en proyectos reales:

Limpieza de datos: 40-50% del tiempo
Exploración y análisis: 30-40% del tiempo
Modelización: 10-20% del tiempo
Comunicación de resultados: 10-15% del tiempo

¿Por qué invertir tanto en limpieza y AED?

Porque datos limpios = análisis confiable

Decisiones de negocio incorrectas por datos sucios: costosas
“Garbage in, garbage out” es real
AED previene sorpresas desagradables después
Tiempo en AED ahorra tiempo (y dinero) después

Próximos pasos naturales

Después del AED, típicamente:

Feature engineering: crear variables más sofisticadas
Modelización: predicción, clasificación, clustering
Validación: dividir datos train/test, cross-validation
Deployment: poner modelos en producción
Monitoreo: verificar que modelos siguen funcionando

Pero todo comienza con un buen AED.

Un AED bien hecho es como…

Médico: Examen completo antes de diagnóstico
Detective: Investigar escena del crimen antes de acusar
Arquitecto: Estudiar terreno antes de diseñar edificio

No se puede saltear. No hay atajos. Vale la pena hacerlo bien.

Siguiente paso: Con datos limpios y entendidos, estamos listos para modelizar. Pero esa es otra historia…