LASSO y Ridge Regression
Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante
Escenario típico en economía/empresa: predecir una variables (ventas, salarios, abandono de clientes) con múltiples factores explicativos y/o interacciones y polinomios
Desafíos de MCO para estimar modelos con muchos regresores:
¿Solución? Tres enfoques complementarios:
El dilema fundamental del aprendizaje:
Modelos simples → alto sesgo
Modelos complejos → alta varianza
Objetivo: controlar este trade-off, calculando métricas de error para elegir el mejor modelo
Métodos de ajuste: el error de entrenamiento siempre disminuye para modelos más complejos, pero puede ajustarse y estimar indirectamente el error de prueba mediante supuestos (erróneos?)
Criterio de Información de Akaike: \(\small AIC = \frac{1}{n}\left( SCR^{entrena} + 2 k \widehat{\sigma}^2 \right)\)
Criterio de Información Bayesiano: \(\small BIC = \frac{1}{n}\left( SCR^{entrena} + log(n) k \widehat{\sigma}^2 \right)\)
\(\small R^2-ajustado = 1- \frac{SCR^{entrena}/(n-k-1)}{SCT^{entrena}/(n-1)}\)
donde \(\small \widehat{\sigma}^2\) un estimación de la varianza del error y \(\small k\) es el número de parámetros
Idea central: Penalizar coeficientes grandes para reducir la varianza
\[ min_{\beta} \quad SCR(\beta) = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 \]
\[ min_{\beta} \quad SCR(\beta) + \lambda \cdot \text{Penalización}(\beta) \]
donde \(\lambda \geq 0\) es el parámetro de regularización (hiperparámetro)
Castiga coeficientes grandes para forzar modelos más simples: mayor sesgo (peor ajuste), pero reduce la varianza (previene overfitting)
La regularización funciona mejor cuando MCO tiene alta varianza: intercambia un pequeño aumento de sesgo por una gran reducción de la varianza
Dos formas principales de penalización:
Ridge Regression \[ \min_\beta \text{SCR} + \lambda \sum_{j=1}^{k}\beta_j^2 \]
LASSO \[ \min_\beta \text{SCR} + \lambda \sum_{j=1}^{k}|\beta_j| \]
¿Cuál usar?
Ridge: cuando muchas variables son relevantes
LASSO: cuando solo pocas variables son importantes
Elastic Net: combina ambos
\[ \scriptsize \alpha \left(\sum_{j=1}^{k}|\beta_j|\right) + (1-\alpha)\left(\sum_{j=1}^{k}\beta_j^2\right) \]
Recordad que estos métodos están orientado a la predicción: NO usar para afirmaciones de causalidad (los coeficientes están sesgados)
LASSO (least absolute shrinkage and selection operator) es una alternativa a los contrastes de significatividad
Se puede estimar por MCO la especificación de variables seleccionadas por LASSO
Antes de aplicar regularización, SIEMPRE estandarizar las variables explicativas
¿Por qué?
MCO es equivariante a escala.
Con regularización, los coeficientes sí dependen de las unidades
Se recompensa a los coeficientes cercanos a cero
Deben tener la misma escala (misma “cercanía a cero”)
Estandarización:
\[ \widetilde{x}_{ij} = \frac{x_{ij} - \bar{x}_j}{\text{sd}(x_j)} \]
\(\lambda\) controla cuánta penalización aplicamos:
¿Cómo elegimos \(\lambda\)?
Elegir un rango de valores para \(\small \lambda\)
Para cada valor de \(\small \lambda\), calcular el error promedio mediante validación cruzada
Seleccionar \(\lambda^*\) con menor error promedio (probar varios rangos para encontrar forma de U)
Volver a ajustar el modelo completo con \(\lambda^*\) en toda la muestra de entrenamiento
Evaluar en muestra de prueba (nunca usada antes)
glmnet