Estimado Profesor,
Este repositorio contiene el desarrollo completo de la Unidad 3, donde se aplican 4 modelos de Machine Learning para predecir si un cliente dejará de pagar su tarjeta de crédito (default).
Se utilizó el dataset real "Default of Credit Card Clients" del repositorio UCI, con 30,000 registros de clientes de Taiwán.
| Archivo | Descripción |
|---|---|
dataset_credit_card_default.csv |
Dataset con 30,000 registros y 24 columnas (23 variables predictoras + 1 variable objetivo). Incluye datos demográficos, historial de pagos y montos de facturación. |
| Archivo | Qué hace | Modelos que usa |
|---|---|---|
clasificadores_financieros.py |
Entrena y evalúa 2 clasificadores simples. Genera métricas, matrices de confusión, análisis de costos y gráficas. | Regresión Logística y Árbol de Decisión |
ensambles_financieros.py |
Entrena y evalúa 2 modelos de ensamble (más avanzados). Misma estructura de análisis que el anterior. | Random Forest y Gradient Boosting (GBM) |
cuadro_comparativo_modelos.py |
Ejecuta los 4 modelos juntos y genera una imagen comparativa visual pensada para presentar en junta directiva. | Los 4 modelos |
| Archivo | Contenido |
|---|---|
reporte_modelos_ml_finanzas.md |
Reporte detallado de Regresión Logística vs Árbol de Decisión: métricas, interpretación, análisis de costos y conclusiones. |
reporte_ensambles_finanzas.md |
Reporte detallado de Random Forest vs GBM: métricas, importancia de variables, análisis de costos y conclusiones. |
| Archivo | Contenido |
|---|---|
graficas_comparacion.png |
Curvas ROC, matrices de confusión y barras de métricas para Regresión Logística vs Árbol de Decisión. |
graficas_ensambles.png |
Curvas ROC, matrices de confusión, barras de métricas e importancia de variables para Random Forest vs GBM. |
cuadro_comparativo_4_modelos.png |
Infografía ejecutiva comparando los 4 modelos lado a lado con tarjetas resumen, tabla, semáforo visual y conclusiones. |
| Modelo | Tipo | Cómo funciona (en simple) |
|---|---|---|
| Regresión Logística | Clasificador simple | Calcula una probabilidad usando una fórmula matemática lineal. Es como una balanza que pesa cada variable para decidir si el cliente pagará o no. |
| Árbol de Decisión | Clasificador simple | Hace preguntas en secuencia (como un diagrama de flujo): "¿Pagó el mes pasado? ¿Su deuda es mayor a X?", hasta llegar a una decisión. |
| Random Forest | Ensamble (Bagging) | Crea 200 árboles de decisión diferentes y los pone a "votar". La decisión final es la que diga la mayoría. Reduce errores individuales. |
| Gradient Boosting | Ensamble (Boosting) | Entrena árboles uno tras otro, donde cada nuevo árbol corrige los errores del anterior. Es el más usado en la industria bancaria. |
Requisitos: Python 3 con las librerías numpy, pandas, scikit-learn y matplotlib.
# Instalar dependencias (si no las tiene)
pip install numpy pandas scikit-learn matplotlib
# Ejecutar clasificadores simples
python clasificadores_financieros.py
# Ejecutar modelos de ensamble
python ensambles_financieros.py
# Generar cuadro comparativo de los 4 modelos
python cuadro_comparativo_modelos.pyCada script imprime resultados en consola y genera las gráficas automáticamente en la misma carpeta.
Funciona en Windows, Mac y Linux sin cambios.
- Carga y descripción del dataset
- Preparación de datos (70% entrenamiento / 30% prueba)
- Entrenamiento de los modelos
- Evaluación con métricas: Accuracy, Precision, Recall, ROC-AUC
- Matrices de confusión
- Análisis de costos de error en contexto financiero real
- Generación de gráficas
- Conclusiones
Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480.
UCI Machine Learning Repository: Default of Credit Card Clients Dataset.