Regresión logística

Regresión Logística: Teoría y Aplicación

1. Introducción a la Regresión Logística

La regresión logística es un método estadístico utilizado para predecir una variable categórica binaria basada en una o más variables predictoras. Es ampliamente utilizada en campos como medicina, marketing y finanzas para problemas de clasificación.

2. Teoría de la Regresión Logística

La regresión logística modela la probabilidad de que una instancia pertenezca a una clase particular. La función logística (también conocida como sigmoide) se utiliza para transformar una combinación lineal de variables de entrada en un rango entre 0 y 1.

3. Fórmula de la Regresión Logística

La ecuación fundamental de la regresión logística es:

$$ P(Y=1|X) = \frac{1}{1 + e^{-(β_0 + β_1X_1 + β_2X_2 + ... + β_nX_n)}} $$

Donde:

$P(Y=1|X)$ es la probabilidad de que $Y$ sea 1 (clase positiva) dado el conjunto de características o variables independientes $X=\{X_1,X_2,...,X_n\}$
$P(Y=0∣X)=1−P(Y=1∣X)$
e es la base del logaritmo natural
$β_0$ es el término de intercepción
$β_1, β_2, ..., β_n$ son los coeficientes de las variables predictoras
$X_1, X_2, ..., X_n$ son las variables predictoras

4. Implementación en Python

Podemos implementar la regresión logística en Python utilizando la biblioteca scikit-learn. Aquí hay un ejemplo básico:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Generar datos de ejemplo
X = np.random.randn(100, 2)
y = (X[:, 0] + X[:, 1] > 0).astype(int)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")