La regresión logística es un método estadístico utilizado para predecir una variable categórica binaria basada en una o más variables predictoras. Es ampliamente utilizada en campos como medicina, marketing y finanzas para problemas de clasificación.
La regresión logística modela la probabilidad de que una instancia pertenezca a una clase particular. La función logística (también conocida como sigmoide) se utiliza para transformar una combinación lineal de variables de entrada en un rango entre 0 y 1.
La ecuación fundamental de la regresión logística es:
$$ P(Y=1|X) = \frac{1}{1 + e^{-(β_0 + β_1X_1 + β_2X_2 + ... + β_nX_n)}} $$
Donde:


Podemos implementar la regresión logística en Python utilizando la biblioteca scikit-learn. Aquí hay un ejemplo básico:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
# Generar datos de ejemplo
X = np.random.randn(100, 2)
y = (X[:, 0] + X[:, 1] > 0).astype(int)
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Crear y entrenar el modelo
model = LogisticRegression()
model.fit(X_train, y_train)
# Hacer predicciones
y_pred = model.predict(X_test)
# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")