Manejo de Dataframe con Pandas

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es ampliamente utilizada en el ámbito de la ciencia de datos y análisis de datos debido a su facilidad de uso y potencia.

Estructuras de Datos:

Series: Una serie es un array unidimensional que puede contener cualquier tipo de datos.
DataFrame: Es una estructura de datos bidimensional, similar a una tabla en una base de datos relacional. Puede pensar en un DataFrame como una hoja de cálculo con etiquetas de fila y columna.

Pandas Series

Funcionan de manera similar a un diccionario de Python ya que a cada valor de un array se le asigna un índice de acceso al igual que las claves en un diccionario, pero a demás permiten realizar operaciones vectorizadas y realizar análisis estadísticos aprovechando la herencia de Numpy.

Crear un Pandas series a partir de un array de tuplas

Dado que de los diccionarios de python usando el método .items() se puede obtener una lista de tuplas con los pares llave valor se puede crear un pandas series a partir de dicha lista.


import pandas as pd
import numpy as np

Nombres = ["A", "B", "C"]
Estaturas = [1.65, 1.8, 1.6]

Elementos = np.array(list(zip(Nombres, Estaturas)))
pd_series = pd.Series(Elementos[:, 1], index=Elementos[:, 0])
print(pd_series)

# Buscando por indices:

#Slicing
print(pd_series[0::2])

#Lista con las posiciones dentro del array
print(pd_series[[0,2]])

#Buscando por indices
print(pd_series[["A","C"]])

#Resultado:
A    1.65
C     1.6
dtype: object

Nota: Si al buscar usando una lista con índices uno de ellos no se encuentra arrojará error, para evitarlo debe convertir la lista de índices en un array de Numpy, y asi retornará el valor de NaN para el índice no encontrado ya que no tiene ningún valor asignado.

Pandas DataFrame

Es una estructura de datos bidimensional, similar a una tabla en una base de datos relacional. Puede pensar en un DataFrame como una hoja de cálculo con etiquetas de fila y columna.

Crear un DataFrame directamente a partir de un diccionario

Cada clave será el encabezado de una columna del DataFrame, y asociada a esa clave se tendrá una lista o vector con x cantidad de valores, estos conformarán los valores de la columna asociada a dicho encabezado, nos apoyamos de la correspondencia para que todos los valores asociados al elemento se encuentren en la misma fila.

import pandas as pd
#podemos convertir estructuras en forma de diccionario en dataframes que son arreglos de pandas de más de 1 dimensión
dict = {'Jugador':['Navas','Mbappe','Neymar','Messi'],
				'Altura':[183.0, 170.0, 170.0, 163.0],
			  'Goles':[2, 200, 150, 500]}
players = pd.DataFrame(dict, index=[1,7,10,30])
print(players)
#Resultado:
Jugador  Altura  Goles
1    Navas   183.0      2
7   Mbappe   170.0    200
10  Neymar   170.0    150
30   Messi   163.0    500

Crear un DataFrame a partir de un archivo de texto en formato CSV

Sintaxis: Base = pd.read_csv('archivo.csv',sep=",",header = 0)