Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es ampliamente utilizada en el ámbito de la ciencia de datos y análisis de datos debido a su facilidad de uso y potencia.
Estructuras de Datos:
Funcionan de manera similar a un diccionario de Python ya que a cada valor de un array se le asigna un índice de acceso al igual que las claves en un diccionario, pero a demás permiten realizar operaciones vectorizadas y realizar análisis estadísticos aprovechando la herencia de Numpy.
Dado que de los diccionarios de python usando el método .items() se puede obtener una lista de tuplas con los pares llave valor se puede crear un pandas series a partir de dicha lista.
import pandas as pd
import numpy as np
Nombres = ["A", "B", "C"]
Estaturas = [1.65, 1.8, 1.6]
Elementos = np.array(list(zip(Nombres, Estaturas)))
pd_series = pd.Series(Elementos[:, 1], index=Elementos[:, 0])
print(pd_series)
# Buscando por indices:
#Slicing
print(pd_series[0::2])
#Lista con las posiciones dentro del array
print(pd_series[[0,2]])
#Buscando por indices
print(pd_series[["A","C"]])
#Resultado:
A 1.65
C 1.6
dtype: object
Nota: Si al buscar usando una lista con índices uno de ellos no se encuentra arrojará error, para evitarlo debe convertir la lista de índices en un array de Numpy, y asi retornará el valor de NaN para el índice no encontrado ya que no tiene ningún valor asignado.
Es una estructura de datos bidimensional, similar a una tabla en una base de datos relacional. Puede pensar en un DataFrame como una hoja de cálculo con etiquetas de fila y columna.
Cada clave será el encabezado de una columna del DataFrame, y asociada a esa clave se tendrá una lista o vector con x cantidad de valores, estos conformarán los valores de la columna asociada a dicho encabezado, nos apoyamos de la correspondencia para que todos los valores asociados al elemento se encuentren en la misma fila.
import pandas as pd
#podemos convertir estructuras en forma de diccionario en dataframes que son arreglos de pandas de más de 1 dimensión
dict = {'Jugador':['Navas','Mbappe','Neymar','Messi'],
'Altura':[183.0, 170.0, 170.0, 163.0],
'Goles':[2, 200, 150, 500]}
players = pd.DataFrame(dict, index=[1,7,10,30])
print(players)
#Resultado:
Jugador Altura Goles
1 Navas 183.0 2
7 Mbappe 170.0 200
10 Neymar 170.0 150
30 Messi 163.0 500
Sintaxis: Base = pd.read_csv('archivo.csv',sep=",",header = 0)