1. 导入及安装
pip install pandas
import pandas as pd
2. 创建DataFrame与读取文件
2.1 从字典创建DataFrame
data = {
'姓名': ['张三', '李四', '王五'],
'年龄': [28, 34, 29],
'城市': ['北京', '上海', '广州']
df = pd.DataFrame(data)
2.2 从CSV文件读取
df = pd.read_csv('data.csv')
print(df.head()) # 查看前几行数据
3. 数据清洗与预处理
3.1 缺失值处理
nans = df.isnull().sum() # 检查每一列缺失值数量
filled_df = df.fillna(0) # 用0填充缺失值
or dropped_df = df.dropna() # 删除含有缺失值的行
xample:filling missing values with mean:
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
you can use inplace=True
to modify the DataFrame directly.
3.2 重命名列名
df.rename(columns={'姓名': 'Name'}, inplace=True)
