别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

2025/3/6 06:24:02 45 0 0 0

别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

为什么选择 Pandas？

实战演练：从原始数据到决策洞察

总结与进阶

别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

“哎，这个月销量怎么又跌了？”，“新上的产品到底卖得怎么样？”，“哪个渠道的转化率最高？”，作为产品经理，你是不是经常被这些问题困扰？别再拍脑袋做决定了！今天就教你用 Pandas 这把“瑞士军刀”，彻底玩转产品销售数据分析，让你的决策有理有据，底气十足！

为什么选择 Pandas？

Pandas 是 Python 数据分析的必备神器，它就像一个超级 Excel，但功能比 Excel 强大 N 倍！处理百万级数据不在话下，还能轻松搞定各种复杂的数据清洗、转换、分析和可视化操作。更重要的是，Pandas 上手简单，几行代码就能实现各种炫酷的数据分析，简直是产品经理的福音！

实战演练：从原始数据到决策洞察

接下来，咱们就以一个电商平台的销售数据为例，手把手教你如何用 Pandas 进行数据分析，挖掘数据背后的宝藏。

1. 数据准备：

假设我们有一份 CSV 格式的销售数据，包含以下字段：

order_id：订单 ID
user_id：用户 ID
product_id：产品 ID
product_name：产品名称
category：产品类别
price：单价
quantity：数量
order_time：下单时间
channel：销售渠道

首先，我们需要用 Pandas 读取这份数据：

 import pandas as pd
 
# 读取 CSV 文件
df = pd.read_csv('sales_data.csv')
 
# 查看数据的前几行
print(df.head())

2. 数据清洗：

拿到原始数据，第一步就是要进行数据清洗，就像做菜前要洗菜一样。常见的清洗操作包括：

处理缺失值： 比如有些订单可能没有填写渠道信息，我们需要找出这些缺失值并进行处理（删除、填充等）。

 # 查看缺失值
print(df.isnull().sum())
 
# 删除包含缺失值的行
df.dropna(inplace=True)
 
# 或者用特定值填充缺失值，比如 '未知渠道'
# df['channel'].fillna('未知渠道', inplace=True)

处理重复值： 有些订单可能因为系统问题被重复记录，我们需要找出并删除这些重复数据。
```
 # 查看重复值
print(df.duplicated().sum())
 
# 删除重复值
df.drop_duplicates(inplace=True)
```
数据类型转换： 比如 order_time 应该是日期类型，我们需要将其转换为 Pandas 的日期格式，方便后续按时间进行分析。
```
# 将 order_time 转换为日期类型
```

df['order_time'] = pd.to_datetime(df['order_time'])
```

异常值处理： 比如价格、数量出现负数或明显不合理的值，我们需要找出并处理这些异常值。

 # 找出价格小于 0 的数据
print(df[df['price'] < 0])
 
 # 删除价格或数量小于零的行(根据业务判断)
df = df[(df['price'] >= 0) & (df['quantity'] >= 0)]

3. 数据分析：

数据清洗干净后，就可以开始进行各种维度的分析了。Pandas 提供了强大的分组、聚合、透视等功能，让你可以轻松洞察数据背后的规律。

总体销售情况：

 # 计算总销售额
total_sales = (df['price'] * df['quantity']).sum()
print(f'总销售额：{total_sales}')
 
# 计算总销量
total_quantity = df['quantity'].sum()
print(f'总销量：{total_quantity}')
 
# 计算订单量
 order_count = df['order_id'].nunique()
 print(f'总订单量: {order_count}')

按时间维度分析：

 # 按月统计销售额
monthly_sales = df.groupby(df['order_time'].dt.strftime('%Y-%m'))['quantity','price'].sum()
monthly_sales['amount'] = monthly_sales['quantity'] * monthly_sales['price']
 
print(monthly_sales)
 
# 按周统计销量
weekly_sales = df.groupby(df['order_time'].dt.isocalendar().week)['quantity'].sum()
print(weekly_sales)

按产品类别分析：

 # 统计每个类别的销售额
category_sales = df.groupby('category').apply(lambda x: (x['price'] * x['quantity']).sum())
print(category_sales)
 
# 找出销量最高的类别
best_selling_category = category_sales.idxmax()
print(f'销量最高的类别：{best_selling_category}')

按销售渠道分析：

 # 统计每个渠道的销售额
channel_sales = df.groupby('channel').apply(lambda x: (x['price'] * x['quantity']).sum())
print(channel_sales)
 
# 计算每个渠道的订单量
 channel_order_count = df.groupby('channel')['order_id'].nunique()
print(channel_order_count)

交叉分析：
比如，我们想知道每个月各个类别的销售情况，可以使用 Pandas 的透视表功能：

  # 创建透视表，按月份和类别统计销售额
pivot_table = pd.pivot_table(df, values='quantity', index=df['order_time'].dt.strftime('%Y-%m'), columns='category', aggfunc=lambda x: (x * df['price']).sum())
 
print(pivot_table)

4. 数据可视化 (进阶)：

数据分析的结果最好能用图表的形式展示出来，这样更加直观易懂。Pandas 可以与各种可视化库（如 Matplotlib、Seaborn）无缝对接，让你轻松制作各种精美的图表。

 import matplotlib.pyplot as plt
 
# 绘制每月销售额的折线图
monthly_sales.plot(kind='line')
plt.xlabel('月份')
plt.ylabel('销售额')
plt.title('每月销售额趋势')
plt.show()
 
# 绘制各类别销售额的柱状图
category_sales.plot(kind='bar')
plt.xlabel('类别')
plt.ylabel('销售额')
plt.title('各类别销售额对比')
plt.show()

总结与进阶

通过以上实战演练，相信你已经对 Pandas 的强大功能有了初步的了解。当然，Pandas 的功能远不止这些，它还可以进行更复杂的数据分析，比如用户行为分析、RFM 模型构建、A/B 测试等等。只要你掌握了 Pandas 的基本用法，并结合实际业务场景进行灵活运用，就能从数据中挖掘出更多的价值，为产品决策提供更有力的支持！

给你的小建议：

多练习： 数据分析是一门实践性很强的技能，只有多动手练习，才能真正掌握 Pandas 的用法。
多思考： 不要只满足于跑出数据，要多思考数据背后的含义，以及如何将数据分析的结果应用到实际业务中。
多交流： 可以加入一些数据分析的社群，与其他数据分析爱好者交流学习，共同进步。

还在等什么？赶紧打开你的 Jupyter Notebook，用 Pandas 开启你的数据分析之旅吧！相信我，你会爱上它的！

数据挖掘机 Pandas 数据分析产品经理

	import pandas as pd

	# 读取 CSV 文件
	df = pd.read_csv('sales_data.csv')

	# 查看数据的前几行
	print(df.head())

	# 查看缺失值
	print(df.isnull().sum())

	# 删除包含缺失值的行
	df.dropna(inplace=True)

	# 或者用特定值填充缺失值，比如 '未知渠道'
	# df['channel'].fillna('未知渠道', inplace=True)

	# 查看重复值
	print(df.duplicated().sum())

	# 删除重复值
	df.drop_duplicates(inplace=True)

	# 找出价格小于 0 的数据
	print(df[df['price'] < 0])

	# 删除价格或数量小于零的行(根据业务判断)
	df = df[(df['price'] >= 0) & (df['quantity'] >= 0)]

	# 计算总销售额
	total_sales = (df['price'] * df['quantity']).sum()
	print(f'总销售额：{total_sales}')

	# 计算总销量
	total_quantity = df['quantity'].sum()
	print(f'总销量：{total_quantity}')

	# 计算订单量
	order_count = df['order_id'].nunique()
	print(f'总订单量: {order_count}')

	# 按月统计销售额
	monthly_sales = df.groupby(df['order_time'].dt.strftime('%Y-%m'))['quantity','price'].sum()
	monthly_sales['amount'] = monthly_sales['quantity'] * monthly_sales['price']

	print(monthly_sales)

	# 按周统计销量
	weekly_sales = df.groupby(df['order_time'].dt.isocalendar().week)['quantity'].sum()
	print(weekly_sales)

	# 统计每个类别的销售额
	category_sales = df.groupby('category').apply(lambda x: (x['price'] * x['quantity']).sum())
	print(category_sales)

	# 找出销量最高的类别
	best_selling_category = category_sales.idxmax()
	print(f'销量最高的类别：{best_selling_category}')

	# 统计每个渠道的销售额
	channel_sales = df.groupby('channel').apply(lambda x: (x['price'] * x['quantity']).sum())
	print(channel_sales)

	# 计算每个渠道的订单量
	channel_order_count = df.groupby('channel')['order_id'].nunique()
	print(channel_order_count)

	# 创建透视表，按月份和类别统计销售额
	pivot_table = pd.pivot_table(df, values='quantity', index=df['order_time'].dt.strftime('%Y-%m'), columns='category', aggfunc=lambda x: (x * df['price']).sum())

	print(pivot_table)

	import matplotlib.pyplot as plt

	# 绘制每月销售额的折线图
	monthly_sales.plot(kind='line')
	plt.xlabel('月份')
	plt.ylabel('销售额')
	plt.title('每月销售额趋势')
	plt.show()

	# 绘制各类别销售额的柱状图
	category_sales.plot(kind='bar')
	plt.xlabel('类别')
	plt.ylabel('销售额')
	plt.title('各类别销售额对比')
	plt.show()

别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

为什么选择 Pandas？

实战演练：从原始数据到决策洞察

总结与进阶

别再瞎猜了！用 Pandas 彻底搞定产品销售数据分析，让决策有理有据

为什么选择 Pandas？

实战演练：从原始数据到决策洞察

总结与进阶

评论点评