告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

2025/3/6 05:04:10 37 0 0 0

告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

一、Pandas 内置绘图功能的局限性

二、自定义函数：提升代码复用与可维护性的利器

1. 封装 Matplotlib 的常用函数

2. 结合 Pandas 的 apply() 函数

三、进阶应用：更高级的图表定制

1. 多图组合示例：绘制子图

2. 定制图表主题

四、实战案例：数据分析报告中的图表应用

五、总结与展望

告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

作为一名资深程序员，我深知数据可视化在数据分析和业务汇报中的重要性。而 Pandas，作为 Python 中最强大的数据分析库之一，其内置的绘图功能虽然方便，但在处理复杂场景时，例如需要定制化图表、代码复用率低、灵活性不足等问题，常常让人头疼。今天，我将分享如何通过自定义函数来封装 Matplotlib 的常用绘图功能，从而解决这些痛点，提升 Pandas 数据可视化的效率和可维护性。

一、Pandas 内置绘图功能的局限性

Pandas 的 plot() 函数为我们提供了快速创建图表的基础功能，比如折线图、柱状图、散点图等。但是，当我们需要对图表的样式、标签、标题等进行更精细的调整时，就会发现 Pandas 内置的功能显得力不从心。具体表现在：

代码冗余： 每次绘制图表都需要重复编写大量的参数设置代码，例如调整颜色、线型、图例等，使得代码量剧增，可读性降低。
灵活性不足： Pandas 的绘图功能相对固定，难以满足复杂的图表需求。例如，绘制带有特殊标注的散点图、或者将多个图表组合在一起等，需要借助 Matplotlib 进行更复杂的定制。
可维护性差： 当需要修改图表样式或添加新的功能时，需要在多处修改代码，容易出现遗漏或错误，不利于代码的维护。

为了解决这些问题，我们需要寻找一种更高效、更灵活的数据可视化方案。

二、自定义函数：提升代码复用与可维护性的利器

自定义函数是解决上述问题的关键。通过将常用的绘图操作封装成函数，我们可以实现以下目标：

代码复用： 只需要调用函数，即可绘制出具有相同样式的图表，避免重复编写代码。
提高可读性： 函数的命名和参数设计可以清晰地表达绘图的目的和参数含义，提高代码的可读性。
增强可维护性： 当需要修改图表样式或添加新的功能时，只需要修改函数定义即可，减少了修改代码的范围，降低了出错的风险。
提高灵活性： 通过函数参数，我们可以灵活地调整图表的各种属性，满足不同的绘图需求。

1. 封装 Matplotlib 的常用函数

Matplotlib 是 Python 中最常用的绘图库，提供了丰富的绘图功能。我们可以将 Matplotlib 的常用绘图函数封装成自定义函数，以便在 Pandas 中使用。下面，我将以几个常见的图表为例，演示如何封装绘图函数。

（1）直方图

直方图用于展示数据的分布情况。下面是一个绘制直方图的自定义函数：

 import pandas as pd
import matplotlib.pyplot as plt
 
def plot_histogram(data, column, title, xlabel, ylabel, bins=10, color='skyblue', alpha=0.7, figsize=(10, 6)):
    """
    绘制直方图的自定义函数。
 
    参数:
    data (pd.DataFrame): 包含数据的 DataFrame。
    column (str): 要绘制直方图的列名。
    title (str): 图表标题。
    xlabel (str): x 轴标签。
    ylabel (str): y 轴标签。
    bins (int): 直方图的柱子数量，默认为 10。
    color (str): 柱子颜色，默认为 'skyblue'。
    alpha (float): 透明度，默认为 0.7。
    figsize (tuple): 图表大小，默认为 (10, 6)。
    """
    plt.figure(figsize=figsize)
    plt.hist(data[column], bins=bins, color=color, alpha=alpha)
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.grid(axis='y', alpha=0.3)
    plt.show()

使用示例：

 # 假设我们有一个名为 df 的 DataFrame，其中包含 '年龄' 列
import numpy as np
df = pd.DataFrame({'年龄': np.random.randint(18, 60, 100)})
plot_histogram(df, '年龄', '年龄分布直方图', '年龄', '频数', bins=15, color='salmon')

（2）散点图

散点图用于展示两个变量之间的关系。下面是一个绘制散点图的自定义函数：

 def plot_scatter(data, x_column, y_column, title, xlabel, ylabel, color='blue', marker='o', figsize=(10, 6)):
    """
    绘制散点图的自定义函数。
 
    参数:
    data (pd.DataFrame): 包含数据的 DataFrame。
    x_column (str): x 轴对应的列名。
    y_column (str): y 轴对应的列名。
    title (str): 图表标题。
    xlabel (str): x 轴标签。
    ylabel (str): y 轴标签。
    color (str): 散点颜色，默认为 'blue'。
    marker (str): 散点标记，默认为 'o' (圆圈)。
    figsize (tuple): 图表大小，默认为 (10, 6)。
    """
    plt.figure(figsize=figsize)
    plt.scatter(data[x_column], data[y_column], color=color, marker=marker)
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.grid(alpha=0.3)
    plt.show()

使用示例：

 # 假设我们有一个名为 df 的 DataFrame，其中包含 '收入' 和 '支出' 列
df = pd.DataFrame({'收入': np.random.randint(1000, 10000, 100),
                   '支出': np.random.randint(500, 8000, 100)})
plot_scatter(df, '收入', '支出', '收入与支出散点图', '收入 (元)', '支出 (元)', color='green', marker='x')

（3）饼图

饼图用于展示不同类别数据的占比。下面是一个绘制饼图的自定义函数：

 def plot_pie(data, column, title, labels=None, colors=None, autopct='%1.1f%%', figsize=(8, 8)):
    """
    绘制饼图的自定义函数。
 
    参数:
    data (pd.DataFrame): 包含数据的 DataFrame。
    column (str): 要绘制饼图的列名。
    title (str): 图表标题。
    labels (list): 饼图标签，默认为 None (使用列的唯一值)。
    colors (list): 饼图颜色，默认为 None (使用默认颜色)。
    autopct (str): 百分比格式，默认为 '%1.1f%%'。
    figsize (tuple): 图表大小，默认为 (8, 8)。
    """
    plt.figure(figsize=figsize)
    if labels is None:
        labels = data[column].unique()
    data[column].value_counts().plot(kind='pie', labels=labels, colors=colors, autopct=autopct, startangle=140)
    plt.title(title)
    plt.ylabel('') # 移除 y 轴标签，因为饼图本身已经表示了占比
    plt.axis('equal')  # 使饼图为圆形
    plt.show()

使用示例：

 # 假设我们有一个名为 df 的 DataFrame，其中包含 '类别' 列
df = pd.DataFrame({'类别': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B']})
plot_pie(df, '类别', '类别占比饼图', colors=['skyblue', 'lightcoral', 'lightgreen'])

2. 结合 Pandas 的 `apply()` 函数

为了更好地与 Pandas 的数据结构结合，我们可以使用 apply() 函数将自定义绘图函数应用于 DataFrame 的特定列或行。例如，我们可以将散点图绘制函数应用于 DataFrame 中的每一行，从而生成一系列散点图。

示例：

 # 假设我们有一个名为 df 的 DataFrame，其中包含 'x1', 'y1', 'x2', 'y2' 四列
import pandas as pd
import numpy as np
df = pd.DataFrame({'x1': np.random.randint(1, 10, 5),
                   'y1': np.random.randint(1, 10, 5),
                   'x2': np.random.randint(1, 10, 5),
                   'y2': np.random.randint(1, 10, 5)})
 
# 定义一个函数，绘制每对 x, y 列的散点图
def plot_pair_scatter(row):
    plt.figure(figsize=(6, 4))
    plt.scatter(row['x1'], row['y1'], label='Pair 1', color='blue')
    plt.scatter(row['x2'], row['y2'], label='Pair 2', color='red')
    plt.title(f'Scatter Plot for Row')
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.legend()
    plt.grid(alpha=0.3)
    plt.show()
 
# 使用 apply() 函数将函数应用于每一行
df.apply(plot_pair_scatter, axis=1)

在这个例子中，apply() 函数遍历 DataFrame 的每一行，并将每一行作为参数传递给 plot_pair_scatter 函数，从而生成了多张散点图。

三、进阶应用：更高级的图表定制

自定义函数不仅仅可以用于绘制基本的图表，还可以用于实现更高级的图表定制，例如：

多图组合： 将多个图表组合在一个画布中，例如绘制多个子图，用于对比分析。
动态图表： 使用动画库（例如 matplotlib.animation）创建动态图表，用于展示数据的变化过程。
交互式图表： 结合交互式绘图库（例如 plotly 或 bokeh）创建交互式图表，允许用户进行数据筛选、缩放等操作。
定制主题： 创建自定义的图表主题，统一图表的样式，例如颜色、字体、线型等，使得图表风格一致。

1. 多图组合示例：绘制子图

 import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
 
# 假设我们有一个名为 df 的 DataFrame，其中包含 '类别', '数值1', '数值2' 列
df = pd.DataFrame({'类别': ['A', 'B', 'A', 'B', 'A', 'B'],
                   '数值1': [10, 15, 12, 18, 14, 16],
                   '数值2': [5, 8, 6, 9, 7, 10]})
 
# 定义一个函数，绘制两个子图：柱状图和折线图
def plot_subplots(data, category_column, value1_column, value2_column, title):
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))
 
    # 绘制柱状图
    data.groupby(category_column)[value1_column].mean().plot(kind='bar', ax=axes[0], color='skyblue')
    axes[0].set_title('Bar Chart')
    axes[0].set_ylabel('Mean Value')
    axes[0].set_xlabel(category_column)
    axes[0].grid(axis='y', alpha=0.3)
 
    # 绘制折线图
    data.groupby(category_column)[value2_column].mean().plot(kind='line', ax=axes[1], marker='o', color='lightcoral')
    axes[1].set_title('Line Chart')
    axes[1].set_xlabel(category_column)
    axes[1].set_ylabel('Mean Value')
    axes[1].grid(alpha=0.3)
 
    fig.suptitle(title, fontsize=16)
    plt.tight_layout(rect=[0, 0.03, 1, 0.95]) # 调整子图布局，防止标题重叠
    plt.show()
 
# 使用示例
plot_subplots(df, '类别', '数值1', '数值2', '多图组合示例')

在这个例子中，我们使用 plt.subplots() 创建了一个包含两个子图的画布，分别绘制了柱状图和折线图，用于比较不同类别在两个数值上的差异。

2. 定制图表主题

为了保持图表的风格一致，我们可以定义一个自定义的图表主题。这可以通过设置 Matplotlib 的 rcParams 来实现。

 import matplotlib.pyplot as plt
 
def set_custom_theme():
    """
    设置自定义的图表主题。
    """
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体
    plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
    plt.rcParams['figure.figsize'] = (10, 6)   # 设置默认图表大小
    plt.rcParams['axes.facecolor'] = 'whitesmoke' # 设置背景颜色
    plt.rcParams['axes.grid'] = True           # 显示网格
    plt.rcParams['grid.alpha'] = 0.5             # 设置网格透明度
    plt.rcParams['axes.spines.top'] = False    # 隐藏顶部边框
    plt.rcParams['axes.spines.right'] = False  # 隐藏右侧边框
 
# 使用示例
set_custom_theme()
# 绘制图表时，就会应用自定义的主题

通过设置自定义主题，我们可以统一图表的样式，包括字体、颜色、网格、边框等，使得图表更加美观，也更易于阅读和理解。

四、实战案例：数据分析报告中的图表应用

假设我们需要为一份销售数据分析报告创建图表。数据包含销售额、利润、客户数量等指标，以及不同的产品类别和销售渠道。

数据准备：

 import pandas as pd
import numpy as np
 
# 生成模拟数据
np.random.seed(42)
product_categories = ['A', 'B', 'C', 'D']
sales_channels = ['线上', '线下']
num_records = 100
 
df = pd.DataFrame({
    '产品类别': np.random.choice(product_categories, num_records),
    '销售渠道': np.random.choice(sales_channels, num_records),
    '销售额': np.random.randint(1000, 10000, num_records),
    '利润': np.random.randint(100, 2000, num_records),
    '客户数量': np.random.randint(10, 100, num_records)
})

图表绘制：

 # 设置自定义主题
set_custom_theme()
 
# 1. 产品类别销售额对比 (柱状图)
product_sales = df.groupby('产品类别')['销售额'].sum().sort_values(ascending=False)
plot_histogram(product_sales.index, product_sales.values, '各产品类别销售额对比', '产品类别', '销售额', color='skyblue', figsize=(8,6))
 
# 2. 销售渠道利润占比 (饼图)
channel_profit = df.groupby('销售渠道')['利润'].sum()
plot_pie(channel_profit.index, channel_profit.values, '各销售渠道利润占比', colors=['lightcoral', 'lightgreen'])
 
# 3. 销售额与客户数量散点图，按产品类别着色
plt.figure(figsize=(10, 6))
for category in product_categories:
    category_data = df[df['产品类别'] == category]
    plt.scatter(category_data['客户数量'], category_data['销售额'], label=category, alpha=0.7)
plt.title('客户数量与销售额散点图 (按产品类别着色)')
plt.xlabel('客户数量')
plt.ylabel('销售额')
plt.legend()
plt.grid(alpha=0.3)
plt.show()
 
# 4.  销售额、利润、客户数量 的相关性矩阵 (热力图)
correlation_matrix = df[['销售额', '利润', '客户数量']].corr()
import seaborn as sns
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('销售额、利润、客户数量的相关性矩阵')
plt.show()

在这个案例中，我们首先生成了模拟的销售数据，然后使用自定义的绘图函数绘制了几个关键的图表，包括产品类别销售额对比、销售渠道利润占比、销售额与客户数量散点图，以及相关性热力图。这些图表清晰地展示了销售数据的关键信息，为数据分析报告提供了有力的支撑。

五、总结与展望

通过自定义函数封装 Matplotlib 的绘图功能，我们可以显著提升 Pandas 数据可视化的效率和可维护性。自定义函数能够有效地解决代码冗余、灵活性不足等问题，使得我们可以更专注于数据分析本身，而不是在图表绘制上浪费过多时间。

未来，我们可以进一步扩展自定义函数的应用，例如：

构建图表库： 将常用的图表函数封装成一个独立的 Python 模块，方便在不同的项目中复用。
开发可视化工具： 基于自定义函数，开发更高级的可视化工具，例如可视化仪表盘，用于实时监控数据变化。
结合机器学习： 将可视化与机器学习模型相结合，例如绘制模型预测结果的可视化图表。

总而言之，自定义函数是提升 Pandas 数据可视化能力的重要手段。希望这篇文章能够帮助你告别 Pandas 数据可视化的痛点，实现更高效、更灵活、更美观的数据可视化！

数据探险家 Pandas 数据可视化自定义函数 Matplotlib 数据分析

	import pandas as pd
	import matplotlib.pyplot as plt

	def plot_histogram(data, column, title, xlabel, ylabel, bins=10, color='skyblue', alpha=0.7, figsize=(10, 6)):
	"""
	绘制直方图的自定义函数。

	参数:
	data (pd.DataFrame): 包含数据的 DataFrame。
	column (str): 要绘制直方图的列名。
	title (str): 图表标题。
	xlabel (str): x 轴标签。
	ylabel (str): y 轴标签。
	bins (int): 直方图的柱子数量，默认为 10。
	color (str): 柱子颜色，默认为 'skyblue'。
	alpha (float): 透明度，默认为 0.7。
	figsize (tuple): 图表大小，默认为 (10, 6)。
	"""
	plt.figure(figsize=figsize)
	plt.hist(data[column], bins=bins, color=color, alpha=alpha)
	plt.title(title)
	plt.xlabel(xlabel)
	plt.ylabel(ylabel)
	plt.grid(axis='y', alpha=0.3)
	plt.show()

	# 假设我们有一个名为 df 的 DataFrame，其中包含 '年龄' 列
	import numpy as np
	df = pd.DataFrame({'年龄': np.random.randint(18, 60, 100)})
	plot_histogram(df, '年龄', '年龄分布直方图', '年龄', '频数', bins=15, color='salmon')

	def plot_scatter(data, x_column, y_column, title, xlabel, ylabel, color='blue', marker='o', figsize=(10, 6)):
	"""
	绘制散点图的自定义函数。

	参数:
	data (pd.DataFrame): 包含数据的 DataFrame。
	x_column (str): x 轴对应的列名。
	y_column (str): y 轴对应的列名。
	title (str): 图表标题。
	xlabel (str): x 轴标签。
	ylabel (str): y 轴标签。
	color (str): 散点颜色，默认为 'blue'。
	marker (str): 散点标记，默认为 'o' (圆圈)。
	figsize (tuple): 图表大小，默认为 (10, 6)。
	"""
	plt.figure(figsize=figsize)
	plt.scatter(data[x_column], data[y_column], color=color, marker=marker)
	plt.title(title)
	plt.xlabel(xlabel)
	plt.ylabel(ylabel)
	plt.grid(alpha=0.3)
	plt.show()

	# 假设我们有一个名为 df 的 DataFrame，其中包含 '收入' 和 '支出' 列
	df = pd.DataFrame({'收入': np.random.randint(1000, 10000, 100),
	'支出': np.random.randint(500, 8000, 100)})
	plot_scatter(df, '收入', '支出', '收入与支出散点图', '收入 (元)', '支出 (元)', color='green', marker='x')

	def plot_pie(data, column, title, labels=None, colors=None, autopct='%1.1f%%', figsize=(8, 8)):
	"""
	绘制饼图的自定义函数。

	参数:
	data (pd.DataFrame): 包含数据的 DataFrame。
	column (str): 要绘制饼图的列名。
	title (str): 图表标题。
	labels (list): 饼图标签，默认为 None (使用列的唯一值)。
	colors (list): 饼图颜色，默认为 None (使用默认颜色)。
	autopct (str): 百分比格式，默认为 '%1.1f%%'。
	figsize (tuple): 图表大小，默认为 (8, 8)。
	"""
	plt.figure(figsize=figsize)
	if labels is None:
	labels = data[column].unique()
	data[column].value_counts().plot(kind='pie', labels=labels, colors=colors, autopct=autopct, startangle=140)
	plt.title(title)
	plt.ylabel('') # 移除 y 轴标签，因为饼图本身已经表示了占比
	plt.axis('equal') # 使饼图为圆形
	plt.show()

	# 假设我们有一个名为 df 的 DataFrame，其中包含 '类别' 列
	df = pd.DataFrame({'类别': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B']})
	plot_pie(df, '类别', '类别占比饼图', colors=['skyblue', 'lightcoral', 'lightgreen'])

	# 假设我们有一个名为 df 的 DataFrame，其中包含 'x1', 'y1', 'x2', 'y2' 四列
	import pandas as pd
	import numpy as np
	df = pd.DataFrame({'x1': np.random.randint(1, 10, 5),
	'y1': np.random.randint(1, 10, 5),
	'x2': np.random.randint(1, 10, 5),
	'y2': np.random.randint(1, 10, 5)})

	# 定义一个函数，绘制每对 x, y 列的散点图
	def plot_pair_scatter(row):
	plt.figure(figsize=(6, 4))
	plt.scatter(row['x1'], row['y1'], label='Pair 1', color='blue')
	plt.scatter(row['x2'], row['y2'], label='Pair 2', color='red')
	plt.title(f'Scatter Plot for Row')
	plt.xlabel('X')
	plt.ylabel('Y')
	plt.legend()
	plt.grid(alpha=0.3)
	plt.show()

	# 使用 apply() 函数将函数应用于每一行
	df.apply(plot_pair_scatter, axis=1)

	import matplotlib.pyplot as plt

	def set_custom_theme():
	"""
	设置自定义的图表主题。
	"""
	plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体
	plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题
	plt.rcParams['figure.figsize'] = (10, 6) # 设置默认图表大小
	plt.rcParams['axes.facecolor'] = 'whitesmoke' # 设置背景颜色
	plt.rcParams['axes.grid'] = True # 显示网格
	plt.rcParams['grid.alpha'] = 0.5 # 设置网格透明度
	plt.rcParams['axes.spines.top'] = False # 隐藏顶部边框
	plt.rcParams['axes.spines.right'] = False # 隐藏右侧边框

	# 使用示例
	set_custom_theme()
	# 绘制图表时，就会应用自定义的主题

	import pandas as pd
	import numpy as np

	# 生成模拟数据
	np.random.seed(42)
	product_categories = ['A', 'B', 'C', 'D']
	sales_channels = ['线上', '线下']
	num_records = 100

	df = pd.DataFrame({
	'产品类别': np.random.choice(product_categories, num_records),
	'销售渠道': np.random.choice(sales_channels, num_records),
	'销售额': np.random.randint(1000, 10000, num_records),
	'利润': np.random.randint(100, 2000, num_records),
	'客户数量': np.random.randint(10, 100, num_records)
	})

	# 设置自定义主题
	set_custom_theme()

	# 1. 产品类别销售额对比 (柱状图)
	product_sales = df.groupby('产品类别')['销售额'].sum().sort_values(ascending=False)
	plot_histogram(product_sales.index, product_sales.values, '各产品类别销售额对比', '产品类别', '销售额', color='skyblue', figsize=(8,6))

	# 2. 销售渠道利润占比 (饼图)
	channel_profit = df.groupby('销售渠道')['利润'].sum()
	plot_pie(channel_profit.index, channel_profit.values, '各销售渠道利润占比', colors=['lightcoral', 'lightgreen'])

	# 3. 销售额与客户数量散点图，按产品类别着色
	plt.figure(figsize=(10, 6))
	for category in product_categories:
	category_data = df[df['产品类别'] == category]
	plt.scatter(category_data['客户数量'], category_data['销售额'], label=category, alpha=0.7)
	plt.title('客户数量与销售额散点图 (按产品类别着色)')
	plt.xlabel('客户数量')
	plt.ylabel('销售额')
	plt.legend()
	plt.grid(alpha=0.3)
	plt.show()

	# 4. 销售额、利润、客户数量的相关性矩阵 (热力图)
	correlation_matrix = df[['销售额', '利润', '客户数量']].corr()
	import seaborn as sns
	plt.figure(figsize=(8, 6))
	sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
	plt.title('销售额、利润、客户数量的相关性矩阵')
	plt.show()

告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

一、Pandas 内置绘图功能的局限性

二、自定义函数：提升代码复用与可维护性的利器

1. 封装 Matplotlib 的常用函数

2. 结合 Pandas 的 apply() 函数

三、进阶应用：更高级的图表定制

1. 多图组合示例：绘制子图

2. 定制图表主题

四、实战案例：数据分析报告中的图表应用

五、总结与展望

告别 Pandas 数据可视化痛点：自定义函数助力代码复用与图表升级

一、Pandas 内置绘图功能的局限性

二、自定义函数：提升代码复用与可维护性的利器

1. 封装 Matplotlib 的常用函数

2. 结合 Pandas 的 apply() 函数

三、进阶应用：更高级的图表定制

1. 多图组合示例：绘制子图

2. 定制图表主题

四、实战案例：数据分析报告中的图表应用

五、总结与展望

评论点评

2. 结合 Pandas 的 `apply()` 函数