Python玩转高斯过程回归 GPy & GPflow实战指南

2025/3/25 13:04:58 7 0 0 0

1. 为什么选择高斯过程回归？

2. GPy vs. GPflow：哪个更适合你？

3. 准备工作：安装GPy和GPflow

4. 数据预处理：让数据“听话”

5. 定义核函数：赋予模型“思考”能力

6. 模型训练：让模型“学习”数据

7. 超参数优化：让模型更“聪明”

8. 模型预测与可视化：眼见为实

9. 处理大规模数据集

10. 不同优化器的选择

11. 模型诊断与调参

12. 案例分析：时间序列预测

13. 总结与展望

附录：GPy和GPflow的更多资源

你好，我是老王。今天我们来聊聊高斯过程回归（Gaussian Process Regression, GPR）。这玩意儿在机器学习领域可是个宝，特别是在处理小样本、高维度、以及需要不确定性估计的问题时，更是独具优势。作为一名资深程序员，我深知大家的时间宝贵，所以今天咱们就直接上手，用Python的GPy和GPflow库，带你从数据预处理到模型部署，一步步玩转GPR。

1. 为什么选择高斯过程回归？

在正式开始之前，我们先来简单回顾一下，高斯过程回归到底有什么魔力，能让这么多大佬为它倾倒。

小样本也能Hold住： 相比于动辄需要大量数据的深度学习，高斯过程回归更擅长处理小样本数据。这意味着，即使你的数据量不大，也能得到不错的预测效果。
自带不确定性： GPR不仅能给出预测值，还能给出预测的不确定性（标准差）。这在风险评估、决策制定等场景中非常有用。
灵活性高： 你可以通过选择不同的核函数（kernel），来适应不同类型的数据，从而提高模型的泛化能力。
无需手动调参： GPR的超参数可以通过最大化似然函数自动优化，省去了手动调参的烦恼。

2. GPy vs. GPflow：哪个更适合你？

在Python中，有两个常用的GPR库：GPy和GPflow。它们各有千秋，选择哪个取决于你的具体需求：

GPy： 诞生较早，功能完善，文档丰富，入门门槛较低。如果你是初学者，或者只需要快速实现一个GPR模型，GPy是不错的选择。
GPflow： 基于TensorFlow，更灵活，可以方便地与其他深度学习模型结合。如果你熟悉TensorFlow，或者需要在GPU上加速模型训练，GPflow更胜一筹。

今天，我们主要以GPy为例进行讲解，也会穿插GPflow的例子，方便你快速上手。

3. 准备工作：安装GPy和GPflow

在开始之前，你需要安装GPy和GPflow。当然，最好先创建一个Python虚拟环境，避免依赖冲突。

 # 创建虚拟环境
python -m venv gpr_env
 
# 激活虚拟环境（Windows）
gpr_env\Scripts\activate
 
# 激活虚拟环境（Linux/macOS）
source gpr_env/bin/activate
 
# 安装GPy
pip install GPy
 
# 安装GPflow (可选，如果你想尝试)
pip install gpflow
 
# 安装其他依赖（如matplotlib，用于可视化）
pip install matplotlib numpy pandas scikit-learn

4. 数据预处理：让数据“听话”

数据预处理是机器学习中至关重要的一步，它直接影响着模型的性能。对于GPR，常见的数据预处理方法包括：

数据清洗： 处理缺失值、异常值等。
特征缩放： 将特征缩放到合适的范围，例如 [0, 1] 或 [-1, 1]。这可以避免某些特征对模型的影响过大。
数据分割： 将数据分割成训练集、验证集和测试集。训练集用于训练模型，验证集用于调整超参数，测试集用于评估模型的泛化能力。

让我们来看一个简单的例子，使用Python的scikit-learn库进行数据预处理：

 import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
 
# 1. 生成模拟数据
np.random.seed(42)
X = np.random.rand(100, 1) * 10  # 100个样本，1个特征
y = np.sin(X).flatten() + np.random.randn(100) * 0.1  # 加上噪声
 
# 2. 特征缩放（标准化）
scaler_X = StandardScaler()
scaler_y = StandardScaler()
X_scaled = scaler_X.fit_transform(X)
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1)).flatten()
 
# 3. 数据分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, random_state=42)
 
# 4. 打印数据形状，检查是否正确
print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

代码解释：

生成模拟数据： 我们生成了一个简单的正弦函数，并添加了噪声。这方便我们验证模型的预测效果。
特征缩放（标准化）： 使用StandardScaler对X和y进行标准化处理。标准化可以使得数据均值为0，方差为1。
数据分割： 使用train_test_split将数据分割成训练集和测试集。测试集用于评估模型的泛化能力。
打印数据形状： 确保数据的形状符合预期。

5. 定义核函数：赋予模型“思考”能力

核函数是高斯过程的核心，它定义了数据点之间的相似性。不同的核函数对应着不同的假设，因此选择合适的核函数至关重要。

GPy和GPflow提供了多种核函数，常用的包括：

径向基函数 (RBF) / squared exponential (SE) : 最常用的核函数之一，适用于平滑的函数。
Matern 核： RBF的泛化，可以调整平滑程度。
线性核： 适用于线性关系。
周期核： 适用于周期性数据。
组合核： 可以通过加法、乘法等方式组合多个核函数。

GPy中的核函数定义：

 import GPy
 
# 定义RBF核函数
kernel = GPy.kern.RBF(input_dim=1, variance=1., lengthscale=1.)

代码解释：

GPy.kern.RBF()：创建RBF核函数。
input_dim=1：输入特征的维度。在本例中，我们只有一个特征。
variance=1.：方差，控制函数值的幅度。
lengthscale=1.：长度尺度，控制函数的变化速度。长度尺度越大，函数越平滑。

GPflow中的核函数定义：

 import gpflow
 
# 定义RBF核函数
kernel = gpflow.kernels.RBF(lengthscales=1.0)  # input_dim 不需要指定，GPflow可以自动推断

代码解释：

gpflow.kernels.RBF()：创建RBF核函数。
lengthscales=1.0：长度尺度。

6. 模型训练：让模型“学习”数据

定义好核函数后，我们就可以构建GPR模型并进行训练了。

GPy中的模型训练：

 # 1. 构建GPR模型
model = GPy.models.GPRegression(X_train, y_train.reshape(-1, 1), kernel)
 
# 2. 优化超参数
model.optimize(messages=True) # messages=True 打印优化过程
 
# 3. 打印优化后的超参数
print(model)

代码解释：

GPy.models.GPRegression()：构建GPR模型。
- X_train：训练集的输入特征。
- y_train.reshape(-1, 1)：训练集的输出标签，需要reshape成列向量。
- kernel：定义的核函数。
model.optimize()：优化超参数。GPy会使用最大化似然函数的方法来自动优化超参数。
print(model)：打印优化后的模型，包括超参数的值。

GPflow中的模型训练：

 import tensorflow as tf
 
# 1. 构建GPR模型
model = gpflow.models.GPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, mean_function=None) # mean_function 可以设置为 None 或其他函数
 
# 2. 定义优化器
optimizer = tf.optimizers.Adam(learning_rate=0.01)
 
# 3. 训练模型
@tf.function  # 使用tf.function加速训练
def objective_closure():
    return -model.log_marginal_likelihood()
 
for step in range(100):  # 迭代次数
    with tf.GradientTape() as tape:
        loss = objective_closure()
    grads = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
    if step % 10 == 0:
        print(f"Step {step}, Loss: {loss.numpy():.4f}")
 
# 4. 打印优化后的超参数
print(gpflow.utilities.print_summary(model))

代码解释：

gpflow.models.GPR()：构建GPR模型。
- data=(X_train, y_train.reshape(-1, 1))：训练数据，需要reshape成列向量。
- kernel：定义的核函数。
- mean_function：均值函数，可以设置为None或自定义函数。
tf.optimizers.Adam()：定义优化器，GPflow基于TensorFlow，可以使用TensorFlow的优化器。
objective_closure()：定义目标函数，即负对数边缘似然。
tf.GradientTape()：使用TensorFlow的梯度带计算梯度。
optimizer.apply_gradients()：使用优化器更新模型参数。
gpflow.utilities.print_summary()：打印优化后的模型，包括超参数的值。

7. 超参数优化：让模型更“聪明”

在GPR中，超参数是决定模型性能的关键。例如，RBF核函数的长度尺度和方差就是超参数。GPy和GPflow都提供了自动优化超参数的功能，但你也可以手动调整它们。

GPy： 在model.optimize()中，GPy会自动优化超参数。

GPflow： 在上面的例子中，我们使用了Adam优化器来优化超参数。你也可以尝试其他优化器，或者手动调整超参数。

8. 模型预测与可视化：眼见为实

训练好模型后，我们就可以使用它进行预测了。GPR不仅可以给出预测值，还可以给出预测的不确定性（标准差）。

GPy中的预测与可视化：

 import matplotlib.pyplot as plt
 
# 1. 预测
X_test_scaled = X_test
y_pred, y_var = model.predict(X_test_scaled)
y_std = np.sqrt(y_var) # 标准差
 
# 2. 可视化
plt.figure(figsize=(10, 6))
plt.plot(scaler_X.inverse_transform(X_test_scaled), scaler_y.inverse_transform(y_pred), label='Prediction', color='blue')
plt.fill_between(scaler_X.inverse_transform(X_test_scaled).flatten(), 
                 scaler_y.inverse_transform(y_pred.flatten() - 1.96 * y_std), 
                 scaler_y.inverse_transform(y_pred.flatten() + 1.96 * y_std), 
                 color='blue', alpha=0.2, label='95% Confidence Interval')
plt.scatter(scaler_X.inverse_transform(X), scaler_y.inverse_transform(y.reshape(-1, 1)), label='Original Data', color='red', marker='x')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Gaussian Process Regression')
plt.legend()
plt.show()

代码解释：

model.predict()：进行预测。
- X_test_scaled：测试集的输入特征，需要经过缩放处理。
- y_pred：预测值。
- y_var：预测方差。
np.sqrt(y_var)：计算预测标准差。
plt.plot()：绘制预测值。
plt.fill_between()：绘制置信区间。通常使用95%置信区间，即预测值 ± 1.96 * 标准差。
plt.scatter()：绘制原始数据。

GPflow中的预测与可视化：

 import matplotlib.pyplot as plt
 
# 1. 预测
y_pred, y_var = model.predict_y(X_test) # 直接使用原始的X_test，不需要缩放了
y_std = np.sqrt(y_var)  # 标准差
 
# 2. 可视化
plt.figure(figsize=(10, 6))
plt.plot(scaler_X.inverse_transform(X_test), scaler_y.inverse_transform(y_pred), label='Prediction', color='blue')
plt.fill_between(scaler_X.inverse_transform(X_test).flatten(), 
                 scaler_y.inverse_transform(y_pred.flatten() - 1.96 * y_std), 
                 scaler_y.inverse_transform(y_pred.flatten() + 1.96 * y_std), 
                 color='blue', alpha=0.2, label='95% Confidence Interval')
plt.scatter(scaler_X.inverse_transform(X), scaler_y.inverse_transform(y.reshape(-1, 1)), label='Original Data', color='red', marker='x')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Gaussian Process Regression (GPflow)')
plt.legend()
plt.show()

代码解释：

model.predict_y()：进行预测，不需要再传入缩放后的X了。
后续的可视化步骤与GPy类似。

9. 处理大规模数据集

当数据量很大时，GPR的计算复杂度会很高，因为需要计算核矩阵的逆。为了处理大规模数据集，可以采用以下方法：

inducing points (诱导点)： 通过选择一部分数据点作为诱导点，来近似整个数据集。这可以大大减少计算量。
使用GPU加速： GPflow基于TensorFlow，可以方便地使用GPU加速训练和预测。

GPy没有内置的诱导点功能，需要手动实现。

GPflow中的诱导点：

 import gpflow
 
# 1. 选择诱导点
inducing_variable = gpflow.inducing_variables.InducingPoints(X_train[:50].copy()) # 随机选取一部分训练数据作为诱导点
 
# 2. 构建SparseGP模型
kernel = gpflow.kernels.RBF(lengthscales=1.0)
model = gpflow.models.SGPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, inducing_variable=inducing_variable)
 
# 3. 训练模型（同前）
optimizer = tf.optimizers.Adam(learning_rate=0.01)
@tf.function
def objective_closure():
    return -model.log_marginal_likelihood()
 
for step in range(100):
    with tf.GradientTape() as tape:
        loss = objective_closure()
    grads = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
    if step % 10 == 0:
        print(f"Step {step}, Loss: {loss.numpy():.4f}")
 
# 4. 预测和可视化（同前）

代码解释：

gpflow.inducing_variables.InducingPoints()：创建诱导点。
gpflow.models.SGPR()：构建SparseGP模型。
训练和预测与之前的GPR模型类似。

10. 不同优化器的选择

在GPflow中，你可以灵活地选择不同的优化器。除了Adam优化器，你还可以尝试：

SGD (随机梯度下降)： 简单高效，但需要仔细调整学习率。
L-BFGS： 一种拟牛顿优化算法，通常可以更快地收敛到局部最优解。

GPflow的优化器切换：

 # 使用 L-BFGS 优化器
import tensorflow_probability as tfp
 
# 定义目标函数（同前）
@tf.function
def objective_closure():
    return -model.log_marginal_likelihood()
 
# 使用 L-BFGS 优化器
optimizer = tfp.optimizer.lbfgs.lbfgs_minimize( 
    objective_closure,
    initial_position=model.trainable_variables,
    max_iterations=100,
    tolerance=1e-6,
)
 
# 打印优化后的超参数（同前）
print(gpflow.utilities.print_summary(model))

11. 模型诊断与调参

模型训练完成后，我们需要对模型进行诊断，以确保其性能良好。常用的模型诊断方法包括：

残差分析： 检查残差是否服从正态分布，是否存在异方差等问题。
交叉验证： 使用交叉验证来评估模型的泛化能力。
超参数调优： 调整核函数的超参数，例如长度尺度和方差，来提高模型的性能。

残差分析：

 # 1. 预测
y_pred, y_var = model.predict_y(X_test)  # 使用测试集进行预测
 
# 2. 计算残差
residuals = y_test - y_pred.flatten()
 
# 3. 可视化残差
plt.figure(figsize=(10, 6))
plt.scatter(y_pred.flatten(), residuals)
plt.xlabel('Predicted Values')
plt.ylabel('Residuals')
plt.title('Residual Plot')
plt.axhline(y=0, color='red', linestyle='--')
plt.show()
 
# 4. 检查残差是否服从正态分布（可选）
import scipy.stats as stats
 
plt.figure(figsize=(10, 6))
stats.probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot of Residuals')
plt.show()

代码解释：

使用测试集进行预测。
计算残差。
绘制残差图，检查是否存在明显的模式。
绘制Q-Q图，检查残差是否服从正态分布。

超参数调优：

你可以通过手动调整超参数，或者使用Grid Search、Bayesian Optimization等方法进行超参数调优。这里给出一个手动调整的例子：

 # 1. 定义一个函数，用于评估模型的性能
def evaluate_model(lengthscale, variance):
    # 创建新的kernel
    kernel = gpflow.kernels.RBF(lengthscales=lengthscale, variance=variance)
    # 构建新的模型（同前）
    model = gpflow.models.GPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, mean_function=None)
    # 训练模型（同前，使用Adam优化器）
    optimizer = tf.optimizers.Adam(learning_rate=0.01)
    @tf.function
    def objective_closure():
        return -model.log_marginal_likelihood()
    for step in range(100):
        with tf.GradientTape() as tape:
            loss = objective_closure()
        grads = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(grads, model.trainable_variables))
    # 预测（同前）
    y_pred, y_var = model.predict_y(X_test)
    # 计算MSE (均方误差) 作为评估指标
    mse = np.mean((y_test - y_pred.numpy().flatten())**2)
    return mse
 
# 2. 手动调整长度尺度和方差
lengthscales = [0.1, 1.0, 10.0]
variances = [0.1, 1.0, 10.0]
best_mse = float('inf')
best_lengthscale = None
best_variance = None
 
for lengthscale in lengthscales:
    for variance in variances:
        mse = evaluate_model(lengthscale, variance)
        print(f"Lengthscale: {lengthscale}, Variance: {variance}, MSE: {mse:.4f}")
        if mse < best_mse:
            best_mse = mse
            best_lengthscale = lengthscale
            best_variance = variance
 
print(f"Best Lengthscale: {best_lengthscale}, Best Variance: {best_variance}, Best MSE: {best_mse:.4f}")

12. 案例分析：时间序列预测

现在，我们来通过一个案例，看看GPR在时间序列预测中的应用。我们将使用GPy来预测一个简单的正弦波序列。

 import numpy as np
import GPy
import matplotlib.pyplot as plt
 
# 1. 生成时间序列数据
time = np.linspace(0, 10, 100).reshape(-1, 1)  # 时间轴
y = np.sin(time).flatten() + np.random.randn(100) * 0.1  # 加上噪声
 
# 2. 数据分割
X_train = time[:80]  # 前80个时间点作为训练集
y_train = y[:80]
X_test = time[80:]  # 后20个时间点作为测试集
y_test = y[80:]
 
# 3. 定义周期核函数
kernel = GPy.kern.PeriodicMatern32(input_dim=1, variance=1.0, lengthscale=1.0, period=2*np.pi)
 
# 4. 构建GPR模型
model = GPy.models.GPRegression(X_train, y_train.reshape(-1, 1), kernel)
 
# 5. 优化超参数
model.optimize(messages=True)
 
# 6. 预测
y_pred, y_var = model.predict(X_test)
y_std = np.sqrt(y_var)
 
# 7. 可视化
plt.figure(figsize=(10, 6))
plt.plot(X_test, y_test, label='True Values', color='red')
plt.plot(X_test, y_pred, label='Prediction', color='blue')
plt.fill_between(X_test.flatten(), 
                 y_pred.flatten() - 1.96 * y_std, 
                 y_pred.flatten() + 1.96 * y_std, 
                 color='blue', alpha=0.2, label='95% Confidence Interval')
plt.xlabel('Time')
plt.ylabel('y')
plt.title('Time Series Prediction with GPR')
plt.legend()
plt.show()

代码解释：

生成一个带有噪声的正弦波时间序列。
将数据分割成训练集和测试集。
使用周期核函数： GPy.kern.PeriodicMatern32()，周期核函数非常适合预测周期性数据。
构建GPR模型，并优化超参数。
进行预测，并可视化结果。

13. 总结与展望

今天，我们一起学习了如何使用Python的GPy和GPflow库进行高斯过程回归。从数据预处理、核函数选择、模型训练、超参数优化到模型预测和可视化，我们一步步深入了解了GPR的强大功能。我们还探讨了如何处理大规模数据集，以及如何进行模型诊断和调参。最后，通过一个时间序列预测的案例，我们看到了GPR在实际问题中的应用。

未来展望：

探索不同的核函数： 除了RBF、Matern等核函数，还可以尝试组合核函数，或者自定义核函数。
与其他模型结合： 将GPR与其他机器学习模型结合，例如，将GPR作为深度学习模型的最后一层，以提供不确定性估计。
应用到更复杂的场景： 尝试将GPR应用到更复杂的场景，例如，推荐系统、金融预测、环境监测等。

希望通过今天的分享，你能对高斯过程回归有一个更深入的理解，并能够在你的工作中灵活运用它。加油，一起成为机器学习高手！

附录：GPy和GPflow的更多资源

GPy官方文档： http://gpy.readthedocs.io/en/latest/
GPflow官方文档： https://gpflow.readthedocs.io/en/develop/
GPy GitHub： https://github.com/SheffieldML/GPy
GPflow GitHub： https://github.com/GPflow/GPflow

希望这些资源能帮助你更深入地学习高斯过程回归。

老王高斯过程 GPR Python GPy GPflow

	# 创建虚拟环境
	python -m venv gpr_env

	# 激活虚拟环境（Windows）
	gpr_env\Scripts\activate

	# 激活虚拟环境（Linux/macOS）
	source gpr_env/bin/activate

	# 安装GPy
	pip install GPy

	# 安装GPflow (可选，如果你想尝试)
	pip install gpflow

	# 安装其他依赖（如matplotlib，用于可视化）
	pip install matplotlib numpy pandas scikit-learn

	import numpy as np
	from sklearn.preprocessing import StandardScaler
	from sklearn.model_selection import train_test_split

	# 1. 生成模拟数据
	np.random.seed(42)
	X = np.random.rand(100, 1) * 10 # 100个样本，1个特征
	y = np.sin(X).flatten() + np.random.randn(100) * 0.1 # 加上噪声

	# 2. 特征缩放（标准化）
	scaler_X = StandardScaler()
	scaler_y = StandardScaler()
	X_scaled = scaler_X.fit_transform(X)
	y_scaled = scaler_y.fit_transform(y.reshape(-1, 1)).flatten()

	# 3. 数据分割
	X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, random_state=42)

	# 4. 打印数据形状，检查是否正确
	print("X_train shape:", X_train.shape)
	print("y_train shape:", y_train.shape)
	print("X_test shape:", X_test.shape)
	print("y_test shape:", y_test.shape)

	import GPy

	# 定义RBF核函数
	kernel = GPy.kern.RBF(input_dim=1, variance=1., lengthscale=1.)

	import gpflow

	# 定义RBF核函数
	kernel = gpflow.kernels.RBF(lengthscales=1.0) # input_dim 不需要指定，GPflow可以自动推断

	# 1. 构建GPR模型
	model = GPy.models.GPRegression(X_train, y_train.reshape(-1, 1), kernel)

	# 2. 优化超参数
	model.optimize(messages=True) # messages=True 打印优化过程

	# 3. 打印优化后的超参数
	print(model)

	import tensorflow as tf

	# 1. 构建GPR模型
	model = gpflow.models.GPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, mean_function=None) # mean_function 可以设置为 None 或其他函数

	# 2. 定义优化器
	optimizer = tf.optimizers.Adam(learning_rate=0.01)

	# 3. 训练模型
	@tf.function # 使用tf.function加速训练
	def objective_closure():
	return -model.log_marginal_likelihood()

	for step in range(100): # 迭代次数
	with tf.GradientTape() as tape:
	loss = objective_closure()
	grads = tape.gradient(loss, model.trainable_variables)
	optimizer.apply_gradients(zip(grads, model.trainable_variables))
	if step % 10 == 0:
	print(f"Step {step}, Loss: {loss.numpy():.4f}")

	# 4. 打印优化后的超参数
	print(gpflow.utilities.print_summary(model))

	import matplotlib.pyplot as plt

	# 1. 预测
	X_test_scaled = X_test
	y_pred, y_var = model.predict(X_test_scaled)
	y_std = np.sqrt(y_var) # 标准差

	# 2. 可视化
	plt.figure(figsize=(10, 6))
	plt.plot(scaler_X.inverse_transform(X_test_scaled), scaler_y.inverse_transform(y_pred), label='Prediction', color='blue')
	plt.fill_between(scaler_X.inverse_transform(X_test_scaled).flatten(),
	scaler_y.inverse_transform(y_pred.flatten() - 1.96 * y_std),
	scaler_y.inverse_transform(y_pred.flatten() + 1.96 * y_std),
	color='blue', alpha=0.2, label='95% Confidence Interval')
	plt.scatter(scaler_X.inverse_transform(X), scaler_y.inverse_transform(y.reshape(-1, 1)), label='Original Data', color='red', marker='x')
	plt.xlabel('X')
	plt.ylabel('y')
	plt.title('Gaussian Process Regression')
	plt.legend()
	plt.show()

	import matplotlib.pyplot as plt

	# 1. 预测
	y_pred, y_var = model.predict_y(X_test) # 直接使用原始的X_test，不需要缩放了
	y_std = np.sqrt(y_var) # 标准差

	# 2. 可视化
	plt.figure(figsize=(10, 6))
	plt.plot(scaler_X.inverse_transform(X_test), scaler_y.inverse_transform(y_pred), label='Prediction', color='blue')
	plt.fill_between(scaler_X.inverse_transform(X_test).flatten(),
	scaler_y.inverse_transform(y_pred.flatten() - 1.96 * y_std),
	scaler_y.inverse_transform(y_pred.flatten() + 1.96 * y_std),
	color='blue', alpha=0.2, label='95% Confidence Interval')
	plt.scatter(scaler_X.inverse_transform(X), scaler_y.inverse_transform(y.reshape(-1, 1)), label='Original Data', color='red', marker='x')
	plt.xlabel('X')
	plt.ylabel('y')
	plt.title('Gaussian Process Regression (GPflow)')
	plt.legend()
	plt.show()

	import gpflow

	# 1. 选择诱导点
	inducing_variable = gpflow.inducing_variables.InducingPoints(X_train[:50].copy()) # 随机选取一部分训练数据作为诱导点

	# 2. 构建SparseGP模型
	kernel = gpflow.kernels.RBF(lengthscales=1.0)
	model = gpflow.models.SGPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, inducing_variable=inducing_variable)

	# 3. 训练模型（同前）
	optimizer = tf.optimizers.Adam(learning_rate=0.01)
	@tf.function
	def objective_closure():
	return -model.log_marginal_likelihood()

	for step in range(100):
	with tf.GradientTape() as tape:
	loss = objective_closure()
	grads = tape.gradient(loss, model.trainable_variables)
	optimizer.apply_gradients(zip(grads, model.trainable_variables))
	if step % 10 == 0:
	print(f"Step {step}, Loss: {loss.numpy():.4f}")

	# 4. 预测和可视化（同前）

	# 使用 L-BFGS 优化器
	import tensorflow_probability as tfp

	# 定义目标函数（同前）
	@tf.function
	def objective_closure():
	return -model.log_marginal_likelihood()

	# 使用 L-BFGS 优化器
	optimizer = tfp.optimizer.lbfgs.lbfgs_minimize(
	objective_closure,
	initial_position=model.trainable_variables,
	max_iterations=100,
	tolerance=1e-6,
	)

	# 打印优化后的超参数（同前）
	print(gpflow.utilities.print_summary(model))

	# 1. 预测
	y_pred, y_var = model.predict_y(X_test) # 使用测试集进行预测

	# 2. 计算残差
	residuals = y_test - y_pred.flatten()

	# 3. 可视化残差
	plt.figure(figsize=(10, 6))
	plt.scatter(y_pred.flatten(), residuals)
	plt.xlabel('Predicted Values')
	plt.ylabel('Residuals')
	plt.title('Residual Plot')
	plt.axhline(y=0, color='red', linestyle='--')
	plt.show()

	# 4. 检查残差是否服从正态分布（可选）
	import scipy.stats as stats

	plt.figure(figsize=(10, 6))
	stats.probplot(residuals, dist="norm", plot=plt)
	plt.title('Q-Q Plot of Residuals')
	plt.show()

	# 1. 定义一个函数，用于评估模型的性能
	def evaluate_model(lengthscale, variance):
	# 创建新的kernel
	kernel = gpflow.kernels.RBF(lengthscales=lengthscale, variance=variance)
	# 构建新的模型（同前）
	model = gpflow.models.GPR(data=(X_train, y_train.reshape(-1, 1)), kernel=kernel, mean_function=None)
	# 训练模型（同前，使用Adam优化器）
	optimizer = tf.optimizers.Adam(learning_rate=0.01)
	@tf.function
	def objective_closure():
	return -model.log_marginal_likelihood()
	for step in range(100):
	with tf.GradientTape() as tape:
	loss = objective_closure()
	grads = tape.gradient(loss, model.trainable_variables)
	optimizer.apply_gradients(zip(grads, model.trainable_variables))
	# 预测（同前）
	y_pred, y_var = model.predict_y(X_test)
	# 计算MSE (均方误差) 作为评估指标
	mse = np.mean((y_test - y_pred.numpy().flatten())**2)
	return mse

	# 2. 手动调整长度尺度和方差
	lengthscales = [0.1, 1.0, 10.0]
	variances = [0.1, 1.0, 10.0]
	best_mse = float('inf')
	best_lengthscale = None
	best_variance = None

	for lengthscale in lengthscales:
	for variance in variances:
	mse = evaluate_model(lengthscale, variance)
	print(f"Lengthscale: {lengthscale}, Variance: {variance}, MSE: {mse:.4f}")
	if mse < best_mse:
	best_mse = mse
	best_lengthscale = lengthscale
	best_variance = variance

	print(f"Best Lengthscale: {best_lengthscale}, Best Variance: {best_variance}, Best MSE: {best_mse:.4f}")

Python玩转高斯过程回归 GPy & GPflow实战指南

1. 为什么选择高斯过程回归？

2. GPy vs. GPflow：哪个更适合你？

3. 准备工作：安装GPy和GPflow

4. 数据预处理：让数据“听话”

5. 定义核函数：赋予模型“思考”能力

6. 模型训练：让模型“学习”数据

7. 超参数优化：让模型更“聪明”

8. 模型预测与可视化：眼见为实

9. 处理大规模数据集

10. 不同优化器的选择

11. 模型诊断与调参

12. 案例分析：时间序列预测

13. 总结与展望

附录：GPy和GPflow的更多资源

1. 为什么选择高斯过程回归？

2. GPy vs. GPflow：哪个更适合你？

3. 准备工作：安装GPy和GPflow

4. 数据预处理：让数据“听话”

5. 定义核函数：赋予模型“思考”能力

6. 模型训练：让模型“学习”数据

7. 超参数优化：让模型更“聪明”

8. 模型预测与可视化：眼见为实

9. 处理大规模数据集

10. 不同优化器的选择

11. 模型诊断与调参

12. 案例分析：时间序列预测

13. 总结与展望

附录：GPy和GPflow的更多资源

评论点评