PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

2025/3/25 21:05:01 8 0 0 0

PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

1. 为什么需要 EWC？灾难性遗忘的挑战

2. EWC 的核心思想：弹性权重巩固

3. 理论基础：Fisher 信息矩阵

4. PyTorch 实现 EWC

5. TensorFlow 实现 EWC

6. EWC 的应用场景与实践建议

7. 总结

PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

你好，我是老K，一个热衷于分享技术干货的程序员。今天，我们来聊聊一个在持续学习和迁移学习领域非常重要的算法——EWC (Elastic Weight Consolidation，弹性权重巩固)。

EWC 的核心思想是：在神经网络学习新任务时，保护之前任务学到的知识，避免“灾难性遗忘”。对于那些希望将 EWC 应用于实际项目的开发者来说，本文将提供详尽的代码示例和实战指导，助你轻松驾驭 EWC。

1. 为什么需要 EWC？灾难性遗忘的挑战

在传统的机器学习中，我们通常假设数据是静态的，模型在一个固定的数据集上进行训练。然而，在现实世界中，数据是不断变化的。想象一下，你正在构建一个能够识别多种物体的图像识别模型。当模型学会识别猫之后，你又需要它学会识别狗。如果不采取特殊措施，模型很可能会“忘记”之前学到的关于猫的知识，这就是所谓的“灾难性遗忘”。

EWC 就是为了解决这个问题而提出的。它通过为重要的权重施加额外的损失项，从而使模型在学习新任务时，也能保留旧任务的知识。

2. EWC 的核心思想：弹性权重巩固

EWC 的关键在于，它会根据旧任务的经验，对神经网络的权重进行“加权惩罚”。具体来说，它会：

计算 Fisher 信息矩阵： 对于旧任务，EWC 会计算每个权重的重要性。Fisher 信息矩阵可以用来衡量每个权重对旧任务输出的影响程度。如果一个权重对旧任务的输出影响很大，那么它在 Fisher 信息矩阵中的值就会很大，这意味着这个权重很重要。
根据 Fisher 信息矩阵，构建新的损失函数： 在学习新任务时，EWC 会增加一个额外的损失项。这个损失项会惩罚那些在新任务中变化过大的重要权重。惩罚的力度由 Fisher 信息矩阵的值决定，权重越重要，惩罚的力度越大。

通过这种方式，EWC 使得模型在学习新任务时，更倾向于保留旧任务的知识。

3. 理论基础：Fisher 信息矩阵

理解 EWC 的关键在于理解 Fisher 信息矩阵。Fisher 信息矩阵（FIM）度量了模型参数对似然函数的敏感程度。对于一个给定的参数 θ，FIM 的计算公式如下：

F_ij = E[ ( ∂ log p(D|θ) / ∂θ_i ) * ( ∂ log p(D|θ) / ∂θ_j ) ]

其中：

D 是数据集。
θ 是模型的参数。
p(D|θ) 是给定参数 θ 下，数据集 D 的似然函数。
E[ ] 表示期望。

简单来说，FIM 衡量了在给定参数 θ 下，数据对参数 θ 的“信息量”。如果 FIM 的值很大，意味着参数 θ 对于模型输出的影响很大，因此在学习新任务时，应该更加保护这个参数。

在实践中，我们通常使用样本近似来估计 FIM。具体来说，我们可以使用以下公式：

F_ij ≈ (1/N) * Σ ( ∂ log p(y_n|x_n, θ) / ∂θ_i ) * ( ∂ log p(y_n|x_n, θ) / ∂θ_j )

其中：

N 是样本数量。
(x_n, y_n) 是第 n 个样本。
p(y_n|x_n, θ) 是给定输入 x_n 和参数 θ 下，模型预测 y_n 的概率。

4. PyTorch 实现 EWC

下面，我们用 PyTorch 来实现 EWC 算法。我们将提供详细的代码注释，方便你理解和应用。

 import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
 
# 1. 定义一个简单的神经网络
class Net(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, num_classes)
 
    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)
        return out
 
# 2. 定义 EWC 类
class EWC:
    def __init__(self, model, dataset, device):
        self.model = model
        self.dataset = dataset
        self.device = device
        self.params = {n: p for n, p in self.model.named_parameters() if p.requires_grad}
        self.params_old = {n: p.clone().detach() for n, p in self.params.items()}
        self.fisher_matrices = self._compute_fisher_matrices()
 
    # 2.1 计算 Fisher 信息矩阵
    def _compute_fisher_matrices(self):
        fisher_matrices = {}
        self.model.eval()
        for n, p in self.params.items():
            fisher_matrices[n] = torch.zeros_like(p)
        
        # 使用dataloader加载旧任务的数据
        dataloader = DataLoader(self.dataset, batch_size=128, shuffle=True)
        for inputs, targets in dataloader:
            inputs, targets = inputs.to(self.device), targets.to(self.device)
            self.model.zero_grad()
            outputs = self.model(inputs)
            # 计算交叉熵损失
            loss = nn.CrossEntropyLoss()(outputs, targets)
            # 计算梯度
            loss.backward()
            # 累加Fisher矩阵
            for n, p in self.model.named_parameters():
                if p.requires_grad:
                    fisher_matrices[n] += p.grad.data ** 2 / len(dataloader.dataset)
        
        return fisher_matrices
 
    # 2.2 EWC 损失函数
    def ewc_loss(self, model):
        loss = 0
        for n, p in model.named_parameters():
            if p.requires_grad:
                # 计算损失，惩罚新任务中与旧任务差异大的权重
                loss += (self.fisher_matrices[n] * (p - self.params_old[n]) ** 2).sum()
        return loss
 
# 3. 模拟数据集和训练函数
class SimpleDataset(Dataset):
    def __init__(self, num_samples, input_size, num_classes):
        self.num_samples = num_samples
        self.input_size = input_size
        self.num_classes = num_classes
        self.data = torch.randn(num_samples, input_size)
        self.labels = torch.randint(0, num_classes, (num_samples,))
 
    def __len__(self):
        return self.num_samples
 
    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]
 
def train_ewc(model, old_dataset, new_dataset, device, ewc_lambda=1.0, epochs=10, lr=0.001):
    # 1. 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=lr)
 
    # 2. 初始化 EWC 对象
    ewc = EWC(model, old_dataset, device)
 
    # 3. 定义数据加载器
    old_dataloader = DataLoader(old_dataset, batch_size=128, shuffle=True)
    new_dataloader = DataLoader(new_dataset, batch_size=128, shuffle=True)
 
    # 4. 训练循环
    for epoch in range(epochs):
        model.train()
        total_loss = 0
        # 4.1 训练新任务
        for inputs, targets in new_dataloader:
            inputs, targets = inputs.to(device), targets.to(device)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss_ce = nn.CrossEntropyLoss()(outputs, targets)
            # 计算EWC损失
            loss_ewc = ewc.ewc_loss(model) * ewc_lambda
            # 计算总损失
            loss = loss_ce + loss_ewc
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {total_loss/len(new_dataloader):.4f}')
 
    print('Training finished')
 
# 5. 主函数
if __name__ == '__main__':
    # 5.1 设备设置
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 
    # 5.2 超参数设置
    input_size = 10
    hidden_size = 20
    num_classes = 5
    num_samples_old = 1000
    num_samples_new = 1000
 
    # 5.3 模拟数据集
    old_dataset = SimpleDataset(num_samples_old, input_size, num_classes)
    new_dataset = SimpleDataset(num_samples_new, input_size, num_classes)
 
    # 5.4 初始化模型
    model = Net(input_size, hidden_size, num_classes).to(device)
 
    # 5.5 训练 EWC 模型
    train_ewc(model, old_dataset, new_dataset, device)

代码详解：

Net 类： 定义一个简单的神经网络模型，包括全连接层和 ReLU 激活函数。
EWC 类： 这是 EWC 算法的核心实现。
- __init__：初始化 EWC 对象，包括模型、旧数据集、设备、模型参数、旧参数的拷贝和 Fisher 信息矩阵。
- _compute_fisher_matrices：计算 Fisher 信息矩阵。它首先将模型设置为评估模式，然后遍历旧数据集，计算每个权重的梯度平方，并累加到 Fisher 信息矩阵中。最后，它将 Fisher 信息矩阵除以数据集的大小，得到 Fisher 信息矩阵的平均值。
- ewc_loss：计算 EWC 损失。对于每个权重，它计算其与旧参数的差异，并乘以 Fisher 信息矩阵。最后，将所有权重对应的损失相加。
SimpleDataset 类： 用于生成模拟数据集。你可以根据自己的需求修改这个类，以适应不同的任务。
train_ewc 函数： 训练 EWC 模型的函数。它首先定义优化器，然后初始化 EWC 对象。在训练过程中，它计算交叉熵损失和 EWC 损失，并将它们加权求和，作为总损失。最后，它使用总损失进行反向传播和优化。
if __name__ == '__main__':： 主函数，用于演示 EWC 的使用。它首先设置设备和超参数，然后生成模拟数据集，初始化模型，并调用 train_ewc 函数进行训练。

如何使用：

定义你的模型： 根据你的任务定义神经网络模型。 Net 类只是一个示例，你需要根据你的实际情况进行修改。
准备数据集： 准备你的旧任务和新任务的数据集。确保数据集的格式与你的模型兼容。 SimpleDataset 类是一个简单的示例，你需要根据你的实际情况进行修改。
初始化 EWC 对象： 创建一个 EWC 对象，将你的模型、旧数据集和设备传递给它。
定义训练循环： 在训练循环中，计算交叉熵损失和 EWC 损失。将 EWC 损失与交叉熵损失加权求和，作为总损失。使用总损失进行反向传播和优化。
调整超参数： 调整 EWC 的超参数，例如 ewc_lambda（EWC 损失的权重）、学习率和训练轮数，以获得最佳性能。

5. TensorFlow 实现 EWC

下面，我们用 TensorFlow 来实现 EWC 算法。

 import tensorflow as tf
import numpy as np
 
# 1. 定义一个简单的神经网络
class Net(tf.keras.Model):
    def __init__(self, input_size, hidden_size, num_classes):
        super(Net, self).__init__()
        self.fc1 = tf.keras.layers.Dense(hidden_size, activation='relu')
        self.fc2 = tf.keras.layers.Dense(num_classes)
 
    def call(self, x):
        x = self.fc1(x)
        x = self.fc2(x)
        return x
 
# 2. 定义 EWC 类
class EWC:
    def __init__(self, model, dataset, device):
        self.model = model
        self.dataset = dataset
        self.device = device  # TensorFlow 不需要显式指定设备，但为了代码一致性，这里保留
        self.params = {v.name: v for v in self.model.trainable_variables}
        self.params_old = {n: tf.Variable(v.numpy(), trainable=False) for n, v in self.params.items()}
        self.fisher_matrices = self._compute_fisher_matrices()
 
    # 2.1 计算 Fisher 信息矩阵
    def _compute_fisher_matrices(self):
        fisher_matrices = {}
        #  使用 dataset 加载旧任务的数据。  注意：这里假设 dataset 已经经过 batch 处理
        for n, p in self.params.items():
            fisher_matrices[n] = tf.Variable(tf.zeros_like(p), trainable=False)
        
        for inputs, targets in self.dataset:
            with tf.GradientTape() as tape:
                outputs = self.model(inputs)
                loss = tf.keras.losses.sparse_categorical_crossentropy(targets, outputs, from_logits=True)
            gradients = tape.gradient(loss, self.model.trainable_variables)
            # 累加 Fisher 矩阵
            for (name, param), grad in zip(self.params.items(), gradients):
                fisher_matrices[name].assign_add(tf.square(grad) / len(self.dataset))
        
        return fisher_matrices
 
    # 2.2 EWC 损失函数
    def ewc_loss(self, model):
        loss = 0
        for n, p in model.trainable_variables:
            if p.trainable:
                loss += tf.reduce_sum(self.fisher_matrices[p.name] * (p - self.params_old[p.name]) ** 2)
        return loss
 
# 3. 模拟数据集和训练函数
#  tf.data.Dataset 是一种更灵活的数据集构建方式
def create_dataset(num_samples, input_size, num_classes, batch_size=32):
    def generator():
        for _ in range(num_samples):
            x = np.random.randn(input_size).astype(np.float32)
            y = np.random.randint(0, num_classes)
            yield x, y
 
    dataset = tf.data.Dataset.from_generator(
        generator, 
        output_signature=(tf.TensorSpec(shape=(input_size,), dtype=tf.float32), 
                          tf.TensorSpec(shape=(), dtype=tf.int64))
    )
    dataset = dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)
    return dataset
 
def train_ewc(model, old_dataset, new_dataset, epochs=10, lr=0.001, ewc_lambda=1.0):
    optimizer = tf.keras.optimizers.Adam(learning_rate=lr)
    ewc = EWC(model, old_dataset, None)  # 简化 device 参数，TensorFlow 不需要显式指定
 
    for epoch in range(epochs):
        total_loss = 0.0
        num_batches = 0
        for inputs, targets in new_dataset:
            with tf.GradientTape() as tape:
                outputs = model(inputs)
                loss_ce = tf.keras.losses.sparse_categorical_crossentropy(targets, outputs, from_logits=True)
                loss_ce = tf.reduce_mean(loss_ce) # 确保损失是标量
                loss_ewc = ewc.ewc_loss(model) * ewc_lambda
                loss = loss_ce + loss_ewc
            gradients = tape.gradient(loss, model.trainable_variables)
            optimizer.apply_gradients(zip(gradients, model.trainable_variables))
            total_loss += loss.numpy()
            num_batches += 1
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {total_loss / num_batches:.4f}')
    print('Training finished')
 
# 5. 主函数
if __name__ == '__main__':
    input_size = 10
    hidden_size = 20
    num_classes = 5
    num_samples_old = 1000
    num_samples_new = 1000
    batch_size = 32
 
    # 使用 create_dataset 创建数据集
    old_dataset = create_dataset(num_samples_old, input_size, num_classes, batch_size)
    new_dataset = create_dataset(num_samples_new, input_size, num_classes, batch_size)
 
    model = Net(input_size, hidden_size, num_classes)
 
    train_ewc(model, old_dataset, new_dataset)

代码详解：

Net 类： 定义一个简单的神经网络模型，包括全连接层和 ReLU 激活函数，继承自 tf.keras.Model。
EWC 类： EWC 算法的核心实现。
- __init__：初始化 EWC 对象，包括模型、旧数据集、模型参数、旧参数的拷贝和 Fisher 信息矩阵。注意：TensorFlow 中，我们需要使用 tf.Variable 来定义可训练的变量。旧参数的拷贝需要使用 tf.Variable(v.numpy(), trainable=False) 来创建不可训练的变量。
- _compute_fisher_matrices：计算 Fisher 信息矩阵。它使用 tf.GradientTape 来计算梯度，并累加梯度平方。 tf.GradientTape 能够自动跟踪计算过程，并计算梯度。
- ewc_loss：计算 EWC 损失。对于每个权重，它计算其与旧参数的差异，并乘以 Fisher 信息矩阵。最后，将所有权重对应的损失相加。
create_dataset 函数： 用于生成模拟数据集，使用 tf.data.Dataset 构建，更灵活。你可以根据自己的需求修改这个函数，以适应不同的任务。
train_ewc 函数： 训练 EWC 模型的函数。它使用 tf.keras.optimizers.Adam 作为优化器。在训练过程中，它计算交叉熵损失和 EWC 损失。将 EWC 损失与交叉熵损失加权求和，作为总损失。使用 tf.GradientTape 计算梯度，并使用 optimizer.apply_gradients 应用梯度。
if __name__ == '__main__':： 主函数，用于演示 EWC 的使用。它首先设置超参数，然后使用 create_dataset 生成模拟数据集，初始化模型，并调用 train_ewc 函数进行训练。

如何使用：

定义你的模型： 根据你的任务定义神经网络模型。 Net 类只是一个示例，你需要根据你的实际情况进行修改。确保你的模型继承自 tf.keras.Model。
准备数据集： 准备你的旧任务和新任务的数据集。使用 tf.data.Dataset 来构建数据集，可以更灵活地处理数据。确保数据集的格式与你的模型兼容。
初始化 EWC 对象： 创建一个 EWC 对象，将你的模型和旧数据集传递给它。
定义训练循环： 在训练循环中，使用 tf.GradientTape 计算梯度，计算交叉熵损失和 EWC 损失。将 EWC 损失与交叉熵损失加权求和，作为总损失。使用 optimizer.apply_gradients 应用梯度。
调整超参数： 调整 EWC 的超参数，例如 ewc_lambda（EWC 损失的权重）、学习率和训练轮数，以获得最佳性能。

6. EWC 的应用场景与实践建议

EWC 算法可以应用于多种场景，特别是那些需要持续学习和迁移学习的场景，例如：

机器人学习： 让机器人能够逐步学习新的技能，而不会忘记之前学到的技能。
自然语言处理： 训练语言模型，使其能够适应新的语言或任务，同时保留原有的语言知识。
图像识别： 训练图像识别模型，使其能够识别新的物体类别，而不会忘记旧的类别。
推荐系统： 训练推荐系统，使其能够适应用户偏好的变化，同时保留对用户历史行为的理解。

实践建议：

选择合适的 ewc_lambda 值： ewc_lambda 是 EWC 算法中一个非常重要的超参数。它控制着 EWC 损失的权重。如果 ewc_lambda 太大，模型可能会过度保护旧任务的知识，导致学习新任务的能力下降。如果 ewc_lambda 太小，模型可能无法有效地保护旧任务的知识，导致灾难性遗忘。通常，你需要通过实验来找到最适合你的任务的 ewc_lambda 值。
定期更新 Fisher 信息矩阵： 在某些情况下，旧任务的数据分布可能与新任务的数据分布有很大差异。在这种情况下，你可能需要定期更新 Fisher 信息矩阵，以确保它能够准确地反映旧任务的知识。
考虑其他方法： EWC 并不是解决灾难性遗忘的唯一方法。你还可以考虑其他方法，例如：
- 正则化： 例如 L1 或 L2 正则化。
- 知识蒸馏： 让模型学习旧任务的输出，从而保留旧任务的知识。
- 动态网络结构： 根据需要动态地增加或减少网络的容量。

7. 总结

EWC 算法是一种有效的防止灾难性遗忘的方法。它通过保护旧任务的知识，使得模型能够持续学习新的任务。本文提供了 PyTorch 和 TensorFlow 的代码示例，并详细解释了 EWC 的实现细节和应用场景。希望这些内容能帮助你更好地理解和应用 EWC 算法。如果你在实践过程中遇到任何问题，欢迎随时与我交流。

下一步，你可以尝试：

在你的实际项目中应用 EWC 算法： 根据你的任务，修改代码示例，并进行实验，看看 EWC 算法是否能够提高你的模型的性能。
探索 EWC 的变体： EWC 算法有很多变体，例如 iCaRL，你可以尝试探索这些变体，看看它们是否能够提高你的模型的性能。
与其他方法结合使用 EWC 算法： 你可以将 EWC 算法与其他方法结合使用，例如正则化、知识蒸馏等，看看是否能够提高你的模型的性能。

祝你在机器学习的道路上越走越远！

老K EWC 持续学习迁移学习 PyTorch TensorFlow 灾难性遗忘

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.utils.data import DataLoader, Dataset

	# 1. 定义一个简单的神经网络
	class Net(nn.Module):
	def __init__(self, input_size, hidden_size, num_classes):
	super(Net, self).__init__()
	self.fc1 = nn.Linear(input_size, hidden_size)
	self.relu = nn.ReLU()
	self.fc2 = nn.Linear(hidden_size, num_classes)

	def forward(self, x):
	out = self.fc1(x)
	out = self.relu(out)
	out = self.fc2(out)
	return out

	# 2. 定义 EWC 类
	class EWC:
	def __init__(self, model, dataset, device):
	self.model = model
	self.dataset = dataset
	self.device = device
	self.params = {n: p for n, p in self.model.named_parameters() if p.requires_grad}
	self.params_old = {n: p.clone().detach() for n, p in self.params.items()}
	self.fisher_matrices = self._compute_fisher_matrices()

	# 2.1 计算 Fisher 信息矩阵
	def _compute_fisher_matrices(self):
	fisher_matrices = {}
	self.model.eval()
	for n, p in self.params.items():
	fisher_matrices[n] = torch.zeros_like(p)

	# 使用dataloader加载旧任务的数据
	dataloader = DataLoader(self.dataset, batch_size=128, shuffle=True)
	for inputs, targets in dataloader:
	inputs, targets = inputs.to(self.device), targets.to(self.device)
	self.model.zero_grad()
	outputs = self.model(inputs)
	# 计算交叉熵损失
	loss = nn.CrossEntropyLoss()(outputs, targets)
	# 计算梯度
	loss.backward()
	# 累加Fisher矩阵
	for n, p in self.model.named_parameters():
	if p.requires_grad:
	fisher_matrices[n] += p.grad.data ** 2 / len(dataloader.dataset)

	return fisher_matrices

	# 2.2 EWC 损失函数
	def ewc_loss(self, model):
	loss = 0
	for n, p in model.named_parameters():
	if p.requires_grad:
	# 计算损失，惩罚新任务中与旧任务差异大的权重
	loss += (self.fisher_matrices[n] * (p - self.params_old[n]) ** 2).sum()
	return loss

	# 3. 模拟数据集和训练函数
	class SimpleDataset(Dataset):
	def __init__(self, num_samples, input_size, num_classes):
	self.num_samples = num_samples
	self.input_size = input_size
	self.num_classes = num_classes
	self.data = torch.randn(num_samples, input_size)
	self.labels = torch.randint(0, num_classes, (num_samples,))

	def __len__(self):
	return self.num_samples

	def __getitem__(self, idx):
	return self.data[idx], self.labels[idx]

	def train_ewc(model, old_dataset, new_dataset, device, ewc_lambda=1.0, epochs=10, lr=0.001):
	# 1. 定义优化器
	optimizer = optim.Adam(model.parameters(), lr=lr)

	# 2. 初始化 EWC 对象
	ewc = EWC(model, old_dataset, device)

	# 3. 定义数据加载器
	old_dataloader = DataLoader(old_dataset, batch_size=128, shuffle=True)
	new_dataloader = DataLoader(new_dataset, batch_size=128, shuffle=True)

	# 4. 训练循环
	for epoch in range(epochs):
	model.train()
	total_loss = 0
	# 4.1 训练新任务
	for inputs, targets in new_dataloader:
	inputs, targets = inputs.to(device), targets.to(device)
	optimizer.zero_grad()
	outputs = model(inputs)
	loss_ce = nn.CrossEntropyLoss()(outputs, targets)
	# 计算EWC损失
	loss_ewc = ewc.ewc_loss(model) * ewc_lambda
	# 计算总损失
	loss = loss_ce + loss_ewc
	loss.backward()
	optimizer.step()
	total_loss += loss.item()
	print(f'Epoch [{epoch+1}/{epochs}], Loss: {total_loss/len(new_dataloader):.4f}')

	print('Training finished')

	# 5. 主函数
	if __name__ == '__main__':
	# 5.1 设备设置
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

	# 5.2 超参数设置
	input_size = 10
	hidden_size = 20
	num_classes = 5
	num_samples_old = 1000
	num_samples_new = 1000

	# 5.3 模拟数据集
	old_dataset = SimpleDataset(num_samples_old, input_size, num_classes)
	new_dataset = SimpleDataset(num_samples_new, input_size, num_classes)

	# 5.4 初始化模型
	model = Net(input_size, hidden_size, num_classes).to(device)

	# 5.5 训练 EWC 模型
	train_ewc(model, old_dataset, new_dataset, device)

	import tensorflow as tf
	import numpy as np

	# 1. 定义一个简单的神经网络
	class Net(tf.keras.Model):
	def __init__(self, input_size, hidden_size, num_classes):
	super(Net, self).__init__()
	self.fc1 = tf.keras.layers.Dense(hidden_size, activation='relu')
	self.fc2 = tf.keras.layers.Dense(num_classes)

	def call(self, x):
	x = self.fc1(x)
	x = self.fc2(x)
	return x

	# 2. 定义 EWC 类
	class EWC:
	def __init__(self, model, dataset, device):
	self.model = model
	self.dataset = dataset
	self.device = device # TensorFlow 不需要显式指定设备，但为了代码一致性，这里保留
	self.params = {v.name: v for v in self.model.trainable_variables}
	self.params_old = {n: tf.Variable(v.numpy(), trainable=False) for n, v in self.params.items()}
	self.fisher_matrices = self._compute_fisher_matrices()

	# 2.1 计算 Fisher 信息矩阵
	def _compute_fisher_matrices(self):
	fisher_matrices = {}
	# 使用 dataset 加载旧任务的数据。注意：这里假设 dataset 已经经过 batch 处理
	for n, p in self.params.items():
	fisher_matrices[n] = tf.Variable(tf.zeros_like(p), trainable=False)

	for inputs, targets in self.dataset:
	with tf.GradientTape() as tape:
	outputs = self.model(inputs)
	loss = tf.keras.losses.sparse_categorical_crossentropy(targets, outputs, from_logits=True)
	gradients = tape.gradient(loss, self.model.trainable_variables)
	# 累加 Fisher 矩阵
	for (name, param), grad in zip(self.params.items(), gradients):
	fisher_matrices[name].assign_add(tf.square(grad) / len(self.dataset))

	return fisher_matrices

	# 2.2 EWC 损失函数
	def ewc_loss(self, model):
	loss = 0
	for n, p in model.trainable_variables:
	if p.trainable:
	loss += tf.reduce_sum(self.fisher_matrices[p.name] * (p - self.params_old[p.name]) ** 2)
	return loss

	# 3. 模拟数据集和训练函数
	# tf.data.Dataset 是一种更灵活的数据集构建方式
	def create_dataset(num_samples, input_size, num_classes, batch_size=32):
	def generator():
	for _ in range(num_samples):
	x = np.random.randn(input_size).astype(np.float32)
	y = np.random.randint(0, num_classes)
	yield x, y

	dataset = tf.data.Dataset.from_generator(
	generator,
	output_signature=(tf.TensorSpec(shape=(input_size,), dtype=tf.float32),
	tf.TensorSpec(shape=(), dtype=tf.int64))
	)
	dataset = dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)
	return dataset

	def train_ewc(model, old_dataset, new_dataset, epochs=10, lr=0.001, ewc_lambda=1.0):
	optimizer = tf.keras.optimizers.Adam(learning_rate=lr)
	ewc = EWC(model, old_dataset, None) # 简化 device 参数，TensorFlow 不需要显式指定

	for epoch in range(epochs):
	total_loss = 0.0
	num_batches = 0
	for inputs, targets in new_dataset:
	with tf.GradientTape() as tape:
	outputs = model(inputs)
	loss_ce = tf.keras.losses.sparse_categorical_crossentropy(targets, outputs, from_logits=True)
	loss_ce = tf.reduce_mean(loss_ce) # 确保损失是标量
	loss_ewc = ewc.ewc_loss(model) * ewc_lambda
	loss = loss_ce + loss_ewc
	gradients = tape.gradient(loss, model.trainable_variables)
	optimizer.apply_gradients(zip(gradients, model.trainable_variables))
	total_loss += loss.numpy()
	num_batches += 1
	print(f'Epoch [{epoch+1}/{epochs}], Loss: {total_loss / num_batches:.4f}')
	print('Training finished')

	# 5. 主函数
	if __name__ == '__main__':
	input_size = 10
	hidden_size = 20
	num_classes = 5
	num_samples_old = 1000
	num_samples_new = 1000
	batch_size = 32

	# 使用 create_dataset 创建数据集
	old_dataset = create_dataset(num_samples_old, input_size, num_classes, batch_size)
	new_dataset = create_dataset(num_samples_new, input_size, num_classes, batch_size)

	model = Net(input_size, hidden_size, num_classes)

	train_ewc(model, old_dataset, new_dataset)

PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

1. 为什么需要 EWC？ 灾难性遗忘的挑战

2. EWC 的核心思想：弹性权重巩固

3. 理论基础：Fisher 信息矩阵

4. PyTorch 实现 EWC

5. TensorFlow 实现 EWC

6. EWC 的应用场景与实践建议

7. 总结

PyTorch & TensorFlow 实战 EWC 算法：代码详解与项目应用指南

1. 为什么需要 EWC？ 灾难性遗忘的挑战

2. EWC 的核心思想：弹性权重巩固

3. 理论基础：Fisher 信息矩阵

4. PyTorch 实现 EWC

5. TensorFlow 实现 EWC

6. EWC 的应用场景与实践建议

7. 总结

评论点评

1. 为什么需要 EWC？灾难性遗忘的挑战

1. 为什么需要 EWC？灾难性遗忘的挑战