深入浅出：Isolation Forest 超参数调优实战指南（附代码）

2025/3/27 09:07:50 18 0 0 0

深入浅出：Isolation Forest 超参数调优实战指南（附代码）

为什么选择 Isolation Forest？

核心超参数详解

1. n_estimators：森林中树的数量

2. max_samples：每棵树使用的样本数量

3. contamination：异常比例

实战案例：信用卡欺诈检测

1. 数据准备

2. 基线模型

3. 超参数调优

3.1 网格搜索 (Grid Search)

3.2 随机搜索 (Randomized Search)

3.3 基于 contamination 的手动调优

4. 模型评估

5. 代码总结

总结

扩展阅读

深入浅出：Isolation Forest 超参数调优实战指南（附代码）

作为一名经验丰富的机器学习工程师，你是否经常在处理异常检测问题时，被各种模型搞得焦头烂额？特别是面对那些数据分布复杂，异常点又“鬼鬼祟祟”的场景，传统的统计方法往往力不从心。今天，咱们就来聊聊一个简单又高效的异常检测算法——Isolation Forest（孤立森林）。更重要的是，我会手把手教你如何通过调优它的超参数，让它在实际应用中发挥出最大的威力。

为什么选择 Isolation Forest？

Isolation Forest 是一种基于树的集成方法，它通过孤立异常点来进行异常检测。它的核心思想非常简单：异常点通常更容易被孤立。想象一下，你有一堆数据点，其中混杂着一些“格格不入”的点。Isolation Forest 就像一个“侦探”，它会随机地选择特征，然后随机地选择特征的取值范围，不断地切分数据，直到把这些异常点“孤立”出来。由于异常点数量少，它们通常会比正常点更快地被孤立，从而更容易被识别。

与其他异常检测算法相比，Isolation Forest 具有以下优点：

效率高：计算复杂度低，特别适合大规模数据集。
无需距离计算：避免了距离计算带来的计算负担，对高维数据友好。
对数据分布不敏感：对数据分布的假设较少，鲁棒性强。
易于理解和实现：算法原理简单，代码易于实现和调试。

核心超参数详解

Isolation Forest 的性能很大程度上取决于其超参数的设置。下面，我们重点讲解几个最重要的超参数：

1. `n_estimators`：森林中树的数量

作用：控制森林中决策树的数量。更多的树意味着更强大的模型，但也会增加计算时间。
影响：n_estimators 越大，模型的稳定性和准确性通常会提高，但达到一定程度后，收益会递减，并可能导致过拟合。
选择策略：通常，我们可以从一个较小的数值（如 100）开始，然后逐渐增加，通过交叉验证或验证集来评估模型的性能，找到一个最佳值。对于大型数据集，可以适当增加 n_estimators。

2. `max_samples`：每棵树使用的样本数量

作用：控制每棵树训练时使用的样本数量。这有助于防止过拟合，并提高模型的泛化能力。
影响：max_samples 越大，每棵树的训练数据越多，模型可能会更复杂。max_samples 越小，每棵树的训练数据越少，模型可能更简单，但可能会欠拟合。
选择策略：max_samples 可以设置为整数，表示使用的样本数量，也可以设置为浮点数，表示使用的样本比例（相对于总样本数）。通常，我们可以尝试不同的比例（如 0.5, 0.7, 1.0），并通过实验来找到最佳值。如果数据量很大，可以适当减小 max_samples 以加快训练速度。

3. `contamination`：异常比例

作用：表示数据集中异常点的比例。这是 Isolation Forest 的一个关键参数，因为它直接影响着模型的决策边界。
影响：contamination 的设置会影响模型的灵敏度和特异度。如果 contamination 设置过小，模型可能会漏掉一些异常点；如果设置过大，模型可能会将正常点误判为异常点。
选择策略：如果事先知道数据中异常点的比例，那么直接将 contamination 设置为该比例即可。如果不知道，则需要通过实验来确定。一个常用的方法是，先使用一个较小的 contamination 值，然后逐渐增加，并观察模型在验证集上的表现。还可以使用交叉验证来找到最佳的 contamination 值。

实战案例：信用卡欺诈检测

为了更好地理解如何调优 Isolation Forest 的超参数，我们来一起完成一个信用卡欺诈检测的实战案例。我们将使用一个公开的信用卡交易数据集，该数据集包含了大量正常交易和少量欺诈交易。

1. 数据准备

首先，我们需要导入必要的库，并加载数据集。这里我们使用 scikit-learn 和 pandas 库：

 import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import IsolationForest
from sklearn.metrics import precision_recall_curve, auc, roc_curve, average_precision_score
import matplotlib.pyplot as plt
import seaborn as sns
 
# 加载数据集
df = pd.read_csv('creditcard.csv') # 假设你已经下载了 creditcard.csv 文件
 
# 查看数据基本信息
print(df.head())
print(df.info())
print(df.describe())
 
# 查看欺诈交易的比例
print(df['Class'].value_counts(normalize=True))
 
# 分割数据集
X = df.drop('Class', axis=1)
y = df['Class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这个例子中，Class 列表示交易是否为欺诈（1 表示欺诈，0 表示正常）。

2. 基线模型

在进行超参数调优之前，我们先建立一个基线模型，这样可以作为后续调优的参照：

 # 建立基线模型
model = IsolationForest(n_estimators=100, max_samples='auto', contamination='auto', random_state=42)
model.fit(X_train)
y_pred = model.predict(X_test)
 
# 将预测结果转换为0和1
y_pred = [1 if i == -1 else 0 for i in y_pred]
 
# 计算指标
print("基线模型结果：")
print("Average Precision:", average_precision_score(y_test, model.decision_function(X_test) * -1))

3. 超参数调优

接下来，我们将使用不同的方法来调优 Isolation Forest 的超参数。

3.1 网格搜索 (Grid Search)

网格搜索是一种常用的超参数调优方法，它通过遍历预定义的超参数组合来找到最佳的参数。在本例中，我们将使用网格搜索来优化 n_estimators 和 max_samples 这两个参数。

 # 定义超参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_samples': ['auto', 0.5, 0.7, 1.0],
    'contamination': ['auto', 0.001, 0.005, 0.01]
}
 
# 使用 GridSearchCV 进行调优
grid_search = GridSearchCV(IsolationForest(random_state=42), param_grid, scoring='average_precision', cv=3, n_jobs=-1)
grid_search.fit(X_train, y_train)
 
# 输出最佳参数和评估结果
print("网格搜索结果：")
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)
 
# 使用最佳模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
y_pred = [1 if i == -1 else 0 for i in y_pred]
 
print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))
 
# 可视化结果
precision, recall, thresholds = precision_recall_curve(y_test, best_model.decision_function(X_test) * -1)
plt.plot(recall, precision, marker='.')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.show()

3.2 随机搜索 (Randomized Search)

随机搜索与网格搜索类似，但它不是遍历所有可能的超参数组合，而是随机抽样超参数组合。这在超参数空间很大时，可以更有效地找到最佳参数。以下是使用随机搜索的示例：

 from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform
 
# 定义超参数分布
param_distributions = {
    'n_estimators': randint(50, 200),
    'max_samples': uniform(0.5, 0.5), # 0.5 to 1.0
    'contamination': ['auto', 0.001, 0.005, 0.01]
}
 
# 使用 RandomizedSearchCV 进行调优
random_search = RandomizedSearchCV(IsolationForest(random_state=42), param_distributions, scoring='average_precision', cv=3, n_iter=10, n_jobs=-1, random_state=42)
random_search.fit(X_train, y_train)
 
# 输出最佳参数和评估结果
print("随机搜索结果：")
print("Best parameters:", random_search.best_params_)
print("Best score:", random_search.best_score_)
 
# 使用最佳模型进行预测
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)
y_pred = [1 if i == -1 else 0 for i in y_pred]
 
print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))
 
# 可视化结果
precision, recall, thresholds = precision_recall_curve(y_test, best_model.decision_function(X_test) * -1)
plt.plot(recall, precision, marker='.')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.show()

3.3 基于 `contamination` 的手动调优

由于 contamination 对 Isolation Forest 的性能影响很大，我们也可以手动调整 contamination 参数，观察模型在验证集上的表现。这需要结合业务知识，理解数据集中异常点的比例，并根据实际情况进行调整。

 # 手动调优 contamination
contamination_values = [0.001, 0.003, 0.005, 0.007, 0.01]
aps = []
 
for c in contamination_values:
    model = IsolationForest(n_estimators=100, max_samples='auto', contamination=c, random_state=42)
    model.fit(X_train)
    ap = average_precision_score(y_test, model.decision_function(X_test) * -1)
    aps.append(ap)
    print(f"Contamination: {c}, Average Precision: {ap}")
 
# 绘制 Average Precision 的变化曲线
plt.plot(contamination_values, aps, marker='o')
plt.xlabel('Contamination')
plt.ylabel('Average Precision')
plt.title('Average Precision vs. Contamination')
plt.show()

4. 模型评估

为了评估不同超参数设置对模型性能的影响，我们通常使用以下指标：

Precision-Recall 曲线 (PR 曲线)：PR 曲线可以直观地展示模型在不同阈值下的精确率和召回率。通过计算 PR 曲线下的面积（Average Precision, AP），可以量化模型的整体性能。
ROC 曲线：虽然在异常检测中，PR 曲线更常用，但 ROC 曲线也可以用来评估模型性能。ROC 曲线横轴为假阳性率（FPR），纵轴为真阳性率（TPR）。
运行时间：评估不同超参数设置下的模型训练和预测时间。

5. 代码总结

 import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.ensemble import IsolationForest
from sklearn.metrics import precision_recall_curve, auc, average_precision_score
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import randint, uniform
 
# 1. 数据加载和预处理（与之前相同）
df = pd.read_csv('creditcard.csv')
X = df.drop('Class', axis=1)
y = df['Class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 2. 基线模型（与之前相同）
# model = IsolationForest(n_estimators=100, max_samples='auto', contamination='auto', random_state=42)
# model.fit(X_train)
# y_pred = model.predict(X_test)
# y_pred = [1 if i == -1 else 0 for i in y_pred]
# print("基线模型结果：")
# print("Average Precision:", average_precision_score(y_test, model.decision_function(X_test) * -1))
 
# 3. 超参数调优
# 3.1 网格搜索
# param_grid = {
#     'n_estimators': [50, 100, 200],
#     'max_samples': ['auto', 0.5, 0.7, 1.0],
#     'contamination': ['auto', 0.001, 0.005, 0.01]
# }
# grid_search = GridSearchCV(IsolationForest(random_state=42), param_grid, scoring='average_precision', cv=3, n_jobs=-1)
# grid_search.fit(X_train, y_train)
# print("网格搜索结果：")
# print("Best parameters:", grid_search.best_params_)
# print("Best score:", grid_search.best_score_)
# best_model = grid_search.best_estimator_
# y_pred = best_model.predict(X_test)
# y_pred = [1 if i == -1 else 0 for i in y_pred]
# print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))
# 3.2 随机搜索
# param_distributions = {
#     'n_estimators': randint(50, 200),
#     'max_samples': uniform(0.5, 0.5), # 0.5 to 1.0
#     'contamination': ['auto', 0.001, 0.005, 0.01]
# }
# random_search = RandomizedSearchCV(IsolationForest(random_state=42), param_distributions, scoring='average_precision', cv=3, n_iter=10, n_jobs=-1, random_state=42)
# random_search.fit(X_train, y_train)
# print("随机搜索结果：")
# print("Best parameters:", random_search.best_params_)
# print("Best score:", random_search.best_score_)
# best_model = random_search.best_estimator_
# y_pred = best_model.predict(X_test)
# y_pred = [1 if i == -1 else 0 for i in y_pred]
# print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))
 
# 3.3 手动调优 contamination
contamination_values = [0.001, 0.003, 0.005, 0.007, 0.01]
aps = []
for c in contamination_values:
    model = IsolationForest(n_estimators=100, max_samples='auto', contamination=c, random_state=42)
    model.fit(X_train)
    ap = average_precision_score(y_test, model.decision_function(X_test) * -1)
    aps.append(ap)
    print(f"Contamination: {c}, Average Precision: {ap}")
 
# 4. 可视化结果
plt.plot(contamination_values, aps, marker='o')
plt.xlabel('Contamination')
plt.ylabel('Average Precision')
plt.title('Average Precision vs. Contamination')
plt.show()

重要提示：

在实际应用中，你需要根据你的具体数据集和业务场景，选择合适的调优方法和评估指标。
除了 n_estimators、max_samples 和 contamination 之外，Isolation Forest 还有其他参数，如 max_features 和 random_state，也可以进行调整，但通常对性能的影响较小。
不要过度依赖调参，要结合特征工程，提高数据的质量和可解释性。例如，对数据进行标准化或归一化处理，可以提高模型的性能。

总结

通过本教程，相信你已经掌握了 Isolation Forest 的核心原理和超参数调优方法。记住，在实际工作中，要多实践，多思考，不断尝试不同的参数组合，才能找到最适合你问题的模型。希望这个指南能帮助你在异常检测的道路上越走越远！

扩展阅读

Scikit-learn 官方文档：了解 Isolation Forest 的详细参数和用法。
相关论文：深入研究 Isolation Forest 的理论基础。
其他异常检测算法：如 One-Class SVM、Local Outlier Factor (LOF) 等，对比不同算法的优缺点。

希望这篇文章对你有所帮助！如果你有任何问题，欢迎在评论区留言，我们一起探讨！

老码农 Isolation Forest 超参数调优异常检测机器学习信用卡欺诈

	import pandas as pd
	from sklearn.model_selection import train_test_split, GridSearchCV
	from sklearn.ensemble import IsolationForest
	from sklearn.metrics import precision_recall_curve, auc, roc_curve, average_precision_score
	import matplotlib.pyplot as plt
	import seaborn as sns

	# 加载数据集
	df = pd.read_csv('creditcard.csv') # 假设你已经下载了 creditcard.csv 文件

	# 查看数据基本信息
	print(df.head())
	print(df.info())
	print(df.describe())

	# 查看欺诈交易的比例
	print(df['Class'].value_counts(normalize=True))

	# 分割数据集
	X = df.drop('Class', axis=1)
	y = df['Class']
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

	# 建立基线模型
	model = IsolationForest(n_estimators=100, max_samples='auto', contamination='auto', random_state=42)
	model.fit(X_train)
	y_pred = model.predict(X_test)

	# 将预测结果转换为0和1
	y_pred = [1 if i == -1 else 0 for i in y_pred]

	# 计算指标
	print("基线模型结果：")
	print("Average Precision:", average_precision_score(y_test, model.decision_function(X_test) * -1))

	# 定义超参数网格
	param_grid = {
	'n_estimators': [50, 100, 200],
	'max_samples': ['auto', 0.5, 0.7, 1.0],
	'contamination': ['auto', 0.001, 0.005, 0.01]
	}

	# 使用 GridSearchCV 进行调优
	grid_search = GridSearchCV(IsolationForest(random_state=42), param_grid, scoring='average_precision', cv=3, n_jobs=-1)
	grid_search.fit(X_train, y_train)

	# 输出最佳参数和评估结果
	print("网格搜索结果：")
	print("Best parameters:", grid_search.best_params_)
	print("Best score:", grid_search.best_score_)

	# 使用最佳模型进行预测
	best_model = grid_search.best_estimator_
	y_pred = best_model.predict(X_test)
	y_pred = [1 if i == -1 else 0 for i in y_pred]

	print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))

	# 可视化结果
	precision, recall, thresholds = precision_recall_curve(y_test, best_model.decision_function(X_test) * -1)
	plt.plot(recall, precision, marker='.')
	plt.xlabel('Recall')
	plt.ylabel('Precision')
	plt.title('Precision-Recall Curve')
	plt.show()

	from sklearn.model_selection import RandomizedSearchCV
	from scipy.stats import randint, uniform

	# 定义超参数分布
	param_distributions = {
	'n_estimators': randint(50, 200),
	'max_samples': uniform(0.5, 0.5), # 0.5 to 1.0
	'contamination': ['auto', 0.001, 0.005, 0.01]
	}

	# 使用 RandomizedSearchCV 进行调优
	random_search = RandomizedSearchCV(IsolationForest(random_state=42), param_distributions, scoring='average_precision', cv=3, n_iter=10, n_jobs=-1, random_state=42)
	random_search.fit(X_train, y_train)

	# 输出最佳参数和评估结果
	print("随机搜索结果：")
	print("Best parameters:", random_search.best_params_)
	print("Best score:", random_search.best_score_)

	# 使用最佳模型进行预测
	best_model = random_search.best_estimator_
	y_pred = best_model.predict(X_test)
	y_pred = [1 if i == -1 else 0 for i in y_pred]

	print("Average Precision:", average_precision_score(y_test, best_model.decision_function(X_test) * -1))

	# 可视化结果
	precision, recall, thresholds = precision_recall_curve(y_test, best_model.decision_function(X_test) * -1)
	plt.plot(recall, precision, marker='.')
	plt.xlabel('Recall')
	plt.ylabel('Precision')
	plt.title('Precision-Recall Curve')
	plt.show()

	# 手动调优 contamination
	contamination_values = [0.001, 0.003, 0.005, 0.007, 0.01]
	aps = []

	for c in contamination_values:
	model = IsolationForest(n_estimators=100, max_samples='auto', contamination=c, random_state=42)
	model.fit(X_train)
	ap = average_precision_score(y_test, model.decision_function(X_test) * -1)
	aps.append(ap)
	print(f"Contamination: {c}, Average Precision: {ap}")

	# 绘制 Average Precision 的变化曲线
	plt.plot(contamination_values, aps, marker='o')
	plt.xlabel('Contamination')
	plt.ylabel('Average Precision')
	plt.title('Average Precision vs. Contamination')
	plt.show()

深入浅出：Isolation Forest 超参数调优实战指南（附代码）

深入浅出：Isolation Forest 超参数调优实战指南（附代码）

为什么选择 Isolation Forest？

核心超参数详解

1. n_estimators：森林中树的数量

2. max_samples：每棵树使用的样本数量

3. contamination：异常比例

实战案例：信用卡欺诈检测

1. 数据准备

2. 基线模型

3. 超参数调优

3.1 网格搜索 (Grid Search)

3.2 随机搜索 (Randomized Search)

3.3 基于 contamination 的手动调优

4. 模型评估

5. 代码总结

总结

扩展阅读

深入浅出：Isolation Forest 超参数调优实战指南（附代码）

为什么选择 Isolation Forest？

核心超参数详解

1. n_estimators：森林中树的数量

2. max_samples：每棵树使用的样本数量

3. contamination：异常比例

实战案例：信用卡欺诈检测

1. 数据准备

2. 基线模型

3. 超参数调优

3.1 网格搜索 (Grid Search)

3.2 随机搜索 (Randomized Search)

3.3 基于 contamination 的手动调优

4. 模型评估

5. 代码总结

总结

扩展阅读

评论点评

1. `n_estimators`：森林中树的数量

2. `max_samples`：每棵树使用的样本数量

3. `contamination`：异常比例

3.3 基于 `contamination` 的手动调优