深度学习框架 CatBoost 介绍

介绍

我翻阅了CatBoost的文档之后，我被这个强大的框架震惊了。CatBoost不仅在你提供给它的任何数据集上构建了一个最精确的模型，其中只需要最少的数据准备。它还提供了迄今为止最好的开源解释工具，以及快速生成模型的方法。

CatBoost引发了机器学习革命。学习使用它会提高你的技能。但更有趣的是，CatBoost对数据科学家（比如我自己）的现状构成了威胁，因为我认为在给定数据集的情况下，建立一个高精度的模型是很乏味的。但是CatBoost正在改变这种状况。它使得每个人都可以使用高度精确的模型。

以极快的速度建立高精度模型

安装

你试过在笔记本电脑上安装XGBoost吗？那你肯定知道有多麻烦。但是在另一端安装运行CatBoost却是小菜一碟。

pip install catboost这样就安装好了。

数据准备

与目前大多数可用的机器学习模型不同，CatBoost只需要最少的数据准备。它能处理：

数值变量的缺失值没有编码的分类变量注意：对于分类变量，必须事先处理缺失值。替换为新类别“missing”或最其他常用的类别。对于GPU用户，它也能处理文本变量。不幸的是，我无法测试这个功能，因为我正在一台没有GPU的笔记本电脑上工作。

构建模型

与XGBoost一样，你拥有熟悉的sklearn语法和一些特定于CatBoost的附加功能。

from catboost import CatBoostClassifier # 或者 CatBoostRegressormodel_cb = CatBoostClassifier()model_cb.fit(X_train, y_train)或者，如果你想要一个关于模型如何学习以及是否开始过拟合的可视化界面，请使用plot=True并在eval_set参数中插入测试集：

from catboost import CatBoostClassifier # 或者 CatBoostRegressormodel_cb = CatBoostClassifier()model_cb.fit(X_train, y_train, plot=True, eval_set=(X_test, y_test))

注意，你可以同时显示多个度量，甚至更人性化的度量，如准确度或精确度。此处列出了支持的指标：https://catboost.ai/docs/concepts/loss-functions-classification.html。

请参见下面的示例：

你甚至可以使用交叉验证，在不同的分割上观察模型准确度的平均和标准偏差：

微调

CatBoost与XGBoost非常相似。要对模型进行适当的微调，首先将early_stopping_rounds进行设置（如10或50），然后开始调整模型的参数。

训练速度

无GPU

从他们的基准测试中，你可以看到CatBoost比XGBoost更快，并且与LightGBM相对类似。众所周知，LightGBM的训练速度很快。

有GPU

不过，说到GPU，真正的魔力就来了。

即使使用相对较老的GPU，如K40（2013年发布），训练时间也将被至少快4倍，而其他更新的CPU最多能快40倍。

模型的解释

CatBoost的作者们明白的一件事是，这不仅仅是一个玩精确度的游戏。为什么在XGBoost和LightGBM可用时要使用CatBoost呢。所以，在可解释性方面，CatBoost提供了开箱即用的函数。

特征重要性

CatBoost提供了3种不同的方法：PredictionValuesChange、LossFunctionChange和InternalFeatureImportance。这里有详细的文档:https://catboost.ai/docs/concepts/fstr.html

局部可理解性

对于局部可理解性，CatBoost附带SHAP，SHAP通常被认为是唯一可靠的方法。

shap_values = model.get_feature_importance(Pool(X, y), type='ShapValues')官方也提供了教程：https://github.com/catboost/tutorials/blob/master/model_analysis/shap_values_tutorial.ipynb。你可以使用进行局部可理解性操作以及获取特征重要性。