程序猿必须知道的事:如何评估二进制分类器
2018-02-28 22:05 文章来自:IFTNews 收藏(0) 阅读(4118) 评论(0)
【IFTNEWS研究】二进制分类涉及将数据分成两组,例如,无论客户是否根据性别,年龄,地点等自变量购买特定产品(是/否)。

玩具二进制数据集


玩具二进制分类数据集(源)。

由于目标变量不连续,因此二元分类模型预测目标变量为“是/否”的概率。为了评估这种模型,使用称为混淆矩阵的度量,也称为分类或共同入侵矩阵。在混淆矩阵的帮助下,我们可以计算重要的绩效度量:

  • 真正率(TPR)或命中率或召回或灵敏度= TP /TP + FN
  • 假阳性率(FPR)或误报率= 1 - 特异性= 1 - TN /TN + FP))
  • 准确度=TP + TN/TP + TN + FP + FN
  • 误差率= 1 - 精度或(FP + FN/TP + TN + FP + FN
  • 精度= TP /TP + FP
  • F-measure2 /((1 / Precision+1 / Recall))
  • ROC(接受者操作特征)= FPRTPR的图
  • AUC(曲线下面积)
  • Kappa统计

所有这些措施都应该与领域技能和平衡使用,例如,如果您在预测没有患癌症的患者中只获得更高的TPR,则根本无助于诊断癌症。

在癌症诊断数据的同一例子中,如果只有2%或更少的患者患有癌症,那么这将是类别失衡的情况,因为与其他人群相比,癌症患者的百分比非常小。主要有两种方法来处理这个问题:

使用成本函数:在这种方法中,与成本矩阵(类似于混淆矩阵,但更多地关注假阳性和假阴性)的成本矩阵的帮助下评估与错误分类数据相关的成本。主要目的是降低错误分类的成本。假阴性的成本总是高于假阳性的成本。例如错误地预测癌症患者无癌症比错误地预测无癌症患者患有癌症更危险。

   总成本= FN成本 FN计数+ FP成本 FP计数

使用不同的采样方法:在这种方法中,您可以使用过采样,欠采样或混合采样。在过度采样中,复制少数群体观测数据以平衡数据。观察的复制导致过度拟合,导致训练的准确性很高,但看不见的数据的准确性较差。在欠采样情况下,大多数类别的观测被删除,导致信息丢失。它有助于减少处理时间和存储空间,但只有在拥有大量数据时才有用。

在这里找到更多关于阶级失衡的信息

如果目标变量中存在多个类别,则会形成尺寸等于类别数量的混淆矩阵,并且可以为每个类别计算所有性能度量。这被称为多类混淆矩阵。例如响应变量中有3XYZ,因此每个类的召回计算如下:

  •    Recall_X = TP_X /TP_X + FN_X
  •    Recall_Y = TP_Y /TP_Y + FN_Y
  •    Recall_Z = TP_Z /TP_Z + FN_Z