搜索
您的当前位置:首页正文

回归和分类的评估指标

来源:意榕旅游网

回归评估指标

分类评估指标

混淆矩阵

  1. 精确率(Precision):预测正确的正例数据占预测为正例数据的比例;公式:P=TP/(TP+FP)。
  2. 召回率(Recall):预测为正例的数据占实际为正例数据的比例;公式:R=TP/(TP+FN)。
  3. 准确率(Accuracy):衡量所有样本被分类准确的比例;公式:A=(TP+TN)/(TP+FP+TN+FN)。
  4. F1分数(F1 score):精确率和召回率的调和平均;公式:

ROC & AUC:

ROC:ROC曲线指受试者工作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

在模型中,ROC曲线是由TPR(真正率、敏感度)和FPR(假正率、1-特效性)绘制成的。
真正率 = 预测为正类的正样本/所有正类样本,越大越好[TPR=TP/(TP+FN),相当于召回率]。
假正率 = 预测为正类的负样本/所有负类样本,越小越好[FPR=FP/(TN+FP),所有确实为假的样本,被误判为真]。

AUC:AUC值为ROC曲线所覆盖的区域面积,AUC越大,分类线分类效果越好。

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测,这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样,(例:丢硬币),模型没有预测价值。
AUC < 0.5,比随机猜测还差,但只要总反预测而行,就优于随机猜测(也可能是标签标反了)。

使用ROC和AUC的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际数据中经常会出现不平衡现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

在上图中,a和c为 ROC 曲线,b和d为 Precision-Recall 曲线。a和b展示的是分类其在原始测试集(正负样本分布平衡)的结果,c和d是将测试集中负样本的数量增加到原来的 10 倍后,分类器的结果。可以明显的看出,ROC 曲线基本保持原貌,而 Precision-Recall 曲线则变化较大。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top