Phi系数

在统计学中,phi系数(或均方或然系数,用φ或rφ表示)是对两个二元变量的关联性的一种测量。在机器学习中,它被称为马修斯相关系数(MCC),用于衡量二元(两类)分类的质量,由生物化学家BrianW.Matthews于1975年引入。由卡尔-皮尔逊(KarlPearson)引入,也被称为尤里-皮系数(Yulephicoefficient),来自于乌德尼-尤里(UdnyYule)在1912年的引入,这个测量方法在解释上与皮尔逊相关系数相似。事实上,对两个二元变量估计的皮尔逊相关系数将返回phi系数。如果大部分数据沿着对角线单元落下,两个二元变量被认为是正相关。相反,如果大部分数据落在对角线上,则两个二元变量被认为是负相关的。如果我们有一个2×2的表格,用于两个随机变量x和y其中n11,n10,n01,n00,是观察数的非负数,其总和为n,即观察数的总数。描述x和y的关联的phi系数是

xxx

虽然在计算上,皮尔逊相关系数在2×2的情况下可以简化为phi系数,但它们在一般情况下是不一样的。皮尔逊相关系数的范围是-1到+1,其中±1表示完全一致或不一致,而0表示没有关系。皮尔逊系数有一个xxx值,如果一个或两个变量可以有两个以上的值,那么这个xxx值就由两个变量的分布决定。见Davenport和El-Sanhury(1991)的深入讨论。

机器学习

MCC的定义与卡尔-皮尔逊(KarlPearson)提出的phi系数相同,也被称为Yulephi系数,由UdnyYule于1912年提出。尽管这些先例比Matthews的使用早了几十年,但MCC这个术语在生物信息学和机器学习领域被广泛使用。该系数考虑到了真假阳性和阴性,通常被认为是一种平衡的测量方法,即使类的大小非常不同,也可以使用。MCC本质上是观察到的和预测的二元分类之间的相关系数;它返回一个在-1和+1之间的值。系数+1表示完美的预测,0表示不比随机预测好,-1表示预测和观察之间完全不一致。然而,如果MCC既不等于-1、0,也不等于+1,那么它就不是一个可靠的指标,说明一个预测者与随机猜测的相似程度,因为MCC是取决于数据集的。

Phi系数

MCC与2×2或然率表的卡方统计密切相关虽然没有完美的方法可以用一个数字来描述真假阳性和阴性的混淆矩阵,但马修斯相关系数通常被认为是xxx的此类测量方法之一。其他衡量标准,如正确预测的比例(也称为准确度),在两个类别的规模非常不同的情况下并不有用。例如,将每个物体都分配到较大的集合中,可以实现较高的正确预测比例,但通常不是一个有用的分类。MCC可以用公式直接从混淆矩阵中计算出来。在这个方程式中,TP是真阳性的数量,TN是真阴性的数量,FP是假阳性的数量,FN是假阴性的数量。如果分母中的四个和为零,分母可以任意设为一;这导致马修斯相关系数为零,这可以证明是正确的极限值Va

0

点评

点赞

相关文章