模型评价基础

发表于2022-03-14|更新于2022-03-15|机器学习基础理论

|浏览量:

机器学习训练模型用的数据集和测试数据用的训练集互斥，往往通过测试集的测试误差来近似模型的泛化能力，根据模型的泛化能力评价模型的优劣。
误差是学习器的实际预测输出与样本的真实输出之间的差异。
训练误差，或称经验误差，是学习器在训练集上的误差。
学习器在在新样本上的误差，称为泛化误差。
模型评价主要是根据训练误差和泛化误差，来选择最优的模型及其参数的过程。

回归模型评价方法

6个评价指标：

平均绝对误差：所有样本实际值与预测值差值绝对值和的平均值
均方差（（Mean Squared Error，MSE）：实际值与预测值差的平方的和的平均值
解释回归模型的方差得分（Explained Variance Score）：

explained\_variance(y,\hat{y})=1-\dfrac{Var\{y-\hat{y} \}}{Var\{y\}}

取值范围[0,1],真实值与预测值差值的方差越小，值越接近于1. 说明自变量越能解释因变量的方差变化。这是该指标称为解释回归模型的方差得分的原因。

均方误差对数((Mean Squared Log Error, MSLE)):

MSLE(y,\hat{y})=\frac{1}{n} \sum_{i=0}^{n-1}\left(\log_e(1+y_i)-\log_e(1+\hat{y_i})\right)^2

当目标具有指数增长的趋势时，该指标最适合使用

中值绝对误差（Median Absolute Error）通过取目标和预测之间的所有绝对差值的中值来计算损失，以避免较大的离群值对结果的影响：

MedAE(y,\hat{y})=median(|y_1-\hat{y_1}|,\dots,|y_n-\hat{y_n}|)

取中位数。值越小效果越好

r2_score判定系数，或称拟合优度、决定系数。即我们平时所说的 $R^2$

分类模型

对分类模型评价，一般是将样本的预测类别与真实类标签对比，统计同一类别样本被正确划分到该类别的概率，以及错误地划分为其它类别的概率。或者统计划分为某个类别的样本中，真实属于该类别与错误地被划分到该类别的概率。

混淆矩阵
分类准确率
召回率
F1分数
ROC曲线
交叉验证
- 随机子抽样验证
- K折交叉验证
- 留一交叉验证

聚类模型

兰德系数
互信息AMI
V-measure评分
FMI评价
轮廓系数
calinski_harabaz指数

文章作者: 爱编程的小明

文章链接: https://kebuaaa.github.io/%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BB%B7%E5%9F%BA%E7%A1%80/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小明的博客！

相关推荐

EM算法及其推广

EM算法对于一般概率模型的学习策略，我们往往会采取极大似然估计或者贝叶斯估计的方法对模型的参数进行估计，但是需要注意的是这种估计方法都是建立在待估参数全部为已经知道结果的参数的基础之上的(complete-data problem)。当模型中有隐变量/潜在变量（数据不可观测的变量）时，似然函数的最大化变得困难。这是就可以使用EM算法,EM算法是在不完全数据下求解MLE估计结果的一种近似求解方法，用迭代去逼近原来不完整数据问题的结果。EM算法主要分为两步： E:求期望(expectation) M:求极大(maximization) EM算法的核心思想是在既定样本数据下在因变量最有可能的分布状态下利用极大似然估计模型的参数。算法导出针对一个含有隐变量的概率模型，这里假设隐变量为Z，观测数据Y关于参数θ\thetaθ的对数似然函数为L(θ)L(\theta)L(θ): \begin{equation} \begin{aligned} L(\theta) & = \log P(Y|\theta)=log\sum_{Z}P(Y,Z|\theta)\\ &=\l...

点击查看【bilibili】 1 章绪论.pdf 2 章离散信源及其信息测度.pdf intro 熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解。从平均信息量的角度来看，对于不确定性事件，可以用消除其不确定性需要的信息量(bit 数)来表示，这里表示成−log⁡pi-\log p_i−logpi,而考虑到随机事件的不确定性，可以通过对信息量求期望得到某随机事件（随机变量）的信息熵，信息熵越大，则说明（消除随机性）需要的信息量越大，即不确定性越大。一般来说，对于随机变量XXX，其信息熵定义如下: H(X)=−∑i=1np(xi)log⁡2p(xi)H(X)=-\sum\limits_{i=1}^{n}p(x_i)\log_2{p(x_i)} H(X)=−i=1∑np(xi)log2p(xi) if p=0p=0p=0，then plog⁡2p=0p\log_2{p}=0plog2p=0 H(X)H(X)H(X)越小，XXX的纯度越高。非均匀分布比均匀分布熵要小。熵衡量的是不确定性，概率描述的是确定性，其实确定性和不...

Logistic Regression

当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，应该使用逻辑回归。这里，Y的值为0或1，它可以用以下方程表示： \begin{equation*} \begin{aligned} odds &= \frac{p}{1-p}\\ &=\frac{probability\hspace{5pt} of\hspace{5pt} event\hspace{5pt} occurrence}{probability\hspace{5pt} of\hspace{5pt} not\hspace{5pt} event \hspace{5pt} {}occurrence} \end{aligned} \end{equation*} 其中有: logit(p)=log⁡(odds)=b0+b1X1+⋯+bkXklogit(p)=\log(odds)=b_0+b_1X_1+\dots+b_kX_k logit(p)=log(odds)=b0+b1X1+⋯+bkXk 为什么要在公式中使用对数log呢？因为在这里使用的是二项分布（因变量），需要选...

对偶问题（SVM）

Duality (optimization) In mathematical optimization theory, duality or the duality principle is the principle that optimization problems may be viewed from either of two perspectives, the primal problem or the dual problem. The solution to the dual problem provides a lower bound to the solution of the primal (minimization) problem.However in general the optimal values of the primal and dual problems need not be equal. Their difference is called the duality gap. For convex optimization proble...

决策树模型

人们的决策过程是一个类似“观察因素A的情况，再根据A的情况观察因素B的情况”的形式，从而形成一种树状结构。决策树学习是模仿人类这一结构化决策过程而发展起来的一种有监督机器学习方法。它可以被认为是if-then规则的集合，也可以被认为是定义在特征空间和类空间上的条件概率分布。模型具有可读性分类速度快决策树的思想主要来源于Quinlan在1986年提出的ID3和1993提出的C4.5算法，以及由Breiman等人1984年提出的CART算法。模型决策树学习本质上是从训练数据集中归纳出一组分类规则或者条件概率模型（在节点处取条件概率最大的进行分类）。决策树问题一般可以分成特征选择、决策树生成、剪枝三部分。特征选择：通过建立一个函数来衡量特征划分的效果生成：递归构造决策树的过程剪枝：递归产生的决策树往往会递归到不能分类为止，这会导致出现过拟合现象，因此需要已经生成的决策树进行剪枝(pruning)，一般是通过极小化决策树整体的损失函数(loss function)或者代价函数(cost function)来实现。剪枝也可以看成是对模型的正则化（Reaular...

线性分类方法感知机和线性判别分析/Fisher分析是非常经典的硬分类线性模型，模型提出都比较早。感知机感知机是二类分类的线性分类模型。感知机只在求出线性可分的分类超平面，通过梯度下降法对损失函数极小化建立感知机模型。感知机1957年由Rosenblatt提出，是神经网络和支持向量机的基础模型输入空间是实例向量组成的空间，输出空间是-1和+1（正负两类）。建立如下函数： \begin{align*} f(x)&=sign(\omega \cdot x+b)\\ \omega&:weight\quad or\quad weight\quad vector\\ b&:bias \end{align*} 策略感知机学习算法是错误驱动的，刚开始提出时以误分类样本点数量为损失函数，但因为该函数不连续，所以后来变成了最小化样本点到直线的距离。算法（原始形式）具体采用随机梯度下降法(SGD)。收敛性 Novikoff定理告诉我们线性可分数据集经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。当训练集线性不可分时，感...