强化学习(reinforcement learning.)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process).,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
文章作者: 爱编程的小明
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 小明的博客!
相关推荐
2022-03-17
EM算法及其推广
EM算法 对于一般概率模型的学习策略,我们往往会采取极大似然估计或者贝叶斯估计的方法对模型的参数进行估计,但是需要注意的是这种估计方法都是建立在待估参数全部为已经知道结果的参数的基础之上的(complete-data problem)。当模型中有隐变量/潜在变量(数据不可观测的变量)时,似然函数的最大化变得困难。这是就可以使用EM算法,EM算法是在不完全数据下求解MLE估计结果的一种近似求解方法,用迭代去逼近原来不完整数据问题的结果。EM算法主要分为两步: E:求期望(expectation) M:求极大(maximization) EM算法的核心思想是在既定样本数据下在因变量最有可能的分布状态下利用极大似然估计模型的参数。 算法导出 针对一个含有隐变量的概率模型,这里假设隐变量为Z,观测数据Y关于参数θ\thetaθ的对数似然函数为L(θ)L(\theta)L(θ): \begin{equation} \begin{aligned} L(\theta) & = \log...
2022-04-05
Entroy
点击查看【bilibili】 1 章 绪论.pdf 2 章 离散信源及其信息测度.pdf intro 熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解。从平均信息量的角度来看,对于不确定性事件,可以用消除其不确定性需要的信息量(bit 数)来表示,这里表示成−logpi-\log p_i−logpi,而考虑到随机事件的不确定性,可以通过对信息量求期望得到某随机事件(随机变量)的信息熵,信息熵越大,则说明(消除随机性)需要的信息量越大,即不确定性越大。 一般来说,对于随机变量XXX,其信息熵定义如下: H(X)=−∑i=1np(xi)log2p(xi)H(X)=-\sum\limits_{i=1}^{n}p(x_i)\log_2{p(x_i)} H(X)=−i=1∑np(xi)log2p(xi) if p=0p=0p=0,then...
2022-03-17
Logistic Regression
当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。这里,Y的值为0或1,它可以用以下方程表示: \begin{equation*} \begin{aligned} odds &= \frac{p}{1-p}\\ &=\frac{probability\hspace{5pt} of\hspace{5pt} event\hspace{5pt} occurrence}{probability\hspace{5pt} of\hspace{5pt} not\hspace{5pt} event...
2022-04-04
对偶问题(SVM)
Duality (optimization) In mathematical optimization theory, duality or the duality principle is the principle that optimization problems may be viewed from either of two perspectives, the primal problem or the dual problem. The solution to the dual problem provides a lower bound to the solution of the primal (minimization) problem.However in general the optimal values of the primal and dual problems need not be equal. Their difference is called the duality gap. For convex optimization...
2022-03-12
决策树模型
人们的决策过程是一个类似“观察因素A的情况,再根据A的情况观察因素B的情况”的形式,从而形成一种树状结构。决策树学习是模仿人类这一结构化决策过程而发展起来的一种有监督机器学习方法。 它可以被认为是if-then规则的集合,也可以被认为是定义在特征空间和类空间上的条件概率分布。 模型具有可读性 分类速度快 决策树的思想主要来源于Quinlan在1986年提出的ID3和1993提出的C4.5算法,以及由Breiman等人1984年提出的CART算法。 模型 决策树学习本质上是从训练数据集中归纳出一组分类规则或者条件概率模型(在节点处取条件概率最大的进行分类)。决策树问题一般可以分成特征选择、决策树生成、剪枝三部分。 特征选择:通过建立一个函数来衡量特征划分的效果 生成:递归构造决策树的过程 剪枝:递归产生的决策树往往会递归到不能分类为止,这会导致出现过拟合现象,因此需要已经生成的决策树进行剪枝(pruning),一般是通过极小化决策树整体的损失函数(loss function)或者代价函数(cost...
2022-03-06
分类方法
线性分类方法 感知机和线性判别分析/Fisher分析是非常经典的硬分类线性模型,模型提出都比较早。 感知机 感知机是二类分类的线性分类模型。 感知机只在求出线性可分的分类超平面,通过梯度下降法对损失函数极小化建立感知机模型。 感知机1957年由Rosenblatt提出,是神经网络和支持向量机的基础 模型 输入空间是实例向量组成的空间,输出空间是-1和+1(正负两类)。建立如下函数: \begin{align*} f(x)&=sign(\omega \cdot x+b)\\ \omega&:weight\quad or\quad weight\quad...
评论