强化学习

发表于2022-03-09|更新于2022-03-10|机器学习模型

|浏览量:

强化学习(reinforcement learning.)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process).,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

文章作者: 爱编程的小明

文章链接: https://kebuaaa.github.io/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小明的博客！

机器学习强化学习

相关推荐

EM算法及其推广

EM算法对于一般概率模型的学习策略，我们往往会采取极大似然估计或者贝叶斯估计的方法对模型的参数进行估计，但是需要注意的是这种估计方法都是建立在待估参数全部为已经知道结果的参数的基础之上的(complete-data problem)。当模型中有隐变量/潜在变量（数据不可观测的变量）时，似然函数的最大化变得困难。这是就可以使用EM算法,EM算法是在不完全数据下求解MLE估计结果的一种近似求解方法，用迭代去逼近原来不完整数据问题的结果。EM算法主要分为两步： E:求期望(expectation) M:求极大(maximization) EM算法的核心思想是在既定样本数据下在因变量最有可能的分布状态下利用极大似然估计模型的参数。算法导出针对一个含有隐变量的概率模型，这里假设隐变量为Z，观测数据Y关于参数θ\thetaθ的对数似然函数为L(θ)L(\theta)L(θ): \begin{equation} \begin{aligned} L(\theta) & = \log P(Y|\theta)=log\sum_{Z}P(Y,Z|\theta)\\ &=\l...

点击查看【bilibili】 1 章绪论.pdf 2 章离散信源及其信息测度.pdf intro 熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解。从平均信息量的角度来看，对于不确定性事件，可以用消除其不确定性需要的信息量(bit 数)来表示，这里表示成−log⁡pi-\log p_i−logpi,而考虑到随机事件的不确定性，可以通过对信息量求期望得到某随机事件（随机变量）的信息熵，信息熵越大，则说明（消除随机性）需要的信息量越大，即不确定性越大。一般来说，对于随机变量XXX，其信息熵定义如下: H(X)=−∑i=1np(xi)log⁡2p(xi)H(X)=-\sum\limits_{i=1}^{n}p(x_i)\log_2{p(x_i)} H(X)=−i=1∑np(xi)log2p(xi) if p=0p=0p=0，then plog⁡2p=0p\log_2{p}=0plog2p=0 H(X)H(X)H(X)越小，XXX的纯度越高。非均匀分布比均匀分布熵要小。熵衡量的是不确定性，概率描述的是确定性，其实确定性和不...

Logistic Regression

当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，应该使用逻辑回归。这里，Y的值为0或1，它可以用以下方程表示： \begin{equation*} \begin{aligned} odds &= \frac{p}{1-p}\\ &=\frac{probability\hspace{5pt} of\hspace{5pt} event\hspace{5pt} occurrence}{probability\hspace{5pt} of\hspace{5pt} not\hspace{5pt} event \hspace{5pt} {}occurrence} \end{aligned} \end{equation*} 其中有: logit(p)=log⁡(odds)=b0+b1X1+⋯+bkXklogit(p)=\log(odds)=b_0+b_1X_1+\dots+b_kX_k logit(p)=log(odds)=b0+b1X1+⋯+bkXk 为什么要在公式中使用对数log呢？因为在这里使用的是二项分布（因变量），需要选...

对偶问题（SVM）

Duality (optimization) In mathematical optimization theory, duality or the duality principle is the principle that optimization problems may be viewed from either of two perspectives, the primal problem or the dual problem. The solution to the dual problem provides a lower bound to the solution of the primal (minimization) problem.However in general the optimal values of the primal and dual problems need not be equal. Their difference is called the duality gap. For convex optimization proble...

决策树模型

人们的决策过程是一个类似“观察因素A的情况，再根据A的情况观察因素B的情况”的形式，从而形成一种树状结构。决策树学习是模仿人类这一结构化决策过程而发展起来的一种有监督机器学习方法。它可以被认为是if-then规则的集合，也可以被认为是定义在特征空间和类空间上的条件概率分布。模型具有可读性分类速度快决策树的思想主要来源于Quinlan在1986年提出的ID3和1993提出的C4.5算法，以及由Breiman等人1984年提出的CART算法。模型决策树学习本质上是从训练数据集中归纳出一组分类规则或者条件概率模型（在节点处取条件概率最大的进行分类）。决策树问题一般可以分成特征选择、决策树生成、剪枝三部分。特征选择：通过建立一个函数来衡量特征划分的效果生成：递归构造决策树的过程剪枝：递归产生的决策树往往会递归到不能分类为止，这会导致出现过拟合现象，因此需要已经生成的决策树进行剪枝(pruning)，一般是通过极小化决策树整体的损失函数(loss function)或者代价函数(cost function)来实现。剪枝也可以看成是对模型的正则化（Reaular...

线性分类方法感知机和线性判别分析/Fisher分析是非常经典的硬分类线性模型，模型提出都比较早。感知机感知机是二类分类的线性分类模型。感知机只在求出线性可分的分类超平面，通过梯度下降法对损失函数极小化建立感知机模型。感知机1957年由Rosenblatt提出，是神经网络和支持向量机的基础模型输入空间是实例向量组成的空间，输出空间是-1和+1（正负两类）。建立如下函数： \begin{align*} f(x)&=sign(\omega \cdot x+b)\\ \omega&:weight\quad or\quad weight\quad vector\\ b&:bias \end{align*} 策略感知机学习算法是错误驱动的，刚开始提出时以误分类样本点数量为损失函数，但因为该函数不连续，所以后来变成了最小化样本点到直线的距离。算法（原始形式）具体采用随机梯度下降法(SGD)。收敛性 Novikoff定理告诉我们线性可分数据集经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。当训练集线性不可分时，感...