Python脚本
主要用来记录一些比较常用的小脚本,提高工作效率
碎碎念
一个简单的句子集
常用命令
对hexo博客的写作常用方法以及butterfly主题的使用技巧进行一个简单的记录。
Markdown语法规范
文字编辑
对齐方式和文本字体大小
markdown实现文本对齐也可以借助内嵌html实现:
<p align="right">这是一个右对齐</p><p align="left">这是一个左对齐</p><center>这是一个左对齐</center>
这是一个右对齐
这是一个左对齐
居中
一个居中的h1标题
一个居中的标题
一个调节字体大小为16后的居中标题
换行
markdown换行有两种方式:
段内换行是两个空格加上一个回车
这是一个段内换行
段落换行则是直接一个回车
注意观察两种换行情境下行间距大小
上下标
可以使用上标标签和下标标签。
例如:
n<sup>2</sup>+b<sub>1</sub>n+8=0
n2+b1n+8=0
高亮
可以使用高亮标签。
这是<mark>高亮文本</mark>
这是高亮文本
除了文本高亮以外,还可以对文本的颜色进行修改,一般修改文本的颜色有两种方式:
&l ...
Lasso回归
Lasso回归问题的背景是解决传统回归问题中变量太多的问题,作为一种变量选择方法被提出。
min ∣∣Y−βTX∣∣22+λ∑i=1p∣βi∣\operatorname{min}\, ||Y-\beta^T X||_2^2+\lambda\sum_{\boldsymbol{i}=\boldsymbol{1}}^p |\beta_i|
min∣∣Y−βTX∣∣22+λi=1∑p∣βi∣
lasso回归的求解难点在于目标函数不可导(含有绝对值),当X是正交矩阵或单位阵的时候,问题会变得容易求解:
β^=sgn(y)(∣y∣−λ)={y−λ,y>λ0,−λ≤y≤λy+λ,y<−λ\hat{\beta}=sgn(y)\left(|y|-\lambda\right)=\left\{\begin{array}{l}
y-\lambda, \quad y>\lambda \\
0, \quad-\lambda \leq y \leq \lambda \\
y+\lambda, \quad y<-\lambda
\end{array}\right.
β^=sgn(y ...
岭回归
前言
在多元线性回归中曾经提到,经典线性回归模型的估计结果:
\begin{equation}
\boldsymbol{\hat{\beta}}=\left(\boldsymbol{X'}\boldsymbol{X}\right)^{-1}\boldsymbol{X'}\boldsymbol{Y}
\end{equation}
上述估计量的方差为:
\begin{equation}
\begin{aligned}
\operatorname{Var}(\hat{\beta})&=\operatorname{Var}\left(\left(\boldsymbol{X'}\boldsymbol{X}\right)^{-1}\boldsymbol{X'}\boldsymbol{Y}\right)\\
&=\left(\left(\boldsymbol{X'}\boldsymbol{X}\right)^{-1}\boldsymbol{X'}\right)^T\operatorname{Var}(Y)\left(\bo ...
优雅论文排版
高效排版论文的一种方法
多元统计分析
多元统计分析其实是围绕实际生活中变量的多维特征产生的,主要是在以下场景有所应用:
数据降维和结构简化
分类与判别(聚类)
变量间独立性的度量: 回归分析以及典型相关分析
多元数据的统计推断:以多元正态分布为代表的统计推断问题
多元随机变量
多元统计中的多其实主要说的是维度的扩充,而不是变量个数的增减。其实在概统中已有了多元变量的分布函数的概念,但注意在概统中始终都是数量值函数,这里的多元则是多元向量值函数,从这个角度出发多元统计相当于是对一元的扩充,这点在多元正态分布的推断中体现会更加明显,统计量的抽样分布其实也是对一元的扩展,只不过因为引入多元变量之后,协方差函数会变得相对复杂,这时也就需要引入矩阵来进行简化,简单来说多元统计分析其实就是建立在矩阵基础之上的多元变量的统计分析。
分布函数
与一元分布函数类似,多元随机变量X=(X1,X2,⋯ ,Xp)X=(X_1,X_2,\cdots,X_p)X=(X1,X2,⋯,Xp)的密度函数可以表示为:
f(x1,x2,⋯ ,xp)=f(x1,x2,⋯ ,xp)f(x_1,x_2,\cdots,x_p)=f(x_1,x_2,\cdot ...
贝叶斯分析
贝叶斯估计是贝叶斯学派估计未知参数的主要方法,与频率学派相比,贝叶斯学派最主要的观点就是未知量是一个随机变量,在进行抽样分布之前,未知量有自己的分布函数,即所谓的先验分布。
而贝叶斯估计也就是通过引入未知量的先验分布来将先验信息和传统频率学派的总体信息和样本信息结合起来,得到一个未知量的后验分布,然后对未知量进行统计推断。
关于未知量是否可看作随机变量 在经典学派与贝叶斯学派 间争论了很长时间,后来这一观点渐渐被经典学派认同。如今两派的争论焦点已经变成了如何利用各种先验信息来合理地确定先验分布。
贝叶斯估计
对于未知参数θ\thetaθ,假设其分布(先验分布)为π(Θ)\pi(\Theta)π(Θ)。
总体分布以及样本分布都依赖于先验分布,因而将先验信息加入后的样本X\boldsymbol{X}X与θ\thetaθ的条件分布(the joint conditional pdf of X\boldsymbol{X}X, given Θ\ThetaΘ = θ\thetaθ,)变成了:
g(X∣θ)=L(X∣θ)π(θ)=Πif(xi∣θ)π(θ)g(\boldsymbol{X}|\bo ...
平稳时序建模
模型识别
模型定阶
含义:对一个观察序列(Observed Series),选择一个与其实际过程相吻合的模型结构
ACF 和 PACF 法
根据 ACF 和 PACF 的特征,先判断属于哪一类模型
确定模型后,AR 模型和 MA 模型在对应阶数以外的呈截尾分布的特征统计量服从正态分布,通过比较前 M 个统计量的取值(一般为N\sqrt{N}N)中满足正态分布的取值所占的比例来确定最小的满足条件的阶数(满足正态分布指的是给定模型阶数的情况下,对应的特征统计量的观察值落在正态分布的nnn个σ\sigmaσ内,n 一般取 1)
若为 AR 模型,则通过 PACF 确定阶数(k>pk>pk>p时,ϕkk∼N(0,1N)\phi_{kk} \sim N(0,\frac{1}{N})ϕkk∼N(0,N1))
从 p=1 开始,若有一个统计量满足:\begin{equation}
\frac{\sum\limits_{k=p+1}^{\sqrt{N}+p} \mathbb{I}·\left(\phi_{kk}<\sqrt{1/N}\right)}{\sqrt{N ...