博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数学基础-概率论05(统计推断-分布拟合检验)
阅读量:6951 次
发布时间:2019-06-27

本文共 1392 字,大约阅读时间需要 4 分钟。

1222446-20181225172722677-588432117.png

5.1 一般总体数学期望的假设检验

经常是面对一个随机变量,其满足的分布不清楚,此时对总体的未知参数的假设检验属于非正态总体假设检验,即一般总体的假设检验问题。在样本很大(一般1222446-20181225172723314-1916974719.png,最好1222446-20181225172723671-1424217272.png1222446-20181225172723982-1760694738.png),可以使用中心极限定理进行分析。

5.1.1 一个总体均值的大样本假设检验

已知一个总体的均值和方差分别为:1222446-20181225172724355-226955924.png,一个样本的均值和方差分别为:1222446-20181225172724723-1040429046.png,当n充分大时,由中心极限定理可知,1222446-20181225172725079-858722962.png近似服从标准正态分布N(0,1)。所以这个问题可以使用U检验法进行分析。

实际使用中,总体方差1222446-20181225172725393-2108320397.png未知情况下,可使用样本方差1222446-20181225172725772-341076868.png进行替代。

5.1.2 两个总体均值的大样本假设检验

两个总体的均值检验统计量可以构造如下:

1222446-20181225172726158-358330457.png

仍然使用U检验法进行检验。

5.2 假设检验问题的p值检验法

以上问题均属于临界值检验法,下面介绍P值检验法,所谓P值检验法就是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水水平。

例子:

检验牛奶是否加水,牛奶冰点温度近似满足正态分布,加水会导致该冰点温度升高,其均值方差分别为-0.545和0.008,现抽样5批牛奶,得到均值为-0.534,问这批牛奶是否加水,取显著性水平为0.05.

首先提出假设: 1222446-20181225172726457-1233458714.png
1222446-20181225172726808-1674142831.png
已知统计量观察值为:1222446-20181225172727239-1788368561.png
1222446-20181225172727482-1665111673.png
P值<1222446-20181225172727898-916454683.png,所以拒绝1222446-20181225172728222-1898952001.png,即认为牛奶加水了。

P值与显著性水平1222446-20181225172728673-1271677638.png的关系

P值与显著性水平的关系
P值与显著性水平的关系

临界值法假设检验: 使用显著性水平得到统计量的拒绝域,结合样本统计量的值进行统计推断。

P值法假设检验: 由统计量得到P值,然后显著性水平进行比较得出统计推断。

5.3 分布拟合检验

实际问题中,首先要根据样本的观察结果对总体的分布类型进行检验。使用1222446-20181225172729488-827917611.png检验,可以检验总体是否具有某个指定的分布或者某个分布簇。

设总体的分布函数为1222446-20181225172729786-1833142620.png,1222446-20181225172730073-1440855906.png未知,1222446-20181225172730316-240597900.png为某一已知分布函数,考虑如下检验问题:

1222446-20181225172731067-1612617101.png

1222446-20181225172731295-1583128266.png不含未知参数时,考虑如下:

对于随机变量1222446-20181225172731599-247208573.png,将其分为k段互不相交的区间,分点依次记为1222446-20181225172731893-2085834854.png,记1222446-20181225172732124-1283662291.png

1222446-20181225172732406-647498297.png成立时,有:1222446-20181225172732925-634623046.png,含义是随机变量落在区间1222446-20181225172733135-837628464.png的概率。假设区间1222446-20181225172733363-549958829.png的长度是1222446-20181225172733630-1806099814.png,在n次的随机实验中,当1222446-20181225172733846-1081458545.png成立且n足够大时,1222446-20181225172734052-846035446.png1222446-20181225172734356-69903241.png的近似。

构造统计量1:用于衡量样本与1222446-20181225172734553-908121757.png假设分布的吻合程度。

1222446-20181225172734954-370346134.png

1222446-20181225172735312-695185923.png为给定常数,皮尔逊证明,当1222446-20181225172735540-2012013963.png1222446-20181225172735908-2013380776.png时,上面的式子可以变化如下:

1222446-20181225172736308-595265817.png

1222446-20181225172736821-106316372.png含有未知参数时,考虑如下:

通过样本观察值,使用极大似然估计,求出1222446-20181225172737080-1666342787.png的估计值1222446-20181225172737327-1527988763.png,再使用上述公式(1)作统计量分析。

皮尔逊定理:

  • 若理论分布函数1222446-20181225172737832-990226334.png不含未知参数,则当1222446-20181225172738033-1720345524.png成立且n充分大是,统计量1222446-20181225172738453-1278089110.png近似服从自由度为1222446-20181225172738742-2127279579.png1222446-20181225172739168-1654163205.png分布;
  • 若理论分布函数1222446-20181225172739540-1787032433.png含有未知参数,其未知参数个数为r时,统计量1222446-20181225172739782-736898761.png近似服从自由度为1222446-20181225172739992-650254991.png1222446-20181225172740196-2008448328.png分布。

从公式来看,1222446-20181225172740601-199920866.png为区间i的实际频数,1222446-20181225172740910-1317420205.png是理论频数。则统计量的含义可写为:

1222446-20181225172741219-1038762414.png

给定显著性水平1222446-20181225172741459-1030786260.png,1222446-20181225172741733-559791019.png的否定域是1222446-20181225172741925-664526548.png

实际使用中,确保n足够大,1222446-20181225172742123-1158316358.png不能太小,一般是1222446-20181225172742473-1433977772.png,如果1222446-20181225172743272-1838682770.png太小,可以进行合并。

例子:

统计200天高速公路的车祸次数,得到下表信息

车祸数i 0 1 2 3 4
频数n_i 109 65 22 3 1

试问,在显著性水平1222446-20181225172743701-1474720662.png的情况下,是否认为X满足泊松分布。

解:
泊松分布含有未知参数1222446-20181225172743980-1077219546.png,根据样本观察结合极大似然估计得到:

1222446-20181225172744410-398327631.png

提出假设:1222446-20181225172744598-1732455463.png,若1222446-20181225172744789-993042799.png为真时,总体分布律的估计形式为:

1222446-20181225172744985-531519432.png

因此,1222446-20181225172745262-1713236957.png

1222446-20181225172745522-242913428.png,其1222446-20181225172745823-378409836.png因此将1222446-20181225172746131-1876471582.png合并到1222446-20181225172747220-1121480545.png.

计算得:

1222446-20181225172747778-1407044077.png

合并后,k=4,r=1,查表知:1222446-20181225172748085-1462760741.png,即1222446-20181225172748368-133638835.png,不满足拒绝条件,即认为在显著性水平1222446-20181225172748620-1185722195.png下,样本来自泊松分布。

转载于:https://www.cnblogs.com/wushaogui/p/9984068.html

你可能感兴趣的文章
C++程序设计:原理与实践(进阶篇)15.3 序列和迭代器
查看>>
《树莓派渗透测试实战》——导读
查看>>
《Android 应用案例开发大全(第3版)》——导读
查看>>
Redis开发与运维. 2.2 字符串
查看>>
双研究员带你了解数据库技术现状,及阿里云为什么要推出HBase
查看>>
备用java方法
查看>>
openlayers加载切片地图
查看>>
CentOS7部署Kubernetes集群
查看>>
使用hyperpacer实现AWR报告的同步收集
查看>>
linux 下mysql的乱码问题
查看>>
mongodb删除重复数据
查看>>
橡皮泥_愤怒的小鸟
查看>>
CentOS6.5最小化安装,自定义安装包
查看>>
扩展jQuery easyui datagrid增加动态改变列编辑的类型
查看>>
通过Linux shell实现的花生壳动态域名解析(DDNS)
查看>>
Mysql 生成按月份统计SQL语句,为null设置为0
查看>>
1.6的锁优化(适应性自旋/锁粗化/锁削除/轻量级锁/偏向锁)
查看>>
使用 IntraWeb (17) - 基本控件之 TIWRadioButton、TIWRadioGroup、TIWCheckBox
查看>>
CSS解决高度自适应问题
查看>>
Thinkpad ACCESS CONNECTIONS异常解决
查看>>