据说假设检验是个很难的题_财经资讯_资讯

据说假设检验是个很难的题

2024-08-23 19:21 浏览:35

不知道大家有没有注意到我每次文章最顶部的内容：

我提出的假设是：每天早上8点25更新，然后有人不相信，于是我们提出了一个方案来验证我的假设，连续10天看实验的结果是否每天早上8:25更新，这就是一个假设检验的思路，提出一个假设，然后去检验它。

假设检验是利用样本对总体进行的推断的方法。其原理是小概率反证法。即为了检验一个假设是否成立，我们先假设它成立，在原假设成立的前提下，如果出现了不合理的事件，则说明样本与总体的差异是显著的，就拒绝原假设，如果没有出现不合理的事件，就不拒绝原假设。

这里所述的不合理的事件指的就是小概率事件，通常情况下我们认为一个小概率事件基本上不会发生，如果发生了，说明它就不是一个小概率事件了，所以不能接受原假设。

假设检验的基本问题

Q：1989年某地新生儿的平均体重为3190克，1990年新生儿随机抽取100个平均体重为3210克，1990年和1989年的新生儿相比，体重有无显著差异？

首先我们要明确，这个问题的关键点在哪里，关键点是这20克的差异说明了什么？是抽样的随机性吗？为了解决这个问题，就提出了假设检验这个方法。

假设检验的流程1. 提出假设

原假设：假设两个总体的均值相等。u表示1990年新生儿平均体重，u0表示1989年新生儿平均体重，那么原假设就是u=u0=3190，无显著差异
备则假设：H1，u不等于u0，有显著差异

2. 选择检验统计量

统计量的选择与样本量大小、总体标准差是否已知有关，后面会细分。

常用的检验统计量有z统计量、t统计量（均值和比例）和卡方统计量（方差）。

具体选择哪个统计量，主要有样本量n的大小、总体的标准差是否已知有关。

样本量较大时（n>30），可以选择z统计量，样本量较小、总体标准差已知时，也可以选择z统计量，样本量较小，总体标准差未知时，用t统计量。

3. 确定拒绝域

首先确定显著性水平α。即希望在样本结果的不可能程度达到多大时，就拒绝原假设，也就是小概率事件发生的概率，显著性水平用百分数表示。通常是5%和1%作为显著性水平。

这篇文章里我们就不去推导统计量和拒绝域是如何得出的了，对于大部分非相关专业人士来说，确实是很晦涩的，我们重点关注如何使用就好。

4. 计算P值

为了精确地反映决策的风险度（为了简化检验统计量的计算），我们可以利用P值进行决策，那么问题来了：

什么是P值？

p值是当原假设为真时样本观察结果及更极端结果出现的概率。

如果P值很小，说明这种情况发生的概率很小，如果这种情况还出现了，那么就有理由拒绝原假设。P值越小，拒绝原假设的理由就越充分。

根据选取的检验统计量计算P值，通过P值确定是否拒绝该原假设。手工计算P值是比较复杂的，好在现在都可以用Excel、Python、SPSS等工具计算。

5. 做决策
将P值和显著性水平进行比较。
p≤α，在原假设的条件下，p在拒绝域内，小概率事件发生了，结果显著，拒绝H0，接受H1，即认为差别不是由抽样导致，而是实验因素所致。
p>α，在H0假设的条件下，p不在拒绝域内，很常见的事件发生了，结果不显著，不拒绝H0，拒绝H1，即认为差别是由抽样误差造成的。
两类错误
第I类错误：弃真错误。原假设为真，却被我们拒绝了。
第II类错误：取伪错误。原假设为伪，却没被拒绝。

我们要尽可能地将犯两类错误的概率降到最低。但是，在样本容量固定的前提下，减少犯第I类错误的概率，必然会增加犯第II类错误的概率，一般来说，我们总是先控制犯第I类错误的概率，使它不大于显著性水平。而犯第II类错误的概率依赖于样本容量的大小，因此对样本容量的选择上，也要有所考量。
假设检验的分类
T检验
选用t统计量进行的检验，是对正态总体均值的检验，t检验中，假设样本呈正态分布，总体参数未知，会有以下3种情况：
成对二样本t检验
t检验的平均值成对二样本分析，主要用在同一实验前后效果的对比上，检验两个样本的总体均值是否相同。
独立二样本t检验
独立样本的t检验，检验两个样本的总体均值是否相同，假设其总体方差是相同的，主要判断两个样本是否来自于同一总体。
单样本t检验
方差未知，关于总体均值的检验，
Z检验
选用z统计量进行的检验通常称之为z检验，一般用于大样本的双样本总体均值的检验，或者方差已知，关于总体均值的检验也可用Z检验。
F检验
前面的t检验、z检验均是对总体均值的检验，F检验是对正态总体方差的检验，因此也叫做方差齐性检验。在回归分析中，我们用F检验来判断因变量与自变量之间的线性关系是否显著，就是判断其方差是否相等。
举个例子
推广活动前后APP活跃度的对比，在显著性水平为0.05的条件下分析推广活动是否提高了APP的活跃度。这里用成对二样本t检验，用Excel来实现。
Step1：确立原假设和备则假设，原假设通常为两个样本的总体均值相等，备择假设为两个样本的总体均值不等，即
H_0：μ_1=μ_2
H_1：μ_1≠μ_2
这是一个双尾检验
Step2：单击【数据分析】——【t检验：平均值的成对二样本分析】选框。
Step3：在弹出的【t-检验：平均值的成对而样本分析】对话框中，变量1的区域选择活动前1:21的区域，变量2的区域选择活动后的1:21区域，假设平均差为0，即原假设两个样本的总体均值相等，勾选标志选框，α为0.05的显著性水平，输出区域为1。
Step4：单击确定按钮，得到检验结果，如图4.3.58所示，从结果中可以看到，t值为-1.81485，|t|0.05，p落在接受域内，所以不拒绝原假设，即两样本均值相等，说明推广活动后APP的活跃度没有显著提升。

以上就是今天的内容了
猜你喜欢
这有一份今日头条数据分析面经
2020-11-21

都2020年了，还在迷信啤酒与尿布！数据分析的真相是……
2020-11-19

18个常见的数据分析面试题-概率统计类
2020-11-16

以上就是据说假设检验是个很难的题的全部内容了，希望大家喜欢。

打赏