介绍

统计分析方法主要分为描述和推断统计两类

描述统计主要是总结样本数据的特征
推断统计则是在有限的样本数据基础上,对总体统计特征做出概率形式的表述

参数估计

点估计(定值估计)

是以样本指标的数值来作为总体指标的估计量
可选指标有 均值,中位数,众数等描述性统计

区间估计

用一个包含有真实值的区间范围来估计参数的取值范围

示例

1
2
3
4
5
6
7
8
9
10
11
12
from scipy import stats
import numpy as np
import random
# 随机构建样本总量x
x=[random.randint(0,9) for _ in range(1,10)]
# x=[1, 7, 9, 2, 3, 9, 7, 0, 9]
#进行区间估计
# np.mean(x) 获取均值
# stats.sem(x) 获取样本标准差
# 置信度: 0.95
stats.t.interval(0.95,len(x)-1,np.mean(x),stats.sem(x))
# 均值置信区间: (2.377688830655052, 8.066755613789393)

假设检验

重点在于检验参数的取值是否等于某个目标值

小概率事件思想

小概率事件在一次实验中几乎不发生的,如果在我们的假设下,出现了一个小概率事件,则我们的假设是错误的

反证法思想

先假设我们提出的假设是正确的,然后在该条件下检验观测到的事件是不是小概率事件。如果是,那么假设否定;否则,我们无法否定

假设检验的步骤

  • 1.先根据实际的问题提出一个论断,称为原假设(零假设),记为 H0.
  • 2.根据原假设提出一个互为反命题的备选假设,记为 H1,
  • 3.最后,如果样本是小概率事件,那么就认为原假设是错误的(拒绝原假设)。
  • 4.原假设与备选假设选择规则

    原假设应该是受到保护的,不应轻易被拒绝

    备选假设是检验者期望的结果

    等号永远出现在原假设中

什么是小概率事件

  • 1.在假设检验中拒绝了本来是正确的原假设(弃真)

    出现这类错误的概率记为 Alpha

  • 2.在假设检验中没有拒绝本来是错误的原假设(取伪)

    出现这类错误的概率记为 β

显著性水平p值

常见的显著性水平有0.1、0.05、0.025

确定小概率事件

  • 1.临界值检验法(Critical Value Approach)

    根据样本数据构建一个用于检验的统计量, 这个统计量往往是中体参数的点估计量。

    接下来需要确定能够拒绝原假设的最大p值。之后根据 Alpha

  • 2.显著性检验法(p-value Approach)

    直接根据原假设和统计量的概率分布求解p值,然后p与alpha 进行比较,从而判断样本是不是小概率事件

t检验

参考资料