Overview
- 学习笔记
- 今日总结
学习笔记
概率
- 点估计
- 核心定义
- 估计量(Estimator):是样本X1、X2、··· 、Xn的函数(统计量),用于推断总体参数θ,如样本均值¬X = (X1+X2+···+Xn)/n是总体均值μ的估计量
- 估计值(Estimate):估计量在具体样本下的取值,如由观测值x1、x2、···、xn计算的¬x是μ的点估计值
- 估计量的评估标准
- 无偏估计(Unbiased Estimator)
- 定义:若统计量¬Θ满足E[¬Θ]=θ,则¬Θ是θ的无偏估计量(估计量的期望等于真实参数)
- 关键示例:样本方差S^2是总体方差σ^2的无偏估计量
- 估计量的方差(Variance of an Estimator)
- 核心原则:当¬Θ1和¬Θ2均为θ的无偏估计时,选择方差更小的估计量(抽样分布更集中,估计更精确)
- 最有效估计(Most Efficient Estimator):在所有θ的无偏估计中,方差最小的估计量
- 示例结论:若三个估计量¬Θ1、¬Θ2、¬Θ3中,仅前两者无偏且¬Θ1方差更小,则¬Θ1是最优选择
- 无偏估计(Unbiased Estimator)
- 核心定义
- 区间估计
- 基础概念
- 区间估计定义:通过样本确定一个区间¬ΘL < Θ < ¬ΘU,其中¬ΘL(下边界)和¬ΘU(上边界)依赖于估计量的抽样分布,反映 “真实参数大概率落在该区间” 的范围
- 置信区间(Confidence Interval):
- 定义:100(1−α)%置信区间表示 “长期重复抽样下,95%(如α=0.05)的此类区间会包含真实参数”
- 关键误区:不能说 “某具体区间含参数的概率是1−α”,因为区间计算后是确定值,要么含参数要么不含;概率仅反映估计 procedure 的可靠性
- 理想区间:短区间 + 高置信度(如 95% 置信区间[6,7]优于 99% 置信区间[3,10])
- 单样本估计总体均值μ(Single Sample: Estimating μ)
- 场景 1:总体方差σ^2已知(大样本n≥30适用 CLT)
- 抽样分布:由中心极限定理(CLT),¬X ∼ N(μ,σ^2/n),标准化后Z = (¬X - μ) / σ/√n ∼ N(0,1)
- 置信区间公式:¬x - z(α/2)·σ/√n < μ < ¬x + z(α/2)·σ/√n,其中z(α/2)是标准正态分布右侧面积为α/2的分位数(如 95% 置信度下z(0.025)= 1.96)
- 场景 2:单 - sided 置信界(σ^2已知)
- 适用场景:仅关注 “下界”(如钢棒抗拉强度)或 “上界”(如河流汞含量)
- 公式:
- 下置信界(95%):μ > ¬x - z(α)·σ/√n
- 上置信界(95%):μ < ¬x + z(α)·σ/√n
- 场景 3:总体方差σ^2未知(小样本n<30且总体正态)
- 抽样分布:用样本标准差S替代σ,统计量 T = (¬X - μ) / S/√n ∼ t(n-1)(t 分布,自由度df=n−1)
- 置信区间公式:¬x - t(α/2),(n-1)·S/√n < μ < ¬x + t(α/2),(n-1)·S/√n
- 场景 1:总体方差σ^2已知(大样本n≥30适用 CLT)
- 两样本估计总体均值差μ1−μ2(Two Samples: Estimating μ1−μ2)
- 点估计:¬X1 - ¬X2(两样本均值差)
- 三大场景对比:
场景 前提条件 抽样分布 关键参数 / 公式 场景 1:σ^2(1)、σ^2(2)已知 大样本(n1≥30,n2≥30),CLT 适用 Z 分布 区间含 √(σ^2(1)/n1 + σ^2(2)/n2) 场景 2:σ^2(1) = σ^2(2)未知 小样本,总体正态 t 分布(df=n1+n2−2) 合并方差 S^2(P) = ((n1-1)S^2(1) + (n2-1)S^2(2)) / n1+n2-2 场景 3:σ^2(1) != σ^2(2)未知 小样本,总体正态 t’ 分布(df=v) 自由度 v = (S^2(1)/n1 + S^2(2)/n2)^2 / (S^2(1)/n1)^2/n1-1 + (S^2(2)/n2)^2/n2-1,向下取整
- 配对观测(Paired Observations)
- 适用场景:
- 同一单元接受两条件(如 15 人节食前后体重)
- 配对单元接受两条件(如 IQ 相同的两人分属传统 / 新型教学班级)
- 目的:消除 “单元间差异”(如汽车差异对轮胎磨损的影响),提高估计精度
- 核心方法:将配对观测转化为 “差异样本”di = x(1i) - x(2i),估计μD = μ1 - μ2(差异总体的均值)
- 置信区间公式:
- 小样本(n<30,di正态):¬d ± t(α/2),(n-1)·Sd/√n
- 大样本(n≥30):用 Z 分布,¬d ± z(α/2)·Sd/√n
- 适用场景:
- 单样本估计总体方差σ^2(Single Sample: Estimating σ^2)
- 抽样分布:统计量 X^2 = (n-1)S^2 / σ^2 ∼ X^2(n-1)(X^2分布,自由度n−1),该分布非对称,分位数需区分X^2(α/2)和X^2(1 - α/2)
- 置信区间公式:(n-1)s^2 / X^2(α/2),(n-1) < σ < (n-1)s^2 / X^2(1 - α/2),(n-1)
- 两样本估计总体方差比σ^2(1)/σ^2(2)(Two Samples: Estimating σ^2(1)/σ^2(2))
- 点估计:s^2(1)/s^2(2)(两样本方差比)
- 抽样分布:统计量 F = σ^2(2)S^2(1) / σ^2(1)S^2(2) ∼ F(n1-1),(n2-1)(F 分布,分子自由度n1−1,分母自由度n2−1),满足 f(1-α/2)(v1,v2) = 1 / f(α/2)(v2,v1)
- 置信区间公式:S^2(1)/S^2(2) · 1/f(α/2)(n1-1,n2-1) < σ^2(1)/σ^2(2) < S^2(1)/S^2(2) · f(α/2)(n2-1,n1-1)
- 核心用途:判断方差是否相等 —— 若区间不含 1,则认为σ^2(1) != σ^2(2);含 1 则认为方差相等
- 基础概念
今日总结
- 今天参加的这周的城市之旅活动体验感非常好,首先把我之前探索的路线骑了一圈,然后我们去到了一个古镇上参观,最后还去到了长江边上,过程中聊天也挺开心的,希望以后也会这么开心
- 今天在结束了城市之旅活动后我还去参加了班级举办的羽毛球活动,在活动上认识了一个非常热情的朋友,即使活动结束后我们俩也聊了许久