第七章 参数估计
7.1 问题的提出
在概率论中,我们通常假设随机变量的分布是已知的,然后研究其性质。但在实际问题中,我们往往只知道随机变量的分布类型(如正态分布、泊松分布等),而分布中的参数(如均值、方差等)是未知的。
参数估计的任务就是利用样本信息来估计未知参数。
设总体
参数估计分为两类:
点估计(Point Estimation):用样本统计量的某个取值作为未知参数的估计值。
区间估计(Interval Estimation):在一定置信度下,用一个区间来估计未知参数的可能取值范围。
例子:
- 某厂生产的灯泡寿命
, 和 未知,根据样本估计这两个参数; - 某地区新生儿中男婴的比例
未知,根据样本估计 ; - 某电话交换台单位时间内接到的电话次数
, 未知,根据样本估计 。
7.2 两种常用的参数估计方法
7.2.1 矩估计法
矩估计法(Method of Moments)是最古老的参数估计方法之一,由Pearson于1894年提出。其基本思想是用样本矩来估计总体矩,进而估计参数。
基本原理
设总体
样本的
当样本容量
矩估计法的步骤
设总体分布中有
用参数表示总体的前
阶原点矩:建立矩方程组:
解方程组得到参数的矩估计量:
常见分布的矩估计
1. 正态分布
参数:
矩方程:
矩估计量:
2. 泊松分布
参数:
矩方程:
矩估计量:
3. 均匀分布
参数:
矩方程:
矩估计量:
7.2.2 最大似然估计
最大似然估计法(Maximum Likelihood Estimation, MLE)由Fisher于1912年提出,是最重要的参数估计方法之一。
基本思想
在已知试验结果的条件下,应该选择使得这个结果出现的可能性(似然性)最大的参数值作为估计值。
似然函数
设
离散型总体:设总体的分布律为
连续型总体:设总体的概率密度为
最大似然估计量
使似然函数
由于
来得到最大似然估计量。
对于多参数情况,需要解偏导数方程组:
常见分布的最大似然估计
1. 正态分布
似然函数:
对数似然函数:
求偏导并令其为零:
最大似然估计量:
2. 泊松分布
似然函数:
对数似然函数:
求导并令其为零:
最大似然估计量:
3. 指数分布
似然函数:
对数似然函数:
求导并令其为零:
最大似然估计量:
最大似然估计的性质
不变性:若
是 的最大似然估计量, 是一一对应函数,则 是 的最大似然估计量。渐近正态性:在正则条件下,当
时,最大似然估计量渐近服从正态分布。相合性:在正则条件下,最大似然估计量是相合的。
渐近有效性:在正则条件下,最大似然估计量是渐近有效的。
7.3 评选估计量的标准
一个参数可能有多个不同的估计量,如何评价估计量的优劣?我们从三个方面来评价:无偏性、有效性和相合性。
7.3.1 无偏性
定义:设
则称
无偏性表示估计量的期望值等于被估计参数的真值,即估计量没有系统性偏差。
例子:
样本均值:
,所以 是 的无偏估计量。样本方差:
,所以 是 的无偏估计量。修正样本方差:
,所以 是 的有偏估计量。
渐近无偏性:若
7.3.2 有效性
当有多个无偏估计量时,我们希望选择方差最小的那一个。
定义:设
则称
最小方差无偏估计量(MVUE):在所有
Cramer-Rao不等式:在正则条件下,对于
其中
达到Cramer-Rao下界的无偏估计量是最小方差无偏估计量。
相对效率:设
7.3.3 相合性
定义:设
则称
相合性是估计量的大样本性质,表示当样本容量趋于无穷时,估计量依概率收敛到参数的真值。
判定相合性的充分条件:若
则
例子:
是 的相合估计量; 是 的相合估计量;- 在正则条件下,最大似然估计量是相合的。
7.4 区间估计的概念
点估计给出了参数的一个具体估计值,但没有指出这个估计值的精确程度。区间估计用一个区间来估计参数,并给出这个区间包含参数真值的概率。
定义:设
则称随机区间
置信区间的解释:
- 置信区间是随机的,参数
是固定的; - 置信水平
表示,如果我们重复多次抽样并构造置信区间,大约有 的区间会包含参数的真值; - 常用的置信水平有0.90、0.95、0.99等。
构造置信区间的一般方法:
寻找一个包含待估参数
的统计量 ,其分布不依赖于未知参数;对于给定的置信水平
,确定常数 和 ,使得:通过不等式
解出 的不等式 ,则 为 的置信区间。
7.5 单个正态总体参数的置信区间
设
7.5.1 均值 的置信区间
情况1: 已知
此时,统计量:
对于给定的置信水平
其中
解不等式得到
情况2: 未知
此时,用样本标准差
对于给定的置信水平
其中
7.5.2 方差 的置信区间
情况: 未知
此时,统计量:
对于给定的置信水平
其中
情况: 已知
此时,统计量:
7.6 两个正态总体均值差和方差比的置信区间
设
7.6.1 两个正态总体均值差 的置信区间
情况1: 和 已知
统计量:
情况2: 未知
使用合并样本方差:
统计量:
情况3: 且均未知(Welch方法)
统计量:
近似服从自由度为
7.6.2 两个正态总体方差比 的置信区间
统计量:
对于给定的置信水平
由于