2011年中山大学432统计学[专业硕士]考研真题及详解
一、单项选择题(30小题,每小题2分,共60分。在每小题给出的四个选项中,只有一个符合题目要求,请将所选正确答案对应的字母写在答题纸上,并标明题号)
1为调查在中国的省会城市和4个直辖市的居民年收入,需要从这些城市的居民中抽取一个样本,你认为以下四种抽样方式哪一种会得到更有代表性的样本?( )
A.简单随机抽样
B.整群抽样
C.系统随机抽样
D.分层随机抽样
【答案】D
【解析】在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合在一起使用。系统随机抽样是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本。整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层抽样的优点是由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本,且抽样误差比较小。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况,在调查中广泛应用。
2根据有关专家的建议,51岁以下成年女性每日的铁摄入量应为16毫克;为了解这一人群铁摄入量的情况,有人抽取一个容量为45的样本并取得她们在24小时内的铁摄入量,所得数据列在下表:
以下图表,哪一种可以让我们迅速得到以上样本数据的中位数与两个四分位数?( )
A.直方图
B.饼图
C.条形图
D.茎叶图
【答案】D
【解析】条形图、饼图主要用于展示分类数据,直方图则主要用于展示数值型数据,描述分组数据的分布。茎叶图用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字。由于茎叶图上没有原始数据信息的损失,包括中位数、四分位数在内的所有数据信息都可以从图中获得。
3在第2小题中,经过计算可知,样本平均值为14.680,样本标准差为3.083;假定每日的铁摄入量近似服从正态分布,根据以上数据,在5%水平下可以认为51岁以下成年女性的铁摄入量( )。
A.跟建议值没有显著差别
B.显著偏低
C.显著偏高
D.无法判断
【答案】B
【解析】假设:H0:μ=16,H1:μ≠16。统计量
当α=0.05时,zα/2=1.96。因为|z|>zα/2,所以拒绝原假设,接受备择假设。又因为14.680<16,所以51岁以下成年人女性的铁摄入量显著偏低。
4美国汽车制造商协会想了解消费者购车时的颜色偏好趋势,抽取新近售出的40辆车并记录其颜色种类(黑、白、红、绿、棕)和深浅类型(亮色、偏淡、中等、偏浓);你认为以下展示数据的图表中,哪一种不适合用来处理这一样本数据?( )
A.散点图
B.饼图
C.条形图
D.频数图
【答案】A
【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。它是以坐标横轴代表变量X,纵轴代表变量Y,每组数据(Xi,Yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图。散点图处理的是数值型数据,而题干中的颜色种类与深浅类型属于分类数据,所以是不适合的。
5现有一份样本,为100名中学生的IQ分数,由此计算得到以下统计量:样本平均(mean)=95,中位数(median)=100,下四分位数(lower quartile)=70,上四分位数(upper quartile)=120,众数(mode)=75,标准差(standard deviation)=30。则关于这100名中学生,下面哪一项陈述正确?( )
A.有一半学生分数小于95
B.有25%的学生分数小于70
C.中间一半学生分数介于100到120之间
D.出现频次最高的分数是95
【答案】B
【解析】一半学生分数小于中位数,即100;中间一半学生分数介于下四分位到上四分位之间,即介于70到120之间;出现频次最高的分数是众数,即75。下四分位数是指该样本中所有数值由小到大排列后第25%的数字,从题干中可知有25%的学生分数小于70。
6若总体服从均值为μ标准差为σ的正态分布;从中抽出一个容量为10的简单随机样本,则样本平均的抽样分布为( )。
A.N(μ,σ2/10)
B.N(μ/10,σ2)
C.N(μ/10,σ2/100)
D.N(μ,σ2/100)
【答案】A
【解析】当总体分布为正态分布N(μ,σ2)时,可以得到下面的结果:的抽样分布仍为正态分布,的数学期望为μ,方差为σ2/n,则~N(μ,σ2/n)。
7关于方差分析,下列说法正确的是( )。
A.方差分析的目的是分析各组总体方差是否相同
B.方差分析的组间均方仅仅衡量了随机误差的变异大小
C.各组数据呈严重偏态时,也可以作方差分析
D.方差分析的目的是分析各组总体的均值是否相同
【答案】D
【解析】方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。如果分析数据来自相同总体,那么在组间误差中只包含随机误差,而没有系统误差。反之,如果分析数据来自不同总体,在组间误差中除了包含随机误差外,还会包含系统误差。方差分析中有三个基本假定:①每个总体都应服从正态分布;②各个总体的方差σ2必须相同;③观测值是独立的。
8以下统计方法中,哪一种不能用来研究变量之间的关系?( )
A.样本比例估计
B.列联表分析
C.一元线性回归
D.多元线性回归
【答案】A
【解析】列联表分析也称为独立性检验,是分析两个变量之间是否有关联;回归分析则侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度;样本比例估计是用样本比例p估计总体比例π,不能用来研究变量之间的关系。
9如果把α从5%降到2.5%,则置信程度为1-α的样本平均的置信区间的宽度将( )。
A.增加
B.不变
C.降低
D.可能增加,也可能降低
【答案】A
【解析】当样本量给定时,置信水平(1-α)越高,置信区间的宽度越长。从直觉上说,区间比较宽时,才会使这一区间有更大的可能性包含参数的真值。
10在假设检验中,如果检验结果是拒绝零假设;那么,以下哪一种情形的检验结果更显著?( )
A.样本平均值更小
B.P-值更小
C.样本平均值更大
D.P-值更大
【答案】B
【解析】P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分,因此检验结果就更显著。
111998年的一次网络民意调查中,共7553人接受调查,其中4381人认为:“白水事件”调查执行官Kenneth Start应该询问所有可以找到的证人,包括时任总统克林顿的助手;由此,你能得出以下哪一个结论?( )
A.以上数据提供了充分证据,说明多数人认为Kenneth Start应该询问所有可以找到的证人,包括时任总统克林顿的助手
B.以上数据未提供充分证据,说明多数人认为Kenneth Start应该询问所有可以找到的证人,包括时任总统克林顿的助手
C.以上数据提供了充分证据,说明多数人认为Kenneth Start不应询问所有可以找到的证人,包括时任总统克林顿的助手
D.以上数据未提供充分证据,说明多数人认为Kenneth Start不应询问所有可以找到的证人,包括时任总统克林顿的助手
【答案】A
【解析】本题属于总体比例的检验,假设:H0:π≤50%,H1:π>50%,其中π为总体中认为“应该”的调查者所占的比例。样本比例p=(4381/7553)×100%=58.00%,
z>z0.001=3.09,所以在0.001的显著性水平下,拒绝原假设。即有充分证据说明:多数人认为应该询问所有可能找到的证人,包括克林顿的助手。
12一元线性回归中,以下哪一种残差图特点可以说明回归模型的运用是不合理的?( )
A.残差落在一水平直线附近
B.残差落在一倾斜直线附近
C.残差的正态概率图大致落在一条直线附近
D.残差关于一水平直线大致对称
【答案】B
【解析】若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有的点都应落在一条水平带中间。如果对所有的值,ε的方差是不同的,例如,对于较大的x值,相应的残差也较大,这就意味着违背了ε方差相等的假设,由此可知B项正是此种情况。在标准化残差图中,大约有95%的标准化残差在-2~2之间。
13考虑总体均值的95.44%置信区间,已知总体服从正态分布且标准差为10;要使得到的置信区间的半径不超过1,需要的最小样本容量为( )。
A.100
B.400
C.900
D.1600
【答案】B
【解析】置信度为95.44%时,由正态分布的3σ原则可知zα/2=2,则
解得n≥400。
14官方数据显示,2008年,北京地区移动电话用户的月均电话费为50元;从2009年3月份的用户费用清单中,随机抽取40人,发现他们的月均话费为60元;移动电话公司想通过假设检验来判断“2009年的月均话费是否显著提高”,设定零假设为“H0:2009年和2008年的月均话费没有显著差别”,那么,备择假设应该选取为( )。
A.H1:跟2008年相比,2009年的月均话费有显著减少
B.H1:跟2008年相比,2009年的月均话费没有显著减少
C.H1:跟2008年相比,2009年的月均话费有显著增加
D.H1:跟2008年相比,2009年的月均话费没有显著增加
【答案】C
【解析】原假设与备择假设互斥,肯定原假设,意味着放弃备择假设;否定原假设,意味着接受备择假设。由于假设检验是围绕着对原假设是否成立而展开的,所以有些文献上也把备择假设称为替换假设,表明当原假设不成立时的替换。根据定义可知备择假设H1为:跟2008年相比,2009年的月均话费有显著增加。
15X1,X2,…,Xn为独立同分布的随机样本,设统计量T(X1,X2,…,Xn)为μ=E(X)的无偏估计量。下面哪项指标小,表示用该统计量估计均值μ的可靠性好?( )
A.var[T(X1,X2,…,Xn)]
B.E[T(X1,X2,…,Xn)]
C.var(X)
D.max{X1,X2,…,Xn}-min{X1,X2,…,Xn}
【答案】A
【解析】统计量的可靠性即指有效性,有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。设θ1,θ2都是θ的无偏估计量,且Var(θ1)≤Var(θ2),θ1,θ2∈Θ,则称θ1比θ2更有效。故选用统计量T(X1,X2,…,Xn)的方差。
16考虑关于两个正态总体的均值μ1与μ2的假设检验,经常用到的零假设为( )。
A.H0:μ1+μ2=0
B.H0:μ1-μ2=0
C.H0:μ1×μ2=0
D.H0:μ1÷μ2=0
【答案】B
【解析】关于两个正态总体的均值μ1与μ2的假设检验,经常需要检验的是两个均值是否相等,所以用到的零假设为μ1-μ2=0。
17设{Xt}是平稳时间序列,则下面陈述不正确的是( )。
A.t时刻的均值E(Xt)不依赖t
B.t时刻的方差Var(Xt)不依赖t
C.t时刻与s(s≠t)时刻的协方差cov(Xt,Xs)不依赖t,也不依赖s
D.t时刻与s时刻的协方差与t+1,s+1时刻的协方差相等,即Cov(Xt,Xs)=Cov(Xt+1,Xs+1)
【答案】C
【解析】如果时间序列{Xi}满足如下三个条件,则称{Xi}为平稳时间序列。①任取t∈T,有E(Xt)=μ,μ为常数;②任取t∈T,有E(Xt2)<∞;③任取t,s,k∈T,且k+s-t∈T,则Cov(Xt,Xs)=Cov(Xk,Xk+s-t),Var(Xt)=Var(Xt-s)=σ2。
18假设检验中,若零假设是简单的,则显著性水平α指( )。
A.犯第一类错误的概率
B.犯第二类错误的概率
C.置信水平
D.P-值
【答案】A
【解析】假设检验遵循的原则是:在严格控制犯第一类错误概率的条件下,尽量控制犯第二类错误的概率。为了突出这个原则,把犯第一类错误的概率又称作为显著性水平α。
19在回归变量Y关于预测变量x的回归分析中,若以x为横坐标,y为纵坐标,绘散点图,最小二乘原则是指( )。
A.各点到直线的垂直距离的和最小
B.各点到X轴的纵向距离的平方和最小
C.各点到直线的垂直距离的平方和最小
D.各点到直线的纵向距离的平方和最小
【答案】D
【解析】最小二乘法也称为最小平方法,它是用最小化垂直方向的离差平方和来估计参数的方法,根据最小二乘法使∑(y-)2最小,故选D项。
20欲调查两变量X和Y的相互关系,收集一份数据作线性相关分析,经计算得到样本相关系数r=0.38,可以说( )。
A.X和Y无关,因r值较小
B.不能确定X和Y是否相关以及相关密切程度,因不知n的大小
C.虽然X和Y相关,但不能认为X和Y有因果关系
D.因r>0,可以认为X和Y存在线性相关关系
【答案】C
【解析】对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8时,可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。此外|r|→0说明两个变量之间的线性关系越弱;|r|→1说明两个变量之间的线性关系越强。r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。
21假设检验难免犯错误,以下论断中不正确的是( )。
A.第一类错误是指零假设成立时,拒绝零假设
B.第二类错误是指零假设不成立时,接受零假设
C.其他条件不变,显著性水平α定得越高,犯第一类错误的机会越小
D.其他条件不变,显著性水平α定得越高,犯第二类错误的机会越小
【答案】C
【解析】第一类错误是指原假设H0为真却被拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;第二类错误是指原假设为伪却没有被拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。如果减小α错误,就会增大犯β错误的机会;若减小β错误,也会增大犯α错误的机会。
22以回归方程Y=a+bX作相关分析与回归分析中,关于样本相关系数r与回归系数b,下列各项中哪项是正确的?( )
A.r>0时,b<0
B.r>0时,b>0
C.|r|=1时,|b|=1
D.|r|=1时,|b|=0
【答案】B
【解析】r>0说明y与x呈正线性相关关系,b表示的是直线的斜率,所以b>0。当|r|=1时,y的取值完全依赖于x,两者之间即为函数关系,此时b的取值不确定。
232×2的析因试验的方差分析中,若关于A、B两个因素的主效应分别做假设检验,结论均为拒绝零假设;并且,关于A、B两个因素的交互效应的假设检验结论为接受零假设,则可认为( )
A.因素A的效应依赖于因素B的水平
B.因素A的效应不依赖于因素B的水平
C.因素A的主效应与因素B的主效应相等
D.两个因素可舍二为一,采用单因素的方差分析
【答案】B
【解析】关于A,B两个因素的主效应的假设检验,结论均为拒绝原假设,表明因素A和B都对因变量有显著的影响。关于A、B两个因素的交互效应的假设检验结论为接受零假设,说明没有充分证据能证明因素A和因素B的交互作用对因变量存在显著影响,即A、B两个因素对因变量的影响是相互独立的,所以因素A的效应不依赖于因素B的水平,因素B的效应不依赖于因素A的水平。
24根据某地6至16岁学生近视情况的调查资料,反映患者的年龄分布可用( )。
A.线图
B.散点图
C.直方图
D.条形图
【答案】C
【解析】直方图是用来反映数据的分布直观形式,它的横坐标代表变量分组,纵坐标代表各变量值出现的频数。条形图是用来反映分类数据的,反映数值型数据一般用直方图;散点图反映两个变量间的关系;线图主要用来反映现象随时间变化的特征。
25设X1,X2…,Xn是来自正态总体N(μ,σ2)的一个随机样本,μ己知,定义三个统计量如下:
那么,下面论断中,哪一项成立?( )
A.S12是σ2的无偏估计
B.S2是σ的无偏估计
C.S3是σ的无偏估计
D.S32是σ2的无偏估计
【答案】D
【解析】根据方差定义可知E(Xi-μ)2=DXi=σ2,由于X1,X2…,Xn独立同分布,所以
26随机事件A,B,C中恰有两个事件发生的复合事件为( )。(这里,A∩B表示事件A与B都发生)
A.(A∩B)∪(A∩C)∪(B∩C)
B.
C.(A∩B∩)∪(A∩∩C)∪(∩B∩C)
D.(A∩∩)∪(∩∩C)∪(∩B∩)
【答案】C
【解析】恰有两个事件发生是指有两个事件发生、另一个事件不发生,把三种情况求并集即为答案,故选C项。
27已知P(A)=0.4,P(B)=0.25,P(A-B)=0.25,则P(A∪B)=( )。
A.0.4
B.0.5
C.0.6
D.0.65
【答案】B
【解析】对于任意两个事件A、B来说,B不一定包含于A,而AB一定包含于A,可知A-B=A-AB,则P(A-B)=P(A)-P(AB)。又因为P(AB)=P(A)-P(A-B)=0.4-0.25=0.15。所以P(A∪B)=P(A)+P(B)-P(AB)=0.4+0.25-0.15=0.5。
28某种动物活到25岁以上的概率为0.8,活到30岁的概率为0.4,则现年25岁的这种动物活到30岁以上的条件概率是( )。
A.0.76
B.0.5
C.0.4
D.0.32
【答案】B
【解析】记事件X为动物活的岁数。现年25岁的这种动物活到30岁以上的条件概率
29盒中有5个球,其中3个红球,2个黑球。从中不放回的取,每次一个,则取两次,每次都取到红球的概率为( )。
A.3/10
B.6/25
C.2/5
D.1/5
【答案】A
【解析】每次都取到红球的概率p=(3/5)×(2/4)=3/10。
30投资某项目的收益率R是随机变量,其分布见下表;某位投资者在该项目上投资1000元,他的预期收入和收入的方差分别为( )元和( )(元)2。
A.50,10
B.1050,10
C.1050,80
D.50,80
【答案】C
【解析】预期利润=1000×(4%×0.3+5%×0.5+6%×0.1+7%×0.1)=50(元);预期收入为1000+50=1050(元);预期收入的方差=(1000×4%-50)2×0.3+(1000×5%-50)2×0.5+(1000×6%-50)2×0.1+(1000×7%-50)2×0.1=80(元)2,所以C项正确。
二、简要回答下列问题(本题包括1~4题共4个小题,每题10分,共40分)
1下面两个统计图分别是对某数据集中y关于x的线性回归分析后的残差(Residuad)请指出这个回归分析所存在的问题,并提出解诀方案。
答:由残差图可知,两个变量之间可能为非线性关系。表明所选择的线性回归分析模型不合理,应该考虑选用非线性模型。处理非线性回归的基本方法是,通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理。假定根据理论或经验,已获得输出变量与输入变量之间的非线性表达式,但表达式的系数是未知的,要根据输入输出的n次观察结果来确定系数的值。按最小二乘法原理来求出系数值。
此外,残差连续的出现在横坐标轴的上面或下面,两个变量也可能存在正自相关问题,即线性回归模型扰动项的方差-协方差矩阵的非主对角线的元素不全为0,存在扰动项的自相关。可以采用DW检验,检验方程是否存在一阶自相关问题,或采用LM检验高阶自相关问题。如果存在自相关,可以采用可行广义最小二乘法(FGLS),或仍用OLS法,但使用方差-协方差矩阵的稳健估计值。
2考虑总体参数θ的估计量,简述无偏估计量与最小方差无偏估计量的定义。
答:(1)无偏性(unbiasedness)是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为θ,所选择的估计量为,如果E()=θ,则称为θ的无偏估计量。对于待估参数,不同的样本值就会得到不同的估计值。这样,要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,即希望估计量的均值应等于未知参数的真值,这就是无偏性的要求。
(2)最小方差无偏估计(UMVUE)是在无偏估计类中使均方误差达到最小的估计量,即在均方误差最小意义下的最优估计,它是在应用中人们希望寻求的一种估计量。设是θ的一个无偏估计量,若对于θ的任一方差存在的无偏估计量,都有
则称是θ的一致最小方差无偏估计。
3欲调查广州市初中学生的身高情况,随机抽取100名广州市初中学生,测量了身高。
1)用此例说明这几个统计概念,总体(population),样本(sample),参数(pammeter),统计量(statistics)。
2)请说明如何对这100例身高数据进行描述性统计分析。
答:(1)总体(population)是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。本例中的总体是广州市所有初中学生的身高。
样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。本例中的样本是随机抽取的100名广州市初中学生的身高,其中样本量为100。
参数(parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。本例中广州市所有初中学生的平均身高即是一个参数。
统计量(statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。随机抽取的100名广州市初中学生的平均身高即是一个统计量。
(2)所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。主要包括集中趋势的描述,可计算身高的均值、中位数和众数,也可采用箱线图直观的反映数据的集中趋势以及是否存在异常值;离散程度的描述,可计算身高的方差、变异系数、四分位差或极差,也可采用折线图或散点图等直观反映数据的离散程度;分布的偏态与峰度描述,可计算偏度和峰度值,或采用茎叶图或直方图直观的反映分布是否与正态分布或单峰偏态分布逼近。
4在投掷一枚均匀硬币进行打赌时,出现正面时投掷者赢5元,出现反面时输3元,记投掷者赢钱数为X。试写出此问题的样本空间Ω,以及随机变量X的定义和概率分布。
解:记赢钱数为X,ω为投掷后出现的两种结果,则样本空间为Ω={正面,反面},其中ω∈Ω,则ω的函数定义为:
则有P(X=-3)=P{出现反面}=1/2,P(X=5)=P{出现正面}=1/2
于是X的概率分布为:
三、计算与分析题(本题包括1~3题共3个小题,前两题每题20分,第三小题10分,共50分)
1一油漆制造商宣称,他们生产的一种新型乳胶漆的平均干燥时间为120分钟;为检验这一数值是否属实,从该种乳胶漆中随机抽出20罐做试验,发现它们的干燥时间(分钟)为:123,109,115,121,130,127,106,120,116,136,131,128,139,110,133,122,133,119,135,109;
1)假定干燥时间近似服从正态分布,在5%的显著性水平下,检验以上数据是否提供充分证据说明这种乳胶漆的平均干燥时间大于制造商宣称的120分钟,要求给出零假设、备择假设、检验统计量、检验结果。(经计算可知,样本平均值为123.1,样本标准差为10.0,自由度为19的t分布的0.05上侧分位数为1.729)
2)给出平均干燥时间μ的10%置信区间(要求给出枢轴量、置信区间的最后结果)
3)简述上述假设检验问题和置信区间问题的主要联系?
解:(1)由于干燥时间近似服从正态分布,总体方差未知,且样本量较小,所以采用t统计量。
建立单侧假设检验:H0:μ≤120;H1:μ>120
已知条件为:μ0≤120,=123.1,s=10.0,n=20,α=0.05。
因为显著性水平0.05,自由度为19的单侧临界值t0=1.729,而t<t0,样本统计量落在非拒绝域,故不能拒绝H0,即还不能充分证明这种乳胶漆的平均干燥时间大于制造商宣称的120分钟。
(2)由于总体方差未知,且样本量较小,所以采用t统计量。已知条件为:=123.1,s=10.0,n=20,α=0.1。枢轴量为
所以平均干燥时间μ的置信区间为:
即(119.2,127.0),即平均干燥时间μ的10%的置信区间为119.2分钟~127.0分钟。
(3)假设检验问题和置信区间问题的主要联系如下:
第一,区间估计与假设检验都是根据样本信息对总体参数进行推断,都是以抽样分布为理论依据,都是建立在概率基础上的推断,推断结果都有一定的可信度或风险;
第二,对同一问题的参数进行推断,二者使用同一样本、同一统计量、同一分布,因而二者可以相互转换。区间估计问题可以转换成假设检验问题,假设检验问题也可以转换成区间估计问题。区间估计中的置信区间对应于假设检验中的接受域,置信区间以外的区域对应于假设检验中的拒绝域。
2欲调查噪声强度对学生完成作业的准确度的影响,随机抽取了15名学生,分配到低噪声组,中噪声组,高噪声组中,得到准确度均数与方差如下表:
样本平均
样本方差
附:分子自由度为df1,分母自由度为df2的α=0.05对应的F界值表
1)计算完成方差分析表,并说明噪声强度能解释作业准确度的变异的比例。
2)用α=0.05的显著性水平,分析噪声强度对作业准确度是否有影响。
3)要具体确定低噪声组与中噪声组间的准确度是否有差异,怎样分析(不需计算)。
解:(1)①计算全部观测值的总均值:
②计算各误差平方和:
组间平方和:
组内平方和:
总平方和:SST=SSA+SSE=1290+567=1857
③
方差分析表如下所示:
R2=SSA/SST=1290/1857≈69%
即噪声强度能解释作业准确度的变异的比例为69%。
(2)从方差分析表可以看到,由于F=13.65>F0.05(2,12)=3.88,所以拒绝原假设H0,表明不同噪声组之间的差异是显著的,即噪声对学生完成作业的准确度有影响。
(3)可以对低噪声组与中噪声组进行两个总体均值是否相等的检验,看它们是否存在显著差异。在一定的置信水平下,若两个总体均为正态总体,但总体方差未知,可构造t检验统计量;若两个总体非正态,但样本量足够大,可构造Z检验统计量。
3某公司的一种设备从甲、乙、丙三个厂进货。甲、乙、丙三厂的进货比例分别占30%,20%和50%,甲、乙、丙三厂生产的设备的次品率分别为3%,3%和2%。
(1)现从这批进货中任取一件,求取到的设备是次品的概率;
(2)经检验发现取到的设备是次品,求该设备是丙厂生产的概率。
解:(1)记事件A1、A2、A3分别表示“产品来自甲、乙、丙厂”,事件B为取到次品。根据全概率公式可得
所以,从这批进货中任取一件,取到设备是次品的概率为2.5%。
(2)根据贝叶斯公式:P(A3|B)=P(A3)P(B|A3)/P(B)=50%×2%/2.5%=40%,即,经检验发现取到的设备是次品,则该设备是丙厂生产的概率为40%。