一、考情分析
概率统计在高考中扮演着很重要的角色,概率统计解答题是全国卷及多数省市高考数学必考内容,内容主要涉及古典概型、相互独立事件的概率、条件概率、二项分布、正态分布、频率分布直方图、回归分析、离散型随机变量的分布列、期望与方差的实际应用等.回顾近几年的高考试题,可以看出概率统计解答题,大多紧密结合社会实际,以现实生活为背景设置试题,注重知识的综合应用与实际应用,作为考查实践能力的重要载体,命题者要求考生会收集、整理、分析数据,能从大量数据中抽取对研究问题有用的信息,建立数学模型,再应用数学原理和数学工具解决实际问题.该类问题阅读量一般比较大,但难度多为中等或中等偏易. 二、经验分享
(1)明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积和为1. 利用分布列中各概率之和为1可求参数的值,此时要注意检验,以保证每个概率值均为非负数.对于统计图表类题目,最重要的是认真观察图表,从中提炼有用的信息和数据.
(2)随机变量的均值反映了随机变量取值的平均水平,方差反映了随机变量稳定于均值的程度,它们从整体和全局上刻画了随机变量,是生产实际中用于方案取舍的重要理论依据.一般先比较均值,若均值相同,再用方差来决定.
(3)解决正态分布问题有三个关键点:(1)对称轴x=μ;(2)标准差σ;(3)分布区间.利用对称性可求指定范围内的概率值;由μ,σ,分布区间的特征进行转化,使分布区间转化为3σ特殊区间,从而求出所求概率.注意只有在标准正态分布下对称轴才为x=0. (4)判定两个变量正、负相关性的方法
①画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
②相关系数:r>0时,正相关;r<0时,负相关.
^
^
③线性回归方程中:b >0时,正相关;b <0时,负相关.
(5) 回归分析是处理变量相关关系的一种数学方法.主要解决:①确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;② 根据一组观测值,预测变量的取值及判断变量取值的变化趋势;③ 求出线性回归方程.线性回归分析问题的类型及解题方法 ①求线性回归方程
^
利用公式,求出回归系数b,或待定系数法:利用回归直线过样本点的中心求系数.
②利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
^
③利用回归直线判断正、负相关;决定正相关还是负相关的是系数b.
(6)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强. (7)比较几个分类变量有关联的可能性大小的方法
①通过计算K的大小判断:K越大,两变量有关联的可能性越大.
②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大. (8)独立性检验的一般步骤 ①根据样本数据制成2×2列联表. ②根据公式计算K的观测值k.
③比较k与临界值的大小关系,作统计推断. 三、知识拓展 四、题型分析
(一) 期望与方差的应用
数学期望反应的是随机变量取值的平均水平,而方差则是反应随机变量取值在其平均值附近的离散程度.现代实际生活中,越来越多的决策需要应用数学期望与方差这思想来对事件发生大小的可能性进行评估,通过计算分析可以比较科学地得出各个方案的预期效果及出现偏差的大小,从而决定要选择的最佳方案.品种的优劣、仪器的好坏、预报的准确与否等很多问题都与这两个特征两量有关.
(1)若我们希望实际的平均水平较理想,则先求随机变量1,2的期望,当E1E2时,不应认为它们一定一样好,需要用D1,D2来比较这两个随机变量的方差,确定它们的偏离程度. (2)若我们希望比较稳定性,应先考虑方差,再考虑均值是否相等或接近.
【例1】例3.7(2018新课标I卷理20)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验,设每件产品为不合格品的概率都为件产品是否为不合格品相互独立.
(1)记20件产品中恰有2件不合格品的概率为
,求
的最大值点.
,且各
2
2
2
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的作为的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用. (i)若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为,求
;
(ii)以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验? 【分析】 利用独立重复实验成功次数对应的概率,求得定其单调性,再求最大值点,注意(2)先根据第一问的条件,确定出
;
,在解(i)的时候,先求件数对应的期望,之后应用变量之间的关
,之后对其求导,利用导数确
系,求得赔偿费用的期望;在解(ii)的时候,就通过比较两个期望的大小,得到结果. 【解析】 (1)20件产品中恰有2件不合格品的概率为
.
令所以
,得
.当
. .
,
,即
时,
;当
时,
. .因此
的最大值点为
(2)由(1)知,
(i)令表示余下的180件产品中的不合格品件数,依题意知
.所以
.
(ii)如果对余下的产品作检验,则这一箱产品所需要的检验费为400元. 由于
,故应该对余下的产品作检验.
【点评】随机变量的均值反映了随机变量取值的平均水平,方差反映了随机变量稳定于均值的程度,它们从整体和全局上刻画了随机变量,是生产实际中用于方案取舍的重要理论依据.一般先比较均值,若均值相同,再用方差来决定.
【小试牛刀】【广东省江门市2019届第一次模拟】甲、乙两家外卖公司,其送餐员的日工资方案如下:甲公司的底薪
元,每单提成元;乙公司无底薪,
单以内(含
单)的部分每单提成元,大于
单的部
分每单提成元,假设同一公司送餐员一天的送餐单数相同,现从两家公司各随机抽取一名送餐员,并分别记录其
天的送餐单数,得到如下频数表:
甲公司送餐员送餐单数频数表
乙公司送餐员送餐单数频数表
(1)若将大于单的工作日称为“繁忙日”,根据以上频数表能否在犯错误的概率不超过的前提下认
为“繁忙日”与公司有关?
(2)若将频率视为概率,回答下列两个问题:①记乙公司送餐员日工资为(单位:元),求的分布列和数学期望;②小王打算到甲、乙两家公司中的一家应聘,你会推荐小王去哪家?为什么? 参考公式和数据:
【解析】
(1)依题意得,公司与“繁忙日”列联表
,
,所以,能在犯错误的概率不超过
(2)①设乙公司送餐员送餐单数为,则当时,
,当
时,、
、
、
、
的前提下认为“繁忙日”与公司有关 . 时,
,当
,的分布列为:
,当
时,时,
,当
.
所以,的所有可能取值为
.
②依题意,甲公司送餐员日平均送餐单数为
,
所以甲公司送餐员日平均工资为因为
(元),
,故从更高收入角度考虑推荐小王去乙公司应聘;因为乙公司比甲公司繁忙,故从工作闲
适角度考虑推荐小王去甲公司应聘. (二)正态分布的应用
正态分布随处可见,处处显现着他神秘的身影.对于某一件事或者某个要达到的目标,很多很多的个体发挥出来的水平大致上服从正态分布.也就是说,对于大量个体的发挥统计,常常能看到正态分布“冥冥之中”束缚着整体的状态. 对于某个单独的单位,一般来说,对于“发挥出来的水平”这件事,也往往有波动的效果,不管是机器、工具还是我们人本身:有的时候,超水平发挥了;有的时候正常发挥;有的时候又会发挥失常.这种东西应该也可以抽象为围绕期望水平的正态分布. 而对于若干数据,包括发挥水平、排位情况,但是没有整体数据的时候,如果能推测是正态分布的情形,就可以近似计算出分布函数来,然后去估计其他的分布情况.这是反向推导的过程. 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述.例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等.
【例2】为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N,2.
–3,3之外的零件数,求
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在
PX…1及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在
–3,3之外的零件,就认为这条生产线在这一天的生
产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)试说明上述监控生产过程方法的合理性; (ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
9.95 10.12 9.96
9.96 10.01 9.92
9.98 10.04
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
11611611622xi9.97,s经计算得x(xix)(xi16x2)0.212,其中xi为抽取的第i16i116i116i1个零件的尺寸,i1,2,,16. 用样本平均数
ˆx作为的估计值ˆ,利用估计值判断是否需对当天,用样本标准差s作为的估计值(精确到0.01).
的生产过程进行检查?剔除附
:
若
随
机
ˆ3ˆ,ˆ3ˆ之外的数据,用剩下的数据估计和变
量
Z服从正态分布
N,2,则
P–3Z30.9974,0.9974160.9592,0.0080.09.
0.0026,再利用EXnp求期望;(2)(i)判断监控生产过程的方法是【分析】 (1)先确定X~B16,3之外概率的大小判断,(ii)剔除异常数否合理,可通过一天内抽取的16个零件中,尺寸落3,据,在利用公式求和.
3之内的概率为0.9974,落在3,3之外的概率【解析】 (1)由题可知尺寸落在3,为0.0026.PX0C1610.99740.99740.9592,
0160PX…11PX010.95920.0408,
0.0026,所以EX160.00260.0416. 由题可知X~B16,3之外的概率为0.0026,由正态分布知尺寸落3,3之外为小(2)(i)尺寸落在3,概率事件,因此上述监控生产过程的方法合理.
(ii)39.9730.2129.334,39.9730.21210.606,
10.606,因为9.229.334,10.606, 3,39.334,所以需对当天的生产过程检查. 因此剔除9.22,剔除数据之后:29.97169.2210.02.
1522222[9.9510.0210.1210.029.9610.029.9610.0210.0110.02
9.9210.029.9810.0210.0410.0210.2610.029.9110.02222222222
210.1310.0210.0210.0210.0410.0210.0510.029.9510.02所以0.0080.09.
]10.008. 15【点评】正态分布是概率统计中相对较独立的一个考点,且已经从冷点转化为热点,求解此类问题,一般从
,入手,对于应用问题,要注意从较大的阅读量中提取有用的信息.以下两类问题是正态分布中的基本问
题:
(1)利用正态分布密度曲线的对称性研究相关概率问题,涉及的知识主要是正态曲线关于直线x=μ对称,及曲线与x轴之间的面积为1.
(2)利用3σ原则求概率问题时,要注意把给出的区间或范围与正态变量的μ,σ进行对比联系,确定它们属于(μ-σ,μ+σ),(μ-2σ,μ+2σ),(μ-3σ,μ+3σ)中的哪一个.
【小试牛刀】【山东省济宁市2019届高三第一次模拟】某学校为了了解全校学生的体重情况,从全校学生中随机抽取了100人的体重数据,结果这100人的体重全部介于45公斤到75公斤之间,现将结果按如下方式分为6组:第一组[45,50),第二组[50,55),…,第六组[70,75),得到如下图(1)所示的频率分布直方图,并发现这100人中,其体重低于55公斤的有15人,这15人体重数据的茎叶图如图(2)所示,以样本的频率作为总体的概率.
(I)求频率分布直方图中的值;
(II)从全校学生中随机抽取3名学生,记X为体重在[55,65)的人数,求X的概率分布列和数学期望; (III)由频率分布直方图可以认为,该校学生的体重近似服从正态分布
,其中
若
,则认为该校学生的体重是正常的.试判断该校学生的体重是否正常?并
说明理由. 【解析】
解:(Ⅰ)由图(2)知,100名样本中体重低于50公斤的有2人, 用样本的频率估计总体的概率,可得体重低于50公斤的概率为则在所以
,
上有13人,该组的频率为0.13,则
,即c=0.07.
的概率为
,
,
(Ⅱ)用样本的频率估计总体的概率,可知从全体学生中随机抽取一人,体重在
0.07×10=0.7,随机抽取3人,相当于三次独立重复试验,随机变量X服从二项分布则
, , , ,
所以,X的概率分布列为: X P 0 0.027 1 0.189 2 0.441 3 0.343 ,
E(X)=3×0.7=2.1 (Ⅲ)由N(60,25)得由图(2)知
所以可以认为该校学生的体重是正常的. (三) 用样本估计总体
频率分布直方图是高考考查的热点,考查频率很高,题型有选择题、填空题,也有解答题,难度为低中档.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.
【例3】2018年9月的台风“山竹”对我国多个省市的财产造成重大损害,据统计直接经济损失达某青年志愿者组织调查了某地区的组:
,
,
亿元.
.
个农户在该次台风中造成的直接经济损失,将收集的损失数据分成五
,
,
(单位:元),得到如图所示的频率
分布直方图.
(1)试根据频率分布直方图估计该地区每个农户的损失(同一组中的数据用该区间的中点值代表); (2)台风后该青年志愿者与当地政府向社会发出倡议,为该地区的农户捐款帮扶,现从这元的农户中随机抽取户进行重点帮扶,设抽出损失超过
户损失超过
元的农户数为,求的分布列和数学期望.
【分析】(1)根据频率分布直方图计算每个农户的平均损失;
(2)根据频率分布直方图计算随机变量X的可能取值,再求X的分布列和数学期望值. 【解析】(1)记每个农户的平均损失为元,则
;
(2)由频率分布直方图,可得损失超过1000元的农户共有(0.00009+0.00003+0.00003)×2000×50=15(户),损失超过8000元的农户共有0.00003×2000×50=3(户), 随机抽取2户,则X的可能取值为0,1,2; 计算P(X=0)=
=
,
P(X=1)==,
P(X=2)==,
所以X的分布列为; X P 数学期望为E(X)=0×
+1×
+2×
=.
0 1 2 【点评】用样本估计总体是统计的基本思想,而利用频率分布表和频率分布直方图来估计总体则是用样本
的频率分布去估计总体分布的两种主要方法.分布表在数量表示上比较准确,直方图比较直观. 【小试牛刀】中国农业银行开始为全国农行ATM机安装刷脸取款系统.某农行营业点为调查居民对刷脸取款知识的了解情况,制作了刷脸取款知识有奖调查问卷,发放给2018年度该行的所有客户,并从参与调查且年龄(单位:岁)在[25,55]内的客户中随机抽取100名给予物质奖励,再从中选出一名客户参加幸运大抽奖.调查结果按年龄分成6组,制作成如下的频数分布表和女客户的年龄茎叶图,其中a∶b∶c=2∶4∶5. 年龄/岁 频数/人 女客户的年龄茎叶图
5 [25,30) [30,35) [35,40) [40,45) [45,50) [50,55] a b c 15 25
幸运大抽奖方案如下:客户最多有两次抽奖机会,每次抽奖的中奖率均为,第一次抽奖,若未中奖,则抽奖结束.若中奖,则通过抛掷一枚质地均匀的硬币,决定是否继续进行第二次抽奖.规定:抛出的硬币,若反面朝上,则客户获得5000元奖金,不进行第二次抽奖;若正面朝上,客户需进行第二次抽奖,且在第二次抽奖中,如果中奖,则获得奖金10000元,如果未中奖,则所获得的奖金为0元.
(1)求a,b,c的值,若分别从男、女客户中随机选取1人,求这2人的年龄均在[40,45)内的概率; (2)若参加幸运大抽奖的客户所获奖金(单位:元)用X表示,求X的分布列与数学期望E(X). 【解析】(1)由频数分布表知,a+b+c=100-45=55. 因为a∶b∶c=2∶4∶5, 所以a=
×55=10,b=
×55=20,c=
×55=25,由茎叶图可知年龄在[25,30)内的女客户有2人,年龄在
[30,35)内的女客户有4人,年龄在[35,40)内的女客户有8人,年龄在[40,45)内的女客户有10人,年龄在[45,50)内的女客户有6人,年龄在[50,55]内的女客户有10人,
故年龄在[40,45)内的男客户有15人,在100名客户中,男客户有60人,女客户有40人,所以从男客户中随机选取1人,年龄恰在[40,45)内的概率P1=
,
,
.
从女客户中随机选取1人,年龄恰在[40,45)内的概率P2=
则分别从男、女客户中随机选取1人,这2人的年龄均在[40,45)内的概率P=P1×P2=(2)由题意可知,X的所有可能取值为0,5000,10000,则
P(X=0)=P(X=5000)=P(X=10000)=X的分布列为 X 0 5 000 ,
,
.
10 000 P E(X)=0×+5000×+10000×=5200(元).
(四) 回归分析
回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则无意义.根据回归方程进行的估计仅是一个预测值,而不是真实发生的值. ^^^^
用最小二乘法求回归方程,关键在于正确求出系数a,b,由于a,b的计算量较大,计算应仔细小心. 【例4】【湖北省黄冈市2019届模拟】某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该基地周光照量(小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量(千克)与使用某种液体肥料的质量(千克)之间的关系如图所示.
(1)依据上图,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(精确到0.01).(若
,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量限制,并有如下关系: 周光照量(单位:小时) 光照控制仪运行台数 3 2 1 若某台光照控制仪运行,则该台光照控制仪周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台? 附:相关系数公式参考数据:
,
.
,
【分析】(1)根据公式得到相关系数的值,通过比较得到判断;(2)分别求出安装一台,两台,三台时的利润均值,得到结果. 【解析】(1)由已知数据可得∵
, . ,
,
.
∴相关系数∵
.
,∴可用线性回归模型拟合与的关系.
(2)记商家周总利润为元,由条件可知至少需安装1台,最多安装3台光照控制仪. ①安装1台光照控制仪可获得周总利润3000元. ②安装2台光照控制仪的情形: 当
时,只有1台光照控制仪运行,此时周总利润
,
当
时,2台光照控制仪都运行,此时周总利润
(元), (元),
,
故的分布列为 ∴
③安装3台光照控制仪的情形: 当
时,只有1台光照控制仪运行,
(元),
,
当
时,有2台光照控制仪运行,此时周总利润
,
当周总利润
,
故的分布列为 ∴
1000 0.2 5000 0.7 (元).
9000 0.1 时,3台光照控制仪都运行,
(元),
(元),
2000 0.2 (元).
6000 0.8 此时周总利润
综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.
【点评】判断两个变量是否具有相关关系的常用方法:(1)利用散点图进行判断;(2)利用相关系数r进行判断.
【小试牛刀】【江西省临川第一中学等九校2019届高三3月联考】某商场营销人员进行某商品市场营销调查发现,每回馈消费者一定的点数,该商品每天的销量就会发生一定的变化,经过试点统计得到以下表: 反馈点数 销量(百件)/天 1 0.5 2 0.6 3 1 4 1.4 5 1.7 (1)经分析发现,可用线性回归模型拟合当地该商品销量(千件)与返还点数之间的相关关系.请用最小
二乘法求关于的线性回归方程,并预测若返回6个点时该商品当天销量;
(2)若节日期间营销部对商品进行新一轮调整.已知某地拟购买该商品的消费群体十分庞大,经营销调研机构对其中的200名消费者的返点数额的心理预期值进行了一个抽样调查,得到如下一份频数表: 返还点数预期值区间(百分比) 频数 20 60 60 30 20 10 (i)求这200位拟购买该商品的消费者对返点点数的心理预期值的样本平均数及中位数的估计值(同一区间的预期值可用该区间的中点值代替;估计值精确到0.1); (ii)将对返点点数的心理预期值在
和
的消费者分别定义为“欲望紧缩型”消费者和“欲望膨
胀型”消费者,现采用分层抽样的方法从位于这两个区间的30名消费者中随机抽取6名,再从这6人中随机抽取3名进行跟踪调查,设抽出的3人中“欲望膨胀型”消费者的人数为随机变量,求的分布列及数学期望.
参考公式及数据:①【解析】 (1)易知
,
,
.
则关于的线性回归方程为百件.
(2)(i)根据题意,这200位拟购买该商品的消费者对返回点数的心里预期值的平均值,及中位数的估计值分别为:
.
(ii)抽取6名消费者中“欲望紧缩型”消费者人数为
,“欲望膨胀型”消费者人数为
.
,中位数的估计值为
,当
时,
,即返回6个点时该商品每天销量约为2
,
,
,
;②
.
,
故随机变量的分布列为
,,
.
(五) 独立性检验 独立性检验的一般步骤
1 2 3 (1)假设两个分类变量x与y没有关系;(2)计算出K的观测值,其中
n(ad-bc)
22
K=(a+b)(c+d)(a+c)(b+d);(3)把K的值与临界值比较,作出合理的判断. 【例5】【福建省莆田市2019届高三下学期教学质量检测】为推进“千村百镇计划”,公司开展“电动莆田绿色出行”活动,首批投放
年月某新能源
2
2
台型新能源车到莆田多个村镇,供当地村民免费试用
三个月。试用到期后,为了解男女试用者对型新能源车性能的评价情况,该公司要求每位试用者填写一份性能综合评分表(满分为的评分表各
分)。最后该公司共收回有效评分表
份,现从中随机抽取
份(其中男、女
份)作为样本,经统计得到如下茎叶图:
(1)求(2)已知
个样本数据的中位数; 个样本数据的平均数
,记与的最大值为。该公司规定样本中试用者的“认定类型”:
评分不小于的为“满意型”,评分小于的为“需改进型”。 ①请以②请根据
个样本数据的频率分布来估计收回的个样本数据,完成下面
列联表:
份评分表中,评分小于的份数;
根据列联表判断能否有99%的把握认为“认定类型”与性别有关?
【分析】(1)取位于中间两个数,计算平均数,即可。(2)结合茎叶图,完善列联表,计算卡方值,判断,即可。 【解析】 (1)由茎叶图知
(2)因为m=81,a=80,所以M=81。
①由茎叶图知,女性试用者评分不小于81的有15个,男性试用者评分不小于81的有5个, 所以在40个样本数据中,评分不小于81的频率为
可以估计收回的600份评分表中,评分不小于81的份数为600×0.5=300; ②根据题意得2×2列联表: 女性 男性 合计 由于查表得
,
满意型 15 5 20 需改进型 5 15 20 ,
合计 20 20 40 所以有99%的把握认为“认定类型”与性别有关。
【点评】(1)在列联表中注意事件的对应及相关值的确定,不可混淆.(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.(3)对判断结果进行描述时,注意对象的选取要准确无误,应是对假设结论进行的含概率的判断,而非其他.
【小试牛刀】【重庆市第一中学校2019届高三3月月考】党的十九大报告中多次出现的“绿色”“低碳”“节约”等词语,正在走入百姓生活,绿色出行的理念已深入人心,骑自行车或步行渐渐成为市民的一种出行习惯.某市环保机构随机抽查统计了该市1800名成年市民某月骑车次数在各区间的人数,统计如下表: 次数 年龄 18岁至31岁 8 32岁至44岁 12 45岁至59岁 25 60岁及以上 25 12 28 50 10 20 20 80 10 60 140 100 19 140 60 225 4 150 150 450 2 [0,10) [10,20) [20,30) [30,40) [40,50) [50,60) 联合国世界卫生组织于2013年确定新的年龄分段:44岁及以下为青年人,45岁至59岁为中年人,60岁及以上为老人.
(1)若从被抽查的该月骑车次数在月骑车次数在
的老年人中随机选出两名幸运者给予奖励,求其中一名幸运者该
之间的概率;
之间,另一名幸运者该月骑车次数在
(2)若月骑车次数不少于30次者被称为“骑行爱好者”,将上面提供的数据进行统计后,把答卷中的列联表补充完整,并计算说明能否在犯错误不超过0.001的前提下认为“骑行爱好者”与“青年人”有关? 参考数据:
0.100 2.706 ,其中
【解析】
(1)将6位老人分别记为
和
,则所有的抽法有:
0.050 3.841
0.025 5.024 0.010 6.635 0.001 10.828 ,15种,
,,,,,,,,,,,,,共
其中满足条件的抽法有:
,
,
,
,
,
,
,
共8种,
之间的概率为
.
故其中一名幸运者该月骑车次数在(2)根据题意,得出如下
列联表 骑行 爱好者 青年人 非青年人 总计 ∴
700 800 1500 之间,另一名幸运者该月骑车次数在
非骑行爱好者 总计 100 200 300 ,
800 1000 1800 故能在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关. 四、迁移运用
1.【辽宁省大连市2019届高三下学期第一次测试】随着电子阅读的普及,传统纸质媒体遭受到了强烈的冲击.某杂志社近9年来的纸质广告收入如下表所示:
根据这9年的数据,对和作线性相关性检验,求得样本相关系数的绝对值为0.243; 根据后5年的数据,对和作线性相关性检验,求得样本相关系数的绝对值为0.984. (1)如果要用线性回归方程预测该杂志社2019年的纸质广告收入,现在有两个方案, 方案一:选取这9年数据进行预测,方案二:选取后5年数据进行预测. 从实际生活背景以及线性相关性检验的角度分析,你觉得哪个方案更合适? 附:相关性检验的临界值表:
(2)某购物网站同时销售某本畅销书籍的纸质版本和电子书,据统计,在该网站购买该书籍的大量读者中,只购买电子书的读者比例为
,纸质版本和电子书同时购买的读者比例为
,现用此统计结果作为概率,
若从上述读者中随机调查了3位,求购买电子书人数多于只购买纸质版本人数的概率. 【解析】
(1)选取方案二更合适,理由如下:
①题中介绍了,随着电子阅读的普及,传统纸媒受到了强烈的冲击,从表格中的数据中可以看出从2014年开始,广告收入呈现逐年下降的趋势,可以预见,2019年的纸质广告收入会接着下跌,前四年的增长趋势已经不能作为预测后续数据的依据. ②相关系数
越接近1,线性相关性越强,因为根据9年的数据得到的相关系数的绝对值
,我
,所以有
们没有理由认为与具有线性相关关系;而后5年的数据得到的相关系数的绝对值的把握认为与具有线性相关关系.
(2) 因为在该网站购买该书籍的大量读者中,只购买电子书的读者比例为的读者比例为
,纸质版本和电子书同时购买
,只
,所以从该网站购买该书籍的大量读者中任取一位,购买电子书的概率为
购买纸质书的概率为, 购买电子书人数多于只购买纸质书人数有两种情况:3人购买电子书,2人购买电子书一人只购买纸质书.概率为:
.
2.【黑龙江省齐齐哈尔市2019届高三第一次模拟】中学为研究学生的身体素质与体育锻炼时间的关系,对该校200名高三学生平均每天体育锻炼时间进行调查,如表:(平均每天锻炼的时间单位:分钟) 平均每天锻炼的时间/分钟 总人数 将学生日均体育锻炼时间在
20 36 44 50 40 10 的学生评价为“锻炼达标”.
列联表; 锻炼达标 合计 (1)请根据上述表格中的统计数据填写下面的 锻炼不达标 男 女 合计 20 110 并通过计算判断,是否能在犯错误的概率不超过0.025的前提下认为“锻炼达标”与性别有关? (2)在“锻炼达标”的学生中,按男女用分层抽样方法抽出10人,进行体育锻炼体会交流, (i)求这10人中,男生、女生各有多少人?
(ii)从参加体会交流的10人中,随机选出2人作重点发言,记这2人中女生的人数为,求的分布列和数学期望. 参考公式:临界值表
0.10 0.05 0.025 0.010 ,其中
.
【解析】 (1) 男 女 合计 由
2.706 3.841 5.024 6.635 锻炼不达标 60 90 150 列联表中数据,计算得到
的观测值为
锻炼达标 30 20 50
合计 90 110 200 .
所以在犯错误的概率不超过0.025的前提下能判断“锻炼达标”与性别有关. (2)(i)“锻炼达标”的学生有50人,男、女生人数比为6人,女生有4人.
(ii)的可能取值为0,1,2;
,
,故用分层抽样方法从中抽出10人,男生有
,
,
∴的分布列为 ∴的数学期望
0 .
1 2 3.【江西省南昌市2019届高三第一次模拟】市面上有某品牌型和型两种节能灯,假定型节能灯使用寿命都超过5000小时,经销商对型节能灯使用寿命进行了调查统计,得到如下频率分布直方图:
某商家因原店面需要重新装修,需租赁一家新店面进行周转,合约期一年.新店面需安装该品牌节能灯5支(同种型号)即可正常营业.经了解,型20瓦和型55瓦的两种节能灯照明效果相当,都适合安装.已知型和型节能灯每支的价格分别为120元、25元,当地商业电价为0.75元/千瓦时.假定该店面一年周转期的照明时间为3600小时,若正常营业期间灯坏了立即购买同型灯管更换.(用频率估计概率) (Ⅰ)根据频率直方图估算型节能灯的平均使用寿命;
(Ⅱ)根据统计知识知,若一支灯管一年内需要更换的概率为,那么支灯管估计需要更换新店面全部安装了型节能灯,试估计一年内需更换的支数;
(Ⅲ)若只考虑灯的成本和消耗电费,你认为该商家应选择哪种型号的节能灯,请说明理由. 【解析】
(Ⅰ)由图可知,各组中值依次为能灯的平均使用寿命为
(Ⅱ)由图可知,使用寿命不超过
小时的频率为
,对应的频率依次为
小时.
,将频率视为概率,每支灯管需要更换的概率为
,故
型节
支.若该商家
,故估计一年内支(Ⅲ)若选择若选择因为
型节能灯需更换的支数为.
元; 元.
型节能灯,一年共需花费
型节能灯,一年共需花费
,所以该商家应选择A型节能灯.
4.【山东省潍坊市2019届高三一模】某水果种植基地引进一种新水果品种,经研究发现该水果每株的产量(单位:
)和与它“相近”的株数具有线性相关关系(两株作物“相近”是指它们的直线距离不超过
),并分别记录了相近株数为0,1,2,3,4时每株产量的相关数据如下: 0 15 1 12 2 11 3 9 4 8 (1)求出该种水果每株的产量关于它“相近”株数的回归方程;
(2)该种植基地在如图所示的长方形地块的每个格点(横纵直线的交点)处都种了一株该种水果,其中每个小正方形的面积都为量的平均数. 附:回归方程
中斜率和截距的最小二乘法估计公式分别为:
,
.
,现从所种的该水果中随机选取一株,试根据(1)中的回归方程,预测它的产
【解析】 (1)由题意得:
,
,
,
所以
,
,
,
所以.
(2)由回归方程得: 当当当
时,时,时,
, , ,
. .
故平均数为:
所以一株产量的平均数为
5.【贵州省贵阳市普通中学2019届高三年级第一学期期末】如今我们的互联网生活日益丰富,除了可以很方便地网购,网络外卖也开始成为不少人日常生活中不可或缺的一部分市某调查机构针对该市市场占有率最高的两种网络外卖企业以下简称外卖A、外卖的服务质量进行了调查,从使用过这两种外卖服务的市民中随机抽取了1000人,每人分别对这两家外卖企业评分,满分均为100分,并将分数分成5组,得到以下频数分布表: 分数 人数 种类 外卖A 外卖B 50 100 150 100 100 300 400 200 300 300 表中得分越高,说明市民对网络外卖服务越满意若得分不低于60分,则表明该市民对网络外卖服务质量评价较高现将分数按“服务质量指标”划分成以下四个档次: 分数 服务质量指标 0 1 2 3 视频率为概率,解决下列问题:
从该市使用过外卖A的市民中任选5人,记对外卖A服务质量评价较高的人数为X,求X的数学期望. 从参与调查的市民中随机抽取1人,试求其评分中外卖A的“服务质量指标”与外卖B的“服务质量指标”的差的绝对值等于2的概率;
在M市工作的小王决定从外卖A、外卖B这两种网络外卖中选择一种长期使用,如果从这两种外卖的“服
务质量指标”的期望角度看,他选择哪种外卖更合适?试说明理由. 【解析】
对外卖A服务质量评价较高的概率从该市使用过外卖A的市民中任选5人, 记对外卖A服务质量评价较高的人数为X, 则
,
的数学期望
.
,
从参与调查的市民中随机抽取1人,
其评分中外卖A的“服务质量指标”与外卖B的“服务质量指标”的差的绝对值等于2的概率:
.
, ,
,
的服务质量指标的期望高于B,故选外卖A更合适.
6.【陕西省汉中市重点中学2019届高三下学期3月联考】随着科技的发展,网购已经逐渐融入了人们的生活.在家里面不用出门就可以买到自己想要的东西,在网上付款即可,两三天就会送到自己的家门口,如果近的话当天买当天就能送到,或者第二天就能送到,所以网购是非常方便的购物方式.某公司组织统计了近五年来该公司网购的人数(单位:人)与时间(单位:年)的数据,列表如下: 1 24 2 27 3 41 4 64 5 79 (1)依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若附:相关系数公式
,则线性相关程度很高,可用线性回归模型拟合)
,参考数据
.
(2)某网购专营店为吸引顾客,特推出两种促销方案.
方案一:每满600元可减100元;
方案二:金额超过600元可抽奖三次,每次中奖的概率都为,且每次抽奖互不影响,中奖1次打9折,中奖2次打8折,中奖3次打7折.
①两位顾客都购买了1050元的产品,求至少有一名顾客选择方案二比选择方案一更优惠的概率; ②如果你打算购买1000元的产品,请从实际付款金额的数学期望的角度分析应该选择哪种优惠方案. 【解析】 (1)由题知
,
,
,
,
,
则
.
故与的线性相关程度很高,可用线性回归模型拟合.
(2)①选择方案二比方案一更优惠则需要至少中奖一次,设顾客没有中奖为事件, 则
故所求概率为
②若选择方案一,则需付款
,
.
(元),
若选择方案二,设付款元,则可能取值为700,800,900,1000.
;
; ; .
所以因为
,所以选择方案二更划算.
(元),
7.【福建省厦门市2019届高中毕业班第一次(3月)质量检查】某企业为确定下一年投入某种产品的研发费用,需了解年研发费用(单位:千万元)对年销售量(单位:千万件)的影响,统计了近10年投入的年研发费用与年销售量
的数据,得到散点图如图所示:
(1)利用散点图判断,和(其中为大于0的常数)哪一个更适合作为年研发费用和
年销售量的回归方程类型(只要给出判断即可,不必说明理由). (2)对数据作出如下处理:令
,
,得到相关统计量的值如下表:
根据(1)的判断结果及表中数据,求关于的回归方程; (3)已知企业年利润(单位:千万元)与
的关系为
(其中
),根据(2)的结
果,要使得该企业下一年的年利润最大,预计下一年应投入多少研发费用? 附:对于一组数据为【解析】
(1)由散点图知,选择回归类型(2)对由表中数据得:∴
两边取对数,得
,
,
更适合.
,即
,
,
,,
,其回归直线
的斜率和截距的最小二乘估计分别
∴∴
,
,
∴年研发费用与年销售量的回归方程为.
(3)由(2)知,∴令且当所以当
时,
,
,得
,
,
单调递增;当
时,
单调递减.
亿元.
千万元时,年利润取得最大值,且最大值为
答:要使年利润取最大值,预计下一年度投入2.7亿元.
8.【福建省厦门市2019届高中毕业班第一次(3月)质量检查】某公司生产一种产品,从流水线上随机抽取100件产品,统计其质量指数并绘制频率分布直方图(如图1):
产品的质量指数在的为三等品,在的为二等品,在的为一等品,该产品的三、二、一
等品的销售利润分别为每件1.5,3.5,5.5(单位:元),以这100件产品的质量指数位于各区间的频率代替产品的质量指数位于该区间的概率. (1)求每件产品的平均销售利润;
(2)该公司为了解年营销费用(单位:万元)对年销售量(单位:万件)的影响,对近5年的年营销费用和年销售量
数据做了初步处理,得到的散点图(如图2)及一些统计量的值.
16.30 表中
,
,
24.87 ,
0.41 1.64 根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程.
(ⅰ)建立关于的回归方程;
(ⅱ)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?(收益=销
售利润-营销费用,取参考公式:对于一组数据:计分别为【解析】
,
) ,
,,
,其回归直线
的斜率和截距的最小乘估
(1)设每件产品的销售利润为元,则的所有可能取值为1.5,3.5,5.5 由直方图可得:一、二、三等品的频率分别为0.4,0.45,0.15, 所以
, ,
所以:随机变量的分布列为: P 所以,
故每件产品的平均销售利润为4元. (2)(ⅰ)由令
,
,
得,
,则
,
,
,即
,所以
单调递增, 在
单调递减.
,
1.5 0.15
3.5 0.45 5.5 0.4 ,
由表中数据可得,则所以,因为
故所求的回归方程为(ⅱ)设年收益为万元,则设当当所以,当
,时,
时,,即
,则,
,在
时,有最大值为768
即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.
9.【山东省淄博市2018-2019学年度3月高三模拟】春节期间某商店出售某种海鲜礼盒,假设每天该礼盒的需求量在
范围内等可能取值,该礼盒的进货量也在
范围内取值(每天进1次货).
商店每销售1盒礼盒可获利50元;若供大于求,剩余的削价处理,每处理1盒礼盒亏损10元;若供不应求,可从其它商店调拨,销售1盒礼盒可获利30元.设该礼盒每天的需求量为盒,进货量为盒,商店的日利润为元.
(1)求商店的日利润关于需求量的函数表达式;
(2)试计算进货量为多少时,商店日利润的期望值最大?并求出日利润期望值的最大值. 【解析】
(1)由于礼盒的需求量为,进货量为,商店的日利润关于需求量的函数表达式为:
,即
(2)日利润的分布列为: ;
日利润的数学期望为:
,
,
,
结合二次函数的知识,当
时,日利润的数学期望最大,最大值为958.5元。
10.【湘赣十四校2019届高三下学期第一次联考】随着人们生活水平的提高,越来越多的人愿意花更高的价格购买手机.某机构为了解市民使用手机的价格情况,随机选取了100人进行调查,并将这100人使用的手机价格按照
,
,…,
分成6组,制成如图所示的频率分布直方图:
(1)求图中的值;
(2)求这组数据的平均数和中位数(同一组中的数据用该组区间的中间值作代表); (3)利用分层抽样从手机价格在
和
的人中抽取5人,并从这5人中抽取2人进行访
谈,求抽取出的2人的手机价格在不同区间的概率. 【解析】 (1)由题意知:解得(2)平均数
(元)
前三组的频率之和为前四组的频率之和为故中位数落在第四组. 设中位数为,则(3)由图知手机价格在
区间的有人,设为
则从这人中抽取出人的取法有
,共
种
,
,
,
,
,
,共种
和,来自,
,,解得的人数之比为
,故用分层抽样抽取的人中,来自
,
,
,
,
,
的有人,设为,
,
其中抽取出的人的手机价格在不同区间的有故抽取出的人的手机价格在不同区间的概率
11.【湖南省怀化市2019届高三3月第一次模拟】在全国第五个“扶贫日”到来之际,某省开展“精准脱贫,携手同行”的主题活动,某贫困县调查基层干部走访贫困户数量.镇有基层干部60人,镇有基层干部60人,镇有基层干部80人,每人走访了不少贫困户.按照分层抽样,从统计他们走访贫困户的数量,并将走访数量分成5组,
,
,
三镇共选40名基层干部,,
,
,绘制成
如下频率分布直方图.
(1)求这40人中有多少人来自镇,并估计三镇基层干部平均每人走访多少贫困户.(同一组中的数据用该组区间的中点值作代表);
(2)如果把走访贫困户达到或超过25户视为工作出色,以频率估计概率,从三镇的所有基层干部中随机选取3人,记这3人中工作出色的人数为,求的分布列及数学期望. 【解析】 (1)因为
三镇分别有基层干部60人,60人,80人,共200人,
(人),
利用分层抽样的方法选40人,则镇应选取所以这40人中有16人来自镇 因为
,
所以三镇基层干部平均每人走访贫困户28.5户
(2)由直方图得,从三镇的所有基层干部中随机选出1人,其工作出色的概率为 显然可取0,1,2,3,且
,
,
所以的分布列为 所以数学期望
0 1
2 3 ,则
,
12.【河北省石家庄市2019届高中毕业班3月教学质量检测】某公司为了提高利润,从2012年至2018年每年对生产环节的改进进行投资,投资金额与年利润增长的数据如下表:
年份 投资金额(万元) 年利润增长(万元) 2012 2013 2014 2015 2016 2017 2018 (1)请用最小二乘法求出关于的回归直线方程;如果2019年该公司计划对生产环节的改进的投资金额为万元,估计该公司在该年的年利润增长为多少?(结果保留两位小数) (2)现从2012年—2018年这年中抽出两年进行调查,记(万元)的概率. 参考公式:参考数据:【解析】 (1)
,
,
,
, ,
那么回归直线方程为:将
代入方程得
.
,
.
.
年利润增长投资金额,求这两年都是
即该公司在该年的年利润增长大约为11.43万元. (2)由题意可知, 年份 2012 1.5 2013 2 2014 1.9 2015 2.1 2016 2.4 2017 2.6 2018 3.6 设2012年--2018年这7年分别定为1,2,3,4,5,6,7;则总基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(1,7),(2,3),(2,4),(2,5),(2,6),(2,7),(3,4),(3,5),(3,6),(3,7),(4,5),(4,6),(4,7),(5,6),(5,7),(6,7),共有21种结果, 选取的两年都是所以选取的两年都是
万元的情况为:(4,5),(4,6),(4,7),(5,6),(5,7),(6,7),共6种,
万元的概率
.
13.【陕西省榆林市2019届高三第二次模拟】某城市的公交公司为了方便市民出行,科学规划车辆投放,在一个人员密集流动地段增设一个起点站,为了研究车辆发车间隔时间与乘客等候人数之间的关系,经
过调查得出了如下数据: 间隔时间(分钟) 等待人数(人) 10 23 11 25 12 26 13 29 14 28 15 31 调查小组先从这六组数据中选取四组数据作线性回归分析,然后用剩下的两组数据进行检验 (1)求从这六组数据中选取四组数据后,剩下的的两组数据不相邻的概率: (2)若先取的是后面四组数据,求关干的线性回归方程
;
(3)规定根据(2)中线性回归方程预利的数据与用剩下的两组实际数据相差不超过人,则所求出的线性回归方程是“最佳回归方程”,请判断(2)中所求的是 “最佳回归方程”吗?为了使等候的乘客不超过则间隔时间设置为附:对于一组组数据
,
【解析】
(1)记这六组数据分别为
,
,
,
.
剩下的两组有以下15种可能:
,
,
,
,
,
,
分钟合适吗?
, 其回归直线
+的斜率和截距的最小二乘估计分别为:
人,
;其中剩下的的两组数据相邻的有
这种,故 (两组数据不相邻) (2)
,
,
,
关干的线性回归方程为当当
时,时,
,
,
,故所求出的线性回归方程是“最佳回归方程”;
分钟合适.
(3)由题1.4x+9.6≤35,解x≤18.14,故间隔时间设置为
14.【山东省菏泽市2019届高三下学期第一次模拟】从1000名310岁儿童中随机抽取100名,他们的身高都在90150之间,将他们的身高(单位:部分频率分布直方图,已知第二组察图形的信息,回答下列问题:
)分成六组
,
,,
后得到如下的频数,观
与第三组的频数之和等于第四组
(1)求所给频率分布直方图中未画出的小矩形的面积之和; (2)估计身高处于
之间与
之间的频率之差;
的儿童中抽取一个容量为12的样本,将该样本看的人数为,求随机变量的分布列及数学期望.
(3)用分层抽样的方法从这100人中身高不小于130成一个总体,从中任取3人,记这3人身高小于140【解析】 (1)因为身高在且矩形的面积等于
内的频率为组距=频率,
,
所以所给频率分布直方图中未画出部分矩形的面积之和为0.45. (2)设第三组第二组所以第二组所以化简得:
所以成绩处于第三组所以可估计身高处于(3)由题意,得
,解得:
之间的频率为0.3
身高段的人数为
人 身高段
与第四组
与第三组
与第三组
的频率分别为
的频率之和等于第四组
的频率之和等于第四组
,
.
的频数,
的频率.
之间的频率为0.15,处于第四组之间与身高段的人数为
之间的频率之差为
人,
因为用分层抽样的方法在身高不小于130内抽取10人;在
的儿童中抽取一个容量为12的样本,所以需在
身高段内抽取2人.
”的人数为,则的所有可能取值是1,2,3
身高段内抽取2人,
设“从样本中任取3人,3人中身高小于140
表示在所以
身高段内抽取1人,在
表示在身高段内抽取2人,在身高段内抽取1人,所以
表示在身高段内抽取3人,所以
所以随机变量的分布列为
所以随机变量的数学期望为
15.【福建省龙岩市2019届高三下学期教学质量检查】某医院为筛查某种疾病,需要检验血液是否为阳性,现有(其中(
)份血液样本,有以下两种检验方式:(1)逐份检验,则需要检验次;(2)混合检验,将且
)份血液样本分别取样混合在一起检验.若检验结果为阴性,这份的血液全为阴性,
因而这份血液样本只要检验一次就够了,如果检验结果为阳性,为了明确这份血液究竟哪几份为阳性,就要对这份再逐份检验,此时这份血液的检验次数总共为
次.假设在接受检验的血液样本中,每份
.
样本的检验结果是阳性还是阴性都是独立的,且每份样本是阳性结果的概率为
(1)假设有5份血液样本,其中只有2份样本为阳性,若采用逐份检验方式,求恰好经过4次检验就能把阳性样本全部检验出来的概率. (2)现取其中(
且
)份血液样本,记采用逐份检验方式,样本需要检验的总次数为
,试求关于的函数关系式
;
,采用
混合检验方式,样本需要检验的总次数为(ⅰ)试运用概率统计的知识,若(ⅱ)若
,采用混合检验方式可以使得样本需要检验的总次数的期望值比逐份检验的总次数期望
值更少,求的最大值. 参考数据:【解析】 (1)
,
,
,
,
恰好经过4次检验就能把阳性样本全部检验出来的概率为 (2)(ⅰ)由已知得
,
的所有可能取值为
,
若
,则 ∴
= ∴
∴
∴关于的函数关系式(且)
(ⅱ)由题意可知
,,当
又
,
,得,设时,,
,即,
在
,
上单调递减
,
的最大值为4.
因篇幅问题不能全部显示,请点此查看更多更全内容