以我统计学的常识来谈一谈这次”蓝白合”的争议:国民党的阳谋和柯文哲的重大误解
刚刚我跟踪了一下台湾这次”蓝白合”的主要争议,关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程,想从统计学基本常识来谈一谈这个问题,我追踪了一下今天台湾的争论节目,无论是国民党、民众党还是各路名嘴,基本都没有真正从统计学原理出发来解释这个问题。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
32 个评论
>>你也可以不用先验概率,用后验概率,比如民调一个35%一个40%,取平均37.5%也行。
问题来了,后验概率解释权在谁,国民党和马英九有解释权还是你柯文哲有解释权?涉及重大政治问题的决议,依赖于高度专业化、难以被公众理解的判断,肯定会有一系列的问题。