以我统计学的常识来谈一谈这次”蓝白合”的争议:国民党的阳谋和柯文哲的重大误解
刚刚我跟踪了一下台湾这次”蓝白合”的主要争议,关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程,想从统计学基本常识来谈一谈这个问题,我追踪了一下今天台湾的争论节目,无论是国民党、民众党还是各路名嘴,基本都没有真正从统计学原理出发来解释这个问题。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
32 个评论
这个要看你先验概率,最保守的假设是50%,那标准差就是sqrt(0.5^2/N)=0.015625,乘1.96就是3%,也就是差异3%就是显著。不过两个民调放一起,假设两者无关,标准差得平方加起来再开方,那就是0.022, 乘1.96就是4.3%。
如果你用的不是这个假设,而是先验假设六四开,三七开,那标准差就会更小,差异不到4.3%就是显著。
如果你用的不是这个假设,而是先验假设六四开,三七开,那标准差就会更小,差异不到4.3%就是显著。