以我统计学的常识来谈一谈这次”蓝白合”的争议:国民党的阳谋和柯文哲的重大误解
刚刚我跟踪了一下台湾这次”蓝白合”的主要争议,关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程,想从统计学基本常识来谈一谈这个问题,我追踪了一下今天台湾的争论节目,无论是国民党、民众党还是各路名嘴,基本都没有真正从统计学原理出发来解释这个问题。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
32 个评论
大体正确。
”在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布“
这里不是抽样结果符合正态分布,而且抽样结果的分布近似符合population的分布。
你说的内容,把大数定理和样本抽样搞混了, 大数定理说的是,如果随机抽样,那么样本的均值符合正态分布,无论population符合何种分布,即使是λ分布,这种不对称的分布也适用。
”那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。“
这里你的计算是错误的, 因为你不知道样本的σ_s, 你是无法通过公式 σ = sqrt(σ^2/N) 去推断(infer)σ
"也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值"
这里的结论有两处问题:
首先,这里进行的确是对均值的t-test检验,但是因为你说的是大于均值,那么这是一个单尾检验,95%的置信度对应的t-值 N>1000 为 1.646≈1.65 (附图.1)
如果是均值相等 μ_s - μ = 0 -> μ_s=μ, 那么则是双尾检验, 每一遍tail的面积为0.25%,对应的t值为1.960,所这里应该以1.65作为95%置信度的CV值。
其次,并不一定是置信度要大于95%,才算统计学上的显著, 90%, 99% 都是常用的置信度。 很多时候90%的置信度,在一些宏观事件中,已经足够显著了。
”如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。“
这里混淆了置信区间和置信度的概念,置信区间是[5-1.96σ, 5+1.96σ], 所以是双边的,那么宽度则为1.96σ*2 ≈4σ, 所以这个概率会非常小,那么t值就会非常高,A-B样本的均值差也就无法拒绝原假设。
如果没有几次民调样本的统计特征值,是无法做有效的统计学检验的。 可以看看民调机构有没有公布这些数据。
以上仅为学术讨论之兴趣,并无其他政治观点及态度,不过我还是很鼓励观察者通过科学的一些工具和方法,来检验政治领域的数据和事件。
附图.1
”在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布“
这里不是抽样结果符合正态分布,而且抽样结果的分布近似符合population的分布。
你说的内容,把大数定理和样本抽样搞混了, 大数定理说的是,如果随机抽样,那么样本的均值符合正态分布,无论population符合何种分布,即使是λ分布,这种不对称的分布也适用。
”那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。“
这里你的计算是错误的, 因为你不知道样本的σ_s, 你是无法通过公式 σ = sqrt(σ^2/N) 去推断(infer)σ
"也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值"
这里的结论有两处问题:
首先,这里进行的确是对均值的t-test检验,但是因为你说的是大于均值,那么这是一个单尾检验,95%的置信度对应的t-值 N>1000 为 1.646≈1.65 (附图.1)
如果是均值相等 μ_s - μ = 0 -> μ_s=μ, 那么则是双尾检验, 每一遍tail的面积为0.25%,对应的t值为1.960,所这里应该以1.65作为95%置信度的CV值。
其次,并不一定是置信度要大于95%,才算统计学上的显著, 90%, 99% 都是常用的置信度。 很多时候90%的置信度,在一些宏观事件中,已经足够显著了。
”如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。“
这里混淆了置信区间和置信度的概念,置信区间是[5-1.96σ, 5+1.96σ], 所以是双边的,那么宽度则为1.96σ*2 ≈4σ, 所以这个概率会非常小,那么t值就会非常高,A-B样本的均值差也就无法拒绝原假设。
如果没有几次民调样本的统计特征值,是无法做有效的统计学检验的。 可以看看民调机构有没有公布这些数据。
以上仅为学术讨论之兴趣,并无其他政治观点及态度,不过我还是很鼓励观察者通过科学的一些工具和方法,来检验政治领域的数据和事件。
附图.1