蓝白合

以我统计学的常识来谈一谈这次”蓝白合”的争议：国民党的阳谋和柯文哲的重大误解

刚刚我跟踪了一下台湾这次”蓝白合”的主要争议，关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程，想从统计学基本常识来谈一谈这个问题，我追踪了一下今天台湾的争论节目，无论是国民党、民众党还是各路名嘴，基本都没有真正从统计学原理出发来解释这个问题。

首先来说我看了目前拿出来讨论的6份民调数据，在假设民调符合随机抽样且能够模拟总体结构的情况下，近似认为其抽样结果符合正态分布，那么民调结果就是均值，标准差=√（1/N），大部分民调的样本数在1024份或1096份，那么标准差大致就是3%左右，样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96，也就是说必须要大于1.96倍标准差（约5.8%）才说明显著大于均值，否则不具备统计学意义。另外如果是民调A-B互比，那么均值可以直接减，标准差也需要二者平方加和考虑相关系数情况下在开平方，如果考虑A和B独立情况下标准差为大约3%×√2=4.2%，如果把置信区间考虑上，A如果比B大4.2%×1.96=8.1%才有统计学意义。

所以，柯文哲对于游戏规则一开始就有重大误解，以为直接按照每份民调的标准差3%确定误差范围，这也是台湾大部分民调分析忽略的问题，实际上统计学意义上同一份民调相差5.8%以内都没有显著性，这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比，那么由于两份民调误差加和效应，统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解，当然也可以理解为国民党给柯P埋了个雷，算是阳谋让柯P签下了，真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。

13

分享 2023-11-18

32 个评论

AAPLTSLA

大体正确。

”在假设民调符合随机抽样且能够模拟总体结构的情况下，近似认为其抽样结果符合正态分布“

这里不是抽样结果符合正态分布，而且抽样结果的分布近似符合population的分布。

你说的内容，把大数定理和样本抽样搞混了，大数定理说的是，如果随机抽样，那么样本的均值符合正态分布，无论population符合何种分布，即使是λ分布，这种不对称的分布也适用。

”那么民调结果就是均值，标准差=√（1/N），大部分民调的样本数在1024份或1096份，那么标准差大致就是3%左右，样本量大的在2.9%。“

这里你的计算是错误的，因为你不知道样本的σ_s，你是无法通过公式 σ = sqrt(σ^2/N) 去推断(infer)σ

"也就是说必须要大于1.96倍标准差（约5.8%）才说明显著大于均值"

这里的结论有两处问题:

首先，这里进行的确是对均值的t-test检验，但是因为你说的是大于均值，那么这是一个单尾检验，95%的置信度对应的t-值 N>1000 为 1.646≈1.65 (附图.1)

如果是均值相等 μ_s - μ = 0 -> μ_s=μ，那么则是双尾检验，每一遍tail的面积为0.25%,对应的t值为1.960，所这里应该以1.65作为95%置信度的CV值。

其次，并不一定是置信度要大于95%，才算统计学上的显著， 90%， 99% 都是常用的置信度。很多时候90%的置信度，在一些宏观事件中，已经足够显著了。

”如果考虑A和B独立情况下标准差为大约3%×√2=4.2%，如果把置信区间考虑上，A如果比B大4.2%×1.96=8.1%才有统计学意义。“

这里混淆了置信区间和置信度的概念，置信区间是[5-1.96σ, 5+1.96σ]，所以是双边的，那么宽度则为1.96σ*2 ≈4σ，所以这个概率会非常小，那么t值就会非常高，A-B样本的均值差也就无法拒绝原假设。

如果没有几次民调样本的统计特征值，是无法做有效的统计学检验的。可以看看民调机构有没有公布这些数据。

以上仅为学术讨论之兴趣，并无其他政治观点及态度，不过我还是很鼓励观察者通过科学的一些工具和方法，来检验政治领域的数据和事件。

附图.1

https://telegra.ph/file/cfda8be17bc1803ff37a7.png?width=763&height=730

要发言请先登录或注册

以我统计学的常识来谈一谈这次”蓝白合”的争议：国民党的阳谋和柯文哲的重大误解

32 个评论

发起人

相关主题

状态

以我统计学的常识来谈一谈这次”蓝白合”的争议：国民党的阳谋和柯文哲的重大误解

32 个评论

发起人

相关主题

推荐

状态