以我统计学的常识来谈一谈这次”蓝白合”的争议:国民党的阳谋和柯文哲的重大误解
刚刚我跟踪了一下台湾这次”蓝白合”的主要争议,关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程,想从统计学基本常识来谈一谈这个问题,我追踪了一下今天台湾的争论节目,无论是国民党、民众党还是各路名嘴,基本都没有真正从统计学原理出发来解释这个问题。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
32 个评论
哪有什麼複雜的東西,就是馬匪英九手上的柯匪大陸黑材料,只不過現在柯匪拗不過自己那些無知的黨眾和支持者,讓他們爭取點利益,但最後,柯匪還是會答應的爛白合的,因為他就是個軟骨頭。
>>哪有什麼複雜的東西,就是馬匪英九手上的柯匪大陸黑材料,只不過現在柯匪拗不過自己那些無知的黨眾和支持者...
我只是仅就技术谈这个问题而已,双方对“统计误差“有重大歧义。
那天新聞出來的時候我就在說是演爛戲了
簽之前兩邊都想好怎麼掀桌了,統計學,民調,社會學這些不過就是推託
簽之前兩邊都想好怎麼掀桌了,統計學,民調,社會學這些不過就是推託
>>我只是仅就技术谈这个问题而已,双方对“统计误差“有重大歧义。
柯匪當初在密室,正常人哪會那麼蠢讓幕僚都被踢走,連筆錄都不給,給馬英九的黑材料震撼後,後面陳智菡三次否認那份共識,然而卻立刻被朱立倫罵走,柯匪在旁邊死老鼠一樣,好像陳智菡為自己護航的事事不關己,這完全是他自己的選擇,也可以看到他的精神狀態在現場是十分恐懼軟弱的,很明顯他對談判結果可是絕沒有一絲高興 。
和楼主观点一致,从学术角度而言,国民党的理解是没问题的,柯文哲阵营的3%不具备统计学规律。
或者这么说,如果出一道题“一份民调有1000多份样本,请问其置信区间应该是:____________”
正确答案就是楼主计算的5.8%,写6%也可以对,或者写±3%也可以的。但是只写3%或者±1.5%是不得分的。
仅做学术讨论,不代表我就支持某一党。
或者这么说,如果出一道题“一份民调有1000多份样本,请问其置信区间应该是:____________”
正确答案就是楼主计算的5.8%,写6%也可以对,或者写±3%也可以的。但是只写3%或者±1.5%是不得分的。
仅做学术讨论,不代表我就支持某一党。
>>和楼主观点一致,从学术角度而言,国民党的理解是没问题的,柯文哲阵营的3%不具备统计学规律。或者这么说...
统计学来说国民党有理,但是法学来说存在重大误解的合约是可以撤销的或者需要柯文哲追认,柯文哲不追认直接翻桌法理上不存在任何问题,虽然观感上是柯文哲敲竹杠可能极大影响他的政治诚信,柯真的掀桌估计国民党全力动台北市柯的黑料,到时候弃保效应和柯铁粉浅绿为主,反倒有可能在基本盘蓝绿对决下取胜。
柯学医的。应该学过概率论和数理统计啊。
不记得怎么算,结论总归还是记得吧
有点诡异。
不记得怎么算,结论总归还是记得吧
有点诡异。
>>柯学医的。应该学过概率论和数理统计啊。
不一定,我就知道墙内临床医学生学生不学概率论数理统计的,只有公卫要学统计。所以柯在这一块知识可能很欠缺,朱立伦是学会计和数量经济学的,这块给柯文哲埋了个大雷。
>>统计学来说国民党有理,但是法学来说存在重大误解的合约是可以撤销的或者需要柯文哲追认,柯文哲不追认直接...
這沒差,動機上民眾黨比國民黨想合,只是沒人想當造成不合的犯人。
沒人要親自參加馬英九文教基金會公布結果就知道鐵定是不會有共識。
大体正确。
”在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布“
这里不是抽样结果符合正态分布,而且抽样结果的分布近似符合population的分布。
你说的内容,把大数定理和样本抽样搞混了, 大数定理说的是,如果随机抽样,那么样本的均值符合正态分布,无论population符合何种分布,即使是λ分布,这种不对称的分布也适用。
”那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。“
这里你的计算是错误的, 因为你不知道样本的σ_s, 你是无法通过公式 σ = sqrt(σ^2/N) 去推断(infer)σ
"也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值"
这里的结论有两处问题:
首先,这里进行的确是对均值的t-test检验,但是因为你说的是大于均值,那么这是一个单尾检验,95%的置信度对应的t-值 N>1000 为 1.646≈1.65 (附图.1)
如果是均值相等 μ_s - μ = 0 -> μ_s=μ, 那么则是双尾检验, 每一遍tail的面积为0.25%,对应的t值为1.960,所这里应该以1.65作为95%置信度的CV值。
其次,并不一定是置信度要大于95%,才算统计学上的显著, 90%, 99% 都是常用的置信度。 很多时候90%的置信度,在一些宏观事件中,已经足够显著了。
”如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。“
这里混淆了置信区间和置信度的概念,置信区间是[5-1.96σ, 5+1.96σ], 所以是双边的,那么宽度则为1.96σ*2 ≈4σ, 所以这个概率会非常小,那么t值就会非常高,A-B样本的均值差也就无法拒绝原假设。
如果没有几次民调样本的统计特征值,是无法做有效的统计学检验的。 可以看看民调机构有没有公布这些数据。
以上仅为学术讨论之兴趣,并无其他政治观点及态度,不过我还是很鼓励观察者通过科学的一些工具和方法,来检验政治领域的数据和事件。
附图.1
”在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布“
这里不是抽样结果符合正态分布,而且抽样结果的分布近似符合population的分布。
你说的内容,把大数定理和样本抽样搞混了, 大数定理说的是,如果随机抽样,那么样本的均值符合正态分布,无论population符合何种分布,即使是λ分布,这种不对称的分布也适用。
”那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。“
这里你的计算是错误的, 因为你不知道样本的σ_s, 你是无法通过公式 σ = sqrt(σ^2/N) 去推断(infer)σ
"也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值"
这里的结论有两处问题:
首先,这里进行的确是对均值的t-test检验,但是因为你说的是大于均值,那么这是一个单尾检验,95%的置信度对应的t-值 N>1000 为 1.646≈1.65 (附图.1)
如果是均值相等 μ_s - μ = 0 -> μ_s=μ, 那么则是双尾检验, 每一遍tail的面积为0.25%,对应的t值为1.960,所这里应该以1.65作为95%置信度的CV值。
其次,并不一定是置信度要大于95%,才算统计学上的显著, 90%, 99% 都是常用的置信度。 很多时候90%的置信度,在一些宏观事件中,已经足够显著了。
”如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。“
这里混淆了置信区间和置信度的概念,置信区间是[5-1.96σ, 5+1.96σ], 所以是双边的,那么宽度则为1.96σ*2 ≈4σ, 所以这个概率会非常小,那么t值就会非常高,A-B样本的均值差也就无法拒绝原假设。
如果没有几次民调样本的统计特征值,是无法做有效的统计学检验的。 可以看看民调机构有没有公布这些数据。
以上仅为学术讨论之兴趣,并无其他政治观点及态度,不过我还是很鼓励观察者通过科学的一些工具和方法,来检验政治领域的数据和事件。
附图.1
“标准差大致就是3%左右”。 单单是这句话就已经错的不行,标准差何来用百分比做单位?
>>大体正确。这里不是抽样结果符合正态分布,而且抽样结果的分布近似符合population的分布。你说的...
谢谢你的补充,台湾大部分民调根本没有考虑过是否真的符合正态分布。另外我指的1.96分位值视双侧5%下右侧单侧对应的分位值,也就是国民党昨天的主张。
柯当天已经投降了。他能签字,说明有黑料在大陆手里,不是钱,就是色。
CCP的上策,是如果柯能当选总统,就以黑料来要挟。看柯失魂落魄的样子,这个黑料必然是重量级。现在柯会屈服,当总统后也会屈服。到时候台湾也许就和平统一了。马英九没准也是这条船上的货色。
然而柯实在没希望当选,CCP只能把王牌提前打出,取中策,希望至少能把绿营干掉。通过马英九、以国民党遥控台湾。
现在柯一哭二闹三上吊,可能是故作姿态,以尽量争取柯粉最大化。也就是“卖惨”、“找台阶”。我猜测他接下来会
1. 哭几天,无理取闹。
2. 转向,作顾全大局状,呼吁柯粉忍痛投蓝。
以柯演戏的水平,柯粉应该有绝大部分会在悲愤中认同柯的选择(虽然嘴上会骂骂)。最终达到蓝白合的最佳配置。
然而柯有很大概率是有黑料的人。无论这个黑料是否在CCP手里,至少在马英九手里。马、柯两人,已经不可信。
希望台湾能做出理性选择吧。香港沦陷后,台湾是华语的最后一片自由之土。如果被几个小人贪图蝇头小利而廉价卖掉,被CCP唾手而得,实在可惜。
CCP的上策,是如果柯能当选总统,就以黑料来要挟。看柯失魂落魄的样子,这个黑料必然是重量级。现在柯会屈服,当总统后也会屈服。到时候台湾也许就和平统一了。马英九没准也是这条船上的货色。
然而柯实在没希望当选,CCP只能把王牌提前打出,取中策,希望至少能把绿营干掉。通过马英九、以国民党遥控台湾。
现在柯一哭二闹三上吊,可能是故作姿态,以尽量争取柯粉最大化。也就是“卖惨”、“找台阶”。我猜测他接下来会
1. 哭几天,无理取闹。
2. 转向,作顾全大局状,呼吁柯粉忍痛投蓝。
以柯演戏的水平,柯粉应该有绝大部分会在悲愤中认同柯的选择(虽然嘴上会骂骂)。最终达到蓝白合的最佳配置。
然而柯有很大概率是有黑料的人。无论这个黑料是否在CCP手里,至少在马英九手里。马、柯两人,已经不可信。
希望台湾能做出理性选择吧。香港沦陷后,台湾是华语的最后一片自由之土。如果被几个小人贪图蝇头小利而廉价卖掉,被CCP唾手而得,实在可惜。
其實最根本的問題在於
正副總統不同政黨 , 誰敢投下去 , 當選民白癡嗎 , 所以不可能藍白合
要知道白的選民一向視藍綠為垃圾
結果要跟垃圾合體 哈哈哈
正副總統不同政黨 , 誰敢投下去 , 當選民白癡嗎 , 所以不可能藍白合
要知道白的選民一向視藍綠為垃圾
結果要跟垃圾合體 哈哈哈
这个要看你先验概率,最保守的假设是50%,那标准差就是sqrt(0.5^2/N)=0.015625,乘1.96就是3%,也就是差异3%就是显著。不过两个民调放一起,假设两者无关,标准差得平方加起来再开方,那就是0.022, 乘1.96就是4.3%。
如果你用的不是这个假设,而是先验假设六四开,三七开,那标准差就会更小,差异不到4.3%就是显著。
如果你用的不是这个假设,而是先验假设六四开,三七开,那标准差就会更小,差异不到4.3%就是显著。
>>这个要看你先验概率,最保守的假设是50%,那标准差就是sqrt(0.5^2/N)=0.015625,...
所以说当时协议第三条“统计误差范围内侯正”就是糊涂账,涉及到的统计学专业问题太多,还有先验概率到底取多少也是糊涂账,当天我就觉得这条是大雷。
>>你也可以不用先验概率,用后验概率,比如民调一个35%一个40%,取平均37.5%也行。
问题来了,后验概率解释权在谁,国民党和马英九有解释权还是你柯文哲有解释权?涉及重大政治问题的决议,依赖于高度专业化、难以被公众理解的判断,肯定会有一系列的问题。
>>问题来了,后验概率解释权在谁,国民党和马英九有解释权还是你柯文哲有解释权?涉及重大政治问题的决议,依...
这个你得事先商量
不过国民党和民众党这样黑箱操作分赃猪肉桶的事情,居然依赖于从民调输入数据,这本来就是不合理的事情。
>>这个你得事先商量不过国民党和民众党这样黑箱操作分赃猪肉桶的事情,居然依赖于从民调输入数据,这本来就是...
所以我说是国民党的阳谋,让你柯文哲稀里糊涂签字画押再说,后面解释权在我,你柯敢反悔就是没有政治诚信敲竹杠,后面还有柯文哲大量黑料威胁,只能说国民党百年斗争经验和厚黑作风哪是小小柯P比得过的。
如果你在6%的新闻出来之前就写下这篇文章,那么就真的牛逼。
问题在于,在6%的新闻出来之前,在台湾都没人提出过这个细节的问题。各种新闻和政论节目里,大家都是认为让3%就是减掉3%。
这件事的影响是,未来台湾的各种选举的党内初选中,假如采用民调分胜负,肯定会有人提出在这种民调下,相差×%没有统计学上的显著性。
问题在于,在6%的新闻出来之前,在台湾都没人提出过这个细节的问题。各种新闻和政论节目里,大家都是认为让3%就是减掉3%。
这件事的影响是,未来台湾的各种选举的党内初选中,假如采用民调分胜负,肯定会有人提出在这种民调下,相差×%没有统计学上的显著性。
让这种完全不同理念的分赃街边讨价还价组合选总统,台湾也差不多了
要让广大民众来接受统计学上的东西是不太可能的;广大台湾民众能认识到的,就是侯的民调低于柯文哲,柯让了3%侯都赢不了。
民众党对于3%和6%的宣传很有用,“侯气势就是不行”被深刻铭记进民众的心中。
更何况,国民党内费鸿泰博士都认为“從這6間民調得出的結果就是3比3,「沒有模糊空間」”
費鴻泰昨天(11/18)上TVBS節目《新聞大白話》分析,若以母群體來投票,就無民調問題,礙於時間、金錢成本不容許,因而才有抽樣調查方法。在統計中,若一個人得票數是常態分配,以此得票數為中心,正負2個標準差,涵蓋的範圍為95%,「精確地講,正負1.96個標準差,涵蓋的資料是95%」,所以每份資料都會註明「在95%的信賴區間下」。
「樣本數愈大,正負誤差就會愈小」,費鴻泰強調,若在1700萬人的母體內,抽樣其中1068人,套進統計學公式,正負差是3%,若抽樣2000人,那麼正負差為2.19%,樣本數愈大,抽樣誤差愈小,若對1700萬人進行調查,就是零誤差。
他也說明,當時兩黨15日簽訂6項協議中,第3條道理很簡單,只要贏的比率在誤差範圍內,算「侯柯配」贏,若在誤差範圍之外,「侯柯贏、或柯侯贏,誰贏誰就贏」。因此抽樣誤差範圍,只會落在3%或3%以下,因為樣本數不可能低於1068人,依此標準,從6間民調來看,結果就是3比3,「這是從統計學分析的結果,沒有模糊空間」。
費鴻泰是國立中興大學統計學學士、美國北伊利諾大學統計學碩士,美國肯塔基大學統計學博士,曾任國立台北大學統計系副教授。
民众党对于3%和6%的宣传很有用,“侯气势就是不行”被深刻铭记进民众的心中。
更何况,国民党内费鸿泰博士都认为“從這6間民調得出的結果就是3比3,「沒有模糊空間」”
費鴻泰昨天(11/18)上TVBS節目《新聞大白話》分析,若以母群體來投票,就無民調問題,礙於時間、金錢成本不容許,因而才有抽樣調查方法。在統計中,若一個人得票數是常態分配,以此得票數為中心,正負2個標準差,涵蓋的範圍為95%,「精確地講,正負1.96個標準差,涵蓋的資料是95%」,所以每份資料都會註明「在95%的信賴區間下」。
「樣本數愈大,正負誤差就會愈小」,費鴻泰強調,若在1700萬人的母體內,抽樣其中1068人,套進統計學公式,正負差是3%,若抽樣2000人,那麼正負差為2.19%,樣本數愈大,抽樣誤差愈小,若對1700萬人進行調查,就是零誤差。
他也說明,當時兩黨15日簽訂6項協議中,第3條道理很簡單,只要贏的比率在誤差範圍內,算「侯柯配」贏,若在誤差範圍之外,「侯柯贏、或柯侯贏,誰贏誰就贏」。因此抽樣誤差範圍,只會落在3%或3%以下,因為樣本數不可能低於1068人,依此標準,從6間民調來看,結果就是3比3,「這是從統計學分析的結果,沒有模糊空間」。
費鴻泰是國立中興大學統計學學士、美國北伊利諾大學統計學碩士,美國肯塔基大學統計學博士,曾任國立台北大學統計系副教授。
>>要让广大民众来接受统计学上的东西是不太可能的;广大台湾民众能认识到的,就是侯的民调低于柯文哲,柯让了...
照費鴻泰的說法,那就沒有協議裡「在誤差範圍內」造成的「平手」這個概念了。
不過他應該是有他的政治考量就不跟他計較了。
>>如果你在6%的新闻出来之前就写下这篇文章,那么就真的牛逼。问题在于,在6%的新闻出来之前,在台湾都没...
是的,本来民调统计学误差就是个高度专业化的概念,所以大部分民主国家政党决定候选人都用初选而不用民调。台湾情况特殊是在于其特别的“党阀”制度和民主直接相对多数选制,让直接初选的偏差可能比民调更大且容易受对方政党操纵。
>>是的,本来民调统计学误差就是个高度专业化的概念,所以大部分民主国家政党决定候选人都用初选而不用民调。...
经过这个事件后,感觉到两轮选举制虽然花钱多,但确实有意义。
感觉两轮选举制下,决定候选人能否胜出的一个因素是仇恨值,就算你有很多人支持,但有更多人仇恨你,你的当选几率就低。那么是不是能让候选人们往中间靠拢,而不是宣扬对立?