以我统计学的常识来谈一谈这次”蓝白合”的争议:国民党的阳谋和柯文哲的重大误解
刚刚我跟踪了一下台湾这次”蓝白合”的主要争议,关键就在于“统计误差范围内算侯正”这一条。在下以前大学修过统计学、计量经济学等课程,想从统计学基本常识来谈一谈这个问题,我追踪了一下今天台湾的争论节目,无论是国民党、民众党还是各路名嘴,基本都没有真正从统计学原理出发来解释这个问题。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
首先来说我看了目前拿出来讨论的6份民调数据,在假设民调符合随机抽样且能够模拟总体结构的情况下,近似认为其抽样结果符合正态分布,那么民调结果就是均值,标准差=√(1/N),大部分民调的样本数在1024份或1096份,那么标准差大致就是3%左右,样本量大的在2.9%。但是正态分布情况下还有一个95%置信区间下对应的右侧值1.96,也就是说必须要大于1.96倍标准差(约5.8%)才说明显著大于均值,否则不具备统计学意义。另外如果是民调A-B互比,那么均值可以直接减,标准差也需要二者平方加和考虑相关系数情况下在开平方,如果考虑A和B独立情况下标准差为大约3%×√2=4.2%,如果把置信区间考虑上,A如果比B大4.2%×1.96=8.1%才有统计学意义。
所以,柯文哲对于游戏规则一开始就有重大误解,以为直接按照每份民调的标准差3%确定误差范围,这也是台湾大部分民调分析忽略的问题,实际上统计学意义上同一份民调相差5.8%以内都没有显著性,这也是国民党的主张。
如果是“侯柯”与“柯侯”分别对赖清德的互比,那么由于两份民调误差加和效应,统计学误差范围要到8%。
所以当天15日出这个“误差范围规则”时候我就预料到肯定有重大误解,当然也可以理解为国民党给柯P埋了个雷,算是阳谋让柯P签下了,真正应该直接明确“柯对侯赢3%以内算侯赢”就没有这个问题了。
32 个评论
要让广大民众来接受统计学上的东西是不太可能的;广大台湾民众能认识到的,就是侯的民调低于柯文哲,柯让了3%侯都赢不了。
民众党对于3%和6%的宣传很有用,“侯气势就是不行”被深刻铭记进民众的心中。
更何况,国民党内费鸿泰博士都认为“從這6間民調得出的結果就是3比3,「沒有模糊空間」”
費鴻泰昨天(11/18)上TVBS節目《新聞大白話》分析,若以母群體來投票,就無民調問題,礙於時間、金錢成本不容許,因而才有抽樣調查方法。在統計中,若一個人得票數是常態分配,以此得票數為中心,正負2個標準差,涵蓋的範圍為95%,「精確地講,正負1.96個標準差,涵蓋的資料是95%」,所以每份資料都會註明「在95%的信賴區間下」。
「樣本數愈大,正負誤差就會愈小」,費鴻泰強調,若在1700萬人的母體內,抽樣其中1068人,套進統計學公式,正負差是3%,若抽樣2000人,那麼正負差為2.19%,樣本數愈大,抽樣誤差愈小,若對1700萬人進行調查,就是零誤差。
他也說明,當時兩黨15日簽訂6項協議中,第3條道理很簡單,只要贏的比率在誤差範圍內,算「侯柯配」贏,若在誤差範圍之外,「侯柯贏、或柯侯贏,誰贏誰就贏」。因此抽樣誤差範圍,只會落在3%或3%以下,因為樣本數不可能低於1068人,依此標準,從6間民調來看,結果就是3比3,「這是從統計學分析的結果,沒有模糊空間」。
費鴻泰是國立中興大學統計學學士、美國北伊利諾大學統計學碩士,美國肯塔基大學統計學博士,曾任國立台北大學統計系副教授。
民众党对于3%和6%的宣传很有用,“侯气势就是不行”被深刻铭记进民众的心中。
更何况,国民党内费鸿泰博士都认为“從這6間民調得出的結果就是3比3,「沒有模糊空間」”
費鴻泰昨天(11/18)上TVBS節目《新聞大白話》分析,若以母群體來投票,就無民調問題,礙於時間、金錢成本不容許,因而才有抽樣調查方法。在統計中,若一個人得票數是常態分配,以此得票數為中心,正負2個標準差,涵蓋的範圍為95%,「精確地講,正負1.96個標準差,涵蓋的資料是95%」,所以每份資料都會註明「在95%的信賴區間下」。
「樣本數愈大,正負誤差就會愈小」,費鴻泰強調,若在1700萬人的母體內,抽樣其中1068人,套進統計學公式,正負差是3%,若抽樣2000人,那麼正負差為2.19%,樣本數愈大,抽樣誤差愈小,若對1700萬人進行調查,就是零誤差。
他也說明,當時兩黨15日簽訂6項協議中,第3條道理很簡單,只要贏的比率在誤差範圍內,算「侯柯配」贏,若在誤差範圍之外,「侯柯贏、或柯侯贏,誰贏誰就贏」。因此抽樣誤差範圍,只會落在3%或3%以下,因為樣本數不可能低於1068人,依此標準,從6間民調來看,結果就是3比3,「這是從統計學分析的結果,沒有模糊空間」。
費鴻泰是國立中興大學統計學學士、美國北伊利諾大學統計學碩士,美國肯塔基大學統計學博士,曾任國立台北大學統計系副教授。