【拒绝用谎言“揭穿”谎言】简单讲讲回归的滥用以及大数定律

想了想我还是把立场写在最前面吧,怕被喷:我相信武汉肺炎的相关数据存在篡改以及作假,但是我不支持用骗局去揭穿骗局的行为。

想写这篇文章主要是看见了这个前一阵子在PTT,噗浪和FB上都传了很多的图片,数字和版本可能不一样,但整体都是差不多的意思。其核心思想认为“武汉肺炎死亡和感染人数是捏造的”,这点确实有可能也非常有可能,但是论据就真的让人哭笑不得了,分别是以“武汉肺炎死亡人数和感染人数的比值维持在一个区间之内”以及“武汉肺炎的死亡人数/感染人数能够以最小二乘法二次(或三次)回归并完全拟合。”即使抛开“完全随性的四舍五入”和“曲线线性拟合”这种显而易见的谬误,两条论据作为支持核心思想的论据都是高度不合格的。用这种“不合格的论据”去“揭穿”谎言是彻头彻尾的南辕北辙,不但不能揭穿谎言,还会让论点变得不可信。
https://i.imgur.com/LWa2Bmq.png


首先我们聊聊“武汉肺炎的死亡人数/感染人数能够以最小二乘法二次(或三次)回归并完全拟合。”
关于这一点,我一般将其归类为滥用回归,和大家段子里常见的“冰激凌销售额决定了鲨鱼攻击人类事件数”(或者奇奇怪怪的相关性)一样是滥用统计学的一种。为什么这是“不合格的论据”的呢?

任何指数增长的数据都能被极高的拟合度(R方)非线性回归,这点我相信是任何有统计学常识的人都知道的事情。假如读者有空可以自己找很多指数成长的数据,比如美国1960年~1999年的GDP,进行二次非线性回归,最后会得出一条同样拟合度很高的曲线,那我们是不是可以说美国的GDP也是人为捏造的?显然不是,GDP在经济快速发展的时候呈指数增长是在正常不过的事情,强行的用非线性回归去拟合然后说是捏造并不具备任何说服力。

那么如何让这张图具有说服力?假如这个多项式能够连续预测两到三天未来的武汉感染人数就可以了,可惜的是这个多项式在第二天的误差就超过了10%(预测28297,实际31161),不再灵验了,往后误差越来越大,这里就不赘述了。

第二点我们讲讲“武汉肺炎死亡人数和感染人数的比值维持在一个区间之内”
关于这一点,我首先要讲一个很基础的统计学名词,叫“大数定律”。
在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。(以上内容摘自维基百科)
举个例子,我们都知道你投一枚硬币可能得到正面和反面,概率都是50%。但是你可能丢10次6次正面4次反面,丢100次54次正面46次反面,丢1000次503次正面497次反面……以此类推,你丢的次数越多,和真实的概率50%就越接近。简单来讲,样本越多,测量的概率就距离真实的概率越接近,测量的概率围绕着真实概率在一定区间内的浮动是很正常的。
换而言之,假如你相信“武汉病毒的致死率是有一个大家未知但是客观存在的数值”,那“武汉肺炎死亡人数和感染人数的比值维持在一个区间之内”就是一件非常正常的事情。以“武汉肺炎死亡人数和感染人数的比值维持在一个区间之内”证明数据造假也就成了无稽之谈。

最后提醒一下,这个表格内的感染人数和死亡人数无大差错,但是得出的结果是有人为的改动的,即我开头提到的“随性的四舍五入”,为了避免争议,我把其他葱油计算的正确的结果提供在下面。
日期  死亡数/确诊数     比率
1.20 6/291      = 0.0206185567010309
1.21 9/440      = 0.0204545454545455
1.22 17/571    = 0.0297723292469352
1.23 25/830    = 0.0301204819277108
1.24 41/1287    = 0.0318570318570319
1.25 56/1975    = 0.0283544303797468
1.26 80/2744    = 0.0291545189504373
1.27 106/4515  = 0.0234772978959025
1.28 132/5974  = 0.0220957482423837
1.29 170/7711  = 0.0220464271819479
1.30 213/9692  = 0.0219768881551795
1.31 259/11791  = 0.0219659061996438
2.01 304/14380  = 0.0211404728789986
2.02 361/17205  = 0.0209822725951758
2.03 425/20438  = 0.0207945982972894
2.04 490/24324  = 0.0201447130406183
2.05 563/28018  = 0.0200942251409808
2.06 636/31161  = 0.0204101280446712
2.07 723/34611 = 0.020889312646269
15
分享 2020-02-15

9 个评论

是的,我当时就计算过,并非死亡率一直都是2.1%,而是在2.0%和2.2%之间
那个图做出来当时就是预测了两天后数据的,然后中共就把公式改了,就不灵了。你反而是论证了数据是有问题的。
其实就一点,就凭疫情过后那么多试剂盒、隔离、封城的操作,这个人数即使是看起来比较符合二次曲线都是不正常的。难道这么多操作半点用也没有,病毒还是按自己的数学规律传播?

既然数据可以偏离曲线10%,那么为什么在这个曲线被发现前的那么多天,这个偏离都不存在?
PTT八卦版和許多FB粉專的老毛病了,為了凝聚對中國的敵意而無所不用其極,有利敵人的消息被消聲,不利敵人的消息被誇大,可以說是與中共如出一轍的輿論操作手法。
雖然對台灣國族認同的形塑有正向效果,但也存在民粹化、道德觀劣化、過度低估中國與親中派等問題,要是只看這些地方可能會以為韓國瑜只有200萬票。
那个图做出来当时就是预测了两天后数据的,然后中共就把公式改了,就不灵了。你反而是论证了数据是有问题的...

“既然数据可以偏离曲线10%,那么为什么在这个曲线被发现前的那么多天,这个偏离都不存在?

关于这个问题,建议你去看一下统计学的基础教材,学习一下最小二乘法

顺便x=1时,推测感染数=233,实际213,误差9.5%。你没有注意到只是因为图表上不明显而已。
“既然数据可以偏离曲线10%,那么为什么在这个曲线被发现前的那么多天,这个偏离都不存在?”关于这个问...


唉,被拆穿了就来提高发言成本,太菜了。没意思
干货喜欢,比起只知道造假的tg造谣抹黑的港台人士不知道高了多少
PTT八卦版和許多FB粉專的老毛病了,為了凝聚對中國的敵意而無所不用其極,有利敵人的消息被消聲,不利...

同温层效应嘛,毕竟发言主要图一个爽(情绪满足),要准确预估 自然会去看不同的资料
已隐藏
普通的估算根本不准确,因为现实里有很多变数

要发言请先登录注册

要发言请先登录注册