推特封杀本福特定律,维基百科上用本福特定律检测选举舞弊相关内容被删除

https://i.imgur.com/N6gyQr5.png
https://i.imgur.com/ry8WPmL.jpg





https://i.imgur.com/89yrAy5.png
24
分享 2020-11-10

44 个评论

现在已经撕破脸明目张胆了吗。
我怀疑拜登是把共匪伎俩引给推特了。
KC1984 黑名单
wiki前几天啊,这条目就改了,基本上就是换个说法从有实际运用价值变成了有争议,现在直接删了也是真的牛
推特维基这么快就开始站队拜登了,很不错请继续加油加速
ZetaFC 观察
哪里删了?我还能看到election data那个subsection啊。哦,我看了一下历史,删了之后又被别人加回来了。
gyyyuh 回复 ZetaFC 观察
推特把川普限流了这公平吗?很明显是针对共和党的
>>哪里删了?我还能看到election data那个subsection啊。哦,我看了一下历史,删了之...


看来还没像中文维基这样完全被五毛控制
ZetaFC 观察 回复 gyyyuh
>>推特把川普限流了这公平吗?很明显是针对共和党的


我说的跟推特有关么?我是特朗普支持者所以没问题,你要是碰上个左派的话直接喷你转移话题。
魔幻現實主義 左逼們很支持的哦
我对这些科技巨头真是无话可说,川普挡人财路就真要赶尽杀绝吗?
也让中间派的选民看看,什么叫审查,什么叫不信谣,不传谣
gyyyuh 回复 ZetaFC 观察
?我没有针对谁只是对于推特维基双标性感到十分虚伪
>>看来还没像中文维基这样完全被五毛控制


哈哈这人从五号开始用多个账号不停地想要把这一个subsection删掉,还指控改回来的人“政治化,选前才刚刚把这一段加上来”,然而我查了下那一段几个月前就有。
要不要邀请一些左派来聊一下?
>>要不要邀请一些左派来聊一下?


无所谓了,左派控制维基百科是常识。之前Webster字典不都改了,一个百科有什么。
>>推特把川普限流了这公平吗?很明显是针对共和党的


用gab吧,老川都用gab了
ZetaFC 观察
这个我再发一遍: https://github.com/cjph8914/2020_benfords
封杀一个学术定律也是醉了,如果爱因斯坦证明拜登作弊,是不是要封杀相对论,封杀爱因斯坦
推特应该是要准备鱼死网破了,之前参议院听证会的时候那个ceo一副死猪不怕开水烫的表情,不管参议员们提多尖锐的问题都是那套废话翻来覆去的说。
这就是为什么极权统治下科学不可能发展,而是如所谓瓦房店化一样倒退
川普如果翻不了盘(这是几乎必然的事情)以后科学就别想发展了,全人类进入自我毁灭周期
自从开始看哲学,看历史之后,有意识和维基百科拉开距离的做法,又一次不幸地「派上用场」了。

现实还真的是从来不会让我的失望感到失望。
>>要不要邀请一些左派来聊一下?


品葱左逼面对这种新闻永远在装死。
>>品葱左逼面对这种新闻永远在装死。

知乎上的数据帝给解释了一下,说是Benford's Law不适用于选举投票。但是如果搜往年的报道,也还是能找到不少(比如统计学家用该定律质疑伊朗选举作弊)。有点疑惑。
https://www.zhihu.com/question/49661986/answer/1565667783
ZetaFC 观察 回复 hakase
>>知乎上的数据帝给解释了一下,说是Benford's Law不适用于选举投票。但是如果搜往年的报道,也...


适用的。这个已经用在选举上好多次了。
美丽的新世界已经到来
今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在两党的号召下,泾渭分明。

比如佛罗里达州和俄州,是先数邮寄投票,最后数现场投票,刚开始拜登很高,后来被川普追回。

而允许大选当天邮寄投票的州,都是先数现场票,最后才数邮寄票。

最后今年大选还没数完,往年的数据都是数完的。
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...


如果同樣郵寄選票,別的大部分州符合定律,那幾個關鍵州不能,也必須要有額外的解釋。
即便兩黨號召之下,兩種選票方式都應該符合定理。
民主黨支持者有人擔心疫情或懶得現場投而選擇郵寄投票,共和黨支持者也會出於同樣理由選擇郵寄投票,更別說還有一大票在外地的軍人,本來郵寄選票就是考量他們而設的。

如果搖擺州有大量郵寄選票,那現場投票的人數有沒有比平常少?為什麼郵寄選票又比別州多?為什麼搖擺州的郵寄選票就不符合定理?
那要赶快把WSJ用此定律质疑伊朗选举舞弊的证据文章保存下来呀……谁掌握了现在,他就掌握了过去。
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...

这不是删除讨论和定律的理由
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...


连定律内容都不懂就开始洗地了,省省吧
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...


所以所有其他候选人在所有州的数据都符合定律,就你野爹拜登在那几个作弊州的数据不符合?
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...

符不符合本次選舉和定律本身有什麼關係啊??道耳吞的原子說全部被推翻了所以道耳吞應該要從物理學術界除名???
>>知乎上的数据帝给解释了一下,说是Benford's Law不适用于选举投票。但是如果搜往年的报道,也...


那个人偏向性很明显的,他这么写只是因为现在是Biden的数据不符合这个定律,如果现实是有人发现Trump的数据有问题那估计他就会想起来伊朗选举的事了。
举个例子,大选前他写了个回答千方百计地解释为什么今年的民调肯定比16年要靠谱得多,为什么不相信民调的都是民科在胡扯,回归分析是怎么显示民调其实和实际投票结果相当吻合,只是16年差距太小不幸落在误差范围内,今年差距这么大肯定没问题。然后现在结果我们也都看到各大民调是怎么完成超越16年误差的壮举了……
(原问题已经被知乎删了,趁着Google缓存还在我复制了一份


要是五年前,这种问题都不用问,看总民调和各州民调数据就行。

直到四年前的美国大选,民调数据几乎都给出了错误的结果,给四年后的一大堆玄学创造了空间。所以我们常常可以看到这样的文章:

「虽然民调显示拜登领先,但是大家都知道,民调在2016年失败了啊!所以我们不能相信民调,让我来给大家讲讲我的玄学123……」

但民调数据到底准不准呢?我们把2016年最后一周的民调平均值和选举结果拿出来,做一个比较。下图的横坐标是民调中民主党超过共和党的比例,纵坐标是大选结果中民主党超过共和党的比例。

可以看到,用民调来解释大选结果,拟合优度是0.9826,也就是选举结果各州差异的98.3%是可以用民调的各州差异来解释的。

拟合优度虽然高,但它只表示了「样本间差异的可解释性」,却没有给出各州的大选结果和民调的函数关系。

那么问题出在哪里呢?在这个截距上——这条线经过了(0,-3.76%)。

也就是说,即使民调是半对半,特朗普和希拉里完全一样,最终结果也要扣掉3.76%。因此,2016年大选时,民主党只有在保证4%的民调领先时,才能在大选中获胜。如果民调领先5%,那么最后可能只赢1.24%,就很危险;如果民调领先3%,那很可能就会在该州输掉。

这个截距来自很多地方,第一包括民调的样本是不是有足够的代表性,第二包括民调的未回答人群是不是有偏向性,第三包括了不同的支持者的投票率。2016年时,从民调到选举结果,这三点可能都有问题。第一民调没有代表足够的人群,第二民调中没有回复的人群中特朗普的支持者要比希拉里的支持者要高,他们被民调忽视了,或者说调整了,但是没有调整到位,第三则是特朗普的支持者投票热情要更高。

尽管这三个问题看起来都很严重,但他们在2016年也只能解释3.76%的截距。而目前人们不相信这个民调的理由,其实也就是对这个截距到底是多少不太有信心。如果说民调中领先多少都不能保证最终获胜,这个民调自然也就用不了了。

但是民调公司也不是吃白饭的,他们在这四年间也会调整调查方法。比如对某些特征的人群过度抽样,比如改进询问方法,比如538的方法是根据历史数据直接给民调一个偏向性,然后把这个偏向性从民调里面扣除掉——相当于先回归出截距,再把截距扣掉。总之,所有的方法都是一个目的,要让民调和大选结果更接近,让截距趋向于0。

这么做有没有改进民调的结果呢?我们可以从2018年中期选举得到一些启发。2018年时,435个众议院席位改选,民主党共和党激烈斗争,各大民调公司又纷纷做了民调,而这次中期选举规模也不小,总票数只比2016年大选低14%,最后的结果和民调散点图如下所示:

拟合优度和2016年几乎一样,但截距有了显著变化——从2016年的3.76%,下降到了1.47%。原本需要在民调中保持4%的领先才能在获胜的选区,现在只要2%的优势即可。而且我们如果放大上图中间的一部分,只保留哪些民调差距在10%之内的选区,可以看到图中第二、第四象限如下图所示:

从上图可以看到,有95个选区民调差距在10%以内,分布在第二象限有8个选区,分布在第四象限只有1个选区。这反而说明民调民主党落后的地方,有8个选区翻蓝,而反过来民调民主党领先的地方,只有一个地方翻红。这里1.47%的截距,主要来自第一象限和第三象限的点造成的,而这些点中是否有这个1.47%的截距,恰好也对选举结果没有影响。

从3.76,到1.47,民调对民主党仍然有偏向,但这个偏向已经减半了。而且从2018年中期选举的结果看,在民调差异10%的摇摆选区中,民调的结果反而更准确,且甚至还略微偏向了共和党一点。

因此,我们当然没有理由弃民调于不顾,转投玄学。别的不说,用玄学去解释大选50个州的结果、中期选举435个选区的结果,能有98.3%、98.4%的拟合优度吗?

截距的问题,还是交给截距去解决,截距到底是多少,可以通过历史的结果计算,推测。如果因为有了这个截距就把民调数字全部扔掉不用,那是舍本逐末了。

最后,按照目前的民调结果给出预测——按照2018年中期选举给出的-1.47%截距,拜登能够以334票对204票赢下大选,各州情况如下:

如果按照一个极端情况,目前的选举和民调差距和2016年一样大,把-3.76%的截距从民调中扣除,那么佛罗里达、北卡罗莱纳、亚利桑那三州会转投特朗普,此时拜登的领先程度会降低到只有20票,但仍然能赢得大选:

而剩下唯一能够左右选情的就只剩一州——PA,宾夕法尼亚。他的选情在剩下的摇摆州中最为接近,且选举人票够多。那么宾夕法尼亚是否能够翻转呢?最近一周在PA进行各项民调显示如下:

除了InsiderAdvantage之外,其他的民调都显示了5以上的民主党领先优势(InsiderAdvantage本身也是一个很「有名」的民调,有兴趣的的话可以去搜索下他们以往的风评和预测结果)。因此,拜登在PA仍然保持了5%以上的领先,即使扣除截距,也还没到转投特朗普的地步。

那么,这个领先在大选前会不会消失呢?从以往数据看,非常难,但这是美国大选,而且是一趟投票人数会是以往两倍,首次有大量选票通过邮递方式来寄送的选举,发生什么不可思议的事情,也是有可能的嘛。

结论

首先,民调并非不可用,用民调来解释大选结果,拟合优度高达98.3%。4年前的民调之所以遭遇滑铁卢,主要是来自-3.76%的截距,它导致民主党领先不到3%的摇摆州最终都输掉了大选。

其次,导致非零截距的原因有很多,但民调方法的改进会逐渐消除这些截距。从2018年中期选举结果看,民调的截距下降到1.47%,且对摇摆选区的预测相当准确——95个民调差距在10%以内的选区,有86个选区都预测对了,剩下的9个还是偏向了共和党的预测错误。

再次,在一个比较大的截距假设下——假设民调质量仍然保持2016年的状态,那么拜登将以279对259票赢下大选;在一个比较小的截距假设下——假设民调质量与2018年类似,那么拜登将以334对204票获得压倒性胜利。

最后,特朗普是否可能会获胜?还有一线希望。

首先,民调的质量必须和2016年一样毫无改进。当然,我不太相信这种事情会发生,民调公司也是要赚钱的,没必要为了一点意识形态跟自己过不去。

其次,最后一周内,特朗普必须逆转宾夕法尼亚的选情,将拜登的领先优势降低到2%甚至更低。历史上PA从未在一周内对这两人有过3%上下的选情变化,且PA是拜登的故乡。除了2016年以外,候选人在出生州还是会有一些优势的,一般的黑新闻很难对选情造成太大伤害——得特别黑的黑新闻才行

如果以上两个条件都满足,特朗普才有可能获胜。

https://camestrosfelapton.wordpress.com/2020/11/08/i-guess-im-talking-about-benfords-law/
这个人的文章分析了benford‘s law不能用来检测选举舞弊,发现当年里根的得票数也不符合benford's law





但是既然benford's law不能用来检测选举舞弊,民主党为什么要禁评呢?
>>这个人的文章分析了benford‘s law不能用来检测选举舞弊,发现当年里根的得票数也不符合ben...


这人用阿拉斯加数据洗地,阿拉斯加sample size只有40
>>这人用阿拉斯加数据洗地,阿拉斯加sample size只有40

里根的数据不知道是哪里的,可能也是sample size小的地方吧
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...

本福特定律跟时间无关的,先投后投无所谓的。本福特定律是看数字出现的频率,我不知道这在选举数据上是怎么用的,可能是每个县,取各个小镇候选人的得票,比如说有100个小镇,就得到了100个数据,这100个数据,取第一位数,比如 1234 取 1,234 取 2,然后计算 1、2……9 ,各个数字在这100个数据的第一位中的频率,这个频率有一定规律。只要计票到90%以上了,这个第一位数据就不太会再变了。

所以是跟时间无关的,先10万个投川普,再11万个投拜登,只要计票90%以上,差不多就能够用本福特定律了。
觀察者網居然為拜登背書,觀網微信公眾號對拜登選票不符合“本福特定律”的解釋:

https://mp.weixin.qq.com/s/pYVs4SG1hWVQdVEU6PZzxQ
>>今年肯定不适用本福特定律,因为今年有大规模的邮寄投票,而且现场投票和邮寄投票是分开数的,这两种投票在...

采用这个定律的两个关键点 ,一是采样足够多,二自然情况下,即不能有特定因素(也就是数域要够宽,比如以十进制为例,首位数可能1-9,这个我下面以身高为例说明)。跟先后次序没关,采用什么 方式没关。
不符合这两个条件的情况就不能用 这个 定律,举个例子,比如成年中国男子身高,基本都是1米以上2米以下 的,这个就不符合第二个 条件,即是某个特定群体有特定的特征了。所以即便采样足够多,也没用,首位数大概率都是1. 所以肯定不符合本福特定律。

比如有人足够有钱有时间,去量一下你周围石块 的体积 大小,单位取立方厘米,不管你是用手 捡石头还是用其他工具捡,不管你是白天捡还是 晚上捡,只要你选的样本足够多,大概率肯定是 符合本福特定律的 。

一个国家 的 选票大致满足这两个条件,一采样足够多了,唯一的 缺陷可能有政治取向干扰,也就是第二个条件 可能不满足,特别是这个在深蓝或深 红州,用本福特定律来检验就 不那么合理的。但是每个州县的人口数如果不是“计划”生育,比如固定都得是1000万人,而是随机生育的,那么不管 是在深蓝或深 红州县,这个用本福特定律来检验却也是可以的。

退一步说,在摇摆州或没有太 明显的政治取向的 情况下,倒是可以运用一下,大致应该是要满足这个定律的。如果 偏离得太离谱,基本的直觉就是可能会用问题。虽然不能说百分百有问题,但是可以猜百分之六七十可能有问题。特别是今年的 亚利桑那州,乔治亚州,威斯康辛州和宾州的数据,这个就有必要调查了。
看了知乎那篇文章,一看是个数学优秀回答者,但写的那篇文章却又臭又长,甚至部分说法还 前后矛盾,一坨屎。
把此一定律加入維基百科為原創研究(OR),可以直接刪除。
此外網上大多使用此定律的情況為誤用,兼是證明的不充分條件
the law holds consistently when certain assumptions are met: all numbers must be equally likely to appear (i.e., you can’t only tally batches of 6 votes and expect the totals to start with 7, 8, or 9) and the numbers must span multiple orders of magnitude, such as ranging from 100 to 10,000,000. Violations of these assumptions lead to violations of the law. For vote tallies, all numbers are equally likely, but not all states meet the second assumption. In the state of Nevada, Esmeralda County has around 900 people while Clark County has over 2,250,000 people. In the state of Vermont, the bounds are much narrower. 


https://www.eipartnership.net/rapid-response/what-the-election-results-dont-tell-us
>>那个人偏向性很明显的,他这么写只是因为现在是Biden的数据不符合这个定律,如果现实是有人发现Tru...

预言错了的帖子就删除,真是不要脸到了极点。
>>采用这个定律的两个关键点 ,一是采样足够多,二自然情况下,即不能有特定因素。跟先后次序没关,采用什么...


你说的也不对,没有什么“特定因素”的限制。
It tends to be most accurate when values are distributed across multiple orders of magnitude, especially if the process generating the numbers is described by a power law (which is common in nature).
身高不符合multiple orders of magnitude,所以不行
但是各个郡的投票人口符合multiple orders of magnitude,同时is described by a power law
>>你说的也不对,没有什么“特定因素”的限制。It tends to be most accurate ...

values are distributed across multiple orders of magnitude,这句话就是我第二个条件的意思,我只是说得通俗一点 ,给 你举了那个身高的例子就是为了 说明这个意思。
他这里的distributed across multiple orders of magnitude我个人理解是可以 这么说但也不可以这么说,
其实他要表达的是这个数的区间要够宽。就是,如果是十进制 的话,你首位数1—9都有可能出现,如果是九进制的话,首位数1—8都有可能出现这样 样本。以此类推 到其他的进制。不能说 某个特定的因素框住了你的数,比如中国成年男子 身高,这个特定因素把你的数基本框在了1米以上2米以下,所以,不管你怎么采样,首位数几乎 可以 肯定百分百是1.

选票是大致可以用这个定律来验证的,个人认为,特别是本次的摇摆州县们。听说拜登的都不符合,直觉的话拜登的票应该是比较可疑的。
https://youtu.be/etx0k1nLn78
你们觉得这个说的有道理吗
youtuber英国人,我承认Biden上台很可怕,但这benford‘s law 用在这里确实不合适。(没看完视频不要踩我)

要发言请先登录注册

要发言请先登录注册