对不起,我一次性抓了867个抄袭报到帖回复的人
报道75344 牧羊犬(UID:3644) 抄袭指数: 1.00 获赞: 8个
报道83574 KLVnNgkO(UID:20684) 抄袭指数: 0.15 获赞: 7个
报道86711 roach(UID:21236) 抄袭指数: 0.19 获赞: 10个
报道86787 bxyubs(UID:21249) 抄袭指数: 0.37 获赞: 8个
报道87226 alexking(UID:21327) 抄袭指数: 0.19 获赞: 10个
报道88709 antiwall(UID:21525) 抄袭指数: 0.29 获赞: 8个
报道89187 AMDyes(UID:21608) 抄袭指数: 0.57 获赞: 6个
报道89255 Feuervogel(UID:21624) 抄袭指数: 0.35 获赞: 6个
报道89695 ethan520(UID:21706) 抄袭指数: 0.19 获赞: 10个
...
报道157998 yunshan(UID:31704) 抄袭指数: 0.21 获赞: 9个
报道158110 嘻嘻卡200斤(UID:31739) 抄袭指数: 0.30 获赞: 7个
报道158112 未来可期2030(UID:31741) 抄袭指数: 0.40 获赞: 3个
报道158275 韭菜尼特(UID:31772) 抄袭指数: 0.21 获赞: 7个
报道158280 Oversee(UID:31774) 抄袭指数: 0.24 获赞: 4个
报道158361 sparker(UID:31785) 抄袭指数: 0.19 获赞: 6个
报道158396 MaoDog(UID:31793) 抄袭指数: 0.21 获赞: 6个
报道158445 aba(UID:31806) 抄袭指数: 0.58 获赞: 2个
完整版见 https://clientalchinese.htmlpasta.com/。
下面介绍一下怎么做到的。
首先我把你的回复内容,每五个字切成一片,比如说你的回复是“我反共所以爱品葱”,就会被切成“我反共所以”、“反共所以爱”、“共所以爱品”、“所以爱品葱”。
对于你的每一个切片,如果之前在别人那里出现过,那么你的【抄袭切片数量】+1,否则【原创切片数量】+1.
你的抄袭指数,就是【抄袭切片数量】/(【抄袭切片数量】+【原创切片数量】)。
抄袭指数接近1,说明你是一字不差完全抄袭。
代码参见:https://paste.ee/p/YUlEQ 时间复杂度O(n)。对你没有看错,是O(n)。
抄袭指数高于0.15的用户,共867个(统计自论坛公开的备份数据)。
特别提示:以上统计UID到31800左右为止,不包含新近出现的大批水军。
报道83574 KLVnNgkO(UID:20684) 抄袭指数: 0.15 获赞: 7个
报道86711 roach(UID:21236) 抄袭指数: 0.19 获赞: 10个
报道86787 bxyubs(UID:21249) 抄袭指数: 0.37 获赞: 8个
报道87226 alexking(UID:21327) 抄袭指数: 0.19 获赞: 10个
报道88709 antiwall(UID:21525) 抄袭指数: 0.29 获赞: 8个
报道89187 AMDyes(UID:21608) 抄袭指数: 0.57 获赞: 6个
报道89255 Feuervogel(UID:21624) 抄袭指数: 0.35 获赞: 6个
报道89695 ethan520(UID:21706) 抄袭指数: 0.19 获赞: 10个
...
报道157998 yunshan(UID:31704) 抄袭指数: 0.21 获赞: 9个
报道158110 嘻嘻卡200斤(UID:31739) 抄袭指数: 0.30 获赞: 7个
报道158112 未来可期2030(UID:31741) 抄袭指数: 0.40 获赞: 3个
报道158275 韭菜尼特(UID:31772) 抄袭指数: 0.21 获赞: 7个
报道158280 Oversee(UID:31774) 抄袭指数: 0.24 获赞: 4个
报道158361 sparker(UID:31785) 抄袭指数: 0.19 获赞: 6个
报道158396 MaoDog(UID:31793) 抄袭指数: 0.21 获赞: 6个
报道158445 aba(UID:31806) 抄袭指数: 0.58 获赞: 2个
完整版见 https://clientalchinese.htmlpasta.com/。
下面介绍一下怎么做到的。
首先我把你的回复内容,每五个字切成一片,比如说你的回复是“我反共所以爱品葱”,就会被切成“我反共所以”、“反共所以爱”、“共所以爱品”、“所以爱品葱”。
对于你的每一个切片,如果之前在别人那里出现过,那么你的【抄袭切片数量】+1,否则【原创切片数量】+1.
你的抄袭指数,就是【抄袭切片数量】/(【抄袭切片数量】+【原创切片数量】)。
抄袭指数接近1,说明你是一字不差完全抄袭。
代码参见:https://paste.ee/p/YUlEQ 时间复杂度O(n)。对你没有看错,是O(n)。
抄袭指数高于0.15的用户,共867个(统计自论坛公开的备份数据)。
特别提示:以上统计UID到31800左右为止,不包含新近出现的大批水军。
40 个评论
特别提示:以上统计UID到31800左右为止,不包含新近出现的大批水军。
----
我做这个工具,是送给品葱用来快速识别抄袭用户。如果算上最近那批水军,抄袭人数估计2000。
----
我做这个工具,是送给品葱用来快速识别抄袭用户。如果算上最近那批水军,抄袭人数估计2000。
暴力匹配人家语法换下同义词换下就查不出了。。。我看有些人也不像水军
暴力匹配人家语法换下同义词换下就查不出了。。。我看有些人也不像水军
都是人类,没有bot,如果有人愿意人肉NLP,我葱非常欢迎。
【水军】的说法是【政治正确】。我当然知道这些不是【水军】,而是【低质量中国大陆用户】,但我这么说是会被人围攻的。
都是人类,没有bot,如果有人愿意人肉NLP,我葱非常欢迎。【水军】的说法是【政治正确】。我当然知道...
那么为什么这些用户多以真人为头像,并且行为模式及其异常?
能不能加兩個功能?
- 抄襲指數0.9以上的,能不能給出原版URL?
- 每個用戶檢查最近點贊紀錄,2月1號至今給人點過贊/踩/0的標記出來?
再加一個:3. 標示每個用戶的聲望和被贊數?
能不能加兩個功能?
1. 当然可以,只是没有必要。你如果一定要确认,可以直接用品葱的google搜索,马上就找到原版了。
2. 当然可以,加多20行代码的事情。我给出源码了,你需要这功能的话可以自己加上去。
3. 同上
我就从来没进过报道帖所以不担心挨你锤🐶
这个也太粗暴了一点,我觉得还是train一个LSTM网络,然后用Hidden state判断比较靠谱。
1. 当然可以,只是没有必要。你如果一定要确认,可以直接用品葱的google搜索,马上就找到原版了。...
我編程一泡污誒。而且你跑過了我就不想再跑一遍數據了,直接列表->加載數據->輸出額外3項數據。我有空再來鼓搗……
这个也太粗暴了一点,我觉得还是train一个LSTM网络,然后用Hidden state判断比较靠谱...赞同,就是工程量实在太大了(pretrain+finetune+online learning),you can you up.
。。。。。你这是开玩笑还是认真的?
这不是我说了算的,数据摆在那里:https://zhuanlan.zhihu.com/p/69585984
----
编辑:仓鼠说的对,我收回我刚才的说法,中国人脑子基本正常,就是科学素养太低。
已隐藏
可惜,我看成了689个。
要不777个也好啊
要不777个也好啊
我想說最近抓「水軍」有點太敏感?很多標觀察感覺也正正常常的樣子?當然可能是我對牆內水軍不夠敏感啦,我連高級五毛也不會分。有時候品葱這種積分形式的(聲望、遊戲幣) 反而會加劇新註冊用戶灌水帖,因為急於賺夠20幣發一帖之類的,就在新人報到那裡抄一下,大概?暫時沒有留意到很多帶歪風向的,不知大家怎麼看。
大数据治葱就是好
高效率,简单粗暴
高效率,简单粗暴
list打开后浏览器关键词搜索有21个抄袭指数1的
这不是我说了算的,数据摆在那里:https://zhuanlan.zhihu.com/p/69585...
硬體(腦)大多應該沒問題,有問題的是軟體(思想)。洗腦太成功了不是嗎。
我想說最近抓「水軍」有點太敏感?很多標觀察感覺也正正常常的樣子?當然可能是我對牆內水軍不夠敏感啦,我...
這位樓主是違抗站方指揮的,前幾天大舉入侵時,在站長與多位管理非常勤奮的合作與努力下,才將水軍的情況控制住(當然,其中有誤傷)。這些水軍並非那類洗地粉紅,而是以一行文水題水評論的方式存在。與此同時,這個樓主卻多次解除可疑的用戶,宣稱並非水軍,只是低質量用戶。
當然未看先猜他又要噴我倚老賣老,亮出我在欺負他的證據,所以我也不敢批評,連踩也不敢踩。
恭喜品葱,升级了。
现在最起码的等级应该是:瞄准党的颠覆势力。
顺便告诉党国一声,品葱88.8%的人支持习近平无限期连任,包括我这个坚定的支持者在内。
现在最起码的等级应该是:瞄准党的颠覆势力。
顺便告诉党国一声,品葱88.8%的人支持习近平无限期连任,包括我这个坚定的支持者在内。
牛逼牛逼,点赞了,顶上去,最好让这些五毛大军彻底绝迹,既然不敢自己黑就抄袭是吧?真他妈不愧是一群没文化的人。
你这直接切片做比较的方法太粗暴了……就算不用神经网络 你也可以参考这个 上面也有源码
1. 让我看csdn跟让反贼看百度百科没有本质区别
2. 他的那个similarity,跟我的算法没有本质区别……
3. 他的方法,用在所有人头上是 O(n^2)时间复杂度
(UID:21608) 抄袭指数: 0.57 获赞: 6个他的报到内容为:发于一九年十一月底。我不...
此处判断抄袭的标准,不是【我的关键词】(请勿造谣),而是【他之前的人】发表过的报道帖。他被判断抄袭,我估计理由是【20202】在之前的报道帖中已经出现过了。
我个人的意见:他的报道帖连20个字都凑不齐,又缺乏创意,属于低质量报到帖,以当下的治理标准,肯定是拿不掉观察的。
31800以后的用户(包括最新的用户),数据全在站长那里,需要由站长来做,大家可以去催一下他。
确定抄袭阈值,以及批量封禁的工作,由站长来做最方便(代码已经给了),我无法代劳。
此处判断抄袭的标准,不是【我的关键词】(请勿造谣),而是【他之前的人】发表过的报道帖。他被判断抄袭,...
「首先我把你的回复内容,每五个字切成一片,比如说你的回复是“我反共所以爱品葱”,就会被切成“我反共所以”、“反共所以爱”、“共所以爱品”、“所以爱品葱”。」
这不和关键词差不多吗?
--------------------
他的报到贴是低质量没错啊。不仅是以当下的标准拿不掉观察,在一月份的时候这样的报到都会被折叠的(20凑字数)。但是他也并不是在一月份也不是在现在报的到嘛。
你是一个个汉字统计,我是结巴分词成词,然后按你说的那样去处理3个词,3个词划分我挑选3这个数字,是因...
我每5个字切一片,是你的【主谓宾】切片的一种近似,这两种方法最终给出的【抄袭指数】,不会差太远。
优点是我这个切片方式不需要借助任何分词工具,纯python不要库,而且速度非常快。对付ctrl+v绰绰有余。
「首先我把你的回复内容,每五个字切成一片,比如说你的回复是“我反共所以爱品葱”,就会被切成“我反共所...
【关键词】的意思是,一篇文章中【少数】【具有区分作用的】词。比如你在谷歌搜索时通常会输入的那些词。
我上面给出查抄袭的算法是一篇文章中【所有字】【切成5个字一片】,注意是【所有】字,而不是【少数】词。
而且【我的关键词】听起来像是我维护了一个敏感词列表。
特此纠正。
----
没错,所以我没有对他执法,只是把我的结论发上来。
0.1几的也算抄袭?标准太低了吧?
0.1几的也算抄袭?标准太低了吧?
0.15左右的,当然不是全篇抄袭,而是内容毫无新意,跟前人有雷同。比如说他可能说了些泛泛而谈的废话,或者从别人那里抄了一两句话、剩下是他自己写的。
如果你看这些人的其他发言,就会发现质量也很低。
真正富有创意的回答,抄袭指数是不会超过0.15的。
【关键词】的意思是,一篇文章中【少数】【具有区分作用的】词。比如你在谷歌搜索时通常会输入的那些词。我...
可能你敏感了,但我没那个意思
看来老兄在开发论文查重软件上也有一手啊
我想說最近抓「水軍」有點太敏感?很多標觀察感覺也正正常常的樣子?當然可能是我對牆內水軍不夠敏感啦,我...
对,不要过分制造对新用户的紧张空气,要注意那些潜藏在背后的危险,比如说故意污名化品葱的用户,还有哪些故意搅乱品葱讨论环境的用户
除了数据,你也应该举几个例子。贴几篇抄袭的文章。