新品蔥嚴重漏洞報告 時區泄漏+非自然人用戶揭發+最佳安全獎

大家注意,新品蔥雖然對發帖/發文時間雖然作了模糊處理,但僅僅是在前臺只顯示日期,而後臺則是完整的時間記錄(年月日時分秒)。而只需要20次發帖就能泄漏你所在的地理位置,無人能幸免。

下面向大家展示一些熱門用戶的活動時間經驗分布函數,時間從UTC時間0點開始至24時結束,曲線中越平坦的時間段活動越少,越陡峭的時間段活動越多。

同時,本報告也是提醒大家大數據分析的威力(這僅是單一的時間分析),要有敬畏之心,切勿掉以輕心。

建議:
高危用戶如@admin @小二 請選擇固定一天當中的僅僅某一個小時發帖。
你們一個發帖不到30貼,另一個盡量隨機登錄,但仍然能判斷你們在中國大陸時區。
建議這兩個ID今後僅僅用於站務。
https://i.imgur.com/kiOjQ5N.gif
@陈士杰 大家絕對不要再相信這個賬戶,他原先說自己是大陸人在美國,後來又說自己是舊賬戶的朋友(原话是“原来那个陈世杰回国了”),但實際上其活動時間顯示這個ID絕對不是一個自然人的賬戶,根本没有睡眠时间,這個ID的活動時間顯示其是由一個遍布全球的機構控制,具体动机这里不作猜测。
https://i.imgur.com/ysvoz6Z.png
@一只鹿兒 你的作息很有規律,生活質量很高,每天8小時睡眠很健康,中午吃飯午休都很規律。加油!
https://i.imgur.com/gJ3w9jc.png
下面三位熱門用戶來自臺灣或大陸,這裏隱去ID
https://i.imgur.com/2zetcDX.gif

下面三位熱門用戶來自北美和歐洲(恭喜肉翻)僅點名@SALTYATO 你真的在密歇根
https://i.imgur.com/5HbaQLW.gif
最佳安全獎:唯一一位有意識控制自己活動時間的是最新注冊並比較活躍的@anonym 無法根據其活躍時間分辨出他是來自北美還是大陸/臺灣。
https://i.imgur.com/HOmSWCV.png

整改建議:
(1)品蔥頁面頂部顯示主要時區的時間,北京/臺北、美東、UTC(英國),方便用戶進行時間管理。
(2)修改問題/文章的延遲發布機制,將其隨機化到24小時,發布後清除真正的原始發布時間。
(3)敏感用戶請嚴格限制自己上品蔥的時間,學習@anonym 的時區模糊法,或限制在某一个小时。

==================
发布这个漏洞是为了提醒大家不要掉以轻心,主动安全措施。这里判断大家时区的不是上品葱的时间段,而是不上品葱的时间段(相对其他时段比较平坦,长度6-8小时左右的时段),对没有采取主动措施的自然人用户来说,就等于你的睡眠时间段。
另外除了数据外,文字描述上我刻意加入了一些错误。
陈士杰这个ID不是自然人而是由一个遍布全球不同时区的机构控制,他根本没有睡眠时间,但却刻意假装自然人,该机构的具体动机这里不猜测。

@小二 经验分布函数是概率密度函数的积分,它能从很少量数据提取出细微的统计规律,而这些细节换成概率密度则容易被忽略。
@PincongBot 作息不规律的人也有规律,@小二 在随机化自己的访问时间上是做得最好的,但睡眠时间段内的活动频繁度仍然比非睡眠时间段略低。
@admin 延迟发布的机制不够完善,不要过度依赖,另外它只往后延迟,因此几乎可以推断出每个用户的起床时间。
其他某些回复本帖的ID刚好已经在贴出来的数据中,根据平时发言可以判断你的时区。

建议敏感用户采取@anonym 的办法,在两个主要时区(如北美+东八)的睡眠时段保持绝对沉默。
14
分享 2019-02-01

109 个评论

@admin @小二 @一只鹿兒 @陈士杰 @SALTYATO @anonym
这个网站的时间记得会随机延迟的,当时显示时间的时候就有这个设定
你在这儿胡说八道些什么,我从来没有自称是台湾人,更没有说过自己在美国。
再次驗證了 陈士杰 這個賬戶被共匪的國安掌握著。既然是冒牌,請放棄偽毛使用。
支持技术贴、对于陈士杰我有一个疑问、高调宣布退出品葱、但完全言出而不行。频频发帖。到底是什么意思?
到我的评语,怎么就变成家庭医生的风格哩。不只是所处时区,其实还能够缩窄从事职业范围,这件事情值得所有人注意
我又回来,一开始是由于提名诺贝尔奖的事情回来的。
怎么会有共产党的国安神经病似的搞一个账号来骂共产党呢?用常识判断好不好
我看这个发帖子的人才是共产党的五毛网特吧,故意在这里拉仇恨,扰乱一池春水。
那么高调退出、却几天都坚持不到、不是近乎笑谈吗?
你可以看一下我的一个文章,是天安门母亲提名的事情。主要是民运大佬没人做,搞得我开始不得不自己推动了。
可以用概率密度函数,结果会更直观一点。

反正我是不担心此类分析。编程随想君说过,你完全可以有意暴露一些信息,误导你的分析者。比如假装无意中暴露自己的语言习惯,随想君一直用俺,但实际生活中完全不会这样讲话。
您发的内容、或者说无论发什么内容、都不能让这场闹剧看起来更合理一点
你要发言就不能换一个自己的号?顶着别人的名字有什么意思
这个号影响力大呀,而且反正大家也都知道了我不是那个老陈士杰。
确实看起来有点傻,不过确实就是这么回事儿。
admin Free HK
时间戳是随机的
啊?我印象中陈士杰没说过自己是台湾人吧?
是呀,我本来就没说过我是台湾人,这个发帖子的人就是个五毛,看谁反共激烈就往谁身上泼脏水
但是你说的仍然无法解释主贴中的现象。。。。一个人如果固定时段上品葱确实可以推理出所在地区
admin Free HK
已将时间戳改为随机10小时(原来是随机5小时)
我被点名了么?很惭愧…一点微小的贡献
感谢at,但其实我在马里兰,不知为何系统会判定我在密歇根。anoym真的人如其名,非常厉害
Pepperoni 已停用
……那我这种昼夜颠倒的人岂不是很吃香……
这种分析对于作息不规律的人无效
这种分析最多只能判断出用户所在的大致时区,无法判断出国家
使用UTC+08:00时区的国家有10个,人口约有17亿人(https://zh.wikipedia.org/wiki/UTC%2B08:00),文中判断来自台湾或大陆不正确
纠正:英国的夏令时是 UTC+01:00
发布这个漏洞是为了提醒大家不要掉以轻心,主动安全措施。这里判断大家时区的不是上品葱的时间段,而是不上品葱的时间段(相对其他时段比较平坦,长度6-8小时左右的时段),对没有采取主动措施的自然人用户来说,就等于你的睡眠时间段。
另外除了数据外,文字描述上我刻意加入了一些错误。
陈士杰这个ID不是自然人而是由一个遍布全球不同时区的机构控制,他根本没有睡眠时间,但却刻意假装自然人,该机构的具体动机这里不猜测。

@小二 经验分布函数是概率密度函数的积分,它能从很少量数据提取出细微的统计规律,而这些细节换成概率密度则容易被忽略。
@PincongBot 作息不规律的人也有规律,@小二 在随机化自己的访问时间上是做得最好的,但睡眠时间段内的活动频繁度仍然比非睡眠时间段略低。
@admin 延迟发布的机制不够完善,不要过度依赖,另外它只往后延迟,因此几乎可以推断出每个用户的起床时间。
其他某些回复本帖的ID刚好已经在贴出来的数据中,根据平时发言可以判断你的时区。
建议其他用户采取@anonym 的办法,在两个主要时区(如北美+东八)的睡眠时段保持绝对沉默。

本账号今日起永久作废
已删除
你这种分析完全是瞎掰。首先我确实有黑白颠倒的习惯,所以我的课大部分也都在下午。其次就是你要搞清楚,我是上线时间还是发帖时间。我的电脑经常一宿都不关,不关的话账户就永远处在上线状态。但是仅仅是在上线状态,上面并没有发帖。而且你用脚趾头想一想,怎么可能会有什么“全球的机构”来操控一个账号,你看玄幻小说看的了吧,在这儿意淫。
文字描述还刻意加入一下错误,你有毛病吧。
那个……在密歇根的是我……他应该弄混了……
应该是的
要不要由论坛管理员牵头对这个陈士杰ID进行调查?可以有多种方法来印证这个ID背后是否有操控组织。这个睡眠时间是个好的开始,至少提出了疑问。
已删除
天安门母亲值得尊重和纪念。但警惕任何劝人实名支持或参与海外民运的企图。民运圈早就被渗透成筛子了,没有美国国籍的话实名参与就是自投罗网。反共的方式很多,但绝对不要实名!

民运圈的那些事之如何看待民运圈的内斗
https://www.reddit.com/r/saraba1st/comments/8i5mr7/%E6%B0%91%E8%BF%90%E5%9C%88%E7%9A%84%E9%82%A3%E4%BA%9B%E4%BA%8B%E4%B9%8B%E5%A6%82%E4%BD%95%E7%9C%8B%E5%BE%85%E6%B0%91%E8%BF%90%E5%9C%88%E7%9A%84%E5%86%85%E6%96%97/

胡锦涛内部讲话:中共特务占民运80%以上
https://www.aboluowang.com/2015/0508/553218.html
【阿波罗新闻网 2015-05-08 讯】作者:徐水良
为了对民运基本情况作个排队摸底,作个基本估计,我曾经排列了国内和海外民运人士270人。涵盖了国内外几乎所有最著名的民运人士。其中,迄今仍然无法判定属于哪个阵营的,有55人;基本(不是绝对)可以判定真正属于我方反对中共阵营的,有53人;基本(不是绝对)可以判定属于对方阵营的,有162人。我方人士与对方阵营之比,大约是1:3。情况相当糟糕。根据胡锦涛内部讲话的官方数据,中共控制渗透控制民运圈的特线,占了民运人数的80%以上,提供民运经费的80%以上。

自由亚洲 | 国保海外撒网 诱异见留学生做卧底
https://chinadigitaltimes.net/chinese/2018/01/%E8%87%AA%E7%94%B1%E4%BA%9A%E6%B4%B2-%E5%9B%BD%E4%BF%9D%E6%B5%B7%E5%A4%96%E6%92%92%E7%BD%91-%E8%AF%B1%E5%BC%82%E8%A7%81%E7%95%99%E5%AD%A6%E7%94%9F%E5%81%9A%E5%8D%A7%E5%BA%95/
默默圍觀....不知道你分析出我在哪.....
我对这个判断方法有个疑问,像我这种经常熬夜到三四点的,判断不就不准了吗
并且对于工作了的人而言,假如不上班玩手机,也会制造出两个睡眠时间段的效果
品葱已经出现文革
实名提名天安门目前获奖,你的资料也都是直接给那些人权基金会,我这边什么也都拿不到。
那些人权基金会既然肯给中国异议人士发奖,就不可能把提名者的信息泄露给共产党。
这是连点基本的常识和智商都没有,智商捉鸡呀
那今天就得罪一下,挂几个墙外的和特别不信邪的
@SALTYATO 美东
@Pepperoni 美东

@vvgvv1 欧洲
@由比滨结衣 欧洲 主要非上班时间活动
@薄熙来 欧洲 (随机化做得较好)
@viewer 欧洲 (随机化做得很好)

@adbase 澳洲时段
@利维坦 澳洲时段
@guibuhai 澳洲+亚洲双时区 (双时区覆盖)

@1901zxc 东八区
@钱宝盛 东八区 坐实五毛

其他东八区的就不挂了
部分ID下班时间2小时间隔可推测身处大城市

可利用国际会议排时网站寻找公共非睡眠时间段
https://www.timeanddate.com/worldclock/meeting.html
三时区 伦敦+纽约+北京 公共非睡眠时段,北京时间20-22时
双时区 北京+纽约 公共非睡眠时段,北京时间早8-10时,晚20-22时

数据库是公开的 结果对错心里清楚就好
不必回复
安全第一

(本号作废)
能不能开源一下代码让我们大家都看一看?我看plot像是MATLAB,不想再造轮子了,时间比较少
Pepperoni 已停用
看自己的数据,一副没有正经工作的样子……这很不好……
俺自己做了一个 https://pincongbot.github.io/Pincong-SQL/active-time/
源代码:https://github.com/PincongBot/Pincong-SQL/tree/master/active-time/
蛤蛤蛤,被挂了
反驳文中陈世杰“根本没有睡眠时间”
https://i.imgur.com/HuQsYwl.png
可以看出这个账号的活动规律性强
建議大家可​​以主動分散活躍時間,但不要采取主動措施僅在北京時間早8-10時,晚20-22時活躍,相信很多人這兩段時間不一定有空,這相當於降低網站整體活躍度。如果這是一個高級五毛,目的是引起相互之間的不信任,引發品蔥內鬥,干擾網站正常運行,逐漸降低網站活躍度,他的目的已經達到。
不是我说你们,连品葱的管理员都不是,怕个毛啊。那些推特活跃用户被约谈的,最多喝个茶,写个保证书。这帮推特老油条要么就是自己暴露信息,要么就是手机号泄露。还真有哪个人是大数据分析出来的?

还没抓人呢,就吓成这个鸟样,这点胆都没有,锅巴都不稀得理你。

天天分析来建议去的,搞得好像个个都有编程随想那么有价值似的。
分析出来在哪个时区,又不能去证实,也不能去证伪,似是非是的结论,除了能吓唬人,还能干啥。分析本身搞不出多少信息,反而在讨论里有些人主动说自己在哪哪哪……
赞同
靠,裸奔了有点方,窝崛腚再去申请几个小号。
感谢@PincongBot 开发的品葱数据查询接口和这个工具。
也感谢这位匿名黑客的提醒。
窝觉得网站建设方当公开数据和代码的决定是对的,否则这个漏洞根本不会爆出来。
改天要是数据库落到朝廷手里那就危险了。

最后窝还是要把话题回到宗教上来
各位无神论者如果因为看到这个漏洞而开始改变自己登录品葱的习惯,你们或许会开始明白:
有神论和无神论的真正区别在哪里。
刚刚又查了一下,窝觉得@anonym 的那个奖应该收回
仅仅一个时区根本不可能作为抓人依据,支持@小二
anonym 回复 EPSON
我绝对不知道我作为一个裸奔小白,怎么把我选到最佳安全去了。所以我说还是另请高明吧,我也实在不是谦虚
这个你自己都暴露自己是在东八区了吧……
谢谢您,这篇文章的作者完全是在造我的谣,故意往我身上泼脏水,估计是五毛,故意来恶心我的。
表示澳洲完全没去过……建模方向没问题,但是就我个人结果看有较大误差,建议加入参数进行调整。
EPSON 回复 小钙
又随便看了几个用户的活动时间统计,窝觉得这些数据其实说明新品葱做得很成功啊。一些用户除了睡觉其余时间都在上品葱,另一些用户下班时间比上班时间活跃,这不正是显示出新品葱很有吸引力、对用户有价值嘛。另外,网警和国宝哪儿来什么大数据分析能力嘛,这年头能够搞大数据分析的人一个月工资的零头都比吃体制饭的高。即便真的是在东八区又如何嘛,反而是对那些朝廷走狗的嘲讽。
那个……咱们能不能考虑考虑某些人在【一段工作的特定时间范围内】必须用电脑的时段……

私不是怪你暴露了我在欧洲,而是看我的数据好像我是欧洲【夜里工作】的【特殊工作者】一样……
看了私的数据感觉我好像是欧洲【夜里工作】的特殊工作者一样……
没有啊,我觉得你的数据显示你上班时间工作认真,下班时间逛品葱,说明是正常职业啊。怎么会跟特殊工作者联系在一起?
(○´―`)ゞ最高峰出现在登陆集中在UCT 22:38——UCT 00:28……英国 23:38——1:28,法国00:28——02:28,出门占场地等顾客,然后住进旅馆……之后一觉睡到10:00,另一个高峰出现,醒来玩儿会儿手机……然后退房回家休息…………………………

这号废了。(○´―`)ゞ(இ﹏இ`。)
哈哈,熬夜上品葱绝对是对管理员们的恭维。特殊职业者这个时段应该是在忙着工作,怎么会玩品葱呢?另外你用手机上品葱也真是胆大。
已删除
(✿╹◡╹)嘛,也有可能是某个学生在一段时间必须非要用电脑,但是要做的事情他不愿意干。午餐过后基本没课,有课也是晚上的,所以他就去cafeteria点一杯咖啡吃着超市6个/1.99的甜甜圈做作业。因为他知道回家肯定不会写作业的。写烦了就看看品葱……写完了就看看漫画和品葱,待到路上不会堵车的时间,回家就开始打游戏……累了就躺床上看动画片或者刷品葱……救你一命的往往不是你藏的多好,而是你与生俱来的毛病。
就我个人而言,一般就是晚上或者早上刷一刷,看看有没有要回答的问题。时间多了的话就多写一些时间少就少些一些,一旦值得回答的问题没有了一般就直接睡觉或者干别的事了。
俺指的是文中“下面三位熱門用戶來自臺灣或大陸”判断不正确,三位中没有俺
如果俺真的在 UTC+08:00 时区,但俺不在中国大陆,如何抓俺?
仅仅一个时区根本不可能作为抓人依据。
1901zxc已停用 已停用 回复 小二8964
資瓷, 僅僅一個時區, 上哪抓人去....
一個時區內有好幾個國家, 即便分析出一個用戶在大陸, 然後呢??把大陸人全抓起來一個一個審?? 一個時區分析而已, 驚慌個屁....... 反正我人不在牆內, 怕個毛
可以判断你现在在的地点,然后确定是否搜查。如果可以确认你在东八区,那么就可以开始搜查,否则就把你的信息报给海关,让海关等你去你国的时候抓捕,这样可以节省资源
前提是他们已经掌握了你的基本信息,否则基本没有太大作用
一个时区怎么判断所在地点?即便分析出所在地点,能把所有人拉网式审查?
俺们越是恐惧,越是正中CCP和五毛们的下怀。
反正俺是丝毫不担心。
如果已经掌握基本信息,还需要分析所在时区吗?
1901zxc已停用 已停用 回复 PincongBot
說的對, 一個時區好幾個國家 , 難不成還要跨國....更別提他還分析錯了....
这个还是需要,至少可以知道你现在地点。他们可以用你以前的信息分析出个大概你是谁。假设旧品葱数据库已经在你国之手,你国便可以利用大数据机器学习分析语言风格,锁定你在新品葱的账号。其他方式,诸如代码风格,也可以判断出你可能的其他github是谁,如果你在旧品葱或其他相关论坛开过源之类的。

差不多锁定你是谁之后,由于可能已经弃用一切你国app或者其他可以追踪你行迹的方式,所以只能使用这个,他们可以知道你现在大概在什么位置,然后根据时区进行境内搜查或海关封侯
如果他们已经知道个大概你是谁,但是不知道你现在在哪,那么这个还是有用的,否则用处不大。这是一个辅助信息,告诉他们你现在到底是在什么地方。如果你对你以前的信息保密足够信任,那么这点信息对你构不成威胁,否则我建议还是多加小心,毕竟新品葱的数据完全透明,如果数据继续发展,可以利用多种方式锁定他们认为的重要目标(如果你之前的活动已经引起了他们的警惕,而且你之前并没有在一个注重隐私保护的论坛,如旧品葱或膜乎),然后进行下一步操作。这里的关键在于所有信息都是事实的,而不是像旧品葱或膜乎的数据,是过时的
yichangfeng 已停用 回复 小钙
你说这个侦查的方向有问题,编程随想最新的博客里有两个FBI抓人的案例,一个是通过钓鱼网站和浏览器漏洞获取直接IP地址,另一个是通过聊天记录里面的线索。仅仅是一个时区没有什么参考意义,必须有其他信息的配合才行。另外你说的这个语言风格、代码风格这些都太虚无飘渺了,误判率很高的。
我算个半业内人士(指AI大数据分析),这个行业的关键目前就在于大数据。不需要太大数据,只要几万单词的数据,就可以轻松识别每一个人的nuance,判断这篇文章作者到底是不是这个人。更关键的是,模仿或者刻意改变语言风格短期内是没有用的,大多数人的语言风格在短期内都是可以识别的。编程随想提到过这个,他已经用这种「农逼」风格多年,而且尽力不产生任何改变,每篇文章都是刻意保持某种用词和语法,才达到这个效果,否则早被查出来是谁了。在品葱你不可能每个回复或者评论都和他一样精心选择你的用词和语法,所以这个风险的确还是存在的
我说的是你已经有了线索,但是没有最新线索,它就可以成为一个最新线索。就比如,他们通过某种方式锁定了你的QQ,而你QQ早就不用了,其他和你QQ关联的一切都不用了,那么这个线索就是中断的,他们需要你现在的信息进行侦查,新品葱就提供了这个平台
yichangfeng 已停用 回复 小钙
只要你的真实身份跟新品葱账号完全隔离就不会有问题。除非你非要去提起那些你QQ聊天记录里说过的独一无二的话,语言风格肯定不能跟现实生活完全一致。
这个还是很困难的。假设旧品葱完全沦陷,IP邮箱都到手,拿到你一个QQ或者微信还是轻而易举的,假如你之前用旧品葱的时候同时也用QQ微信,除非你一直编程随想式上网,否则一个IP就解决了。如果你在旧品葱发言足够多(否则他们懒得抓你),他们就可以训练语言模型,然后与新品葱的每个用户的语言模型匹配(前提是你新品葱继续活跃,否则也没有抓的必要),锁定数个目标,然后通过这个方法判断你目前所在的位置。就像我说的,短期内语言风格的改变很困难,尤其是在相同的地方,比如都是品葱,干的事都一样。旧品葱数据目前来讲还是新鲜的,这个方法半年内应该通用
如果你不信这个邪,等数月后数据达到一定程度,我可以把旧品葱的备份数据拿来训练模型,匹配新品葱的用户。我想我自己应该就能被匹配出来,即使我现在汉语水平比当时退化不少
这种NLP数据分析方式对中文和英文最为适用,因为网络上这两种语言使用量是世界上最大的,所以可以直接找来pretrained model来做embeddings,接下来再训练specific model就好了。如果这个网站主要语言不是中文,我还不是特别担心,尤其是考虑中文NLP的papers已经dssq,毕竟现在google trend上所有AI相关的词汇搜索最多的就来自你国,可想而知有多少在你国的人做这些数据分析
viewer 回复 admin
“admin:已将时间戳改为随机10小时(原来是随机5小时)”

擴展為24小時隨機,這個時區漏洞會不會補上了?
我觉得你们还考虑什么AI的,真是想太多。
他们抓人还需要理由吗?抓就是了,随便安个罪名,反正也是完成任务。想要证据,刑讯逼供就是了,哪那么麻烦。
除非你是编程随想那种领袖级的人物,不然他们根本不会拿出大数据来分析你,没有必要。白白浪费维稳经费,有那钱还不如自己贪着。
另一方面,墙内都开始手机app发语录了,早晚会发展到那种你歌颂不够好都会被抓的程度。你们又装不成五毛的样子,到那时候还是会被抓的,怕也没用。
我推荐你们像我一样不用QQ和微信,不装任何国产软件。这样至少就能放心不被分析,怎么着也比你们这担惊受怕的好。
再多说一句,你们AI这么厉害,怎么不造个真AI出来,控制人脑,玩弄权术,让AI统治人类去啊。
yichangfeng 已停用 回复 小钙
我还真不信这个邪,目前我在新品葱的文字应该有几万字了。光是我博客上的7篇长文就有万字了,而且基本上没有刻意选取什么语言风格。另外我觉得你跟我的语言风格就很像,逗号之间的文字长度,句号之间的分句数量都很像,行文风格和逻辑也比较相似。除了我很少用英文词。另外,我发现我和一些用户都多多少少有点模仿编程随想的文风和用词。我还真的很感兴趣如果你真的训练一下能匹配几个账号出来,我是否在清单之中。

我认为朝廷的走狗只会使用成熟的软件去抓人的,这种AI匹配科研性质太强,达不到到产品要求的准确度。网上一些英文的文字特征提取也就是判断一下每100个单词中有几个逗号句号,每个分句多少单词,每个句子多少分句多少单词,均值和方差之类。语言风格跟你近期的阅读关系也很高。
yichangfeng 已停用 回复 小钙
另外这种匹配只能作为侦查手段,缩小范围,不能用来作为证据。就像编程随想最新博文提到的FBI抓Jeremy Hammond的案例,他聊天记录提到的特别的人和事只是用来圈定几个怀疑对象,最后还是通过几个月的监控才和流量匹配才获得足够的证据。所以只要VPN+TOR+双虚拟机就能够避免这类情况的发生。
几万字应该没用,因为英文的那个application是几万词而不是字,不过这个app只要最少5000词就可以达到85%准确率(https://www.digitaltrends.com/cool-tech/emma-identity-ai-web-app/)。中文本身不存在分词,所以应该有另一套NLP系统,我没读过相关论文不是很清楚,不过你国国内应该有很多在研究这个的,只是我不了解罢了。越南语日语等语言也没有分词,所以相关研究还是有的,有空我可以看看。理论上这类语言会提供更多信息,因为作者的ambiguity本身也是一种信息,所以更vulnerable,有空我可以看一下,然后试试能不能做个中文版,虽然我估计应该已经有成品了
这个的确也只能确认怀疑对象,如果你确实用TOR+虚拟机并且在水表之前销毁是不可能得到证据的。但问题是你的各种活动在新品葱上都可以用来分析,语言风格是一方面,作息时间是另一方面(这个只是你目前的作息,假设你的作息和旧品葱完全一致而旧品葱数据已经沦陷,那么就又缩小了范围),包括点赞或者反对的回复回答,关注的话题问题等等都可以用来做分析。最后即使拿不出来证据,确定就是你了一样定罪,毕竟你国不是美国,不是有证据才能定罪的
yichangfeng 已停用
反抄袭系统跟行文风格匹配完全不是一回事。另外行文风格也取决于文字生成的方式。像刘仲敬的博客基本上都是他的口述转成文字的,最多就是剔除一些太口语化的部分,这个跟反复编辑过几十遍才成文的学术论文完全不同,更何况一旦多人合著的论文行文风格会完全不同于任何一个作者。行文风格跟会话的媒介也很有关系,QQ微信之类聊天对话节奏快编辑少,品葱节奏慢得多,博客的节奏就更慢了。所以我对跨平台的数据能否作为训练样本表示怀疑。

另外,相信还是会有不少用户的使用习惯会因为这个时区提取的曝光而改变。像前面提到的申请几个小号、控制登陆时段都能够打乱这种方法的有效性。不过旧品葱的时间戳数据再加上文字确实可以用来匹配新品葱的账号,前提是用户根本不知道可以有这种操作,前后保持完全一致的作息。但新品葱是开放注册,如果用多个小号,每个号发言量少、且登陆时段不同几乎就无法定位了。
yichangfeng 已停用 回复 小钙
之前忘了点回复
现在才看到。这个anti-plagiarism是根据你的写作风格而不是内容,而且这个APP主要还是用了identify authorship的,也就是我说的。

即便是口语化表达,每个人的使用习惯也会不一样,而且更能体现出identity。不过跨平台的文字应该是不能作为训练样本的,我说的就是针对品葱活跃用户,因为活跃所以有大量训练样本,同时在新旧品葱活跃的话就可以拿来对比确定目标,因为目前的assumption是新品葱活跃用户都是曾经的旧品葱/膜乎活跃用户,而不存在新兴的活跃用户,而且在旧品葱/膜乎活跃的用户现在仍然活跃(否则没有抓的必要,因为抓的目的就是让你闷声)。多用几个小号的确可以避免这个问题,但是这样就很难制造「大V」或者「声望」,难以确定一些高质量用户,影响使用体验
guibuhai Thinker
刚休假回来看到这个,还挺准的啊,窝老基本上只在亚太市场(含A股澳洲日本韩国新加坡)交易时段刷品葱,白天补觉
原来是小Ca同学,你的语言习惯被我识别出来了:)
原来你来了,还是早期入股用户,为何一直闷声至今
一直潜水,没登陆过。寒蝉兄怕别人抢注ID帮我申请的,看到你的帖子一时兴奋回了一个=)
被约谈立马怂 我连说什么都想好了

要回复文章请先登录注册

发起人

一次性帳號

联系我们