【RFC-066】由品葱方面统一进行语言指纹消除

变更内容:
  1. 品葱方面增加自动消除语言指纹选项,默认勾选,也许可选十种甚至九种语言风格,比如编程随想风格,恶俗垃圾话
  2. 设立不强制遵守的回答规范,也可以像BBCode一样,例如,对分割线的使用

先假设未来可能会增加更多丰富的格式比如分割线,自动消除功能如下
对于语句内容,往谷歌翻译的效果上靠,这个可以不做
对于时间数字单位,统一用某种方法表示
对于回答格式,比如每段话习惯空一行,空两行;诸如此类,都进行规范化
对于部分词语,进行统一替换,例如,“我”全换成“俺”,“你”变成“恁”
对于标点符号,统一换成全角字符,例如,我们让,都变成,
对于代码,这个已经有很多资料

变更理由:语言指纹能够泄露真实身份
https://pincong.rocks/article/575
语言指纹识别和反检测
"他们最近在实时监控品葱",有没有技术党能来展开解释一下注意事项?
比如有用户计划删除自己所有回答评论,https://pincong.rocks/article/1531

讨论时间:长期有效
变更步骤:由开发者委员会决定
0
分享 2019-05-12

35 个评论

这个功能太梦幻了,你自己做出来给大家演示一下吧

谷雨解字了解一下?
https://pincong.rocks/article/1540

另外号码重复了
https://pincong.rocks/article/1515
不行,会暴露我的语言习惯,必须集体完成
你自己去研究一下实现这个功能的难度,其他我就不多说了,我是不在乎什么语言指纹的。
做不到的。简单的替换什么的对于计算机分析一点用都没有。
每个人的构句习惯还是无法改变。要知道中文可是分析语,语法那么灵活,构句那么随意,连标点都可能出卖你。别想啦。
标点替换是一瞬的事,会第二语言的可以用谷歌翻译,不会的可以中译英再译回来,可是其他的不知道怎么办,,,
我觉得可以实现一个迫真编译器了,,,就叫做P语言
不是替换的问题。我第一句就说了,你用替换做到的,只能迷惑人眼,完全迷惑不了算法分析呀。
你把「我」全替换成「俺」,把所有标点全替换成句号,但「第一人称主语出现频率」和「标点符号使用频率」还是一样的。要测语言指纹,肯定计算的特征有成百上千项,其中有几项极为相符差不多就可以判定了。
我这里只是举得很简单的例子,简单到统计一下频率什么的,然而若真正到了数理统计的程度,那算法可是五花八门的,绝非电脑可以应对的。你自己在脑海中模拟另一个人(比如写过非常多作品的作家,去阅读然后模仿它)可能性还高一点,但也不过是降低能够和你原人匹配的特征值项数罢了。
已删除
我共你港,Google都做不出你说这个东西来
你说的对,频率这个我不知道怎么解决,召唤@小钙
和推翻共产党哪个难度更大?编程随想没被分析出来,解决方法之一也许是少在墙内公开发表意见。
可以通过句法分析,把所有可能是第一人称省略主语的地方加上主语,不过很难,谷歌翻译都不能做到,所以只能靠翻译到语法不同得语言,再翻译回来,比如英语永远需要主语,再翻译回来的时候所有「我」的频率都会变化
@小钙 刚刚已经跟你对过话了,你也是老熟人,但说实话真看不出来你是谁。
@支字头在哪呢
http://archive.is/dbsVO
不谢
@我是什么意思?人脑储存统计数据的方式是recurrent的,而不是像计算机那样的RAM,所以无法一瞬找到statistical patterns,这也是为什么机器学习能够在很多领域里一瞬完成专家需要学习数年才能完成的事情。
recurrent是什么意思?类似于 recurrent neural network 吗
为什么你会觉得我像支字头?这个也是语言指纹吗
大脑的记忆就是通过recurrent states储存的,所以是distributed,可以看作是RNN的hidden states
为什么要提到RNN?似乎@小钙 有生物学背景,但据我所知,人工神经网络的设计并不严格遵循人类大脑的工作方式。

目前的NLP水平无法实现这样的任务。 购买谷歌翻译服务执行中文到英文再到中文的翻译,并允许用户在此过程后修改它们,可能是一个更好的方法。
大兄弟,这是被迫害妄想症的表现。。。
我只是说人脑无法一瞬做出ML可以做到的statistical pattern finding,因为工作记忆储存方式不一样。另外关于神经网络之间的联系,其实已经有研究在做了,比如最近在Science发的一篇文章就是可以直接通过CNN进行gradient search来生成图片去控制猴子的视觉皮层的神经元活动,而且这个CNN可以解释60%以上的firing rate patterns,说明人工神经网络和生物神经网络是有关联的。

如果是翻译的话,不如直接自己拿去翻译,翻译完之后改改发上来,拿脚本就能实现编辑框自动翻译
反对。
这和中共用星号替换敏感词是同一类行为。
谢谢!我最爱支字头了,RFC都那么的专业!支字头我爱你!
看来楼主是既不了解机器学习,也不了解刑侦判案。

属于知道皮毛,自己吓自己的那种。
我还以为这是已经实现的功能,吓了我一跳,好歹以前也做过机器学习和决策数这类的内容
果然菜是原罪,在品葱也要被鄙视,那么您能不能具体指出哪里有问题呢。这篇文章里似乎没有提到机器学习?
不是只有我有这个疑问,我看了https://pincong.rocks/question/3821下的回答觉得挺害怕的
不同好吧?星号替换敏感词减少了信息量,你不能从星号中看出来屏蔽了什么。但是规范化,你看一下比如markdown的linting,我想表达的是这个意思,而且是可选的
给你提示到这样了,你还以为是@虚空假面 这智商还抓什么支字头啊,娱乐吗?
提示:11楼的拿掉再看后面两句啊,再把11楼放回去再看啊
這些替換能掩蓋語言特徵,深表懷疑。
先把精力集中在其他急需解決的問題上,比如搜索,相關內容推薦,首頁條目平衡算法。。。。。。
所以支字头是@小钙 吗?支字头大号不是早就回归虚无了吗?
我爱支字头爱到感觉每个人都支字头!
哪里有问题
已删除
其实有一个方法消除语言特征。就是用google的自动翻译在多种语言直接反复翻译,可以有效洗掉语言特征。

当然,副作用就是病句成堆
果然菜是原罪,在品葱也要被鄙视,那么您能不能具体指出哪里有问题呢。这篇文章里似乎没有提到机器学习? 不是只有我有这个疑问,我看了https://pincong.rocks/question/3821下的回答觉得挺害怕的
尝试了科学文字
首先用英语写下你的答案,然后通过机器翻译成中文

要回复文章请先登录注册

发起人

时间加速流逝

联系我们