如果全世界都搞言论审查,哪种语言的审查难度最高?

哪种语言从语法结构上先天的能使言论审查机制失效,从而达到防不胜防的效果?

或者我想到一个方法,在中文语境下,给最常用的词汇增加第二种含义。比如:
“腾讯”代表共产党,
“百度”代表习近平,
“阿里巴巴”代表贪污腐败,
“新浪”代表八九六四,
“天猫”代表革命,
“淘宝”代表独裁者。
这样共产党的狗媒体就什么也没法报道了
已邀请:
我是精赵我骄傲 不敢发表意见!有些看不懂低级红高级黑的人老是踩我掉威望!无奈摊手!
先放结论,不管是哪种语言,审查难度都一样。

小钙又出来答题暴露智商了。
小钙的高赞也暴露很多品葱网友智商了。
认得几个计算机科学、语言学名词,便中英夹杂、简单类比、胡乱套用。小钙其以果推因、认知肤浅、逻辑混乱的本质数月之后仍不见长进,真不怕贻笑大方。

自然语言处理、统计学、大数据分析再怎么牛逼,其本质都是机器程序,是人为设置关键词进行识别审查。比如关键词:“颜色革命、Fuck CCP、Free HongKong、八九民运、六四屠杀”。这些关键词无论采用何种语言,不管是使用广泛、人口众多的汉语英语,还是极为冷门小众的非洲南美部落语言,只要已被语言学家、程序员编写成自动互译程序,那么在机器面前,都是一堆“二进制数字”关键词。
所有语言均能转换成“二进制数字”关键词。故审查难度均等。机器审查的难易度,与小钙所谓的“语言使用者多寡、新词汇和语法的更新快慢、分析语、词根变化、句法学规律”无任何关系。
机器审查的难易度只取决于关键词词库。只要破解了词库,程序无法识别关键词,那么只能依靠全民洗脑、互相监控、发动韭菜手动举报,交给人工电池审查员逐一裸眼识别。建议小钙看看《窃听风暴》、《斯诺登》,了解监控审查如何运行?而不是想当然的主观臆测。
小钙所谓的“汉语与英语是两大最容易审查的语言,而非洲和南美部落的神秘预言是最难审查的”结论完全错误。支那某些翻译软件直接不翻译外语敏感关键词。那些独裁的中东国、非洲国直接进口移植支那的机器审查系统,语言不通、小语种、语法结构、词根词性变化完全不构成任何障碍。
最难审查的不是什么皮钦语,不是什么多种语言混合起来的手法。
相反,这种多种语言混用的手法,不仅对只通晓一种语言的受众带来阅读困难,而且破解起来十分容易,三个步骤轻松搞定。
1、设置程序,首先识别语言类别。
2、针对已识别的语言类别,输出翻译结果。
3、针对翻译结果进行关键字识别。发现刘晓波、八九民运、天安门广场等关键词即时封杀。

其实,比较难审查的是各种拆字借字同音同型联想替代词汇,抽象形象混用。
比如:
1、原文:学习强国,伟大光荣正确的共产党领导一切。
改造文:学包弓虽G,韦D、G荣、Z确的供产谠领导一t刀。
2、原文:争取自由民主人权法治,推翻维尼熊修宪连任终身制。
改造文:挣耳又目由苠主人木又琺氵台,堆番羽纟隹呢熊俢宀先辶车亻壬纟冬身制。
3、原文:共产党暴政为了维护极权统治,不惜一切代价镇压八九民运。其党卫军机枪坦克入京,于六月三日夜间至六月四日白日,在天安门广场清场过程中制造大量伤亡。木樨地、长安街等地大量学生市民被血腥屠杀。
改造文:供产谠爆正攵为了纟隹护级木又统治,不惜一切亻弋价钅真圧㈧玖珉辶云,其谠卫珲机木仓土旦克入京,于六月弎日夜间至六月皿日白日,在兲按门广扬氵青扬过程中制造大量伤匸。林犀地、长按街等地大量学珄市民被血月星尸者杀。

以上改造方式,机器程序无法识别关键词,只能韭菜手动举报、人工裸眼审查,再添加到关键词库。关键词库只充不减,逐渐臃肿不堪。而且随意任性的添加关键词,容易引起误杀滥杀。比如,原关键词“共产党、党卫军、天安门、机枪坦克、血腥屠杀”,演变成新关键词“供产谠、谠卫珲、兲按门、机木仓土旦克、血月星尸者杀”。会对非关键词的“供产、卫珲、按门、机木仓、土旦克、血月星、尸者杀”造成误杀滥杀。

机器最难审查的应该是将采用“各种拆字借字同音同型联想替代词汇,抽象形象混用”的改造文制成图片格式,且图片表面添加随机乱序的半透明多色线条图案。不仅程序无法识别关键词,而且即使被韭菜举报、人工审查添加到关键词库后。也只需重复上述操作、剪切更改大小即可避免识别。匪共的关键词库、图库只会无限膨胀下去。
从NLP,尤其是目前大数据分析时代的角度来说,最难的当是使用量最少的语言,因为样本数最少。目前NLP最常用的deep vector embedding方案还是基于大数据训练的,所以汉语和英语是两大最容易审查的语言,而非洲和南美部落里的神必语言是最难审查的。除去deep learning式的审查,使用传统的NLP审查的话分析语其实是最难审查的,因为分析语不基于词根变化而是根据各种stop words改变词性,所以其实是相比分析语较难从句法学上找到规律的。

从人工或单纯的敏感词的角度来说,应该是使用者越少的语言越容易审查。使用者少导致语言演化缓慢,所以新词汇和语法不会被制造,进而使得人工审查无需更新自己的知识储备,更方便的找到审查员。

真正最难审查的其实是皮钦语(Pidgin),也就是多种语言混合起来的手法,比如:
原文:二ゴロ、俺はニデシンウェイをtolerate nai, now you a sein of usになれ。

翻译:你够了,我无法忍受你的行为,现在你将成为我们中的一员。

解析:二ゴロ(nigoro),俺はニデシンウェイ(ni de shinuei) をtolerate nai(ない为日语否定后缀), now you a sein(せいいん 成員) of usになれ(成れ,成为)。

谷歌翻译(检测到日文):Nigoro,我可以成为一个宽容的奈。


其中还可以有各种用法,上面是把汉语拼音写成片假名,然后日语和英语混用,使用日语语法。也可以把汉语拼音写成日语汉字(万叶假名出口转内销并感),然后使用英文语法:
原文:ニ号郎、我cannot連署your真惠、now you will become和麺乗で胃炎。

解析:ニ号郎 (nigourou)、我 (wa) cannot 連署 (renshou) your 真惠 (shinwe)、now you will become和麺乗で胃炎 (wamen jou de ien)。

谷歌翻译(检测到中文):倪乃南,我不能拥有自己的星座,现在您将成为日本面条和胃炎。


不过这种皮钦语要求有点高,至少要会两种语言,但是如果会官话以外的方言的话,也可以算两种语言。可以参考粤语的写法,其实就是其中一种。
一直正義 《鹿姨基鬼屋3》吹爆!!! 兼任魔怔男子组队长 拥护品葱习惯法
🤐❓

👋😤❗️

😤🔨🐻

🤯⛏🐻

😰🙏🐸

🐸👌

😝👈🐸👍🐻

🐸🔫🐻🔪😱

🐻👍🤐
antigodseye AntiGodsEYE
其实高赞的回答是没有太大用处的。
在NLP中,目前对词语的表示用的比较流行的方法都是通过上下文判定词义。
其实比较早之前,印象中是16年,百度就通过这个思想,通过无监督+启发式算法,自动发现了很多的黑产新词汇。搜索关键词: 段海新 CCS 黑产词汇
当然,高赞回答所说的改造文难以识别,这的确是目前的现状。
然而,工业界已经有相当多的对抗方法,这种方法目测几年后就将失效,因为,大公司有着非常充分的数据,甚至完全可以维护一个替换词表,把火星文,数字之类的给替换掉。
结论:此方法治标不治本。

所以即使用改造文体的方式,仍然不能有效对抗内容审查。
其实提问题的人说的方法,是有一定可行性的:可以通过绝对无法被封的政治正确词语,通过巧妙的制造歧义,表达句意。
是一种相当不错的研究方向,值得点赞。

还有其他的办法,其实早就在用了,比如以前人们就通过对暗号,增加语句中的数据冗余的方式,隐藏自己真实句意。这种办法属于隐写。
得益于中文的句子即便改变一些顺序也能读懂意思,隐写在对抗内容审查方面还有很大的潜力。
荣誉非国民 请不要忘记品葱第一原则:拒绝情绪化发言
以我了解的语言来说,汉语和日语都属于难以机器审查的语言,其共同点在于表意的多样性。

汉语是一种高语境语言,也就是可以根据场合和语境通过借代、暗喻、影射、联想等方式传达与字面完全不同的信息,做到“话里有话”。再加上通过方言、同音字、多音字、形近字、嵌字乃至emoji代字等方式人工制造的网络黑话。更高级的手法如“假古文”竖排或者语序错乱。这都是AI学习所无法理解,只能靠人力筛选的。

例如用一段《厉王止谤》原文影射庆丰,AI无法理解引用的语境,就无从过滤,要么就是把它能找到的所有《厉王止谤》统统标记敏感,那么纯有即无。
又比如这次区议会选举翻车,在人日的文章下用赞扬的语气“香港人以票止暴,成功踢走了黑暴势力”正话反说明褒暗…贬,AI也不可能理解其真实含义。

日语同样属于高语境语言,而且以语法暧昧而闻名。再加上日语独有的三元(算上罗马音就是四元)文字系统,黑话化之后堪称AI学习的噩梦。
望N負E 革命吾醉,造反有醴!
那還是漢字。你看一個“包”字有多少種涵義?滿街的包子鋪,能都拆招牌不?發wechat說句“什麽破包子,真難吃”,能抓進去不?
Patrick_tz 爾識真理 真理釋爾
发明新密钥是没有意义的,对方不共享密钥,只能在小范围内传播,没什么影响力

真正有活力的,就是创作,创作一个个新的敏感词,而且是基于本来就有的,创作出新的内涵和含义
比如维尼写史,比如do you hear the people sing,甚至包括大海小池塘,疯狂宇宙,通商宽衣
看着这些,一个个从国内的乐库,搜索,各种地方消失,内心就感觉,加速主义又在推进了

这种旧有的东西,不断赋予新的创作意义,让中共审查机器不断扩充黑名单,敏感的点不断增加,加大非编制内的自我审查力度,搞到全部都是敏感词,过去熟悉的东西一个个不断消失,到那时候,除了深红的粉红,基本上大家都能感觉出来不对,因为审查机制切实给他们带来了不便
DiskKiller3000 A broken CD-ROM
一种方法,不知道能不能试一下。
是这会有一点漏洞,不知道别人会不会审查成功。
否审查成功,其关键不在于单一语言,也有可能与排列有关。
NZRdlClr5 反共反統反納粹反加速 挺港挺台挺圖博挺東突 自由平權支持者N'Z曼參上 夜露死苦
不用那麽麻煩:
世界**宣言,天安門****,打倒***
你看,我不用説出來各位也心知肚明我要説什麽

不然也可以反諷,AI治不了反諷,人類可能可以但是要看理解力,網軍未必有
Julianne Chino de ultramar, liberalismo social, preocupación por los derechos humanos, anticomunismo, racionalidad, escepticismo cultural
緬文,高棉文,毛利語,琉球語,祖魯語等極少數人纔會使用的語言
molecular Thinker
太难了。我还试过瑞典语,结果答案只幸存了三天,悉数被删。
刁迈乎 我是计算机盲,我只认识回车键
盲文?
https://telegra.ph/file/ab2133fbe35be474e3db9.jpg
magrabee 无政府主义,实用主义
可以搞一些审查者不明白的语言,比如克林贡语啊,巨魔语啊什么的。打死丁狗。
问题是你定义没有意义,必须得大多数人接受才有意义,而大多数人接受你的暗语付出的代价远高于封锁这些暗语的代价。
beark 小熊维尼
笑了,如果搞成白名单体系,就都没难度。

字数补丁字数补丁
中文已经是难度最高的一类了,攻破中文就没有什么别的语言能抵挡了。
羊城暗夜 观察 MTF,苕之华,其叶青青。知我如此,不如无生。
我觉得中文难度就不低,各种同音,同型,换义,联想,生僻字就导致很难靠关键词查敏感言论。
这和语言没关系,任何语言屏蔽了关键词都有可以取代的词语,比如英语单词,随便换了一个字母或调换一个字母顺序,大家都知道是那个词。
这个和政权有关,一般上多国家使用的语言就不容易对语言进行封杀,西班牙语、英语几乎无法封杀,汉语就惨了。
甜味麻醬 左派偏右,工业党,混乱中立,Anti CCP
已删除
一个稍有常识的人 包食者鄙,未能远谋
个人觉得对所有语言来说一劳永逸都不大可能,你可以赋予任何词汇一定的含义,但什么东西拥有了一定的含义并传播开来之后终究会被发现,进而被和谐,唯有不断地赋予词语新的含义来和审查抗争,所以就这点来说,不同的语言相差无几。
我覺得語言研究是沒有任何意義的。

所有這些類型的討論,
核心目的都是一樣的"安全的進行公開交流",
密語這類的就走入邪道了,
少數人在約定下可以安全交流,
相對的就無法公開了,
變成小團體內"自嗨"用的。

"安全的進行公開交流"這一點,
我倒是有一個比較奇特的建議,
利用P2P和區塊鏈這類的技術,
建構一個去中心化的訊息交流平台,
並且開發相當數量的電腦病毒,
入侵眾多電腦來當作中繼傳播,
當所有參與者都可以匿名參加,
且因為大量的中繼傳播的存在,
對於稽查的官方就變的敵友難辨,
完全無法辨識你是自願參與者還是電腦病毒被害者,
當電腦病毒和參與者總數超過一億以上時,
基本上就無法管控了。
k肯定是越少人用的语言了  懂得人越少越好
华中科技大学 光复香港,时代革命!
已刪除 24岁 备考中(迫真)
?查審避躲來序語倒顛過通以可不可
字02字02
中华合众国 大一统只会滋生民族主义
日本伪中国语加强版,生僻字伪中国语。足够难倒一群人了
@我是精赵我骄傲:機器學習、深度學習、神經網絡的區別都沒搞明白,神經網絡有關鍵詞庫?這樣的水平還diss別人?虛心點吧。

@小鈣:基於數據樣本,這樣永遠都是先有樣本,才能得出結果,這個主流技術已經解決了,無疑不是當前的發展方向。目前的難點是預測,就是多台機器對話,得出可能的潛在用語。所以我認爲,所有語言是一樣的。
中文的谐音换字抗审查真的强 尤其往日常用字词上靠,总不能把正常说话全屏蔽了吧
矮嘴茅台 梁家河水浅王八多,无视八项规定喝茅台
言论审查的成本不高,后者对词语的学习,理解 对比 前者词语的发明和传播是简单的
网络上的各种论坛,可以派遣网评员去学习这些词语并人工上报敏感词库,人工的速度就足以遏制新语言的流行
再懒一点可以用基本的语法软件对文本语言逻辑审核,审核后凡是与正常汉语文法词汇不通的/有语病的这些文本统统拉清单封杀掉.

要回复问题请先登录注册

发起人

深花必须有驴耳

问题状态

  • 最新活动: 2020-03-13
  • 浏览: 12605
  • 关注: 8