如果全世界都搞言论审查，哪种语言的审查难度最高？

我是精赵我骄傲不敢发表意见！有些看不懂低级红高级黑的人老是踩我掉威望！无奈摊手！

先放结论，不管是哪种语言，审查难度都一样。

小钙又出来答题暴露智商了。
小钙的高赞也暴露很多品葱网友智商了。
认得几个计算机科学、语言学名词，便中英夹杂、简单类比、胡乱套用。小钙其以果推因、认知肤浅、逻辑混乱的本质数月之后仍不见长进，真不怕贻笑大方。

自然语言处理、统计学、大数据分析再怎么牛逼，其本质都是机器程序，是人为设置关键词进行识别审查。比如关键词：“颜色革命、Fuck CCP、Free HongKong、八九民运、六四屠杀”。这些关键词无论采用何种语言，不管是使用广泛、人口众多的汉语英语，还是极为冷门小众的非洲南美部落语言，只要已被语言学家、程序员编写成自动互译程序，那么在机器面前，都是一堆“二进制数字”关键词。
所有语言均能转换成“二进制数字”关键词。故审查难度均等。机器审查的难易度，与小钙所谓的“语言使用者多寡、新词汇和语法的更新快慢、分析语、词根变化、句法学规律”无任何关系。
机器审查的难易度只取决于关键词词库。只要破解了词库，程序无法识别关键词，那么只能依靠全民洗脑、互相监控、发动韭菜手动举报，交给人工电池审查员逐一裸眼识别。建议小钙看看《窃听风暴》、《斯诺登》，了解监控审查如何运行？而不是想当然的主观臆测。
小钙所谓的“汉语与英语是两大最容易审查的语言，而非洲和南美部落的神秘预言是最难审查的”结论完全错误。支那某些翻译软件直接不翻译外语敏感关键词。那些独裁的中东国、非洲国直接进口移植支那的机器审查系统，语言不通、小语种、语法结构、词根词性变化完全不构成任何障碍。
最难审查的不是什么皮钦语，不是什么多种语言混合起来的手法。
相反，这种多种语言混用的手法，不仅对只通晓一种语言的受众带来阅读困难，而且破解起来十分容易，三个步骤轻松搞定。
1、设置程序，首先识别语言类别。
2、针对已识别的语言类别，输出翻译结果。
3、针对翻译结果进行关键字识别。发现刘晓波、八九民运、天安门广场等关键词即时封杀。

其实，比较难审查的是各种拆字借字同音同型联想替代词汇，抽象形象混用。
比如：
1、原文：学习强国，伟大光荣正确的共产党领导一切。
改造文：学包弓虽G，韦D、G荣、Z确的供产谠领导一t刀。
2、原文：争取自由民主人权法治，推翻维尼熊修宪连任终身制。
改造文：挣耳又目由苠主人木又琺氵台，堆番羽纟隹呢熊俢宀先辶车亻壬纟冬身制。
3、原文：共产党暴政为了维护极权统治，不惜一切代价镇压八九民运。其党卫军机枪坦克入京，于六月三日夜间至六月四日白日，在天安门广场清场过程中制造大量伤亡。木樨地、长安街等地大量学生市民被血腥屠杀。
改造文：供产谠爆正攵为了纟隹护级木又统治，不惜一切亻弋价钅真圧㈧玖珉辶云，其谠卫珲机木仓土旦克入京，于六月弎日夜间至六月皿日白日，在兲按门广扬氵青扬过程中制造大量伤匸。林犀地、长按街等地大量学珄市民被血月星尸者杀。

以上改造方式，机器程序无法识别关键词，只能韭菜手动举报、人工裸眼审查，再添加到关键词库。关键词库只充不减，逐渐臃肿不堪。而且随意任性的添加关键词，容易引起误杀滥杀。比如，原关键词“共产党、党卫军、天安门、机枪坦克、血腥屠杀”，演变成新关键词“供产谠、谠卫珲、兲按门、机木仓土旦克、血月星尸者杀”。会对非关键词的“供产、卫珲、按门、机木仓、土旦克、血月星、尸者杀”造成误杀滥杀。

机器最难审查的应该是将采用“各种拆字借字同音同型联想替代词汇，抽象形象混用”的改造文制成图片格式，且图片表面添加随机乱序的半透明多色线条图案。不仅程序无法识别关键词，而且即使被韭菜举报、人工审查添加到关键词库后。也只需重复上述操作、剪切更改大小即可避免识别。匪共的关键词库、图库只会无限膨胀下去。

小钙

从NLP，尤其是目前大数据分析时代的角度来说，最难的当是使用量最少的语言，因为样本数最少。目前NLP最常用的deep vector embedding方案还是基于大数据训练的，所以汉语和英语是两大最容易审查的语言，而非洲和南美部落里的神必语言是最难审查的。除去deep learning式的审查，使用传统的NLP审查的话分析语其实是最难审查的，因为分析语不基于词根变化而是根据各种stop words改变词性，所以其实是相比分析语较难从句法学上找到规律的。

从人工或单纯的敏感词的角度来说，应该是使用者越少的语言越容易审查。使用者少导致语言演化缓慢，所以新词汇和语法不会被制造，进而使得人工审查无需更新自己的知识储备，更方便的找到审查员。

真正最难审查的其实是皮钦语（Pidgin），也就是多种语言混合起来的手法，比如：

原文：二ゴロ、俺はニデシンウェイをtolerate nai, now you a sein of usになれ。

翻译：你够了，我无法忍受你的行为，现在你将成为我们中的一员。

解析：二ゴロ(nigoro)，俺はニデシンウェイ(ni de shinuei) をtolerate nai（ない为日语否定后缀）, now you a sein（せいいん成員） of usになれ（成れ，成为）。

谷歌翻译（检测到日文）：Nigoro，我可以成为一个宽容的奈。

其中还可以有各种用法，上面是把汉语拼音写成片假名，然后日语和英语混用，使用日语语法。也可以把汉语拼音写成日语汉字（万叶假名出口转内销并感），然后使用英文语法：

原文：ニ号郎、我cannot連署your真惠、now you will become和麺乗で胃炎。

解析：ニ号郎 (nigourou)、我 (wa) cannot 連署 (renshou) your 真惠 (shinwe)、now you will become和麺乗で胃炎 (wamen jou de ien)。

谷歌翻译（检测到中文）：倪乃南，我不能拥有自己的星座，现在您将成为日本面条和胃炎。

不过这种皮钦语要求有点高，至少要会两种语言，但是如果会官话以外的方言的话，也可以算两种语言。可以参考粤语的写法，其实就是其中一种。

~~一直正義~~ ^? 魔怔人碰瓷双簧女子高生小字报真诚用户太上皇女仆装心靈建全正义人士大师小号海失意政客 PUA 上访嘿阔安全因素必意四东林党人 PTSD 先哭为敬网军自由心证幻想朋友

🤐❓

👋😤❗️

😤🔨🐻

🤯⛏🐻

😰🙏🐸

🐸👌

😝👈🐸👍🐻

🐸🔫🐻🔪😱

🐻👍🤐

antigodseye AntiGodsEYE

其实高赞的回答是没有太大用处的。
在NLP中，目前对词语的表示用的比较流行的方法都是通过上下文判定词义。
其实比较早之前，印象中是16年，百度就通过这个思想，通过无监督+启发式算法，自动发现了很多的黑产新词汇。搜索关键词：段海新 CCS 黑产词汇
当然，高赞回答所说的改造文难以识别，这的确是目前的现状。
然而，工业界已经有相当多的对抗方法，这种方法目测几年后就将失效，因为，大公司有着非常充分的数据，甚至完全可以维护一个替换词表，把火星文，数字之类的给替换掉。
结论：此方法治标不治本。

所以即使用改造文体的方式，仍然不能有效对抗内容审查。
其实提问题的人说的方法，是有一定可行性的：可以通过绝对无法被封的政治正确词语，通过巧妙的制造歧义，表达句意。
是一种相当不错的研究方向，值得点赞。

还有其他的办法，其实早就在用了，比如以前人们就通过对暗号，增加语句中的数据冗余的方式，隐藏自己真实句意。这种办法属于隐写。
得益于中文的句子即便改变一些顺序也能读懂意思，隐写在对抗内容审查方面还有很大的潜力。

bwiritsk

以我了解的语言来说，汉语和日语都属于难以机器审查的语言，其共同点在于表意的多样性。

汉语是一种高语境语言，也就是可以根据场合和语境通过借代、暗喻、影射、联想等方式传达与字面完全不同的信息，做到“话里有话”。再加上通过方言、同音字、多音字、形近字、嵌字乃至emoji代字等方式人工制造的网络黑话。更高级的手法如“假古文”竖排或者语序错乱。这都是AI学习所无法理解，只能靠人力筛选的。

例如用一段《厉王止谤》原文影射庆丰，AI无法理解引用的语境，就无从过滤，要么就是把它能找到的所有《厉王止谤》统统标记敏感，那么纯有即无。
又比如这次区议会选举翻车，在人日的文章下用赞扬的语气“香港人以票止暴，成功踢走了黑暴势力”正话反说明褒暗…贬，AI也不可能理解其真实含义。

日语同样属于高语境语言，而且以语法暧昧而闻名。再加上日语独有的三元（算上罗马音就是四元）文字系统，黑话化之后堪称AI学习的噩梦。

望N負E 革命吾醉，造反有醴！

那還是漢字。你看一個“包”字有多少種涵義？滿街的包子鋪，能都拆招牌不？發wechat說句“什麽破包子，真難吃”，能抓進去不？

Patrick_tz 爾識真理真理釋爾

发明新密钥是没有意义的，对方不共享密钥，只能在小范围内传播，没什么影响力

真正有活力的，就是创作，创作一个个新的敏感词，而且是基于本来就有的，创作出新的内涵和含义
比如维尼写史，比如do you hear the people sing，甚至包括大海小池塘，疯狂宇宙，通商宽衣
看着这些，一个个从国内的乐库，搜索，各种地方消失，内心就感觉，加速主义又在推进了

这种旧有的东西，不断赋予新的创作意义，让中共审查机器不断扩充黑名单，敏感的点不断增加，加大非编制内的自我审查力度，搞到全部都是敏感词，过去熟悉的东西一个个不断消失，到那时候，除了深红的粉红，基本上大家都能感觉出来不对，因为审查机制切实给他们带来了不便

DiskKiller3000 A broken CD-ROM

有一种方法，不知道能不能试一下。
可是这会有一点漏洞，不知道别人会不会审查成功。
能否审查成功，其关键不在于单一语言，也有可能与排列有关。

NZRdlClr5 嗆聲完了改回來了

不用那麽麻煩：
世界**宣言，天安門****，打倒***
你看，我不用説出來各位也心知肚明我要説什麽

不然也可以反諷，AI治不了反諷，人類可能可以但是要看理解力，網軍未必有

molecular Thinker

太难了。我还试过瑞典语，结果答案只幸存了三天，悉数被删。

Julianne Chino de ultramar, liberalismo social, preocupación por los derechos humanos, anticomunismo, racionalidad, escepticismo cultural

緬文，高棉文，毛利語，琉球語，祖魯語等極少數人纔會使用的語言

国家主席卢本伟還是忍不住想刷蔥⋯

沒人提韓語嗎？

韓文可以被拆開組合，應該能增加不少難度

한국 韓國
可拆為ㅎㅏㄴ국，한ㄱㅜㄱ等等
還能進行一些替換逃避審查

刁迈乎无

盲文？

https://telegra.ph/file/ab2133fbe35be474e3db9.jpg

deep

问题是你定义没有意义，必须得大多数人接受才有意义，而大多数人接受你的暗语付出的代价远高于封锁这些暗语的代价。

若名用户

中文已经是难度最高的一类了，攻破中文就没有什么别的语言能抵挡了。

magrabee 无政府主义，实用主义

可以搞一些审查者不明白的语言，比如克林贡语啊，巨魔语啊什么的。打死丁狗。

~~beark~~ 小熊维尼

笑了，如果搞成白名单体系，就都没难度。

字数补丁字数补丁

~~阿尔戈洛~~ ^观察 MTF，苕之华，其叶青青。知我如此，不如无生。

我觉得中文难度就不低，各种同音，同型，换义，联想，生僻字就导致很难靠关键词查敏感言论。

DavidGarrett

这和语言没关系，任何语言屏蔽了关键词都有可以取代的词语，比如英语单词，随便换了一个字母或调换一个字母顺序，大家都知道是那个词。
这个和政权有关，一般上多国家使用的语言就不容易对语言进行封杀，西班牙语、英语几乎无法封杀，汉语就惨了。

阿呆呆 70後

我覺得語言研究是沒有任何意義的。

所有這些類型的討論，
核心目的都是一樣的"安全的進行公開交流"，
密語這類的就走入邪道了，
少數人在約定下可以安全交流，
相對的就無法公開了，
變成小團體內"自嗨"用的。

"安全的進行公開交流"這一點，
我倒是有一個比較奇特的建議，
利用P2P和區塊鏈這類的技術，
建構一個去中心化的訊息交流平台，
並且開發相當數量的電腦病毒，
入侵眾多電腦來當作中繼傳播，
當所有參與者都可以匿名參加，
且因為大量的中繼傳播的存在，
對於稽查的官方就變的敵友難辨，
完全無法辨識你是自願參與者還是電腦病毒被害者，
當電腦病毒和參與者總數超過一億以上時，
基本上就無法管控了。

甜味麻醬左派偏右，工业党，混乱中立，Anti CCP

~~已删除~~

一个稍有常识的人包食者鄙，未能远谋

个人觉得对所有语言来说一劳永逸都不大可能，你可以赋予任何词汇一定的含义，但什么东西拥有了一定的含义并传播开来之后终究会被发现，进而被和谐，唯有不断地赋予词语新的含义来和审查抗争，所以就这点来说，不同的语言相差无几。

烧腊铺掌门商人

@我是精赵我骄傲：機器學習、深度學習、神經網絡的區別都沒搞明白，神經網絡有關鍵詞庫？這樣的水平還diss別人？虛心點吧。

@小鈣：基於數據樣本，這樣永遠都是先有樣本，才能得出結果，這個主流技術已經解決了，無疑不是當前的發展方向。目前的難點是預測，就是多台機器對話，得出可能的潛在用語。所以我認爲，所有語言是一樣的。

天下无贼你想多了…………

我觉得这是两回事：语言审核的难度，和实际语言审核的实现。

中文很可能是审核比较难的，但是中国人多，研究的人多，政府也有意推动，现实可能就是中文的审核技术最“成熟”
如果某个小语种，和斯拉夫语系很相近，理论上可能把其他语言的审核模型改改就能适用，但由于使用这种语言的人少，最后可能反而针对它的审核很少。

不要用真名 ^{新注册用户}

中文的谐音换字抗审查真的强尤其往日常用字词上靠，总不能把正常说话全屏蔽了吧

sager_wong 萨格尔王

要不咱們來個精靈語吧

克林貢語有點難度呢

其實語言和語言之間區別不大，關鍵還是人，人會發揮出很神奇的功效

红旗下的蛋

k肯定是越少人用的语言了懂得人越少越好

~~地尽头~~ ^?

已隐藏

已刪除 24岁备考中（迫真）

？查審避躲來序語倒顛過通以可不可
字02字02

~~试问谁还未觉醒~~ ^?

已隐藏

lasoda 冯不记

我个人觉得是精灵语加密语混用语言等方法在公开场合下都没有用。
在微博微信朋友圈这种公开场合来加密通话是很愚蠢的事，大家只顾着自己的说话加密了，却不知道最简单的破解方法———禁止加密通话。
尤其是对线些如吐槽鬼一类的粉蛆的时候，多少他挂过的反贼都在说黑话，然后他就直接指导自己脚下的小蛆说，这些加密通话的全是汉奸，这就完事了。尤其是这种粉红比正常人多的时期，手足们甚至会被魔女狩猎式抓出来批斗。
如果仅仅是在私人空间里骗过系统进行交流的话，那方法还有很多，也安全得多。