如果全世界都搞言论审查,哪种语言的审查难度最高?

哪种语言从语法结构上先天的能使言论审查机制失效,从而达到防不胜防的效果?

或者我想到一个方法,在中文语境下,给最常用的词汇增加第二种含义。比如:
“腾讯”代表共产党,
“百度”代表习近平,
“阿里巴巴”代表贪污腐败,
“新浪”代表八九六四,
“天猫”代表革命,
“淘宝”代表独裁者。
这样共产党的狗媒体就什么也没法报道了
已邀请:
中巡国查网执警法 中国网警出墙执法啦!
🤐❓

👋😤❗️

😤🔨🐻

🤯⛏🐻

😰🙏🐸

🐸👌

😝👈🐸👍🐻

🐸🔫🐻🔪😱

🐻👍🤐
从NLP,尤其是目前大数据分析时代的角度来说,最难的当是使用量最少的语言,因为样本数最少。目前NLP最常用的deep vector embedding方案还是基于大数据训练的,所以汉语和英语是两大最容易审查的语言,而非洲和南美部落里的神必语言是最难审查的。除去deep learning式的审查,使用传统的NLP审查的话分析语其实是最难审查的,因为分析语不基于词根变化而是根据各种stop words改变词性,所以其实是相比分析语较难从句法学上找到规律的。

从人工或单纯的敏感词的角度来说,应该是使用者越少的语言越容易审查。使用者少导致语言演化缓慢,所以新词汇和语法不会被制造,进而使得人工审查无需更新自己的知识储备,更方便的找到审查员。

真正最难审查的其实是皮钦语(Pidgin),也就是多种语言混合起来的手法,比如:

原文:二ゴロ、俺はニデシンウェイをtolerate nai, now you a sein of usになれ。

翻译:你够了,我无法忍受你的行为,现在你将成为我们中的一员。

解析:二ゴロ(nigoro),俺はニデシンウェイ(ni de shinuei) をtolerate nai(ない为日语否定后缀), now you a sein(せいいん 成員) of usになれ(成れ,成为)。

谷歌翻译(检测到日文):Nigoro,我可以成为一个宽容的奈。



其中还可以有各种用法,上面是把汉语拼音写成片假名,然后日语和英语混用,使用日语语法。也可以把汉语拼音写成日语汉字(万叶假名出口转内销并感),然后使用英文语法:

原文:ニ号郎、我cannot連署your真惠、now you will become和麺乗で胃炎。

解析:ニ号郎 (nigourou)、我 (wa) cannot 連署 (renshou) your 真惠 (shinwe)、now you will become和麺乗で胃炎 (wamen jou de ien)。

谷歌翻译(检测到中文):倪乃南,我不能拥有自己的星座,现在您将成为日本面条和胃炎。



不过这种皮钦语要求有点高,至少要会两种语言,但是如果会官话以外的方言的话,也可以算两种语言。可以参考粤语的写法,其实就是其中一种。
我是精赵我骄傲 不敢发表意见!有些看不懂低级红高级黑的人老是踩我掉威望!无奈摊手!
先放结论,不管是哪种语言,审查难度都一样。

小钙又出来答题暴露智商了。
小钙的高赞也暴露很多品葱网友智商了。
认得几个计算机科学、语言学名词,便中英夹杂、简单类比、胡乱套用。小钙其以果推因、认知肤浅、逻辑混乱的本质数月之后仍不见长进,真不怕贻笑大方。

自然语言处理、统计学、大数据分析再怎么牛逼,其本质都是机器程序,是人为设置关键词进行识别审查。比如关键词:“颜色革命、Fuck CCP、Free HongKong、八九民运、六四屠杀”。这些关键词无论采用何种语言,不管是使用广泛、人口众多的汉语英语,还是极为冷门小众的非洲南美部落语言,只要已被语言学家、程序员编写成自动互译程序,那么在机器面前,都是一堆“二进制数字”关键词。
所有语言均能转换成“二进制数字”关键词。故审查难度均等。机器审查的难易度,与小钙所谓的“语言使用者多寡、新词汇和语法的更新快慢、分析语、词根变化、句法学规律”无任何关系。
机器审查的难易度只取决于关键词词库。只要破解了词库,程序无法识别关键词,那么只能依靠全民洗脑、互相监控、发动韭菜手动举报,交给人工电池审查员逐一裸眼识别。建议小钙看看《窃听风暴》、《斯诺登》,了解监控审查如何运行?而不是想当然的主观臆测。
小钙所谓的“汉语与英语是两大最容易审查的语言,而非洲和南美部落的神秘预言是最难审查的”结论完全错误。支那某些翻译软件直接不翻译外语敏感关键词。那些独裁的中东国、非洲国直接进口移植支那的机器审查系统,语言不通、小语种、语法结构、词根词性变化完全不构成任何障碍。
最难审查的不是什么皮钦语,不是什么多种语言混合起来的手法。
相反,这种多种语言混用的手法,不仅对只通晓一种语言的受众带来阅读困难,而且破解起来十分容易,三个步骤轻松搞定。
1、设置程序,首先识别语言类别。
2、针对已识别的语言类别,输出翻译结果。
3、针对翻译结果进行关键字识别。发现刘晓波、八九民运、天安门广场等关键词即时封杀。

其实,比较难审查的是各种拆字借字同音同型联想替代词汇,抽象形象混用。
比如:
1、原文:学习强国,伟大光荣正确的共产党领导一切。
改造文:学包弓虽G,韦D、G荣、Z确的供产谠领导一t刀。
2、原文:争取自由民主人权法治,推翻维尼熊修宪连任终身制。
改造文:挣耳又目由苠主人木又琺氵台,堆番羽纟隹呢熊俢宀先辶车亻壬纟冬身制。
3、原文:共产党暴政为了维护极权统治,不惜一切代价镇压八九民运。其党卫军机枪坦克入京,于六月三日夜间至六月四日白日,在天安门广场清场过程中制造大量伤亡。木樨地、长安街等地大量学生市民被血腥屠杀。
改造文:供产谠爆正攵为了纟隹护级木又统治,不惜一切亻弋价钅真圧㈧玖珉辶云,其谠卫珲机木仓土旦克入京,于六月弎日夜间至六月皿日白日,在兲按门广扬氵青扬过程中制造大量伤匸。林犀地、长按街等地大量学珄市民被血月星尸者杀。

以上改造方式,机器程序无法识别关键词,只能韭菜手动举报、人工裸眼审查,再添加到关键词库。关键词库只充不减,逐渐臃肿不堪。而且随意任性的添加关键词,容易引起误杀滥杀。比如,原关键词“共产党、党卫军、天安门、机枪坦克、血腥屠杀”,演变成新关键词“供产谠、谠卫珲、兲按门、机木仓土旦克、血月星尸者杀”。会对非关键词的“供产、卫珲、按门、机木仓、土旦克、血月星、尸者杀”造成误杀滥杀。

机器最难审查的应该是将采用“各种拆字借字同音同型联想替代词汇,抽象形象混用”的改造文制成图片格式,且图片表面添加随机乱序的半透明多色线条图案。不仅程序无法识别关键词,而且即使被韭菜举报、人工审查添加到关键词库后。也只需重复上述操作、剪切更改大小即可避免识别。匪共的关键词库、图库只会无限膨胀下去。
羊城暗夜 变性别者,头像本人,请尊重。we born to be.
我觉得中文难度就不低,各种同音,同型,换义,联想,生僻字就导致很难靠关键词查敏感言论。
中文已经是难度最高的一类了,攻破中文就没有什么别的语言能抵挡了。
一个稍有常识的人 拔赵帜易汉帜
个人觉得对所有语言来说一劳永逸都不大可能,你可以赋予任何词汇一定的含义,但什么东西拥有了一定的含义并传播开来之后终究会被发现,进而被和谐,唯有不断地赋予词语新的含义来和审查抗争,所以就这点来说,不同的语言相差无几。
这和语言没关系,任何语言屏蔽了关键词都有可以取代的词语,比如英语单词,随便换了一个字母或调换一个字母顺序,大家都知道是那个词。
这个和政权有关,一般上多国家使用的语言就不容易对语言进行封杀,西班牙语、英语几乎无法封杀,汉语就惨了。
问题是你定义没有意义,必须得大多数人接受才有意义,而大多数人接受你的暗语付出的代价远高于封锁这些暗语的代价。
molecular Thinker
太难了。我还试过瑞典语,结果答案只幸存了三天,悉数被删。
magrabee 无政府主义,实用主义
可以搞一些审查者不明白的语言,比如克林贡语啊,巨魔语啊什么的。打死丁狗。
华中科技大学 坐落于武汉喻家山麓,东湖之畔,为支那人民共和国教育部直属的综合性重点大学。
为什么被折叠? 内容被折叠
已删除
甜味麻醬 右派偏左,工業黨,港广两栖
中国论坛早期监测言论一般情况下就是利用正则表达式,建立黑名单,大量大量的把关键词加进去来起到监测言论的目的。知乎和b站还会有许多人工审核,现在大数据人工智能也为监测言论提供一把力

所以方便躲避监测的语言应该是怎样的?要有创造性,要方便谐音,要容易起暗号,要信息量大

我只会英语和汉语,日语还在学。其他语言不清楚,但就我会的这三种我觉得汉语是最中意的
刁迈乎 中共中央总书记
盲文?
望N負E 革命吾醉,造反有醴!
那還是漢字。你看一個“包”字有多少種涵義?滿街的包子鋪,能都拆招牌不?發wechat說句“什麽破包子,真難吃”,能抓進去不?
?查審避躲來序語倒顛過通以可不可
字02字02
冬月花 海外黨、保守自由主義、關心人權、反共、民國派??
緬文,高棉文,毛利語,琉球語,祖魯語等極少數人纔會使用的語言
中华合众国 中国才是真民主,猪头都能当皇帝。
日本伪中国语加强版,生僻字伪中国语。足够难倒一群人了
k肯定是越少人用的语言了  懂得人越少越好

要回复问题请先登录注册

发起人

打倒共产党,才有新中国

问题状态

  • 最新活动: 2019-11-09
  • 浏览: 2305
  • 关注: 3
联系我们