一种基于unicode和OCR的过审技巧
已知,字形相近但是大小、形状不完全相同的文字在unicode中的编码是不同的,但过审后人眼结合上下文很容易就能看出来要表达的是什么。
那么通过对敏感词中的字母文字进行替换,可以增加审查系统的工作量,即使最后过不了审,也可以极大消损审查系统所依附的硬件。
举几个常见的例子,
字母A,在拉丁字母、西里尔字母、希腊字母中,就有
ÀÁÂÃÄÅĀ这么多相近表示
那么党的英文party,就可以有
PĀRTY
PÅRTY
PÄRTY
等等表示
字母C有
Ç℃这么多近似的表示,就可以有
℃PC
ÇP℃
等表示
文字才有
日本假名ォ,就可以有
徐ォ厚这样的表示
那么通过对敏感词中的字母文字进行替换,可以增加审查系统的工作量,即使最后过不了审,也可以极大消损审查系统所依附的硬件。
举几个常见的例子,
字母A,在拉丁字母、西里尔字母、希腊字母中,就有
ÀÁÂÃÄÅĀ这么多相近表示
那么党的英文party,就可以有
PĀRTY
PÅRTY
PÄRTY
等等表示
字母C有
Ç℃这么多近似的表示,就可以有
℃PC
ÇP℃
等表示
文字才有
日本假名ォ,就可以有
徐ォ厚这样的表示