低质量的中文互联网造成的隐藏恶果

有这样一个现象:当用户用英文向ChatGPT提问事实性问题时,往往能够得到正确的答案,但是当用户用中文问同样的问题时,ChatGPT却往往会犯错,哪怕这个问题是以中国为背景的。以下是我自己做的一个实验,当我用英文问,Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3?”则Chatgpt在十次中每次回答都不一样,并且里面充斥着类似盛大,完美,腾讯这样的错误答案。

究其原因,中文互联网上充斥着各种低质量的文本,如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中,就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练,以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题,那么模型就会学到错误的知识,导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据,自然造成其表现变差。

在将来的数年,欧美各国可能会将ChatGPT引入各行各业,许多行业和个人将会从中受益,甚至有可能带来生产力的爆发式增长。然而,ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性(哪怕翻墙)。中国也将无法享受ChatGPT带来的社会经济红利。

不止如此,中文互联网因为没有言论自由,并有严重的和谐词问题,所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下,研发类似ChatGPT的AI产品需要数年的时间来收集数据,效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言,已经沦为了互联网上的笑柄。

综上所述,中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代,中国可能无AI可用
28
分享 2023-03-25

18 个评论

纯中文语料训练很难,比如谐音梗、歧义、阴阳怪气之类的,对现在的ai来说难度太高无法理解。

但是基于优质语料训练好的模型,有一定的智力水平之后,再拿中文语料retrain,往往有意想不到的效果。

类似不能给小学生上初中课程,但是小学毕业了再来学习就能更上一层楼了。

要发言请先登录注册

要发言请先登录注册