ChatGPT

低质量的中文互联网造成的隐藏恶果

有这样一个现象：当用户用英文向ChatGPT提问事实性问题时，往往能够得到正确的答案，但是当用户用中文问同样的问题时，ChatGPT却往往会犯错，哪怕这个问题是以中国为背景的。以下是我自己做的一个实验，当我用英文问，Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3？”则Chatgpt在十次中每次回答都不一样，并且里面充斥着类似盛大，完美，腾讯这样的错误答案。

究其原因，中文互联网上充斥着各种低质量的文本，如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中，就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练，以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题，那么模型就会学到错误的知识，导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据，自然造成其表现变差。

在将来的数年，欧美各国可能会将ChatGPT引入各行各业，许多行业和个人将会从中受益，甚至有可能带来生产力的爆发式增长。然而，ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性（哪怕翻墙）。中国也将无法享受ChatGPT带来的社会经济红利。

不止如此，中文互联网因为没有言论自由，并有严重的和谐词问题，所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下，研发类似ChatGPT的AI产品需要数年的时间来收集数据，效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言，已经沦为了互联网上的笑柄。

综上所述，中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代，中国可能无AI可用

28

分享 2023-03-25

18 个评论

两个确立一键加速

纯中文语料训练很难，比如谐音梗、歧义、阴阳怪气之类的，对现在的ai来说难度太高无法理解。

但是基于优质语料训练好的模型，有一定的智力水平之后，再拿中文语料retrain，往往有意想不到的效果。

类似不能给小学生上初中课程，但是小学毕业了再来学习就能更上一层楼了。

要发言请先登录或注册

低质量的中文互联网造成的隐藏恶果

18 个评论

发起人

相关主题

状态

低质量的中文互联网造成的隐藏恶果

18 个评论

发起人

相关主题

推荐

状态