ChatGPT

低质量的中文互联网造成的隐藏恶果

有这样一个现象：当用户用英文向ChatGPT提问事实性问题时，往往能够得到正确的答案，但是当用户用中文问同样的问题时，ChatGPT却往往会犯错，哪怕这个问题是以中国为背景的。以下是我自己做的一个实验，当我用英文问，Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3？”则Chatgpt在十次中每次回答都不一样，并且里面充斥着类似盛大，完美，腾讯这样的错误答案。

究其原因，中文互联网上充斥着各种低质量的文本，如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中，就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练，以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题，那么模型就会学到错误的知识，导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据，自然造成其表现变差。

在将来的数年，欧美各国可能会将ChatGPT引入各行各业，许多行业和个人将会从中受益，甚至有可能带来生产力的爆发式增长。然而，ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性（哪怕翻墙）。中国也将无法享受ChatGPT带来的社会经济红利。

不止如此，中文互联网因为没有言论自由，并有严重的和谐词问题，所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下，研发类似ChatGPT的AI产品需要数年的时间来收集数据，效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言，已经沦为了互联网上的笑柄。

综上所述，中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代，中国可能无AI可用

28

分享 2023-03-25

18 个评论

无法内斗

顺带一提，我本来准备用ChatGPT帮我写这个帖子，但是无论我怎么要求他，他写到最后一段的时候一定会话锋一转开始吹捧中国的AI的技术发展……真的是让我大跌眼镜。最后我只好亲自动笔。

这也是中文互联网的低质量造成的，不允许“负能量”只允许“正能量”，导致AI都不知道怎么写负能量……AI大约以为在文章最后唱高调是中文的语言规范吧

要发言请先登录或注册

低质量的中文互联网造成的隐藏恶果

18 个评论

发起人

相关主题

状态

低质量的中文互联网造成的隐藏恶果

18 个评论

发起人

相关主题

推荐

状态