低质量的中文互联网造成的隐藏恶果
有这样一个现象:当用户用英文向ChatGPT提问事实性问题时,往往能够得到正确的答案,但是当用户用中文问同样的问题时,ChatGPT却往往会犯错,哪怕这个问题是以中国为背景的。以下是我自己做的一个实验,当我用英文问,Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3?”则Chatgpt在十次中每次回答都不一样,并且里面充斥着类似盛大,完美,腾讯这样的错误答案。
究其原因,中文互联网上充斥着各种低质量的文本,如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中,就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练,以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题,那么模型就会学到错误的知识,导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据,自然造成其表现变差。
在将来的数年,欧美各国可能会将ChatGPT引入各行各业,许多行业和个人将会从中受益,甚至有可能带来生产力的爆发式增长。然而,ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性(哪怕翻墙)。中国也将无法享受ChatGPT带来的社会经济红利。
不止如此,中文互联网因为没有言论自由,并有严重的和谐词问题,所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下,研发类似ChatGPT的AI产品需要数年的时间来收集数据,效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言,已经沦为了互联网上的笑柄。
综上所述,中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代,中国可能无AI可用
究其原因,中文互联网上充斥着各种低质量的文本,如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中,就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练,以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题,那么模型就会学到错误的知识,导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据,自然造成其表现变差。
在将来的数年,欧美各国可能会将ChatGPT引入各行各业,许多行业和个人将会从中受益,甚至有可能带来生产力的爆发式增长。然而,ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性(哪怕翻墙)。中国也将无法享受ChatGPT带来的社会经济红利。
不止如此,中文互联网因为没有言论自由,并有严重的和谐词问题,所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下,研发类似ChatGPT的AI产品需要数年的时间来收集数据,效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言,已经沦为了互联网上的笑柄。
综上所述,中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代,中国可能无AI可用
18 个评论
顺带一提,我本来准备用ChatGPT帮我写这个帖子,但是无论我怎么要求他,他写到最后一段的时候一定会话锋一转开始吹捧中国的AI的技术发展……真的是让我大跌眼镜。最后我只好亲自动笔。
这也是中文互联网的低质量造成的,不允许“负能量”只允许“正能量”,导致AI都不知道怎么写负能量……AI大约以为在文章最后唱高调是中文的语言规范吧
这也是中文互联网的低质量造成的,不允许“负能量”只允许“正能量”,导致AI都不知道怎么写负能量……AI大约以为在文章最后唱高调是中文的语言规范吧