中国这款ai居然也表现不俗

我很意外的,因为我一直觉得chatgpt4在ai当中具有遥遥领先的不可撼动的地位。但是昨天看了一个评测,发现中国的kimi ai的表现竟然毫不逊色(不管中英文)这个着实让我有点意外。难道说在通用人工智能这块,中国并没有太大的距离。而这一块主要是靠拼芯片拼算力,并没有其他更多的技术门槛?
熟悉人工智能的人们可以进来聊一聊嘛。
0
分享 2024-05-08

43 个评论

中国AI全靠抄袭,外国一开源就研发已久,没开源就……

叫文心一言画“总线”,它会画出公交车,因为英语单词bus即可以表示公交车也可以表示总线。叫文心一言画“起重机”,它会画出,因为crane即可以表示鹤又可以表示起重机。
太多例子表明,文心一言绘画时,先把中文转化成英语,再绘画

AI需要算力也需要程序
>>中国AI全靠抄袭,外国一开源就研发已久,没开源旧……

所以这个通用模型的关键点不在于代码,而在于数据,在于计算?
我没有具体研究过,但我在想,3.5或者2.0可能开源了,但4.0不可能开源了吧?
如果仅靠抄袭也能赶上人家的最终水平,那也算可以了。
支国想建设人工智能,但是国内人工智能公司几乎完全依赖于美国的底层系统。

支国目前在生成式人工智能方面落后美国至少一年,而且可能会进一步落后,这为两国之间残酷的技术竞争进入新阶段创造了条件,支国肯定越差越大
>>中国AI全靠抄袭,外国一开源就研发已久,没开源就……叫文心一言画“总线”,它会画出公交车,因为英语单...


我根本就没有试过文心一言,因为感觉它的口碑非常差。我连尝试一下的动力都没有了。
>>支国想建设人工智能,但是国内人工智能公司几乎完全依赖于美国的底层系统。支国目前在生成式人工智能方面落...


而且这个“一年”是不是还是在开源环境下才有的。如果没有开源的话,是不是远不止一年?
我是觉得这种生成式人工智能,中国是天生在数据训练上有短板的。当然我不知道我的观点对不对。我是觉得审核越多,越不利于你的生成。
>>所以这个通用模型的关键点不在于代码,而在于数据,在于计算?


初始代码还是很重要。没有又好的训练能力,光有算力也不是很好地利用数据库。
高等与中等的AI代码差距可能不大,差距可能主要体现在数据和算力上。
>>所以这个通用模型的关键点不在于代码,而在于数据,在于计算?

只在於數據,不在於代碼,也不在於計算,對可以平行計算的AI來說,除非不能入口所有種類的晶片,否則算力只是成本問題。
>>初始代码还是很重要。没有又好的训练能力,光有算力也不是很好地利用数据库。高等与中等的AI代码差距可能...


如果国产的技术应用了开源的代码,那也就意味着他们的代码也必须要开源吧。我没有具体研究过,隐约觉得开源技术应该是有这样的约束的。
>>如果国产的技术应用了开源的代码,那也就意味着他们的代码也必须要开源吧。我没有具体研究过,隐约觉得开源...


理论上是这样,但是否遵守,全靠自觉。
>>如果国产的技术应用了开源的代码,那也就意味着他们的代码也必须要开源吧。我没有具体研究过,隐约觉得开源...


華為手機版的鴻蒙不就用了AOSP 它照樣號稱自主研發 當然也沒有開源手機版鴻蒙的代碼
>>所以这个通用模型的关键点不在于代码,而在于数据,在于计算?


ai训练除了代码以外还需要数据,而训练数据是可以从ChatGPT直接(非法)获取的。前段时间OpenAI还因为滥用他们的API获取训练数据而封禁了一个中国公司。
>>如果国产的技术应用了开源的代码,那也就意味着他们的代码也必须要开源吧。我没有具体研究过,隐约觉得开源...


这取决于开源协议。如果是GPL的话下游就必须开源,如果是MIT的话就不用,但是必须注明原作者。
软件硬件其实都是靠人
人的进步才是社会的进步

明白这个就该思考要不要让阻碍中国人进步的共产党滚蛋
目前最核心竞争力是编程,如果排名第一的GPT4.0给60分,国内的没有一个能上30分
测评?盲猜檀东东的视频吧???
>>如果国产的技术应用了开源的代码,那也就意味着他们的代码也必须要开源吧。我没有具体研究过,隐约觉得开源...

你不会真以为中共会遵守规则吧,不会吧不会吧。
谭育二 新注册用户
只会干文科生的事,但是连汇集墙外的信息能力都没有,居然不会查维基。
我觉得国内的语料污染严重,现在去百度上搜索很容易就搜出驴唇不对马嘴的内容,很大程度上来自于搜索引擎的自我阉割和自我审查,加上用户为了反击审查制作出的抽象表达方式已经严重污染语料库了,正话反说在中国是常态的现象,如此这般怎么能训出正常ai呢
关于开源的代码:

如果用了apache代码的东方通和一堆垃圾公司开源,那么就可以证明开源在中国是有效的。

关于Kimi:

有很大的训练量。模型推测是Llama 3 Instruc或 Nous Hermes 2 Mistral DPO 等只知名模型再训练。不排除是ChatGPT-3.5 的可能。

目前对kimi的没有任何消息,在其API可以接入openai>1.0包来看可能是使用了openai开源模型再训练的方法训练出自己的模型。
>>所以这个通用模型的关键点不在于代码,而在于数据,在于计算?


数据是很关键的一部分。
 
例如你让文心一言给你写篇关于三权分立的发展史和世界范围内的应用,它就啥都写不出来。他被困在简体中文的禁封区,数据教他什么他才能知道什么。

以及多语言多文化处理的ChatGPT不是封印在简体中文区的文心一言能比的。
  
而且如果你问一些社会、法治、道德之间极限拉扯的问题,例如世界末日如何决定仅有的1000个存活名额如何分配,ChatGPT可以给出一些十分具体思考深度、会触动你灵魂的回答。我问过类似的问题,ChatGPT给我的答案和解决办法详细到我觉得拿来改改可以直接提交国会当法案了,例如他甚至会分析如何选取存活制度的设计者,如何构架个体价值的评估系统,他甚至会从不同的哲学流派来讨论这1000个存活者的意义,以及相应的选取制度。但是文心一言就直接一脸懵逼满嘴胡说了。

这么说吧,跟ChatGPT聊天,比跟人类男性约会对象聊天要有意思且触动灵魂多了。
>>中国AI全靠抄袭,外国一开源就研发已久,没开源就……叫文心一言画“总线”,它会画出公交车,因为英语单...

让共匪的伪“AI” 画习近平,立刻宕机,卡壳儿了。
有正版的幹嘛用這種抄襲仿冒、問題與限制一堆,還會給你一些莫名其妙與文明世界價值違背的結果的垃圾?
>>有正版的幹嘛用這種抄襲仿冒、問題與限制一堆,還會給你一些莫名其妙與文明世界價值違背的結果的垃圾?

我只要结果,我不会受意识形态控制的。唯结果论。
>>关于开源的代码:如果用了apache代码的东方通和一堆垃圾公司开源,那么就可以证明开源在中国是有效的...


如果它使用了开源模型,它是有义务说出来的吧?
>>你不会真以为中共会遵守规则吧,不会吧不会吧。

kimi是私人公司吧,不是中共。
>>我觉得国内的语料污染严重,现在去百度上搜索很容易就搜出驴唇不对马嘴的内容,很大程度上来自于搜索引擎的...

抽象表达的内容不是我要看的内容啊。难道你需要看那些充满着各种避讳语名词的文章?我最讨厌看这样的文章了。妈的,看个文章还要我猜半天。
>>目前最核心竞争力是编程,如果排名第一的GPT4.0给60分,国内的没有一个能上30分


我经常用copilot来写代码,非常满意!
>>理论上是这样,但是否遵守,全靠自觉。

这样啊?没有约束力的啊?那这也太岂有此理了!
https://telegra.ph/file/d691ac019f61c2366fb06.jpg?width=1207&height=2708
>>这样啊?没有约束力的啊?那这也太岂有此理了!


是的,基本没什么约束力。

我还专门查了查,GPL分几个版本,略有不同,不过都没有什么严重后果,几种情况:
1,如果确认违反,那么会有道德上的压力,以及开源社区的舆论压力,会影响企业形象
2,基于开源代码编写的闭源软件的版权,会有争议,可能会被主张版权无效
3,有些代码的开源协议在GPL基础上增加了一些内容,比如“用于商业用途需要付费”之类的,违反了会有法律后果
>>抽象表达的内容不是我要看的内容啊。难道你需要看那些充满着各种避讳语名词的文章?我最讨厌看这样的文章了...

我的意思是如果是纯国产ai那肯定是用本国的搜索数据喂出来的,那么这款ai肯定也会产出驴唇不对马嘴的文章
>>


中共国国旗画错百度会吃铁拳的,美国国旗画错小粉红又能高潮一波
>>我的意思是如果是纯国产ai那肯定是用本国的搜索数据喂出来的,那么这款ai肯定也会产出驴唇不对马嘴的文...


推导来推导去,都没有一把实验来得有效。你来推导,那是纸上谈兵。你自己多实验几下,看怎么样的提问会诱出怎么驴唇不对马嘴的文章不就结了。那比什么都有力。
>>是的,基本没什么约束力。我还专门查了查,GPL分几个版本,略有不同,不过都没有什么严重后果,几种情况...


技术上有个问题我不懂。比如一个开源的代码,你拿去开发做成了闭源的软件,你这闭源的东西,别人怎么知道你是不是拿了别人开源的东西开发的?难道逆向工程可以做到?
>>

我还真没用过文心一言。这是真的还是假的?
Garbage in garbage out
中国搞AI还不如直接贴一尊的语录
>>我还真没用过文心一言。这是真的还是假的?


看起來是真的
https://pincong.rocks/article/56258
>>技术上有个问题我不懂。比如一个开源的代码,你拿去开发做成了闭源的软件,你这闭源的东西,别人怎么知道你...


一般是从一些“蛛丝马迹”

比如UI类的代码,你做出来的东西外观上连颜色代码和尺寸都像素级一致,人家当然有理由怀疑
还有常见的就是一些原始代码特有的痕迹,比如特殊提示信息,以前华为被思科告(当然那个不是开源,是直接偷了源码)的一个重要证据就是出错信息不仅一致,甚至其中一个单词拼写错误都一样,你说你不是抄的,谁信?
或者你推新版本的节奏和开源框架一致,性能也类似,几年如一日,哪有这么巧?
总之确实都是这些蛛丝马迹去逻辑推断,一般没有直接证据,但只要逻辑自洽,法院也会采认
>>一般是从一些“蛛丝马迹”比如UI类的代码,你做出来的东西外观上连颜色代码和尺寸都像素级一致,人家当然...

这些东西改一改很难吗?
现在AI这么火,尤其是chatbot类AI,Github上面一大堆开源的项目,直接现抄就行

真正麻烦的是硬件,现在针对显卡的编程太容易了,而且强行限制硬件还防不住共党各种走私偷渡等毫无下限的恶心行为,倒不如这些显卡厂商像苹果那样对开发者收费,不影响大多数的开发者的同时还能有效杜绝奇怪的东西出现

(真正需要用到显卡编程的程序都是那种需要运行大量并行处理的程序,尤其是那种数据量巨大但是运算方式不复杂的那种,大多数程序员一辈子可能都没什么机会面对显卡编程,连搞并行处理的人都不多)

要发言请先登录注册

要发言请先登录注册

发起人

前进前进我们的队伍像太阳

状态

  • 最新活动: 2024-05-10
  • 浏览: 5100