一些关于AI 其实我更愿意称之为语言模型的闲聊
其实我认为人类社会不会出现一个能达到业界宣称的语言模型
因为人类社会本身的结构就注定了一个基础 如果出现了一个大一统性质的架构 那么这个架构是无法维持住的
从我了解一点 不深的几个行业谈谈
这方面聊的还是知识产权
一个是汽车制造业 另一个是医疗业
汽车制造业 比如各大公司 本田 丰田 福特 现代以及各类汽车公司
他们是不可能希望出现一个完全读取他们内部数据库的 可以让所有人访问的语言模型
毕竟汽车 传动轴 引擎 刹车 风力测试 这些大大小小的数据都是公司本身的竞争力 用马克思主义的话来说是生产资料
也就是说 这些行业重要的数据是不可能公开让外界语言模型访问的
虽然未来可能会出现公司内部区块性的语言模型 比如本田用自己数据训练的 只能由本田内部访问的语言模型
同样丰田也是这么做的 那么还是做不到数据共享
由于本田的语言模型没有任何丰田的资料 所以本田的语言模型只能得出本田自己的结论
类似的工程学 以及气流 驾驶安全 产品研发 为什么要这么设计 维修性等数据 任何一家公司都不可能拿出来让科技公司随意访问的
当然语言模型在训练够足够的数据 也许自己能推导出一些数据
但是如上 由于数据是区块化的 能得到的信息结论还是只限于公司自己的数据
制药这个行业 类似的药物配方也是一样的
包括临床试验 制造工艺 类似的数据也是不可能拿出来共享的
包括前段时间您支搞得集采 出现了集采后得阿司匹林无法做实验的现象
由于制药工艺的问题 哪怕材料对的 得到的药品也不会一样
那么请问 哪怕是阿司匹林这种专利早就过期了的药都会出现这种现象
那么那些目前还在专利期限 且未来也会在专利期限以内的药物会怎么样呢?
是 你可能通过语言模型 在穷举法的情况下逆向推理出来
但是首先这玩意依然是有专利保护的 其次穷举法的结果会导致你的测试成本非常高
说到底估计未来也会是相同的情况 强生公司内部的语言模型 与辉瑞等其他公司内部也有自己的模型
而且这还是乐观的情况 毕竟语言模型这玩意安全性还是个问题
一旦出现数据泄露 那么公司都可以关门了
至于一个不保护知识产权的社会会是什么样 您支在毛时代就是一个最好的例子
前几天还有傻逼说什么毛泽东前三十年搞工业化 搞工业化的结果是无论是毛时代 还是后毛时代 机床都是要进口的
也就是说 未来不会出现一个能接触所有信息的语言模型
因为本身人类社会 如果是一个正常的人类社会 就必须得保证数据的区块化
倘若人类社会有一天去区块化 在数据共享方面形成大一统
那我敢断言 人类社会离灭亡也不远了
-------------
顺便 前段时间美国的一起诉讼 纽约时报起诉OPENAI 未经允许使用他们的内容来训练OPENAI的模型
绝大多数的数据提供者都不会希望自己的数据被无偿使用
开源项目是有 但是很明显有价值的项目注定是需要这种封闭性的
因为人类社会本身的结构就注定了一个基础 如果出现了一个大一统性质的架构 那么这个架构是无法维持住的
从我了解一点 不深的几个行业谈谈
这方面聊的还是知识产权
一个是汽车制造业 另一个是医疗业
汽车制造业 比如各大公司 本田 丰田 福特 现代以及各类汽车公司
他们是不可能希望出现一个完全读取他们内部数据库的 可以让所有人访问的语言模型
毕竟汽车 传动轴 引擎 刹车 风力测试 这些大大小小的数据都是公司本身的竞争力 用马克思主义的话来说是生产资料
也就是说 这些行业重要的数据是不可能公开让外界语言模型访问的
虽然未来可能会出现公司内部区块性的语言模型 比如本田用自己数据训练的 只能由本田内部访问的语言模型
同样丰田也是这么做的 那么还是做不到数据共享
由于本田的语言模型没有任何丰田的资料 所以本田的语言模型只能得出本田自己的结论
类似的工程学 以及气流 驾驶安全 产品研发 为什么要这么设计 维修性等数据 任何一家公司都不可能拿出来让科技公司随意访问的
当然语言模型在训练够足够的数据 也许自己能推导出一些数据
但是如上 由于数据是区块化的 能得到的信息结论还是只限于公司自己的数据
制药这个行业 类似的药物配方也是一样的
包括临床试验 制造工艺 类似的数据也是不可能拿出来共享的
包括前段时间您支搞得集采 出现了集采后得阿司匹林无法做实验的现象
由于制药工艺的问题 哪怕材料对的 得到的药品也不会一样
那么请问 哪怕是阿司匹林这种专利早就过期了的药都会出现这种现象
那么那些目前还在专利期限 且未来也会在专利期限以内的药物会怎么样呢?
是 你可能通过语言模型 在穷举法的情况下逆向推理出来
但是首先这玩意依然是有专利保护的 其次穷举法的结果会导致你的测试成本非常高
说到底估计未来也会是相同的情况 强生公司内部的语言模型 与辉瑞等其他公司内部也有自己的模型
而且这还是乐观的情况 毕竟语言模型这玩意安全性还是个问题
一旦出现数据泄露 那么公司都可以关门了
至于一个不保护知识产权的社会会是什么样 您支在毛时代就是一个最好的例子
前几天还有傻逼说什么毛泽东前三十年搞工业化 搞工业化的结果是无论是毛时代 还是后毛时代 机床都是要进口的
也就是说 未来不会出现一个能接触所有信息的语言模型
因为本身人类社会 如果是一个正常的人类社会 就必须得保证数据的区块化
倘若人类社会有一天去区块化 在数据共享方面形成大一统
那我敢断言 人类社会离灭亡也不远了
-------------
顺便 前段时间美国的一起诉讼 纽约时报起诉OPENAI 未经允许使用他们的内容来训练OPENAI的模型
绝大多数的数据提供者都不会希望自己的数据被无偿使用
开源项目是有 但是很明显有价值的项目注定是需要这种封闭性的
13 个评论
你说得对,末来肯定是一大堆个性化的模型,各搞各的,通用模型占比会越来越低。
至于知识产权这块,在AI语言模型被强调开源,是人们真的不知道前方的风险(道德的、伦理的、生态的)有多大,本来很多人是反对搞的,后来反对不了了强调开源让其接受监督。以后的个性化模型肯定是不会开源的了。
顺便说一句,不但你说的模型、数据不会随意共享,会个性化,有了AI(AI很广,包含语言模型但不仅仅只是语言模型)以后,往后的很多东西都会顺着你说的方向前进,比如芯片,不会再全是通用芯片了,随着AI给设计带来的深化,个性化芯片(ASIC)会越来越多。这是摩尔定律后的出路。
至于知识产权这块,在AI语言模型被强调开源,是人们真的不知道前方的风险(道德的、伦理的、生态的)有多大,本来很多人是反对搞的,后来反对不了了强调开源让其接受监督。以后的个性化模型肯定是不会开源的了。
顺便说一句,不但你说的模型、数据不会随意共享,会个性化,有了AI(AI很广,包含语言模型但不仅仅只是语言模型)以后,往后的很多东西都会顺着你说的方向前进,比如芯片,不会再全是通用芯片了,随着AI给设计带来的深化,个性化芯片(ASIC)会越来越多。这是摩尔定律后的出路。
对,信息孤岛的现象其实全球都在加深,墙内当然是加深的最快的,快到百度这种墙内技术天花板都已经事实上被淘汰,并不是因为百度搜索技术差,而是因为根本搜不到,公众号,知乎,b站,小红书,这几个墙内还能稍微输出一点有价值内容的平台全部都被垄断,百度原有的护城河贴吧、知道、百科全部被自己玩死,当然百度本身用技术作恶,也是应得的。
>> 以去中心化的互联网 事实上这些年也是开始中心化了
很早就开始了,中国这种现象是严重的,个人认为是因为中国进入移动互联网太快,PC的网页论坛都没有太普及的情况下直接全民跑步进入app时代,骨子里就没有开放交流的意识,世界互联网统计中文网页数量是完全忽略不计的,远低于英语俄语西班牙语等等,这当然不是因为中国人说的话少,而是因为信息全部孤立导致根本无法统计
通用大模型只有IT行业少数几个大公司才玩得起。中小型IT公司或者其它行业的公司,AI研发一般是以通用模型为基础做二次开发,譬如用本行业的公开数据结合公司自有的专利数据进行进一步训练。训练出来的模型可以拿出去卖钱,也可用于公司内部的其它产品研发。这类模型开源不开源并不是很重要,反正训练模型用的数据和参数肯定是不会开源的。
>> 很早就开始了,中国这种现象是严重的,个人认为是因为中国进入移动互联网太快,PC的网页论坛都没有...
全球独树一帜的互联网审查制度是中文互联网质量差的最主要原因。
>> 对,信息孤岛的现象其实全球都在加深,墙内当然是加深的最快的,快到百度这种墙内技术天花板都已经事...
百度算个狗屁天花板。华为卷死了一系列通信、android手机,小米卷死了一堆快消,腾讯抄死了ICQ MSN,阿里抄死了eBay PayPal。百度从一开始就没比其它公司强过,在国内算是最垃圾的公司
>> 百度算个狗屁天花板。华为卷死了一系列通信、android手机,小米卷死了一堆快消,腾讯抄死了I...
垃圾的玩意儿却苟到今天都没死透
该说是彦宏太顽强了,还是百度舔了赵家人的肛门,保住自己不被爆菊花😅
其实生成式AI的源代码只是一环,还有很重要的一部分是数据库(训练集)
相同的代码,不同的训练集,得到的是不同的AI模型
相同的代码,不同的训练集,得到的是不同的AI模型
以目前AI進化的速度..以往各專業的獨特數據或經驗也有可能在短時間內就被通用AI超越. 比方攻克基因庫之類的.或是直接開發出另一條比當前更優的跑道.直接廢了你的現有成果.
比方說開發出了自由能源或是高效安全的儲能產品.這樣電車很可能會成為主流.也會讓傳統汽車引擎技術直接變成沒用.
算力愈來愈恐怖.AGI其實很可能發展成在多領域都很厲害.甚至等機械人進步到某個程度後.它自己就能自己進行開發與進化.
我只是猜測而已.不確定是不是真會發展成這樣.
比方說開發出了自由能源或是高效安全的儲能產品.這樣電車很可能會成為主流.也會讓傳統汽車引擎技術直接變成沒用.
算力愈來愈恐怖.AGI其實很可能發展成在多領域都很厲害.甚至等機械人進步到某個程度後.它自己就能自己進行開發與進化.
我只是猜測而已.不確定是不是真會發展成這樣.
>> 其实生成式AI的源代码只是一环,还有很重要的一部分是数据库(训练集)相同的代码,不同的训练集,...
源代码其实没什么新鲜玩意,都是翻来覆去的鼓捣transformer。训练用的数据和参数才是不传之秘。