一些关于AI 其实我更愿意称之为语言模型的闲聊
其实我认为人类社会不会出现一个能达到业界宣称的语言模型
因为人类社会本身的结构就注定了一个基础 如果出现了一个大一统性质的架构 那么这个架构是无法维持住的
从我了解一点 不深的几个行业谈谈
这方面聊的还是知识产权
一个是汽车制造业 另一个是医疗业
汽车制造业 比如各大公司 本田 丰田 福特 现代以及各类汽车公司
他们是不可能希望出现一个完全读取他们内部数据库的 可以让所有人访问的语言模型
毕竟汽车 传动轴 引擎 刹车 风力测试 这些大大小小的数据都是公司本身的竞争力 用马克思主义的话来说是生产资料
也就是说 这些行业重要的数据是不可能公开让外界语言模型访问的
虽然未来可能会出现公司内部区块性的语言模型 比如本田用自己数据训练的 只能由本田内部访问的语言模型
同样丰田也是这么做的 那么还是做不到数据共享
由于本田的语言模型没有任何丰田的资料 所以本田的语言模型只能得出本田自己的结论
类似的工程学 以及气流 驾驶安全 产品研发 为什么要这么设计 维修性等数据 任何一家公司都不可能拿出来让科技公司随意访问的
当然语言模型在训练够足够的数据 也许自己能推导出一些数据
但是如上 由于数据是区块化的 能得到的信息结论还是只限于公司自己的数据
制药这个行业 类似的药物配方也是一样的
包括临床试验 制造工艺 类似的数据也是不可能拿出来共享的
包括前段时间您支搞得集采 出现了集采后得阿司匹林无法做实验的现象
由于制药工艺的问题 哪怕材料对的 得到的药品也不会一样
那么请问 哪怕是阿司匹林这种专利早就过期了的药都会出现这种现象
那么那些目前还在专利期限 且未来也会在专利期限以内的药物会怎么样呢?
是 你可能通过语言模型 在穷举法的情况下逆向推理出来
但是首先这玩意依然是有专利保护的 其次穷举法的结果会导致你的测试成本非常高
说到底估计未来也会是相同的情况 强生公司内部的语言模型 与辉瑞等其他公司内部也有自己的模型
而且这还是乐观的情况 毕竟语言模型这玩意安全性还是个问题
一旦出现数据泄露 那么公司都可以关门了
至于一个不保护知识产权的社会会是什么样 您支在毛时代就是一个最好的例子
前几天还有傻逼说什么毛泽东前三十年搞工业化 搞工业化的结果是无论是毛时代 还是后毛时代 机床都是要进口的
也就是说 未来不会出现一个能接触所有信息的语言模型
因为本身人类社会 如果是一个正常的人类社会 就必须得保证数据的区块化
倘若人类社会有一天去区块化 在数据共享方面形成大一统
那我敢断言 人类社会离灭亡也不远了
-------------
顺便 前段时间美国的一起诉讼 纽约时报起诉OPENAI 未经允许使用他们的内容来训练OPENAI的模型
绝大多数的数据提供者都不会希望自己的数据被无偿使用
开源项目是有 但是很明显有价值的项目注定是需要这种封闭性的
因为人类社会本身的结构就注定了一个基础 如果出现了一个大一统性质的架构 那么这个架构是无法维持住的
从我了解一点 不深的几个行业谈谈
这方面聊的还是知识产权
一个是汽车制造业 另一个是医疗业
汽车制造业 比如各大公司 本田 丰田 福特 现代以及各类汽车公司
他们是不可能希望出现一个完全读取他们内部数据库的 可以让所有人访问的语言模型
毕竟汽车 传动轴 引擎 刹车 风力测试 这些大大小小的数据都是公司本身的竞争力 用马克思主义的话来说是生产资料
也就是说 这些行业重要的数据是不可能公开让外界语言模型访问的
虽然未来可能会出现公司内部区块性的语言模型 比如本田用自己数据训练的 只能由本田内部访问的语言模型
同样丰田也是这么做的 那么还是做不到数据共享
由于本田的语言模型没有任何丰田的资料 所以本田的语言模型只能得出本田自己的结论
类似的工程学 以及气流 驾驶安全 产品研发 为什么要这么设计 维修性等数据 任何一家公司都不可能拿出来让科技公司随意访问的
当然语言模型在训练够足够的数据 也许自己能推导出一些数据
但是如上 由于数据是区块化的 能得到的信息结论还是只限于公司自己的数据
制药这个行业 类似的药物配方也是一样的
包括临床试验 制造工艺 类似的数据也是不可能拿出来共享的
包括前段时间您支搞得集采 出现了集采后得阿司匹林无法做实验的现象
由于制药工艺的问题 哪怕材料对的 得到的药品也不会一样
那么请问 哪怕是阿司匹林这种专利早就过期了的药都会出现这种现象
那么那些目前还在专利期限 且未来也会在专利期限以内的药物会怎么样呢?
是 你可能通过语言模型 在穷举法的情况下逆向推理出来
但是首先这玩意依然是有专利保护的 其次穷举法的结果会导致你的测试成本非常高
说到底估计未来也会是相同的情况 强生公司内部的语言模型 与辉瑞等其他公司内部也有自己的模型
而且这还是乐观的情况 毕竟语言模型这玩意安全性还是个问题
一旦出现数据泄露 那么公司都可以关门了
至于一个不保护知识产权的社会会是什么样 您支在毛时代就是一个最好的例子
前几天还有傻逼说什么毛泽东前三十年搞工业化 搞工业化的结果是无论是毛时代 还是后毛时代 机床都是要进口的
也就是说 未来不会出现一个能接触所有信息的语言模型
因为本身人类社会 如果是一个正常的人类社会 就必须得保证数据的区块化
倘若人类社会有一天去区块化 在数据共享方面形成大一统
那我敢断言 人类社会离灭亡也不远了
-------------
顺便 前段时间美国的一起诉讼 纽约时报起诉OPENAI 未经允许使用他们的内容来训练OPENAI的模型
绝大多数的数据提供者都不会希望自己的数据被无偿使用
开源项目是有 但是很明显有价值的项目注定是需要这种封闭性的