何加盐:中文互联网正在加速崩塌
05/22/2024
1
先问你一个小问题:
如果我们在百度上搜索“马云”这两个字,把时间设定在1998年到2005年,能搜出来的信息,大概有多少条呢?是1亿条,还是1000万条,还是100万条?
我在几个群问过,大家普遍的猜想是,应该是百万或者千万的级别。毕竟,互联网信息如此浩如烟海。马云作为那个时代的风云企业家,在网上留下的痕迹肯定是非常多的。
但实际上能搜出的全部结果如下:
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3c4747.png
用百度搜索,选定日期范围为“1998年5月22日到2005年5月22日”,含有马云的信息,总共是1条(2024年5月22日数据)。
而仅有的这一条信息,也是虚假的。点进去会发现,文章的发布时间其实是2021年,不属于上面限定的时间段,只是不知怎么回事,它被莫名其妙地搜索出来。
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3cba62.png
也就是说,如果我们想要了解那一段时间关于马云的经历、报道、人们对他的讨论、他的讲话、公司的发展史等等,我们能得到的有效的原始信息量,是零。
你可能会觉得,这是不是百度的问题啊?如果换必应或谷歌,会不会能搜出来?
我测试过,这两个网站搜出来的有效信息,和百度没有太大区别,比百度略多一些,但也只是个位数。更多的也都是时间紊乱的无效信息,只不过不知道是什么技术原因,被错误地抓取出来。
你可能还会觉得,是不是因为马云属于比较有争议的人,由于某种不可描述的原因,所以他的信息才无法搜到?
但实际上,不仅仅是马云的情况如此,我们去搜马化腾、雷军、任正非等,甚至是罗永浩和芙蓉姐姐这样在那个时候红极一时的网红,或周杰伦、李宇春那样曾经火遍全网的明星,结果也都一样的。如搜雷军的情况,结果是这样的:
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3d4856.png
在测试过不同网站、不同人名、不同时间段之后,我发现一个令人震惊的现象:
几乎所有在那个年代曾经红火过的中文网站,如网易、搜狐、校园BBS、西祠胡同、凯迪猫眼、天涯论坛、校内网(人人网)、新浪博客、百度贴吧、以及大量的个人网站等,在一定年份之前的信息都已经完全消失不见了,甚至大部分网站是所有年份的信息都消失了。唯一例外的是新浪网,还能找到一些十几年前的信息,但也是极少数的寥寥几条,其他99.9999%以上的内容,全都消失了。
大家都没有意识到一个严重的问题:中文互联网正在迅速崩塌,移动互联网出现之前的中文互联网内容,已经几乎消失殆尽。
我们原以为,互联网是有记忆的,但没有想到,这种记忆,原来是像金鱼一样的记忆。
2
我之所以注意到这个问题,是因为何加盐公众号的主题是研究牛人,所以我需要经常查找他们的资料。
这两年来,我有一个非常明显的感觉:网上能找到的原始资料,每年都以断崖式的速度在锐减。之前还能看到一些原始的报道,后来慢慢没有了;之前还能找到主人公的演讲或者他们写的文章,后来慢慢找不到了;之前还能看到很多采访或对谈的视频,后来慢慢消失了。
似乎有一个吞噬网页的怪兽,它沿着历史的时间线,从过去向着现在吞噬,先是小口小口,然后大口大口,把中文互联网的一切内容,以五年、十年为单位,一口吞掉。
等我们回过神来,会发现,在移动互联网之前曾经存在过的中文互联网的一切,不管是门户网站、机构官方网站、个人网页,还是校园BBS、公众论坛,还是新浪博客、百度贴吧,还是文件、照片、音乐、视频等,都已消失不见。
记得十几年前,我曾经因为换电脑,把一些照片和文章打成一个压缩包,存在某BBS上,几年之后发现,那整个BBS都没有了。我曾经用过hotmail的邮箱,里面有很多很珍贵的邮件,后来全都没有了。我还写过人人网、MySpace,后来全都没有了。
我们曾经以为互联网可以保留一切,但结果是一切都没能保留。
这让我想起刘慈欣《三体》里面提到过的“二向箔”。歌者文明发现了太阳系有智慧生物的存在,出于宇宙先进文明的清除本能,他们向太阳系扔出一张二向箔,于是,整个太阳系以光的速度从三维坍塌成二维,变化成一张酷似梵高“星空”的画片。一切生命、一切文明的痕迹,从此都不复存在。
在互联网上,我们已经处于二向箔的吞噬之中。这种二向箔可以称之为“时间的二向箔”,它吞噬的是时间那一维。
太阳系被歌者文明的二向箔拍扁之后,好歹还留下了一幅《星空》图,而互联网被时间的二向箔吞噬后,只留下一片虚空。
3
为什么会出现这种情况呢?我猜想,主要原因可能是两个:
一是经济原因。
网站的存在,需要服务器、需要带宽、需要机房、需要人员运维,还有很多杂七杂八的监管和维护费用,这些都是成本。如果是有战略价值(例如需要向外展示公司想要展示的信息),或者有短期流量价值(例如还时不时有较多的人上来看),同时公司账上也不差钱,那么还会有动力去维持。
但是如果公司在商业上走了弯路,没钱了,整个网站就会直接死掉。例如人人网就是典型代表。
即便公司还有钱,从运营的角度来看,如果一个网页一年到头都没有几个人来点击,对公司来说,就成了一笔负担,从经济上最理性的方法,就是直接关掉。搜狐、网易早年的内容大量丢失,以及以天涯论坛为代表的BBS集体消亡,都是这个原因。
二是监管原因。
总体而言,互联网信息的监管,是从无到有,从宽到严,从严到更严的过程。以前可以合法存在的内容,后来不符合监管要求了;或者是以前可以灰色存在的内容,后来被定义为黑色了。这些内容都会直接被咔嚓掉。
还有一些是随着时代的变化,舆论的两极分化越来越极端,以前“只道是平常”的内容,在后来的舆论环境中显得非常尖锐、敏感,尽管不违法,但是可能激化矛盾,形成混乱,监管方也有可能会要求处理掉。
除了官方部门之外,愤怒的网友,也时时充当着舆论监管员的角色。他们会翻出十几年前某人无意中说的某句话,揪着不放,把人网暴至“社会性死亡”。
但监管上最重要的影响,还不是监管部门的处理或愤怒网友的攻击,而是它们会造成公司与个人的“自我审查”。
因为谁也不知道,网站上存在的哪一条内容,某人曾说过的哪一句话,会不会在若干年后,给当事人带来灭顶之灾。最好的办法,就是直接把这些潜在的“定时炸弹”全部清除,也就是把网站关掉或者把内容全部删除。
当然,除了上述两个原因之外,还会有其他很多原因。
例如,在南斯拉夫解体之后不久,所有“yu”(南斯拉夫国名Yugoslavia的缩写)这个国际域名之下的网页内容全部消失了。又如,随着版权保护的加强,曾经随处可下载的音乐和电影网站,就都消失了。还有一些机构和个人,纯粹是由于自己的原因,不想在对外展示信息了,就把官网或个人主页关掉等等。
但这些原因都是次要的、局部的。整个互联网内容系统性的、大规模的消失,主要就是由于经济规律和自我审查。
本质上,互联网内容和生命一样,也受进化论的支配。其存在的标准只有一条:以尽可能低的成本争取尽可能多的注意力。
当一个内容能够在互联网上的海量内容中争取到足够多的注意力,而维持这个内容的成本(包括经济成本、监管成本和对抗监管的成本)比其他方式更低时,这个内容就有可能存活在互联网上。只不过它有可能会换一种呈现方式,例如从文字变为图片,从静图变为动图,从动图变为视频,未来可能从二维视频变为三维全息视频等等。承载这个内容的平台也会变迁,从门户网站到BBS,到个人博客,到微博微信,到抖音视频号,到未来可能一个我们不知道什么平台。
当一个内容不能再吸引到足够多的注意力,或者维持这个内容的成本比其他方式更高时,这个内容就会从互联网上消失。以电脑为浏览端、以网页为载体的传统互联网的集体消亡,只不过是这种“信息进化竞争”的必然结果而已。
生物的进化秘诀是“物竞天择,适者生存”,而互联网内容的进化秘诀是“信息竞,注意力择,适者生存”。由于网络效应,这种竞争比自然界还要猛烈万倍,残酷万倍。传统互联网不是单个物种式的灭绝,而是几乎所有内容的整体性灭绝。
每一代新的互联网崛起,旧的互联网必将崩塌,时间二向箔是所有网站、所有内容无可逃避的宿命。
4
如果未来的文明是互联网的文明。我们这一代人,将是没有历史的。因为互联网没有留下我们的痕迹。
“没有历史”,这件事情重要吗?
当然很重要。
我曾经为了写邵亦波的文章,想尽了一切办法,试图找到邵亦波2007年参加《波士堂》节目的原始视频,以及他妻子鲍佳欣以“文爱妈咪”网名在宝宝树社区发了好几年的帖子。最终还是没有找到,只能深深遗憾。
虽然《红尘已忘邵亦波》那篇文章,依然很受大家欢迎,短短一周就有70多万人阅读,2万多人转发,但我十分肯定,我一定还是错过了某些非常重要的信息。如果它们能呈现在那篇文章里,文章质量会更好。
但是我找不到,就只能让文章以不完美的方式呈现。
你可能会觉得:这只是对何加盐这样的研究者和写作者有用,我又不写这样的文章,互联网信息没有就没了,对我又没什么影响。
真的吗?
如果我们已经看不到马云的所有演讲,看不到任正非的以《我的父亲母亲》和《一江春水向东流》为代表的所有文章,看不到段永平在雪球的所有发帖,你会不会觉得有点可惜?
好吧,你说你并不觉得可惜。
那如果我们已经搜不到黄峥的公众号,看不到张一鸣的微博,上不了王兴的饭否,你会不会觉得有点遗憾?
好吧,你说你也并不觉得遗憾。
那如果某一天,知乎如同天涯论坛一样没了,豆瓣就像人人网一样消失,B站好比新浪博客一样已无人问津,你会不会有点心痛?
如果某一天,你喜欢的微博博主所有的微博只显示“作者已设置只展示半年内微博,此微博已不可见”,你常看的公众号只显示“此账号已被屏蔽,内容无法查看”,你在抖音或小红书搜索某些信息,结果显示“作者已清空全部内容”……
甚至,微博、公众号、抖音、小红书,就像曾经存在过的bbs、贴吧、空间、博客一样,全部消亡……
你会不会为此难过哪怕是短短的一分钟?
作为传统互联网的一代人,七零后、八零后已经找不回我们的历史。因为它们已经全部消失了。
新生代也许还能看看朋友圈,但是朋友圈也越来越多“三天可见”,越来越沉默不语。
唯一还在热情发圈的,只剩下一水的营销信息。
未来就连这些营销信息,也终将消亡。
5
如果一件事对我们很重要,而它正在消亡,我们有什么办法挽救它吗?
有人曾作出这样的尝试。美国有一个网站叫做“Internet Archive”,中文译作“互联网档案馆”,保存了很多原始网页。但是我试过,中文的原始网页,保存的很少,而且使用非常麻烦,搜索功能十分原始低效,和没保存差不多。
从技术层面来讲,保存从中国有互联网以来,到移动互联网兴起的十来年时间的所有网页,应该并不难,成本也不高,毕竟比起现在的视频时代,原始互联网的那些图文网页,占的空间几乎可以忽略不计。
问题是,谁来做这件事,有什么动机?
商业机构不会做。因为没有任何商业利益。
政府或许可以像建图书馆、博物馆一样,搞一个能保存所有网页的档案馆。但是政府为什么要花钱费力干这件事?除了保存历史之外,似乎也没有其他理由。再说了,就算是政府做了这件事,对普通网民也没有任何意义,因为这个档案馆肯定也会需要一定的登陆权限,以免信息被滥用。
况且,就算是有机构愿意做这件事,现在也晚了。移动互联网兴起之后,传统互联网的中文内容,几乎已经消失殆尽了。粗略估算,99%以上应该都已经没有了。
从某种意义上,何加盐写的牛人系列文章,也为保存这些牛人们存在过的历史,做出了一点贡献。如果我没有写他们,很多历史就已经在网上找不到了。但毕竟这也不是原始信息,只是经我整合过的二手信息。
现在的中文互联网上,这个世纪前十年发生过的所有重大事件,所有留下过深深痕迹的名人,目前还能找到的信息,几乎已经全是经自媒体编辑过的二手信息,甚至是传过多手,早已面目全非的信息。
关于它们的原始报道没有了,原始视频没有了,原始讲话没有了,原始的网友目击没有了,原始的评论没有了……
再过一些年,这些二手信息和N手信息,也都会消失。就像那些事件从未发生过、那些人从未存在过一样。
我们已经无能为力,只能接受现实。
在未来的互联网时代里,回首看21世纪的前二十年,将是没有历史记录的二十年。
我们是互联网时代消失的一代人。
如果你现在还能看到一些中文互联网的古早信息,那只是夕阳的最后一抹余晖。
如果你明白了它们的转瞬即逝,可能会像临死前的浮士德一样感叹:
你真美啊,请停留一下吧。
但那抹余晖,很快将和你这句感叹一起,被时间的二向箔吞没,陷入虚空。
《三体》中,程心和艾AA还能有幸乘坐唯一的一艘曲率飞船,逃离正在二维化的太阳系。
而我们,连曲率飞船都没有。
逃无可逃。
现在你所看到的、你所创造的几乎所有内容,连同这篇文章,这个平台,终究也会淹没在虚空中。
1
先问你一个小问题:
如果我们在百度上搜索“马云”这两个字,把时间设定在1998年到2005年,能搜出来的信息,大概有多少条呢?是1亿条,还是1000万条,还是100万条?
我在几个群问过,大家普遍的猜想是,应该是百万或者千万的级别。毕竟,互联网信息如此浩如烟海。马云作为那个时代的风云企业家,在网上留下的痕迹肯定是非常多的。
但实际上能搜出的全部结果如下:
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3c4747.png
用百度搜索,选定日期范围为“1998年5月22日到2005年5月22日”,含有马云的信息,总共是1条(2024年5月22日数据)。
而仅有的这一条信息,也是虚假的。点进去会发现,文章的发布时间其实是2021年,不属于上面限定的时间段,只是不知怎么回事,它被莫名其妙地搜索出来。
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3cba62.png
也就是说,如果我们想要了解那一段时间关于马云的经历、报道、人们对他的讨论、他的讲话、公司的发展史等等,我们能得到的有效的原始信息量,是零。
你可能会觉得,这是不是百度的问题啊?如果换必应或谷歌,会不会能搜出来?
我测试过,这两个网站搜出来的有效信息,和百度没有太大区别,比百度略多一些,但也只是个位数。更多的也都是时间紊乱的无效信息,只不过不知道是什么技术原因,被错误地抓取出来。
你可能还会觉得,是不是因为马云属于比较有争议的人,由于某种不可描述的原因,所以他的信息才无法搜到?
但实际上,不仅仅是马云的情况如此,我们去搜马化腾、雷军、任正非等,甚至是罗永浩和芙蓉姐姐这样在那个时候红极一时的网红,或周杰伦、李宇春那样曾经火遍全网的明星,结果也都一样的。如搜雷军的情况,结果是这样的:
https://chinadigitaltimes.net/chinese/files/2024/05/post-708143-664ea5a3d4856.png
在测试过不同网站、不同人名、不同时间段之后,我发现一个令人震惊的现象:
几乎所有在那个年代曾经红火过的中文网站,如网易、搜狐、校园BBS、西祠胡同、凯迪猫眼、天涯论坛、校内网(人人网)、新浪博客、百度贴吧、以及大量的个人网站等,在一定年份之前的信息都已经完全消失不见了,甚至大部分网站是所有年份的信息都消失了。唯一例外的是新浪网,还能找到一些十几年前的信息,但也是极少数的寥寥几条,其他99.9999%以上的内容,全都消失了。
大家都没有意识到一个严重的问题:中文互联网正在迅速崩塌,移动互联网出现之前的中文互联网内容,已经几乎消失殆尽。
我们原以为,互联网是有记忆的,但没有想到,这种记忆,原来是像金鱼一样的记忆。
2
我之所以注意到这个问题,是因为何加盐公众号的主题是研究牛人,所以我需要经常查找他们的资料。
这两年来,我有一个非常明显的感觉:网上能找到的原始资料,每年都以断崖式的速度在锐减。之前还能看到一些原始的报道,后来慢慢没有了;之前还能找到主人公的演讲或者他们写的文章,后来慢慢找不到了;之前还能看到很多采访或对谈的视频,后来慢慢消失了。
似乎有一个吞噬网页的怪兽,它沿着历史的时间线,从过去向着现在吞噬,先是小口小口,然后大口大口,把中文互联网的一切内容,以五年、十年为单位,一口吞掉。
等我们回过神来,会发现,在移动互联网之前曾经存在过的中文互联网的一切,不管是门户网站、机构官方网站、个人网页,还是校园BBS、公众论坛,还是新浪博客、百度贴吧,还是文件、照片、音乐、视频等,都已消失不见。
记得十几年前,我曾经因为换电脑,把一些照片和文章打成一个压缩包,存在某BBS上,几年之后发现,那整个BBS都没有了。我曾经用过hotmail的邮箱,里面有很多很珍贵的邮件,后来全都没有了。我还写过人人网、MySpace,后来全都没有了。
我们曾经以为互联网可以保留一切,但结果是一切都没能保留。
这让我想起刘慈欣《三体》里面提到过的“二向箔”。歌者文明发现了太阳系有智慧生物的存在,出于宇宙先进文明的清除本能,他们向太阳系扔出一张二向箔,于是,整个太阳系以光的速度从三维坍塌成二维,变化成一张酷似梵高“星空”的画片。一切生命、一切文明的痕迹,从此都不复存在。
在互联网上,我们已经处于二向箔的吞噬之中。这种二向箔可以称之为“时间的二向箔”,它吞噬的是时间那一维。
太阳系被歌者文明的二向箔拍扁之后,好歹还留下了一幅《星空》图,而互联网被时间的二向箔吞噬后,只留下一片虚空。
3
为什么会出现这种情况呢?我猜想,主要原因可能是两个:
一是经济原因。
网站的存在,需要服务器、需要带宽、需要机房、需要人员运维,还有很多杂七杂八的监管和维护费用,这些都是成本。如果是有战略价值(例如需要向外展示公司想要展示的信息),或者有短期流量价值(例如还时不时有较多的人上来看),同时公司账上也不差钱,那么还会有动力去维持。
但是如果公司在商业上走了弯路,没钱了,整个网站就会直接死掉。例如人人网就是典型代表。
即便公司还有钱,从运营的角度来看,如果一个网页一年到头都没有几个人来点击,对公司来说,就成了一笔负担,从经济上最理性的方法,就是直接关掉。搜狐、网易早年的内容大量丢失,以及以天涯论坛为代表的BBS集体消亡,都是这个原因。
二是监管原因。
总体而言,互联网信息的监管,是从无到有,从宽到严,从严到更严的过程。以前可以合法存在的内容,后来不符合监管要求了;或者是以前可以灰色存在的内容,后来被定义为黑色了。这些内容都会直接被咔嚓掉。
还有一些是随着时代的变化,舆论的两极分化越来越极端,以前“只道是平常”的内容,在后来的舆论环境中显得非常尖锐、敏感,尽管不违法,但是可能激化矛盾,形成混乱,监管方也有可能会要求处理掉。
除了官方部门之外,愤怒的网友,也时时充当着舆论监管员的角色。他们会翻出十几年前某人无意中说的某句话,揪着不放,把人网暴至“社会性死亡”。
但监管上最重要的影响,还不是监管部门的处理或愤怒网友的攻击,而是它们会造成公司与个人的“自我审查”。
因为谁也不知道,网站上存在的哪一条内容,某人曾说过的哪一句话,会不会在若干年后,给当事人带来灭顶之灾。最好的办法,就是直接把这些潜在的“定时炸弹”全部清除,也就是把网站关掉或者把内容全部删除。
当然,除了上述两个原因之外,还会有其他很多原因。
例如,在南斯拉夫解体之后不久,所有“yu”(南斯拉夫国名Yugoslavia的缩写)这个国际域名之下的网页内容全部消失了。又如,随着版权保护的加强,曾经随处可下载的音乐和电影网站,就都消失了。还有一些机构和个人,纯粹是由于自己的原因,不想在对外展示信息了,就把官网或个人主页关掉等等。
但这些原因都是次要的、局部的。整个互联网内容系统性的、大规模的消失,主要就是由于经济规律和自我审查。
本质上,互联网内容和生命一样,也受进化论的支配。其存在的标准只有一条:以尽可能低的成本争取尽可能多的注意力。
当一个内容能够在互联网上的海量内容中争取到足够多的注意力,而维持这个内容的成本(包括经济成本、监管成本和对抗监管的成本)比其他方式更低时,这个内容就有可能存活在互联网上。只不过它有可能会换一种呈现方式,例如从文字变为图片,从静图变为动图,从动图变为视频,未来可能从二维视频变为三维全息视频等等。承载这个内容的平台也会变迁,从门户网站到BBS,到个人博客,到微博微信,到抖音视频号,到未来可能一个我们不知道什么平台。
当一个内容不能再吸引到足够多的注意力,或者维持这个内容的成本比其他方式更高时,这个内容就会从互联网上消失。以电脑为浏览端、以网页为载体的传统互联网的集体消亡,只不过是这种“信息进化竞争”的必然结果而已。
生物的进化秘诀是“物竞天择,适者生存”,而互联网内容的进化秘诀是“信息竞,注意力择,适者生存”。由于网络效应,这种竞争比自然界还要猛烈万倍,残酷万倍。传统互联网不是单个物种式的灭绝,而是几乎所有内容的整体性灭绝。
每一代新的互联网崛起,旧的互联网必将崩塌,时间二向箔是所有网站、所有内容无可逃避的宿命。
4
如果未来的文明是互联网的文明。我们这一代人,将是没有历史的。因为互联网没有留下我们的痕迹。
“没有历史”,这件事情重要吗?
当然很重要。
我曾经为了写邵亦波的文章,想尽了一切办法,试图找到邵亦波2007年参加《波士堂》节目的原始视频,以及他妻子鲍佳欣以“文爱妈咪”网名在宝宝树社区发了好几年的帖子。最终还是没有找到,只能深深遗憾。
虽然《红尘已忘邵亦波》那篇文章,依然很受大家欢迎,短短一周就有70多万人阅读,2万多人转发,但我十分肯定,我一定还是错过了某些非常重要的信息。如果它们能呈现在那篇文章里,文章质量会更好。
但是我找不到,就只能让文章以不完美的方式呈现。
你可能会觉得:这只是对何加盐这样的研究者和写作者有用,我又不写这样的文章,互联网信息没有就没了,对我又没什么影响。
真的吗?
如果我们已经看不到马云的所有演讲,看不到任正非的以《我的父亲母亲》和《一江春水向东流》为代表的所有文章,看不到段永平在雪球的所有发帖,你会不会觉得有点可惜?
好吧,你说你并不觉得可惜。
那如果我们已经搜不到黄峥的公众号,看不到张一鸣的微博,上不了王兴的饭否,你会不会觉得有点遗憾?
好吧,你说你也并不觉得遗憾。
那如果某一天,知乎如同天涯论坛一样没了,豆瓣就像人人网一样消失,B站好比新浪博客一样已无人问津,你会不会有点心痛?
如果某一天,你喜欢的微博博主所有的微博只显示“作者已设置只展示半年内微博,此微博已不可见”,你常看的公众号只显示“此账号已被屏蔽,内容无法查看”,你在抖音或小红书搜索某些信息,结果显示“作者已清空全部内容”……
甚至,微博、公众号、抖音、小红书,就像曾经存在过的bbs、贴吧、空间、博客一样,全部消亡……
你会不会为此难过哪怕是短短的一分钟?
作为传统互联网的一代人,七零后、八零后已经找不回我们的历史。因为它们已经全部消失了。
新生代也许还能看看朋友圈,但是朋友圈也越来越多“三天可见”,越来越沉默不语。
唯一还在热情发圈的,只剩下一水的营销信息。
未来就连这些营销信息,也终将消亡。
5
如果一件事对我们很重要,而它正在消亡,我们有什么办法挽救它吗?
有人曾作出这样的尝试。美国有一个网站叫做“Internet Archive”,中文译作“互联网档案馆”,保存了很多原始网页。但是我试过,中文的原始网页,保存的很少,而且使用非常麻烦,搜索功能十分原始低效,和没保存差不多。
从技术层面来讲,保存从中国有互联网以来,到移动互联网兴起的十来年时间的所有网页,应该并不难,成本也不高,毕竟比起现在的视频时代,原始互联网的那些图文网页,占的空间几乎可以忽略不计。
问题是,谁来做这件事,有什么动机?
商业机构不会做。因为没有任何商业利益。
政府或许可以像建图书馆、博物馆一样,搞一个能保存所有网页的档案馆。但是政府为什么要花钱费力干这件事?除了保存历史之外,似乎也没有其他理由。再说了,就算是政府做了这件事,对普通网民也没有任何意义,因为这个档案馆肯定也会需要一定的登陆权限,以免信息被滥用。
况且,就算是有机构愿意做这件事,现在也晚了。移动互联网兴起之后,传统互联网的中文内容,几乎已经消失殆尽了。粗略估算,99%以上应该都已经没有了。
从某种意义上,何加盐写的牛人系列文章,也为保存这些牛人们存在过的历史,做出了一点贡献。如果我没有写他们,很多历史就已经在网上找不到了。但毕竟这也不是原始信息,只是经我整合过的二手信息。
现在的中文互联网上,这个世纪前十年发生过的所有重大事件,所有留下过深深痕迹的名人,目前还能找到的信息,几乎已经全是经自媒体编辑过的二手信息,甚至是传过多手,早已面目全非的信息。
关于它们的原始报道没有了,原始视频没有了,原始讲话没有了,原始的网友目击没有了,原始的评论没有了……
再过一些年,这些二手信息和N手信息,也都会消失。就像那些事件从未发生过、那些人从未存在过一样。
我们已经无能为力,只能接受现实。
在未来的互联网时代里,回首看21世纪的前二十年,将是没有历史记录的二十年。
我们是互联网时代消失的一代人。
如果你现在还能看到一些中文互联网的古早信息,那只是夕阳的最后一抹余晖。
如果你明白了它们的转瞬即逝,可能会像临死前的浮士德一样感叹:
你真美啊,请停留一下吧。
但那抹余晖,很快将和你这句感叹一起,被时间的二向箔吞没,陷入虚空。
《三体》中,程心和艾AA还能有幸乘坐唯一的一艘曲率飞船,逃离正在二维化的太阳系。
而我们,连曲率飞船都没有。
逃无可逃。
现在你所看到的、你所创造的几乎所有内容,连同这篇文章,这个平台,终究也会淹没在虚空中。
19 个评论
简而言之中共不允许你合订本,同时又允许去倒查二十年,无法可依
无病呻吟新青年
三体这种垃圾玩意
就是他们表达的上限了
简体互联网从来就没有自由过
为期很短的所谓自由窗口里
几乎没人能上网
社会影响力约等于零
等有影响力了
审查如影随形,一点没留窗口
跟那意淫个捷豹呐
三体这种垃圾玩意
就是他们表达的上限了
简体互联网从来就没有自由过
为期很短的所谓自由窗口里
几乎没人能上网
社会影响力约等于零
等有影响力了
审查如影随形,一点没留窗口
跟那意淫个捷豹呐
充分证明共产党的文化灭绝是真的,
无论它是有意无意。
按照中华传统的概念来辨析,
兴灭继绝乃是圣人之学,
普通人根本不配。
民众即使做了保护修缮工作,
既没有能力熬过灾荒,
其保留的文献也没有任何可信度。
另外,如果哪天品葱亡了,
敢问哪位仁人志士愿意整理一部电子版《品葱文集》?
把各路爱国贼,反贼,听床国师,屠学家,乐子人,
以及潜伏黑皮的影视大作集合起来,
装订成册,以飨后世。
无论它是有意无意。
按照中华传统的概念来辨析,
兴灭继绝乃是圣人之学,
普通人根本不配。
民众即使做了保护修缮工作,
既没有能力熬过灾荒,
其保留的文献也没有任何可信度。
另外,如果哪天品葱亡了,
敢问哪位仁人志士愿意整理一部电子版《品葱文集》?
把各路爱国贼,反贼,听床国师,屠学家,乐子人,
以及潜伏黑皮的影视大作集合起来,
装订成册,以飨后世。
如果某一天,你喜欢的微博博主所有的微博只显示“作者已设置只展示半年内微博,此微博已不可见”,你常看的公众号只显示“此账号已被屏蔽,内容无法查看”,你在抖音或小红书搜索某些信息,结果显示“作者已清空全部内容”……
甚至,微博、公众号、抖音、小红书,就像曾经存在过的bbs、贴吧、空间、博客一样,全部消亡……
你会不会为此难过哪怕是短短的一分钟?
不会。事实上我可能会开香槟🍾
连存在银行里的血汗都会无情“清零”,却指望这些镣铐之下的花火能够存续永恒?
这真是令人讽刺的痴梦幻想。
互联网内容贫乏不仅仅是文化崩塌这么简单,ai技术依赖大量数据喂料,所以贵国ai技术是不可能有什么前途的
中共什么时候出手毁坏 Internet Archive的服务器也是有可能的
也许可以拿来教育小孩子 学好外语的重要性
最近連知乎展開多幾個字的評論都一律要用個人信息註冊了,可見共匪大陸玩思想控制玩得走火入魔了,對細微的知識文化傳播都會越來越恐懼。
主要是很多服务器关停,我有个相册也是关停没导出,大量照片丢失了。可惜。
希望更多人看见并保存和传播。
>>个人保存这些数据,代价还是不高的。一个4T的移动硬盘可以保存多少?
硬盘是有使用寿命的。如果要保障数据的长久储存得上RAID,这玩意可比硬盘要多花不少钱。
正因为如此,所以从来不相信基于中文互联网的中文版的GPT-4,和中文版大数据AI,特别是简体版的,只相信英文版的。
有些中共阴谋论的感觉想多了。。没道理管这种细枝末节的东西。。
从技术角度讲,04-24的这20年刚好经历了(且正在经历)一件普通人不太注意的事:信息量爆炸+旧服务被淘汰而信息没有被迁移到新服务中来。
过去二十年,产生的信息量是爆炸式增长的。
举个例子,有时候能看到古早互联网信息,或者你对01年北京申奥成功还有印象,且你那个时候已经在使用互联网:那么你会注意到,那时候关于这件事的新闻,基本都是门户网站上一篇文字通讯稿。到后来一些可能会配上门锁级别画质的图片。而现在发生一个热点,比如俄乌战争出现一个阶段性的战役结束,那么仅仅是简中互联网,内容就会是海量的:官媒、自媒体基本都会以长、短视频的形式进行报道,文字、图片的规模也是非常惊人的。
这两者一对比就能发现信息量完全不是一个级别。一段高清视频所需的存储空间是按GB算的;短小的也得是MB级的规模。全网的信息量起码也是PB级别的规模。而01年的互联网关于一个水平近似的事件,全网信息量可能也就GB级别。这差了10^6的数量级。在这种级别的差距面前,原有的互联网软硬件根本不可能支持,各个信息平台、媒体的网络软硬件可能已经迭代了数代(重写、重建级别的)早就不是原来那套东西了。而且一般来说,当一个东西被淘汰很久,程序员会选择直接关掉它,而不是把古早信息迁移到新服务上来。
有一个比较相似的东西就是博客。。以前网上还是你是GG还是MM、我晕我倒、你也上网冲浪啊 的时代,文字博客风靡一时。但是现在没什么人看也没什么人费心思去做了,为什么?因为这些年短视频取代了它。
假设你是个做新闻的,曾经你追踪俄格战争的时候做了许多精品博客,收获了许多点赞。。但是俄乌战争肯定行不通了:做成长短视频才会收获更多点击率。干巴巴的文字+图片现代人大多没耐心看。(可能有一些小众军迷会认真看,但是不多)
换个比方,能看高清直播的欧冠世界杯,谁还守着雪花屏电视机或者WAP网页文字直播看比赛啊?
那如果你是做体育赛事的,请问大家都看高清直播了,你还会为了一小撮人亏钱去做文字直播吗?那还不如把这项服务一关了事?
这是很多古早信息没被保存下来的一个原因。
从技术角度讲,04-24的这20年刚好经历了(且正在经历)一件普通人不太注意的事:信息量爆炸+旧服务被淘汰而信息没有被迁移到新服务中来。
过去二十年,产生的信息量是爆炸式增长的。
举个例子,有时候能看到古早互联网信息,或者你对01年北京申奥成功还有印象,且你那个时候已经在使用互联网:那么你会注意到,那时候关于这件事的新闻,基本都是门户网站上一篇文字通讯稿。到后来一些可能会配上门锁级别画质的图片。而现在发生一个热点,比如俄乌战争出现一个阶段性的战役结束,那么仅仅是简中互联网,内容就会是海量的:官媒、自媒体基本都会以长、短视频的形式进行报道,文字、图片的规模也是非常惊人的。
这两者一对比就能发现信息量完全不是一个级别。一段高清视频所需的存储空间是按GB算的;短小的也得是MB级的规模。全网的信息量起码也是PB级别的规模。而01年的互联网关于一个水平近似的事件,全网信息量可能也就GB级别。这差了10^6的数量级。在这种级别的差距面前,原有的互联网软硬件根本不可能支持,各个信息平台、媒体的网络软硬件可能已经迭代了数代(重写、重建级别的)早就不是原来那套东西了。而且一般来说,当一个东西被淘汰很久,程序员会选择直接关掉它,而不是把古早信息迁移到新服务上来。
有一个比较相似的东西就是博客。。以前网上还是你是GG还是MM、我晕我倒、你也上网冲浪啊 的时代,文字博客风靡一时。但是现在没什么人看也没什么人费心思去做了,为什么?因为这些年短视频取代了它。
假设你是个做新闻的,曾经你追踪俄格战争的时候做了许多精品博客,收获了许多点赞。。但是俄乌战争肯定行不通了:做成长短视频才会收获更多点击率。干巴巴的文字+图片现代人大多没耐心看。(可能有一些小众军迷会认真看,但是不多)
换个比方,能看高清直播的欧冠世界杯,谁还守着雪花屏电视机或者WAP网页文字直播看比赛啊?
那如果你是做体育赛事的,请问大家都看高清直播了,你还会为了一小撮人亏钱去做文字直播吗?那还不如把这项服务一关了事?
这是很多古早信息没被保存下来的一个原因。