知乎教程网页 Wayback Machine

教你如何修复用浏览器下载下来的、会无限刷新的知乎快照

快速教程：
一、打开一个知乎页面（例如https://zhuanlan.zhihu.com/p/85591688）
二、点击 ctrl+s (macbook command+s)
三、弹出的框框中选择“Webpage, complete（网页，全部）”，点击下载，你会得到一个以".html"为结尾的一个文件和一个文件夹。
四、点进下载下来的文件夹，删除带有“vendor”字样、结尾为".js"的文件。
完成！现在你的网页快照可以被正常查看了，不会无限闪退了。

相关信息：
自19年上半年的某一天后，wayback machine开始“无法抓取”知乎的网页快照了。其实其页面中的数据并不是没有被抓取，而是页面中的一串脚本让你无法查看它。如果你要查看某个知乎的网页快照，它就会在加载部分信息之后直接强制重新加载网页，让你根本没法浏览。而在今年8月左右这个问题被wayback machine修复了，所以现在浏览任何知乎快照都不会出现“无限刷新”的问题了，即使是19年到今年8月之间的新快照。例如：https://web.archive.org/web/20191115014305/https://zhuanlan.zhihu.com/p/85591688

直到今天，用浏览器下载下来的、不经处理的知乎快照仍会出现“无限刷新”的问题，即使你尝试离线打开它也一样。

ctrl+s 是“保存当前页面”的快捷键。在IE、chrome、firefox等浏览器中，当你点击ctrl+s后，它给你两个选择：“Webpage, HTML only” 和 “Webpage, complete”。html ONLY 的选项会下载一个".html"文件，只含有文字和链接；而complete的选项会不仅会包含这个html文件，也会包含另一个文件夹，里面装着页面格式、脚本和所有图片。问题就出在complete这个选项上，因为它会把那一串让页面无限刷新的脚本也给下载下来。
**safari浏览器比较特殊，它下载下来的文件以".webarchive"结尾，特征类似archive.today的快照，包含页面格式和图片但是不包含脚本，所以不会出现这种问题。

archive.today的知乎快照则一直都没有出现此类问题，因为它的快照不像wayback machine一样含有脚本。

至于说我这个几乎不会写代码的是怎么知道要删除这个带有“vendor”字样、结尾为".js"的文件的呢？其实很简单。
一、因为所有网页的动态元素都是脚本做出来的，所以无限刷新的问题肯定也出在脚本。
二、因为我知道“.css”类文件是页面格式文件，所以我忽略它们。
三、我知道init.js、column.js类文件是常见的脚本，所以就没动它们。
四、既然所有知乎网页都有这个问题，我就多试几次，有共同特征的不常见脚本大概率就是需要删除的那个。
五、一个一个试。最开始我以为是那个zap.js的问题，删了之后发现无效，就继续删其它的。当删掉某个脚本后页面不再无限刷新就可以确定我删对了。最后我发现这个把这个带vendor字样的脚本删了之后就好了。

5

分享 2020-10-27

0 个评论

要发言请先登录或注册

教你如何修复用浏览器下载下来的、会无限刷新的知乎快照

0 个评论

发起人

相关主题

状态

教你如何修复用浏览器下载下来的、会无限刷新的知乎快照

0 个评论

发起人

相关主题

推荐

状态