原创 Mark 全球深度报道网 收录于话题#工具箱4个
“网站时光机”是深受调查记者们喜爱的一个在线调查工具,它可以保存不同时间段的网页内容,即使后来原始网页被删除或是被改动,你仍然可以查阅曾经的网页快照。在这篇文章中,“网站时光机”的负责人向我们介绍了它的使用技巧,包括如何批量抓取、比较网页不同版本的差异、查阅网页处境信息和使用 API 等。
互联网档案馆(The )是一个非营利的在线图书馆,它已成立了25周年,使命是“普及所有知识”( to all )。它最出名的服务是“网站时光机”( ,网址:),它每天收到的请求数(包括查阅请求和存档请求)超过了10亿次,我目前也在管理着这项服务。
互联网档案馆(The )和它的子项目“网站时光机”( )是非常重要的调查报道工具。图:
记者、研究人员、事实核查人员和公众每天都可以通过多种方式访问免费使用“网站时光机”。网上已经有不少文章介绍了这项服务,事实上,在 GIJN 的2020年年度调查工具盘点中,不少记者都将“网站时光机”列为他们最喜欢的工具之一。
以下我就简单介绍一下如何使用“网站时光机”进行调查。
将网址存档
如果你发布的文章引用了另一篇文章,而那篇文章被作者删除了或因为网站本身的问题导致无法访问,你又没有对这篇文章进行存档的话,它可能就再也找不到了——可千万不要让这种事发生在你的身上。
每天都有许多用户通过“网站时光机”的“保存页面”服务存档上亿个网址。任何人都可以提交想要保存的网址,如果你注册了免费账户,还可以要求抓取相关页面中的“外部链接”(),并通过电子邮件接收抓取情况的报告。
这里有个小技巧:如果你想批量保存网址,可以将这些网址都放在 表格的 A 列,然后通过这里()提交这份 表格,之后这份表格的 B 列、C 列和 D 列将会自动被填上存档状态、存档后的地址还有这个网址之前是否已经被存档过。
还有一个存档网页的方法,是将相关网址发送邮件到 ,如果你在邮件主题中写上“ ”,那么这个网址的外部链接也会被保存。同样的,在抓取完成后,你会收到一封关于保存情况的电子邮件报告。
最后,对于精通技术的人,“网站时光机”也提供了应用程序接口(API),方便你集成到现有的软件工作流中,或者是新开发的应用程序中。例如,总部位于旧金山的技术非营利组织米丹()就将“网站时光机”的服务整合到了它的“检查”服务中。米丹是一家通过开发软件来支持新闻业的非营利组织。
比较不同存档版本
你是否曾想比较两个不同网页存档之间的差异——也许是为了看看一个公司或个人是如何改变改变网页上的措辞的?您可以使用“网站时光机”的“查阅改动”()功能来实现这一点。
要使用这项功能,只要在“网页时光机”的搜索框中输入任何已存档的网址,然后选择“查阅改动”就可以看到不同日期和时间的存档版本列表,我们会用不同的颜色等级来表示从一个存档网址到另一个存档的网址的变化程度。
接下来,你可以选择任意两个时间戳版本的网址,它们将会被并排呈现,有差异的文本会被蓝色或黄色突出显示。例如,以下案例就展示了一个英国前首相顾问多米尼克·卡明斯( )是如何试图重写历史的。
“网站时光机”的“查阅改动”功能捕捉到了英国前首相顾问多米尼克·卡明斯是如何在他最初的文章(左)上添加秘密内容的(用蓝色标记)。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666