加载中 ...
首页 > 新闻 > 科技要闻 > 正文

Internet Archive:记录那些被遗忘的互联网

2019-11-16 13:30:02 来源:极客公园

  在 Martin Luther King, Jr 的维基百科词条下面,附注着三百多条脚注,其中包括 66 本书籍引用。

  这是人们信赖维基百科的原因,几乎每一则词条的每一处描述都有迹可循,查阅者可以通过参考资料检验词条文本的准确性。

  不过就算是维基百科这样的互联网百科全书,它能记录的也非常有限。《纽约客》一篇题为 Can the Internet be archived?的文章中曾经写道,「网络永远生活在当下。它虚幻、短暂、不稳定、不可靠。有时候你想要访问的网页却指向了 404... 有时候你想要查询的页面已经被更新后的内容覆盖——这更麻烦,因为网页不会告诉你,你看到的内容压根儿不是你想查询的内容。」

  那么,有没有办法能够找到那些 404 或者修改前的网络内容呢?

  备份互联网

  有人试图备份整个互联网。

  1996 年,因为担心网络上的信息不能像印刷在书籍里一样被永恒地保存下来,布鲁斯特·卡利(Brewster Kahle)创立了公益性质网站 Internet Archive。

  很多人将 Internet Archive 定义为最伟大的搜索网站。Kahle 开发的搜索工具 Wayback Machine 定期收录和抓取全球网站的信息,并进行保存。Wayback Machine 的工作也有主次之分,对于不同的网站,收录的数量和频次也不相同。

  截止到现在,Internet Archive 已经保存了 3300 亿网页和页面快照,而 Internet Archive 的伟大在于,除此之外,这个庞大的档案馆还记录了 2000 万册图书和文本,850 万份音频和视频、300 万幅图像和 20 万个软件程序。

  总而言之,Internet Archive 想做的是让信息获取更加简单和准确。最近,Internet Archive 和维基百科联手做了一件事情,让维基百科更靠谱了。Internet Archive 已经将维基百科脚注中 13 万条书籍引用定向链接到 Internet Archive 5 万本(覆盖英语、希腊语和阿拉伯语)完成过数字化扫描,且对公众公开的书籍。查阅者可以通过点击脚注的页码,查看被引用部分的两页上下文预览。

  查阅者可以通过点击脚注的页码,查看被引用部分的两页上下文预览 | Internet Archive

  网络图书馆

  上述《纽约客》文章中说,「脚注是人类文明史上的一个里程碑,发明和传播它花了几个世纪的时间,摧毁它仅仅用了几年。比如过去,书籍和论文的脚注能让你准确了解到额外的信息,以及信息的来源。现在,当一切搬到互联网上,你仍然可以通过点击脚注的链接获取更多信息,只不过你不知道兴许哪一天链接就失效了。」

  2016 年 10 月,维基百科和 Internet Archive 宣布合作解决失效链接问题,Wayback Machine 主管 Mark Graham 开发的 InternetArchive Bot 自动扫描维基百科脚注的失效链接,并自动将失效链接连接到 Wayback Machine 保存的页面。「我们编辑了 1400 万链接,超过 1100 万链接到 Internet Archive。」Graham 说到。

  链接书籍的工作与之类似,但是更具有挑战性。Graham 解释说,并非所有书籍都有 ISBN 编码,也并非所有脚注都参考了正确引用格式,标注了具体的页码。

  Internet Archive 称自己为网络图书馆。不少线下图书馆也会对书籍数字化之后借阅给用户。当你对某一本引用的书籍感兴趣,就可以问 Internet Archive 借阅到电子版。

  Internet Archive 从 2005 年开始着手书籍数字化的工作,它的「馆藏」里已经有了 380 万本。目前 Internet Archive 在全球设了 22 个工作点,每天有 100 位员工以每天 1000 本的速度加快扫描工作,即便这样还有数百万本书排队等候。

  数字时代,人们与书本的距离越来越远。Kahle 称,「我们希望从维基百科开始,通过将书籍编织进互联网的方式,将读者与书籍连接起来。」

  互联网档案馆

  80、90 后的青春可能随着某天天涯和豆瓣的关闭而停驻,Facebook 成立以来也不过十几年光景。互联网加速了信息的传播和迭代,相应地人们遗忘得也越快。但是在 Internet Archive,念旧的人可以看到当时的热点话题「制造机」天涯社区,以及现在看来有些「非主流」的新浪微博首页快照。


Internet Archive 保存的天涯和新浪微博的快照 | Internet Archive

  正如《纽约客》评论道,几乎可以肯定,如果哪些东西没有被网页时光机(Wayback Machine)收录,它们等于从来没有存在过。

  2014 年 7 月 17 日,马来西亚一架波音 777 客机起飞后不到三小时在乌克兰坠毁。乌克兰反对派指挥官 Strelkov 在俄罗斯社交媒体 VKontakte 发布一条消息,「我们刚刚击落一架飞机,一架 AN-26。」这则帖子包含了飞机残骸的视频链接,看起来像是波音 777,随后被删除。第二天,这则帖子被收录到 Wayback Machine,Internet Archive 在 Facebook 发帖称,「这就是我们存在的意义。」

  正如《金融时报》评论,在一个虚假信息,极端主义内容被迅速创造和传播,社交媒体信息不断迭代和更新的时代里,能够记录「谁说了什么」,「何时说了什么」而且内容不可更改的重要性被放大了。通过 Internet Archive 对不同时期的历史信息进行研究,是它更大的价值所在。比如在特朗普当选之后,Internet Archive 收集了包括特朗普就职前的 6000 多段视频帮助人们辨别和核实虚假信息。

  然而,想要建立全球化的互联网档案馆不太容易,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一。今年年初,英国作家协会(The Society of Authors)表示 Internet Archive 做法涉嫌侵权——在英国所有的书籍扫描和借阅行为必须得到版权所有者的授权,且每一次借阅能为作者带来 8.52 便士的公共出借报酬。英国作家协会指摘 Internet Archive 没有得到作者的许可,同时没有支付任何报酬。

  不久之后,一份由全美作家联盟(NationalWritersUnion)发布,其余 36 个组织(包括 The Society of Authors)共同签署的文件,谴责 Internet Archive 和合作图书馆扫描和分发电子书的行为。虽然 Internet Archive 解释他签署了 CDL(controlled digital lending)协议——在没有获得版权所有者的许可下,允许图书馆数字化印刷书籍,并借出给用户。前提是规定借出数量和时间上限,并且基于合理使用(Fair use)制度,借出数量必须与数字化前实体书籍数目一致(一旦一本实体书被借出,它的对应电子版本则不能借出,反之亦然。)

  法律跟不上技术迭代的步伐,就如同许多敢为人先者一样,Internet Archive 身处在资源共享和版权至上的夹缝之中。


互联网档案馆创始人 Brewster Kahle | 维基百科

  「在中国互联网的古代,人们不仅只是使用互联网,那时候的人们参与建设互联网... 比如说前往维基百科编纂词条,管理内容。在中文互联网世界里,人们去豆瓣网增添电影、书籍、音乐专辑的条目,便于其他网友标注、收藏和评论。」网络写手和菜头曾如此写道。

  这或许和 Internet Archive 想要打造的互联网世界相似,用 Graham 的话说,Internet Archive 希望普及所有知识。Kahle 表示,尽管 Internet Archive 扎根在旧金山,但是与今天的硅谷共同点少之又少。他希望所有技术的「遗产」最后不是掌握在少数人手中,「我喜欢很多人都能赢的感觉。」

“金桥大通股票配资”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,稿件内容仅为传递更多信息之目的,并不代表认同其内容数据或观点的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 福布斯亿万富豪榜公布:贝索斯再夺冠,马化腾居于第20位!

    08:43
  • 中国联通的5G信号首次出现在两会上。记者3月1日上午在北京梅地亚两会新闻中心的现场看到,中国联通的5G信号已经实现了在新闻中心的全覆盖。

    09:53
  • 2018年全年跑路、失联、主办券商风险提示……这样的“黑天鹅”今年以来在新三板频频发生。据不完全统计,今年以来已有近20家新三板公司董事长失联。

    19:15
  • 12月12日,双十二来临之际,《南方周末》的一篇报道就解开了不少人的困惑,南极人品牌所有商品均不自己生产,品牌的拥有方南极电商只是品牌的运营方和吊牌的出售者。网上的南极人店铺有多少呢?目前南极人旗下全品牌授权经销商有846家,合作经销商3427家,授权店铺4442家。从2018年年初至今,南极人已经14次被国家质监部门及地方消费者协会拉入不合格产品黑名单。这样的滥授权,会不会毁掉南极人这个品牌?

    01:44
  • 【跨境电商逆势增长22.3%,预计年底将突破9万亿大关】9月8日,《中国电子商务报告2017-2018》在厦门发布。报告显示,2017年中国全年全社会电子商务交易总额规模达到29.16万亿元,交易额同比增长11.7%,是2013年的2.8倍。其中跨境电商交易额达8.2万亿元,同比增长22.3%,预计2018年中国跨境电商交易规模将达到9万亿以上,占全球交易总额40%以上。

    08:00
  • 【新华制药等10家企业药品不合格】9月7日,国家药品监督管理局发布公告称,经吉林省药品检验所等6家药品检验机构检验,新华制药有限公司等10家企业生产的15批次药品不符合规定。

    08:00
  • 【方星海:积极有序推进中国期货市场对外开放】中国证监会副主席方星海表示,今年以来,中国期货市场在对外开放方面呈现出品种、 机构、投资者“三箭齐发”的良好态势。下一步,中国证监会将按照国家金融业对外开放的总体部署,坚持“引进来、走出去”兼顾、 近期以“引进来”为主的方针,顺势而为,积极有序地推进中国期货市场的对外开放。

    08:00
  • 【海通证券姜超:债市短期震荡 长期依旧向好】海通证券姜超研究团队认为,受通胀预期、供给放量和美国加息影响,债市短期受到冲击。但从经济基本面看,目前无论是需求还是生产都明显回落,而通胀也是短升长降,债市长期依旧向好,调整就是配置机会。政府债券发行放量短期弥补了社会融资的回落,但社会融资当中收缩的主要是影子银行,而新增的融资主要流向了政府部门,依赖于影子银行融资的房地产、融资平台等机构仍面临债务违约风险冲击,未来仍需以中高等级债券为主展开配置。

    08:00
  • 【2018世界制造业大会】郑建邦说,这次首届世界制造业大会,确立了“创新驱动,制造引领,拥抱世界新工业革命”的主题,恰逢其时,意义重大。中国制造业发展取得举世瞩目的成就,放眼全球,未来制造业发展潜力巨大、前景广阔。中国愿意与国际社会一道共同面对全球产业竞争格局调整带来的巨大挑战,中国制造业发展也给世界各国带来重大合作机遇。

    08:00
  • 【汽车专家贾新光:国内新能源车的窗口期只有3-5年】中国首届新能源汽车产业峰会于9月9日在山东德州齐河县开幕。中国汽车流通协会常务理事贾新光在会上表示,面对特斯拉入华、国外电池技术日趋成熟,留给中国新能源车企的时间已经不多,窗口期只有3-5年。当前,应当抓紧电池技术的研究。

    08:00
  • 【美国多举措力保人工智能“领头羊”地位】今年以来,美国通过强化政策支持、推动国会立法、加大研发投入等多项措施,优先推进人工智能技术发展,力图保持人工智能时代“领头羊”地位。除对内构建人工智能体系外,美国政府对外还采取积极策略,对各国的人工智能发展进行跟踪与评估,并通过各种手段遏制竞争对手的发展。(新华社)

    08:00
  • 【石墨电极企业现货供应吃紧状态 石墨电极价格有望继续上涨】截止本周五止, 国内超高功率石墨电极直径300-700mm主流出厂含税价格5万-13万元\/吨,高功率石墨电极直径300-500mm主流出厂含税价格4.5万-6.5万元\/吨,普通功率石墨电极直径300-500mm主流出厂含税价格3万-4万元\/吨。分析称,石墨电极价格低位反弹以及现货紧张,都给下游采购带来积极信号,市场买涨情绪渐增。后市看石墨电极价格下跌行情结束,震荡上行开启,但是否能够大幅反弹有待市场验证。

    08:00
  • 【北京市住建委:互联网平台房源须信息真实并实时更新】北京市住建委相关负责人日前表示,互联网平台作为房源发布主渠道,必须做到房源信息、经纪人信息真实并实时更新。开展互联网房源信息执法检查是一项长期工作,北京住建执法部门每周都会安排执法人员对各网站房源信息发布情况进行专项执法检查。(新华网)

    08:00
  • 【《全球石墨烯产业研究报告(2018)》正式发布】 2018中国国际石墨烯创新大会新闻发布会在西安召开,由中国石墨烯产业技术创新战略联盟产业研究中心编写的《全球石墨烯产业研究报告(2018)》正式发布。 据统计,截至2017年12月底,我国从事石墨烯的研发、生产、销售、推广等相关单位的数量达到4800多家,石墨烯产业的市场规模增长至70亿元,石墨烯产业呈现出快速发展趋势,石墨烯应用企业已经初具规模,并形成了良性循环的状态。

    08:00
  • 【期货公司分类评价结果出炉 19家获得“AA”评级】2018年期货公司分类评价结果日前正式揭晓。期货行业149家期货公司都参与分类评价,其中80家期货公司维持评级不变,而且期货行业头部公司继续保持稳定格局。数据显示,19家期货公司被评为“AA”级,较去年减少3家。A类公司数量与去年持平,均为37家;B类公司数量由去年的100家降至94家;C类公司数量由去年的8家增至16家;D类公司数量由去年的4家降至2家。(券商中国)

    08:00