第66期:FIRE 是什么?我给大家讲讲33岁就财务自由、提早退休的故事
对于那些曾经想知道世界上有多少本不同书籍的人,根据来自Google Books项目的谷歌软件工程师Leonid Taycher的说法,Google有一个答案:129,864,880。
估计数量世界各地的图书不仅仅是对搜索巨头的好奇心:它还提供了一些路线图,说明为实现公司组织世界所有信息的雄心勃勃的目标,还有一些工作要做。你是一家试图数字化世界上所有图书的公司的一部分,你经常得到的第一个问题是:“有多少书?”,Taycher在一篇博客文章中解释说,估计
[进一步阅读:最好的电视流媒体服务为了提出一个合理的近似值,公司开始通过从多个编目系统(如国际标准书号(ISBN))获取书籍信息。
此类目录虽然有用,但不提供明确的计数但是。例如,自20世纪60年代以来,ISBN只被分配到书籍中,并且往往仅用于西方国家。多个书籍已分配给单个ISBN号码,并且发布者已将书号分配给书籍以外的其他项目,例如T恤衫和DVD等
因此,Google工程师编写了一些程序来梳理大约150个这样的目录和目录,并排除尽可能多的重复条目
公司还必须制作一些Taycher解释说:“例如,软封面和硬封面版本的文本被视为两本书,流行文本的许多不同版本也是如此,例如莎士比亚的“哈姆雷特”,由于他们可能包含的前言和评论。连续出版物可能会被视为单独的书籍或作为收集的作品。
根据Google Books工程经理Jon Orwant在波士顿USENIX年度技术大会上的介绍,截至6月,该公司已经扫描了1200万册图书。这些书以480种语言编写(其中包括3本以星际旅行为主的克林贡语的书籍)。
该公司计划在十年内完成对现有书籍的扫描。 Orwant说,由此产生的虚拟藏书将包含40亿页和2万亿字。
世界上约20%的书籍属于公共领域,Orwant解释说。大约有10%到15%的这些书籍正在印刷中。剩下的书 - 绝大多数是所有书 - 仍在版权范围之内,但已绝版。 Google正在借用这些书籍的副本,以便将它们数字化,从全球约40家大型图书馆
。这种扫描书籍的行为已经绝版,但仍受到版权保护并受到出版业的一些抵制
该公司现在正在等待美国地方法院对纽约南区的判决,看它是否可以扫描这些书。
2005年,作家协会和美国出版商协会分别对该搜索巨头提起集体诉讼,声称该公司通过扫描书籍侵犯了作者的版权。谷歌声称它希望出售这些以外的数字拷贝,印刷书籍,并为作者提出版税索赔。该公司还希望在网络搜索中揭示这些书籍的片段,并声称这种使用属于美国合理使用原则。
除了改善搜索外,扫描世界各地的书籍还会带来其他好处,Orwant解释说。一旦所有这些卷都被数字化,其内容就可以进行分析,这可以产生新的见解。语言学家可以发现某些单词何时广泛使用,或者首先使用这些单词的人。
谷歌图书搜索还可以帮助回答一些杰出的历史问题:例如,它可以通知辩论艾萨克牛顿和戈特弗里德莱布尼茨 - 或者其他人完全发明了微积分。“我们不仅可以搜索短语,但对于一个概念,“Orwant解释说。 “我们可以采取[无限想法]可以变化的所有不同方式,将其翻译成不同的语言,并且同时进行搜索。”
“我的希望是,当我们开始公开更多这个集合,它可以让人们提出这样的问题,他们以前没有问过,“他说。”
IDG新闻服务编辑Juan Carlos Perez为本报告做出了贡献。
Joab Jackson涵盖了企业软件以及针对
IDG新闻服务
的通用技术突发新闻。在@Joab_Jackson的Twitter上关注Joab。 Joab的电子邮件地址是[email protected]