首页 > IT业界 > 正文

谷歌称全球藏书总量近1.3亿册 公布统计方式

2010-08-06 10:51 来源:腾讯科技

  谷歌软件工程师雷奥尼德·塔切尔(Leonid Taycher)周四在该公司官方博客中撰文称,按照谷歌制定的统计标准,目前全球范围内各大、小图书馆及其他机构的藏书总量将近1.3亿册,其精确数字为129,864,880册。

  2004 年12月,谷歌启动了一项名为“数字图书馆”的庞大工程,即计划将全球各公共及大学图书馆藏书转化成数字图书。对于谷歌该项目,外界存在较大争议。赞成者 称谷歌数字化图书项目可促进全球信息的沟通交流。反对者称谷歌此举不但侵犯了相应作家及出版商的版权,而且会导致谷歌垄断数字图书市场。

 

  塔切尔周四撰文称,任何一家计划进行图书扫描的公司,都会面临着同一问题:全球藏书总量究竟为多少?对于藏书数量的统计,不同机构有不同的标准。谷歌制定的统计标准是:同一版本的图书,只能算为一册。

  一些文学名著通常会有多个版本,谷歌确定这些不同版本的标准是:各版本的序言和跋等内容并不相同。塔切尔指出,多数情况下,同一版本的文学著作发行量往往较大;而一些学术著作发行量并不高,部分学术著作仅被一些大学图书馆所收藏。

  塔切尔还指出,对于同一版本的图书,通常还会有精装本(hardcover)和平装本(paperback)的区别,但谷歌在对这两种版本的内容进行分析比较后,如果内容没有太大差异,也视为同一版本书籍。此外,谷歌还参考了国际标准图书编号(ISBN)的相应数据。但ISBN数据也有其局限性,毕竟 ISBN标准于上个世纪60年代开始实施,70年代才被广泛接受,而且主要是被西方国家接受。早于ISBN标准出版的图书、不以商业目的发行的图书以及不执行ISBN编号标准的图书,仍然不在ISBN范围之内。

  谷歌还指出,另一方面,虽然ISBN图书编号方式已成为既定标准,而执行过程中却存在一些偏差:在某些情况下,不同内容的图书会使用同一ISBN编号。此外,谷歌还发现ISBN图书编号被用于CD唱片甚至服装的情况。

统计过程

  塔切尔表示,鉴于业界统计标准的混乱,谷歌首先做的工作是:收集图书元数据,这些数据来自全球150多个国家和地区,具体来源包括各图书馆、出版目录信息提供商及其他商业机构。塔切尔称,截至目前,谷歌已收集了将近10亿册图书原始材料,但通过初步删除内容重复的图书材料,该原始材料数量已降至6亿册。

  那么是否就可以据此认为,全球藏书总量应该是6亿册?还不能这样认为。原因就是在这6亿册图书当中,仍存在大量内容重复的版本。而这种情况下,又存在 ISBN编号混乱、图书作者姓名相同等杂乱情况。谷歌通过自家算法对上述6亿册图书进行“清理”后,相应数字已降为2.1亿册。




  但这2.1亿册,仍不能视为全球藏书的总量。原因是谷歌还必须删除这部分统计数据中的非图书内容,如微型成像作品(800万个)、音频记录(450万条)、视频(200万条)、地图(200万份)以及印有ISBN编号的T恤衫(约1000件)等等。通过这种“清理”工作,相应数字又降为1.46亿册。

  塔切尔表示,1.46亿册的数字,应该已经接近全球藏书的实际数量。但谷歌又发现,部分图书仍存在序列号重复的问题,再删除这部分重复的内容,所得出的最终数字为将近1.3亿册,即129,864,880册。

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected]