谷歌称全球藏书总量近1.3亿册公布统计方式

　　谷歌软件工程师雷奥尼德·塔切尔(Leonid Taycher)周四在该公司官方博客中撰文称，按照谷歌制定的统计标准，目前全球范围内各大、小图书馆及其他机构的藏书总量将近1.3亿册，其精确数字为129,864,880册。

　　2004 年12月，谷歌启动了一项名为“数字图书馆”的庞大工程，即计划将全球各公共及大学图书馆藏书转化成数字图书。对于谷歌该项目，外界存在较大争议。赞成者称谷歌数字化图书项目可促进全球信息的沟通交流。反对者称谷歌此举不但侵犯了相应作家及出版商的版权，而且会导致谷歌垄断数字图书市场。

　　塔切尔周四撰文称，任何一家计划进行图书扫描的公司，都会面临着同一问题：全球藏书总量究竟为多少？对于藏书数量的统计，不同机构有不同的标准。谷歌制定的统计标准是：同一版本的图书，只能算为一册。

　　一些文学名著通常会有多个版本，谷歌确定这些不同版本的标准是：各版本的序言和跋等内容并不相同。塔切尔指出，多数情况下，同一版本的文学著作发行量往往较大；而一些学术著作发行量并不高，部分学术著作仅被一些大学图书馆所收藏。

　　塔切尔还指出，对于同一版本的图书，通常还会有精装本(hardcover)和平装本(paperback)的区别，但谷歌在对这两种版本的内容进行分析比较后，如果内容没有太大差异，也视为同一版本书籍。此外，谷歌还参考了国际标准图书编号(ISBN)的相应数据。但ISBN数据也有其局限性，毕竟 ISBN标准于上个世纪60年代开始实施，70年代才被广泛接受，而且主要是被西方国家接受。早于ISBN标准出版的图书、不以商业目的发行的图书以及不执行ISBN编号标准的图书，仍然不在ISBN范围之内。

　　谷歌还指出，另一方面，虽然ISBN图书编号方式已成为既定标准，而执行过程中却存在一些偏差：在某些情况下，不同内容的图书会使用同一ISBN编号。此外，谷歌还发现ISBN图书编号被用于CD唱片甚至服装的情况。

统计过程

　　塔切尔表示，鉴于业界统计标准的混乱，谷歌首先做的工作是：收集图书元数据，这些数据来自全球150多个国家和地区，具体来源包括各图书馆、出版目录信息提供商及其他商业机构。塔切尔称，截至目前，谷歌已收集了将近10亿册图书原始材料，但通过初步删除内容重复的图书材料，该原始材料数量已降至6亿册。

　　那么是否就可以据此认为，全球藏书总量应该是6亿册？还不能这样认为。原因就是在这6亿册图书当中，仍存在大量内容重复的版本。而这种情况下，又存在 ISBN编号混乱、图书作者姓名相同等杂乱情况。谷歌通过自家算法对上述6亿册图书进行“清理”后，相应数字已降为2.1亿册。

　　但这2.1亿册，仍不能视为全球藏书的总量。原因是谷歌还必须删除这部分统计数据中的非图书内容，如微型成像作品(800万个)、音频记录(450万条)、视频(200万条)、地图(200万份)以及印有ISBN编号的T恤衫(约1000件)等等。通过这种“清理”工作，相应数字又降为1.46亿册。

　　塔切尔表示，1.46亿册的数字，应该已经接近全球藏书的实际数量。但谷歌又发现，部分图书仍存在序列号重复的问题，再删除这部分重复的内容，所得出的最终数字为将近1.3亿册，即129,864,880册。

谷歌称全球藏书总量近1.3亿册 公布统计方式

谷歌称全球藏书总量近1.3亿册公布统计方式