外文文献回溯之路

 

■外文采编部 顾犇、罗翀
 

2014年,在历经长达八年的辛勤努力之后,外文图书回溯工作即将结束,外文数据库已经累计近400万条数据,实现了几乎所有馆藏约100种语言文献的编目工作。在馆庆105周年到来之际,我们终于实现了任继愈老馆长“理清家底”的夙愿。一条条看似简单的数据,凝炼着外文采编工作人员探索求进的精神,其背后隐藏的故事串联着外文文献回溯工作的点点滴滴。

故事应该从Aleph500即图书采访编目集成系统开始讲起。在此之前,我馆已实现了局域网下的中文图书的机读编目,并积累了数据,而外文图书的编目,虽然在一定程度上实现了自动化,但也只是用西文光盘套录数据保存在软盘上转至OPAC检索,同时打印卡片,其中日文编目光盘仅限于卡片打印,而其他语种的编目工作只能依赖于手工操作。

1999年底,我馆开始了西文图书采编软件的选型工作,拉开了外文图书编目自动化发展的序幕,外文采编部主任顾犇作为选型工作的主要参与者,见证了这一历程。在综合评估了软件的先进性、多文种功能、可扩展性、集成性以及与我馆业务工作的一致性等后,2001年9月我馆与以色列Ex Libris公司正式签约,引进其Aleph500软件作为我馆的集成系统。该选型不仅限于西文图书采编,也适用于我馆所有的业务流程。

集成系统的引进只是万里长征的第一步,充分开发其功能则更为重要。多年来,外文采编人员都已习惯于卡片编目,最多也就是光盘套录,他们不知道如何通过联机方式获得数据。从光盘检索到联机编目,编目工作人员首先需要转变的是检索数据的方式,也就是要解决使用Z39.50协议远程检索问题。经过不断的探索,我们实现了在Aleph500系统内部进行西文文献网上数据查询功能,依次解决了日文、俄文等文献的检索,并逐步探索其他非通用语种的文献的网上查询功能。除此之外,光盘检索下载的数据,不少保存在软盘上,磁盘损害导致数据缺失,编目人员需要费精力弥补。

解决西文和日文套录以后,就需要解决特殊字符显示乱码和无法检索的问题。Aleph500系统支持Unicode大字符集,但是为了客户端和OPAC的正确显示则还需要安装特殊的显示字符集进行有关的设置。我们通过安装当时Windows2000的最新输入法确保编目人员高效录入日文的假名和汉字,通过联系日本国立情报学研究所的技术人员获得汉字对应表解决了日文中汉字的检索问题,通过Aleph500参数表的设置解决了西文特殊字符的检索问题,方便了读者的使用。

俄语文献是最晚在Aleph500系统中实现编目的。虽然俄语的输入方式比较简单,用基里尔字母的输入法就可以录入,但是由于与拉丁字符十分相似,在一定时期内困扰了编目人员,导致检索错误。此外,因为俄罗斯网络信息的局限性,网上下载数据的问题也困扰着编目人员,要过几年以后才逐步解决。

在其他语种编目方面,外文采编人员发现Aleph500系统提供从右到左书写的文字的录入方式,为阿拉伯文和希伯来文的编目提供了可能。

Aleph500系统的引进和因特网的迅速发展,为编目自动化提供了强有力的技术支撑,也为启动规范控制环节提供了可能。借此契机,我们开始了规范控制工作,从引进西文规范数据库到将规范控制纳入正常编目流程,从西文规范控制向俄文逐步推广,积跬步而致千里,数据库的质量随着时间的推移也一点一滴地在提升。

故事讲到这儿,仿佛才开始进入正题,但是之前这些铺垫显然是必不可少的。回溯工作的重要性不言而喻。第一是揭示馆藏,第二是摸清家底。要实现揭示馆藏,需要把卡片转换成电子格式,让读者能在联机检索目录中查询到;而对从来没有编目过的图书完成编目,则可以弄清楚我馆到底有多少馆藏,这是任继愈老先生的夙愿。

2006年,馆领导交给采编部这个任务的时候,大家都认为几乎不可能完成。因为按过去的惯性思维来看,完全做完回溯,清理积压大概需要30年。因此,要在短时间内完成任务,唯一的出路就是打破常规,另辟蹊径。

为了完成这个任务,外文采编工作人员在全国范围内考察了多家能够胜任外文编目回溯的工作的数据制作公司,探讨了业务外包和验收的流程,解决了批量回溯工作的输入法难题。经过2007年和2008年艰难的探索,终于形成了一套行之有效的外包监管模式。到2014年为止,西文文献的回溯工作基本完成。如果说开始进行计算机编目是技术上的创新,那么完成回溯工作则是管理的上的创新。面对每年几十万的数据,要进行招标、外包、起草合同、制定规则、抽查、验收,没有严谨的工作作风、扎实的工作态度、甘于奉献的工作精神是不可能完成的。

在完成主要语种外文文献的回溯工作后,小语种文献的编目问题亟待解决。Aleph500系统支持大多数语种的编目,但是印地语、泰语等文字的客户端显示却一直存在问题。2011年Aleph500系统升级,提供有关字符集,这为解决最后几种小语种的编目问题扫清了障碍。2011年以来小语种专业人才的大规模引进,也为小语种文献编目和回溯工作创造了条件。目前完成回溯工作的文种包括西文、日文、俄文、韩文、越南文、蒙古文、印地文、泰文、阿拉伯文、希伯来文、印地文等,孟加拉文、乌尔都文、梵文等文献的回溯工作也即将完成。

回溯工作的扫尾阶段也异常困难,除了要解决各种数据难题,还要顶着酷暑到密不透风的书库顶层去挑选可以入藏的文献。老同志带领青年同志,逐个擦拭书籍上的浮土,克服螨尘带来的过敏,奋战几个星期,逐一清点,最后进行编目。

看到数据库里的数据已经覆盖几乎所有馆藏的语种,也覆盖包括普通图书、报刊、缩微品、古籍善本、联合国资料等各种文献类型,看到书库里所有的积压都清理干净,汗水和泪水已经化作数据库里的成果,每个外文采编工作人员心中的喜悦油然而生——他们无愧于这个时代,因为他们不仅解决了历史上遗留下的问题,也给后人一个很好的交代。


"外文文献回溯之路",《记忆国图:国家图书馆105周年馆庆纪念》,国家图书馆出版社,2014年9月,第308-311页(与罗翀合著);约3千字。


转上一层 / Back to the Previous Level

转主页 / Back to HomePage