古籍文献数据库存在的问题与突破的方向――试论计算机技术在古典文献研究中的若干问题
内容提要:计算机技术在古典文献整理与研究中的贡献是极大的,但目前存在着缺乏统一领导与规划;开发商嗜利忘义;热门文献数据重复,冷门文献数据罕见;技术关卡重重,难以互相兼容;功能单调,难以真正为科研服务;学术圈地,使人心有余而力难用等问题。解决这一问题的关键在于建立公共古典文献数据库和开发个性化文献检索服务系统两个方面。具体说来是加强总体规划,建立公共古典文献数据库;数据库内容与文献检索服务系统分离;加速确定字库方案;彻底解决古典文献版权问题;建立公平的交易平台和发展新兴学科,培养专业人才。
关键词:古典文献数据库 公共古典文献数据库 文献检索服务系统
计算机技术的飞速发展,为古典文献研究的现代化提供了坚实的基础,其贡献是有目共睹的。然而,计算机技术在古典文献研究中的运用仍然存在着极为严重的缺陷也是不容回避的。笔者近几年来主持并直接参加设计“e书库”数据库的过程中,感到有必要将自己的一些想法提供给正在设计有关软件的计算机专业人员、愿意使用该类软件的专家学者们参考。
一、我国古典文献数据库建设的历程
自古以来,历代学者对古典文献整理与研究一直沿袭手工操作的方式,然而自上世纪80年代后,计算机技术开始涉入到古典文献研究中,对传统的古典文献整理与研究方法(自然也对一切需要使用古典文献资料的专业研究)起到了极大冲击。
首先简单回顾一下计算机技术在古典文献研究领域内发展的历程。上世纪80年代初,我国一些图书馆、大专院校及科研机构陆续开始大规模地利用计算机设计并建立数据库。大致说来有两类数据库,一类是书目数据库,一类是文献数据库。南京图书馆于90年代初率先建立书目数据库,对读者检索有关书目起到了极大的帮助。之后,各地图书馆纷纷效尤,类似的书目数据库很快就普及了。虽说至今各地图书馆的书目数据库的检索方式,仍存在机读编码格式不统一的问题,然而书目数据库提供的方便快捷的查询功能,对读者来说无疑是一件大好事,具体到学术研究来说,至少为研究者提供了一个比较方便的查找有关古典文献的实用工具。
在建立书目数据库的同时,一些大专院校与科研机构开始研发各自的文献数据库。从数据制作格式来说,大致可以区分为两类,一类是图像格式,即将按原著内容扫描成PDF图像文本,另一类是元数据格式,即录入文献文本内容(或扫描并转化为电子文本)导入数据库,并转换成可阅读与检索的数据库机读格式。一般说来,无论是PDF格式还是元数据格式,它们数据库容量都较大,也提供了较为原始的检索方式,为学术研究提供了不小的帮助。从上述两类制作格式的数据库来说,PDF图像文本可以直接阅读图像文字,但总体说来不太适应古典文献整理与研究的需要。而元数据格式较为精致,初步具备了较为方便的常用的功能,可以检索、作卡片等等。
古典文献数据库从收录的文献内容来说,大致可以分为两类:一类是类目数据库,即按“类”收录有关图籍,如经学类、史学类、文学类以及甲骨文、金文或出土文献资料、石刻资料等等,另一类是综合数据库,如《四库全书》、《四部丛刊》、《国学宝典》之类数据库。
大陆最早的古典文献数据库是河南大学的《宋人笔记检索系统南宋主要历史文献》,建立于1987年。之后,各种数据库纷纷涌现,比较重要的有南京大学、河南大学、苏州大学联合研制的《计算机甲骨文信息处理系统》、中国社会科学院《全唐诗》、《先秦魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等数据库、北京大学《全宋诗》数据库、南京师范大学《全唐五代宋词》数据库、四川大学《宋会要辑稿》数据库(与海外合作)等等。港台古籍数字化起步较早,均采用繁体字形式。1984年台湾中央研究院历史语言研究所开始研发《汉籍全文资料库》,香港中文大学则有《汉及以前全部传世文献》、《魏晋南北朝全部传世文献》、《竹简帛书出土文献》数据库等等。其中《竹简帛书出土文献》收录《马王堆汉墓帛书》、《武威汉简》、《睡虎地秦墓汉简》、《银雀山汉简》、《居延汉简释文合校》及其它散见简牍共140多万字的竹简帛书出土文献,价值颇高。
值得注意的是,这些数据库主要是提供给本单位研究人员使用的,当然也有部分数据库对外开放,为其他研究者提供一定帮助。虽然这些数据库有种种限制,但它们无疑为古典文献的研究(当然包括其它专业的学术研究)提供了方便。之后,随着网络技术的发展,各科研机构、大专院校、各地方的图书馆、以及其它数以百计的网站向用户提供收费或不收费的古籍文献检索服务,甚至还提供古籍文献的下载服务。显然,这些工作的开展,为学术研究的现代化提供了极为有力的支持。至今为止,据笔者所查索到的除科研机构、大专院校、各地图书馆数据库之外,提供各种文献下载的中文网站至少在200个以上,其中就有不少古籍文献下载的网站。这些古典文献数据库或有关网站的建立,确实为古典文献整理与研究乃至其