古籍文献数据库存在的问题与突破的方向――试论计算机技术在古典文献研究中的若干问题
其四,技术关卡重重,难以互相兼容。各开发者既鉴于不同开发目的与技术条件,又为防止他人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。自然,开发者需要投入大量人力物力,保障本身利益不受损害是无可非议的。然而也由于人为地设置了障碍,却使各种文献数据库之间不能兼容,无法形成合力,先进的技术反而成为技术壁垒。实际上,这一情况大大浪费了宝贵的人力资源与财力,对古典文献的开发与利用有百害而无一利。另外,由于技术壁垒,在古典文献数据库的文字方面更导致许多问题。我国古籍常用汉字大约为4万余个,这还不包括超过2万个异体字及数千甲骨文、金文等古文字。然而我国目前在计算机上采纳的国标字库(GB)和扩展字库(GBK),两者相加也只有27000余字,这与我国古籍常用汉字数量相比,实在差距太大。因此,如此小的字库与需求相比确实是捉襟见肘。为了弥补这一缺陷,一些软件设计者就采取在自定义区自造字(乃至占据字库中扩展B的位置)、有些也用图片方式来填字。而这些自造字、图片字,拷贝到WORD文本之后,由于内码位置的差异就变成其它字了,从而导致文本错误。
其五,功能单调,难以真正为科研服务。建立较早的古典文献数据库功能比较单调,只能做些简单检索、拷贝,没有更为先进的功能,不能适应学术研究的需要。后来的一些古典文献数据库也存在类似问题,例如《四库全书》的检索功能,虽说可以采用添加“作者”、“书名”等限定条件,但检索结果只是罗列一排出处,无法直观地了解检索到的具体内容。而且《四库全书》也没有提供更多的功能给用户,因此这一巨大的工程仍远远不能满足用户的需求。况且这一数据库目前已经“定型”,不再继续开发,使用户对此深感遗憾。而其它古典文献数据库设计者的思维大多仍停留在“文本之争”当中,重复着原来设计思想的错误,没有更多地开发为科研服务的有效功能,因此在笔者看来,这一做法显然不可能真正摆脱古典文献数据库目前面临着的困境。
其六,学术圈地,使人心有余而力难用。解放后,一些国家级出版社化费了极大的精力,组织专家点校了不少重要古籍,为学术研究的发展作出了极大贡献。然而时至计算机时代的来临,却出现了“版权”的问题。一些制作者忽视了国家有关版权法规,直接利用了一些出版社的成果来牟取经济利益,理所当然地会产生版权纠纷。笔者以为,保护版权是每个学者乃至每个公民应尽的责任,根本毫无讨价还价的余地。然而问题是,现在一些出版社由于各种原因,没有对自己已出版的点校过的古籍进行开发,而愿意开发这些古籍资源者却无法涉入其中,导致他们处于既想开发这一宝藏又无法回避版权问题的尴尬境地,这就使众多需要使用者望洋兴叹。如果有关出版社不愿授权,那么想要开发这些古籍者只能返回到没有标点的原始文本中去。这种情况确实使每一个希望使用古典文献数据库的用户感到极其失望,而且严重影响了古典整理与研究的现代化进度。
上述种种现实情况,已经是制约计算机技术对古典文献整理与研究支持的瓶颈了,如果不解决这些问题,计算机技术即使再发达,恐怕也难以对古典文献整理与研究予以真正意义上的支持与帮助。
三、如何解决古典文献数据库存在的问题
古典文献数据库存在的问题是十分明显的,那么如何解决这些问题,以利学术研究(当然包括文献研究)的迅速发展?笔者以为现在应该设计和开发出新一代文献数据库的软件。按照笔者设想,这代软件应该以建立能自由升级的公共古典文献数据库为目的,是一种以提供强大功能为主、彻底解决版权问题的数据库,实际上是建立一个规模巨大的功能相对完善的学术研究资源库。所谓公共古典文献数据库是综合性数据库,只能由国家有关部门作为主要规划者,它应该尽可能地包罗我国传世古典文献、碑刻资料和出土文献等。在此基础上允许建立适应每个研究者研究范围的个性化的文献检索服务系统。个性化的文献检索服务系统是指每个具体研究者所拥有的安装在各自计算机上的文献检索服务系统,它拥有一定数量的适合自己研究的范围的古典文献文本。其实,各个研究者并不需要一个“包罗万象”的规模极其巨大的数据库,即使象占据6至7个G硬盘的《四库全书》,具体到一个研究者真正需要的内容并不是全部,而是其中一部分内容。
问题的关键在于公共古典文献数据库与个性化文献
Tags:
作者:佚名评论内容只代表网友观点,与本站立场无关!
评论摘要(共 0 条,得分 0 分,平均 0 分)
查看完整评论