用户登录  |  用户注册
首 页商业源码原创产品编程论坛
当前位置:PB创新网文章中心编程技巧计算机应用

古籍文献数据库存在的问题与突破的方向――试论计算机技术在古典文献研究中的若干问题

减小字体 增大字体 作者:佚名  来源:本站整理  发布时间:2009-01-10 11:52:47
它学术研究提供了极有价值的帮助。

                二、目前存在的问题

  当然,我们也应该清醒地看到,在古典文献数据库大量涌现的同时,一些潜在的问题与数据库本身的缺陷严重地制约着古典文献数据库的正常发展。
  从古典文献数据库技术发展角度来说,笔者认为大致经过三个发展阶段。第一阶段是PDF图像文本数据库,其数据来源主要是以扫描方式获得,形成PDF图像文本。这种图像文本优点是直观,与原书分毫不差,但它的缺点是功能极其单一,仅可供浏览图像和简单地检索书目。虽然第一阶段的数据库功能极少,但毕竟能方便而直观地阅读文献了,因此引起了学者们广泛的兴趣。必须指出的是,由于功能太少,这类数据库难以进一步发展。
  第二阶段是元数据数据库,以香港迪志公司投资、书同文数字化技术有限公司设计、上海人民出版社出版的《四库全书》、书同文数字化技术有限公司设计、万方数据电子出版社的《四部丛刊》、尹小林《国学宝典》、南开大学永川公司的《二十四史》,以及大陆、港台等大专院校或科研机构制作的较大型的数据库为代表。它们的优点是具有较多的基本功能,如检索、卡片、打印等功能,有些还附加了日历查询、字典、音乐背景等附加功能。然而,它们都不允许对数据库内的文本错误进行修订、没有图表处理能力、不提供功能升级服务(某些软件提供所谓新版本,实际上只是增加一些文献文本,并未真正提升软件服务功能)。而且由于各自为政,开发者大都采取自定义方法来自造非常用的生僻词,因此各种数据库之间字库不能相互兼容。这一阶段的古典文献数据库也有吸收第一阶段数据库有图像的优点,如上述提及的《四库全书》就附有图像,以利研究者核对文字。该阶段绝大多数数据库注意到版权问题,但仍有一些数据库在版权上出现较大问题,乃至引起法律纠纷。
  计算机技术广泛地涉入文科研究领域,各种古典文献数据库纷纷建立,当然给古典文献整理与研究的现代化提供了极其有利的帮助,然而,在笔者看来,目前计算机技术在这一领域中的运用形成纷乱无序的“战国时代”,有许多亟待解决的问题,否则将会影响或说削弱计算机技术在古典文献研究(乃至其它学术研究)中巨大作用。对此弊病,笔者拟作一概述,企望引起有关部门、数据库开发者及使用者的重视,以期真正使计算机技术对古典文献整理与研究起到更大的促进作用。大致说来,主要问题有以下几个方面:
  其一,缺乏整体领导与规划,国家投资与收益不对称。当然,首先应该看到,国家有关部门已经着手做了一些规划,也实施建立一些比较大的古典文献数据库,如2002年10月,国家科技图书文献中心受科技部的委托,牵头联合中国科技信息研究所、国家图书馆、上海图书馆、中科院图书馆、北京大学图书馆等单位,启动了我国数字图书馆标准规范建设项目。这一项目的目的就是力图建立我国比较统一和规范的数字图书馆标准,自然也会对建立古典文献数据库有较大的借鉴与参考的价值。又如北京大学《中国基本古籍库》、上海图书馆《古籍影像光盘制作及检索系统》等等,也由国家有关部门投入大量资金,而且已经启动并完成了部分内容。不过也应该强调,由于国家没有制定出一个比较符合国内数据库发展状况的真正有价值的规范体系,因此这些项目的承担者仍是各自为政,数据库之间并不能兼容,不可能形成技术“合力”。再从所取得的社会效益或说实际使用价值来看,也不尽人意。因为至今为止建立的各种数据库仍人为地设置许多障碍,无法使它们实现较大的使用价值。数据库由国家投资,收益自然应该归国家,或者成为不收费的公益数据库,但目前收益既不归国家,又未能成为公益数据库,这不能不说是个极大的遗憾。实际上,数据库制作者无偿利用国家投资进行了开发,制作完成后却获得相当丰厚的收益,使人感到有“国家投资,个别单位图利”的印象。笔者不反对交纳一定使用费用,但收费单位一定应该说明收费后去向,绝不允许产生国家投资而由个别单位乃至某些个人得利的情况。
  其二,开发商嗜利忘义,数据库错误严重。除上述由国家投资开发的古典文献数据库外,还有一些有一定技术实力的软件开发商加入到古典文献数据库的开发中来了。比较而言,各科研机构、大专院校及各地图书馆建立的古典文献数据库质量较高,而开发商则很少关注数据库中的文献质量。我们承认确有少量开发商制作的数据库质量较高,如迪志公司开发的《四库全书》之类,然而象《四库全书》这样的数据库确实凤毛麟角,难以寻觅。我们发现,甚至有些开发商仅仅是把文本进行文字扫描导入,疏于校对,因此文本错误百出,难以卒读。由于利益驱使,绝大多数开发商都以“独自开发”为己任,数据库设计相互保密,互不兼容,使用户深感不便。这些问题已严重地影响到古典文献数据库的正常发展了。
  其三,热门文献数据重复,冷门文献数据罕见。虽说目前数据库品种繁多,但由于考虑到使用者对文献内容的需求,因此许多开发者热衷于开发那些热门数据,而一些比较冷门的文献则鲜有人问津。

上一页  [1] [2] [3] [4] [5]  下一页

Tags:

作者:佚名

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
PB创新网ourmis.com】Copyright © 2000-2009 . All Rights Reserved .
页面执行时间:25,500.00000 毫秒
Email:ourmis@126.com QQ:2322888 蜀ICP备05006790号