爱如生国学论坛
登录 | 加入论坛
查看: 94|回复: 0

《中国基本古籍库》初感受(陈尚君)

[复制链接]
发表于 2016-11-15 16:13:01 | 显示全部楼层 |阅读模式
《东方早报》2009-8-9
《中国基本古籍库》初感受
陈尚君
古籍数码化的工作必然会经历从无到有、从有到精的过程,在规模初备以后,应该在提高准确性和学术性方面作进一步的努力。  
《中国基本古籍库》
刘俊文总编纂
北京爱如生数字化技术研究中心开发制作
200510

  《中国基本古籍库》(以下简称《古籍库》)无疑是中国近年古籍数码化方面最值得关注的成就。我所服务的学校图书馆最近花巨资购进可置于局域网的五机版,让我有机会通过校园网较便捷地利用,确实感觉到方便,也发现一些遗憾。谨此写出初步的感受,与学友分享,也提供主持制作者参酌。  
  据北京爱如生数字化技术研究中心网站的介绍,《中国基本古籍库》先后列为 “全国高等院校古籍整理研究工作委员会重点项目”和 “国家重点电子出版物十五规划项目”,“由北京大学教授刘俊文总策划、总编纂、总监制,北京爱如生数字化技术研究中心开发制作,于2001年3月正式启动,2005年10月全部完成。共收录自先秦至民国(公元前十一世纪至公元二十世纪初)历代典籍一万种,选用版本一万两千八百个,每种典籍均制成数码全文,并附所据版本及其他重要版本之原版影像,合计全文十七亿字,影像一千万页,数据总量约320G。其收录范围涵盖全部中国历史与文化,其内容含量相当于三部《四库全书》,不但是世界目前最大的中文数字出版物,也是中国有史以来最大的历代典籍总汇。”我在最近两三个月内,较频繁地利用《古籍库》,除上述如各大数字无法一一核实,基本情况感觉是属实的叙述。《四库全书》各库收书稍有出入,一般来说是三千五百种稍弱。收书到一万种,接近三倍于四库,清末民初以前最重要的基本典籍,可以大致周备,对学者当然是很鼓舞的消息。我特别欣喜地看到,地方志部分收录两百多种,存世的宋元方志以及天一阁明方志的主体部分,都有了电子文本。其他许多清中期以后的著作、四库没有收录的著作可以得到数码全文,也很方便学者。
  除了收书数量多,《古籍库》在技术层面为读者考虑上尽了很大努力:阅读界面每页大约八百字,字体选用清晰的仿宋体,页面可以横读也可以竖读;所有的古籍都配有原版影像,以便对照;文本可以直接打印;读者可以标点批注,可以分类收集,也可以下载编辑;文本旁边可以显示该书目录,以便读者前后翻检,了解所见文本的位置。稍微不便的是文本的复制,限定每次只能复制两百字,即一个页面的文字要分四次才能复制完成。制作者认为这样可以减少大批量复制的可能,尽可能地保护制作者的所有权,用意是可以理解的。另外,似乎在阅读文本时,如果要对阅原版影像,要立即到达该页位置,好像不太方便,当然这也可能是我操作能力不够所造成的。
  《古籍库》的检索,利用了新开发的ASE检索系统,可以进行分类检索、条目检索、全文检索和高级检索,速度都可以在两秒内完成。实际操作后,可以发现全文检索的结果,每一则都有检索词汇前后文内容的摘录,而且所有检索出来的条目,大体可以按照各书时代前后排列,这对于古籍阅读者在海量检得文献中迅速作出判断,无疑是很必要的。
  《古籍库》没有采用传统古籍的四部分类法,而是重新设计为哲科、史地、艺文、综合四库,其中哲科库包括思想、宗教、政治、经济、法制、军事、科技、农业、医学等部,史地库包括历史、地理、外国三部,艺文库包括语文、文学、艺术三部,综合库包括教育、体育、生活、术数、其他五部(类书杂纂、金石目录、西学译著),各部下再分三级类目,总约一百目。这样分类,大约主要是考虑现代学者特别是不熟悉古籍四部分类法的读者查阅的方便。就如同四部分类法也有不够科学的地方,新分类法当然也有一些可以再斟酌的地方。如历史库的杂录琐闻目下,收录历代笔记野史八百多种,大约将四部分类中的史部杂史类、子部中的小说家类、杂家类很多著作都包括进去了。文学类的诗文别集目下收书超过两千七百种,即全库的四分之一多,就太嫌拥挤了。演艺杂技目、回教经籍目仅含六种书,启蒙思想目仅含八种,耶教经籍目含十种,收书都很少,显得不够匀称。农学类下有时令节气目,生活类下又有节序礼俗目,本来都归史部岁时类。清玩鉴藏目和书法绘画目下都收了大量书画类书,区分界限也不太清楚。归类方面大体妥当,细节偶有出入,如《祖堂集》应归入佛教而收入五代别集,《杜诗言志》、《李义山诗解》都应归入别集而收入文学理论。  
  《古籍库》确定的“收书标准为:1.千古流传、脍炙人口之名著;2.虽非名著,但属于各学科之基本文献;3.虽非基本文献,但有拾遗补阙意义之作”。三点其实都很模糊。“名著”而又“千古流传、脍炙人口”,数量很少;“各学科之基本文献”,由于古今学科分野的不同,也很难定义;至于“拾遗补阙”,则凡先人存留至今的任何文献,都具备这些价值。当然,就《古籍库》入收的一万种古籍来说,历代各类主要典籍,绝大多数都收录了,是值得肯定的。没有收录的书,就大类来说,一是汉译佛经全部未收,不知是否认为这些天竺遗文,不宜归入“中国基本古籍”,但连“西学译著”都收,不收《金刚经》、《心经》,不收玄奘的译经,总有些说不过去吧。二是辑佚丛书未收,如马国翰《玉函山房辑佚书》、黄奭《黄氏逸书考》以及汤球的辑佚书,全部没有收入。就某些类已收书来说,如佛教仅一百零六种,道教一百三十九种,本草仅录十六种,都远不足以反映该学科的成就。至于具有名著或基本文献意义而应该收录的书,我认为医学类著作缺收苏敬《唐修本草》、王怀隐《太平圣惠方》,全国地方总志缺宋王象之《舆地纪胜》,宋人小说缺刘斧《青琐高议》及佚名《绿窗新话》,戏曲方面缺《永乐大典》戏文三种,类书缺《白孔六帖》、《永乐大典》,丛鈔缺陶宗仪《说郛》,书目缺宋佚名《秘书省续编到四库缺书目》,金石缺清陆增祥《八琼室金石补正》,总集应增加《文选集注》。别集方面,陶渊明集宜增加陶澍注本;曹植集应增加丁晏《曹集铨评》;杜诗注本应增加浦起龙《读杜心解》和杨伦《杜诗镜铨》;李白集应增加杨齐贤、萧士赟《分类补注李太白诗》;颜真卿文集应增加清黄本骥编《三长物斋丛书》本《颜鲁公文集》;白居易已收四部丛刊影印日本那波道圆活字本《白氏文集》,还应收宋绍兴刊《白氏长庆集》,以保存中日传本的不同。此外,日、韩人所著与中国文史研究关系密切的著作,如空海《文镜秘府论》、藤原佐世《日本国见在书目》,也宜收录。
  就各书的版本来说,《古籍库》确认的标准为“1.完本而非残本;2.母本或晚出精刻精钞精校本;3.未经删削窜改之本”。就目前国内古籍版本的可利用条件来说,这是大体可行的办法。总体来说能够贯彻始终,在披检中我还见到一些以前没有特别关注的文本,这里就不列举了。细节仍有些出入。比如宋洪迈《万首唐人绝句》,原书一百零一卷,通行善本是1955年文学古籍刊行社影印明嘉靖本。清修四库时,所得为不全的九十卷本。《古籍库》仅录四库本,考虑欠周到。再如宋江少虞《宋朝事实类苑》,以董康影印日本藏七十八卷本为最善。清修四库时,仅得六十三卷的文本。现《古籍库》在存录版本时有这两种版本的影本,但录文仍用四库本,很可惜。宋陈舜俞《庐山记》五卷,清人所见三卷本,其实是将此书前两卷分拆而成,无论四库本或《守山阁丛书》本都不全。近代以来五卷足本始出,常见有《吉石庵丛书》影印日本高山寺古写本以及《殷礼在斯堂丛书》、《大正藏》排印本,稍微有些残缺,目前所知以日本内阁文库藏宋刊本为最善。《古籍库》仅用《守山阁丛书》本,可以说是通行各本中最差的文本。
  最不可理解的是,《古籍库》所收书,几乎全部将原书的序跋删去,不作保留。甚至连所附可作备检的版本影像,这部分好像也作了删除。比如我手边有与《古籍库》所据一样的版本,以《四部丛刊》来说,杜牧《樊川文集》卷首有裴延翰序,黄滔《黄御史集》卷首有洪迈序,权德舆《权载之文集》卷首有杨嗣复序,殷璠《河岳英灵集》卷首有自序,都没有保存。其他版本如《续古逸丛书》本《杜工部集》卷首有王洙《杜工部集记》,另《资治通鉴》首有神宗序,末附司马光进表,《通典》有杜佑进表和李翰序,也都删掉了。以上书序对于研究之重要,我想不必作更多的说明了。我偶然查检一些书而对此感到意外,再随机抽检上百种书以后,发现这居然是全部《古籍库》贯彻始终的体例时,不能不对此感到遗憾。不了解制作者这样处理的原因是什么,是觉得古人著作的所有序跋,都如同现在一些场面的领导题词或名人捧场般没有价值,还是觉得《古籍库》的目的仅是供一般读者随意阅读,不准备作为研究者参考的文本?似乎很难找到可以解释的合适理由。以前所见《四库全书》或《四部丛刊》全文检索,似乎都没有出现这样的问题。  
  就古籍数码全文的录入准确性来说,由于所涉古籍数量巨大,各书的录文质量也因原本文字的规范清晰与否而颇有出入。就我个人的接触来说,最初的印象还是相当欣悦,觉得录文准确在预期以上。比较困惑的是最常用的“面”字,包括“东面”、“南面”、“面对”等,几乎很少例外地全部作“麵”,以致不断可以见到“東麵”、“南麵”、“麵對”等。检阅稍多,逐渐发现某些书或某些卷次录文错误颇多。试以宋本《杜工部集》前三卷中一些几乎家喻户晓的名篇为例(引文中加括号注出正字)。有些属于录误,如《北征》:“學母無不爲,曉樁(粧)隨手抹。”《洗兵马》:“成王功大心轉小,郭柏(相)謀深古來少。”更多的则属在繁简互换中造成的错误,如《奉赠韦左丞丈二十二韵》:“李邕求識麵(面),王翰願葡(卜)鄰。”《自京赴奉先县咏怀五百字》:“以茲悟生理,獨恥事幹(干)謁。”“吾寧舍一哀,裏(里)巷亦嗚咽。”《北征》:“坡陀望鄜畤,巖穀(谷)互出沒。”“問事競輓須(挽鬚),誰能即嗔喝。”“見耶背麵(面)啼,垢膩腳不襪。”“瘦妻麵複(面復)光,癡女頭自櫛。”《赠卫八处士》:“主稱會麵(面)難,一舉累十觴。”《偪仄行赠毕耀》:“速宜相就飲一鬥(斗),恰有三百青銅錢。”《饮中八仙歌》:“李白一鬥(斗)詩百篇,長安市上酒家眠。”《兵车行》在短短十句中就有四字误录:“耶娘妻子走相送,塵埃不見鹹(咸)陽橋。牽衣頓足欄道哭,哭聲直上幹(干)雲霄。道傍過者問行人,行人但雲(云)點行頻。或從十五北防河,便至四十西營田。去時裏(里)正與裹頭,歸來頭白還戍邊。”繁简体转换由于当年在设计文字改革方案时,不少繁字改简字利用了本来不是同一字的同音字,造成今日电子文本转换中的困惑。估计文本输入的实际操作者是一些文化水平并不高的工人,最后也没有经过具有识字能力的专业人员校核,因此留下很多遗憾。当然也有另外一种可能,即前引网站介绍称“字体转换:可实现文字的繁简、大小、粗细及色彩的自由转换”。其中文字的大小、粗细、色彩的自由转换,在技术上当然早已解决,但繁简要自由转换,就目前来说,似乎还没有技术手段保证不错。(为示例方便,本节引文保留繁体字)  
古籍数码化是一项利在当代、功存千秋的工作,不仅给学者以检用古籍的方便,也必将给文史学术的研究带来革命性的变化。现在各种古籍电子文本层出不穷,许多学者都作搜集,但就我所接触的一些学者来说,大多是适度利用,谨慎处理,凡加引用,务核善本,不敢轻易信据。从最初的《全唐诗》全文检索算起,中国古籍电子化工作经历了将近二十年的努力,在知识产权无法得到有力保障的大环境下,有关努力始终在追求商业目标和学术建树之间艰难前行。到《古籍库》的完成,成就很显著,但问题仍多。古籍文献学是一门历史悠久而学术要求严格的学问,正是因为有几千年来无数先人持续不懈的努力,才得以有数量巨大的典籍保存到现代。前人治学讲究言必有据,孤证不立,重视善本,以古为尚,会校众本,不轻改古书,值得今人师法。我认为古籍数码化的工作必然会经历从无到有、从有到精的过程,在规模初备以后,应该在提高准确性和学术性方面作进一步的努力。换句话说,现在的第一步工作,应该是古籍数码全文录入能反映一种古籍版本的面貌,文字的错误率应该如同纸质出版物那样少于万分之一。以后能够进一步,则希望同一本书可以反映多种版本的不同面貌,同时也应充分吸取现代古籍整理点校的成绩和古今学者研究的见解,从整体上带动中国学术的飞跃。《古籍库》首页说明中称:“可随时进行软件升级和数据更新以确保在持续改进中日趋完善。”从2005年10月建成至今已近四年,应该已经进行多次更新,可惜网页上无法看到有关记录。对此,我始终保持期待。

附:北京爱如生数字化技术研究中心复信(非公开发表)

陈尚君先生赐鉴:      
  日前在网上拜读大文《中国基本古籍库初感受》,空谷足音,快慰何如。
先生指摘各项,谨受教并已照改者五:其一,宋洪迈《万首唐人绝句》,已改用明嘉靖101卷本;其二,宋江少虞《宋朝事实类苑》,已改用日藏78卷本;其三,宋陈舜俞《庐山记》,已改用《殷礼在斯堂丛书》5卷本;其四,唐颜真卿《颜鲁公文集》,已增加并改用《三长物斋丛书》30卷本;其五,《杜诗言志》与《李义山诗解》,均已改入诗文别集目。
  先生建议各项,谨受教并已交有关编委斟酌采纳者三:其一,各类目收书不匀称;其二,有些类目界限不清楚;其三,医学类缺收苏敬《唐修本草》、王怀隐《太平圣惠方》,地理类缺收王象之《舆地纪胜》,文学类缺收刘斧《青锁高议》、佚名《绿窗新话》、丁晏《曹集铨评》、浦起龙《读杜心解》、杨伦《杜诗镜铨》,其他类缺收陆增祥《八琼室金石补正》。
  先生忙中失检,经核问题不存在者四:其一,戏曲目已收《永乐大典戏文三种》;其二,别集目不缺《分类补注李太白诗》;其三,白集附有宋绍兴刊《白氏长庆集》;其四,全库版本影像首尾完整,序跋均在,并未删除。
  先生质疑,敢略述情委者二:其一,关于数码全文没有序跋问题。《中国基本古籍库》有甲、乙二型,甲型全文和影像均有序跋,乙型全文删去序跋、影像保留序跋。由于全库序跋多达2亿字,故甲型比乙型定价高出10万元。考虑到客户负担和影像序跋也可满足学术研究需求,故目前主推乙型。其二,关于数码全文存在较多讹误问题。《中国基本古籍库》采用汉字识别软件+人工校对方式制作,汉字识别软件技术性能较差,仅能应付如《四库全书》之类版面和字体统一清晰者,无法应付《中国基本古籍库》所收不同时代、不同尺寸、不同版式、不同字体之各类刻本、钞本、写本、稿本,识别率平均仅有 40%多;加上校对员缺乏传统文化训练,往往改讹为简;而核查者又懒于比对,仅靠软件转简为繁,以致讹误频出。
  诚如先生所言,《中国基本古籍库》规模初具,问题仍多。箇中原因有二:一是经费缺乏。虽然名列国家重点,实则未获国家一文钱资助和银行一文钱贷款,仅靠民间资本之零星投入和销售回款之滚动投入维持研发,面对逐日上涨之资源和劳动成本,其艰难困顿之情状,实难与外人道。每每不得不暂时放弃某些次要目标,以确保主要目标之达成;二是技术瓶颈。项目启动时数字化技术尚欠发达,研发中遇到许多无法逾越的难点,如字库过小导致大量异体字和冷僻字不能录入,排版软件过于简单导致大量复杂的版式和图表、标记等无法还原等等。除非推倒重来,这些缺陷将成为永久的遗憾。
不过可以告慰先生的是,《中国基本古籍库》一直在可能的前提下持续改进。4年来,已从V1.0版本升级到V6.0版本。如今软件检索更快、功能更完善,书目调整累计达到0.7%,版本改换接近15%,数据纠错不计其数。今年3月又启动“《中国基本古籍库》定本工程”,组成专门小组,期以5年,逐书校改,目标为零错误率;同时约请台北大学中文系团队专责复查,并在软件中增设“纠错勘误”功能键以发动广大用户参与核查。相信不久即可向国内外学术界奉献1万种足堪信赖、能够直接引用的数字古籍定本。
  另外想通报的是,经过3年的努力,自主研发的辅助字库及录入排版软件已经初步完成,所有难点均已突破,不但可以无障碍录入和显示甲骨文、金文、秦篆、汉隶及各种冷僻字、异体字,并可还原再现各种复杂版式和各类图表、标记,包括2截版、3截版、上图下文、图中有文、重叠字、夹缝字、倒写字、斜行字等。近年全新制作的《中国方志库》、《中国谱牒库》、《中国金石库》、《中国类书库》、《中国辞书库》、《明清档案库》、《敦煌遗书库》等,其数字化技术均已达到世界领先水平。此外,为服务个性化的研究需求,又开发出可以量身定制和随身携带并且价格低廉的“拇指数据库”,谨附上样品,伏请高览。
最后,再次感谢先生百忙中撰文指正。先生大文不仅促进《中国基本古籍库》之改善,同時澤溉学林。盼日后继续关注爱如生古籍数字化事业,並不吝赐教。耑此,顺颂   教安。
北京爱如生数字化技术研究中心 2009.9.7  


您需要登录后才可以回帖 登录 | 加入论坛

本版积分规则

爱如生国学论坛 ( 京ICP证030965号   

GMT+8, 2017-11-22 13:38 , Processed in 0.132164 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表