爱如生国学
登录 | 注册
查看: 442|回复: 0

当乾嘉学派遇上互联网

[复制链接]
发表于 2016-11-16 09:38:23 | 显示全部楼层 |阅读模式
文汇学人  2014.10.17
当乾嘉学派遇上互联网

e考据改变了我们占有、阅读与查考文献资料的环境,但在本质上与传统的考据并无冲突。这也是为什么,即便有了e考据,陈寅恪的许多工作也并不会被取代,即便有了数据库,钱锺书的学问的价值也并不会减半。
  
2000年左右,数字化中华典籍开始出现,此后短短10年间,已有六七十亿字的古代文献被数字化。70亿字是什么概念呢?假设你以一天时间读完一本73万字的《红楼梦》的速度,一刻不停歇,需要1万天也就是30年才能读完70亿字;如果你的阅读量和速度同普通人一样,每天能慢悠悠从头到尾看完一份新版的《文汇学人》周刊,那可需要300年才能读完这些文献。面对这样浩瀚的文山字海,真是让人直呼吾生有涯!

“这是过去一两千年从未有读书人面对过的新环境。”台湾清华大学人文社会学院院长、“中研院”院士黄一农由此感叹。这位曾经的无线电天文学家,很早便以理工科人士的敏感察觉到当前“整个文科的研究环境、研究方法正在发生剧变”。其实,数据库并不是人文研究“扁平化”的第一次浪潮。1990年代中期开始,大量古籍被影印出版,研究者无须再跑各个图书馆去看四库全书等大部头著作。如今这些影印的古籍基本都被数字化,数字化又加速了文献的普及。

黄一农早在七八年前就已提出e考据方法,简而言之,这是一种在数字化大背景下充分利用数据库和网络搜索的文科研究方法。最近四年,他依靠e考据尝试研究《红楼梦》,希望以己心得说服大家:首先,e时代是人人无法避免的一个总体环境;在e时代做学问,善用数据库与网络搜索,有机会把许多传统的领域带向全新的局面——制作年谱、考订生卒年等工作,通过e考据可大大缩短时间;辨析勾勒人物之间的关联,更是e考据的独胜擅场。如今的文史研究再难以资料垄断为优势,个人的知识架构和理论功底恐怕更为重要。研究者能够提出怎样的问题,知道怎样由点及面地搜索,能够建立怎样的论点,才是最见功力之处。

利用互联网和数据库找材料做学问,也早已是许多文史研究同仁的共识,学院内外中人都在各自摸索,体会也逐渐深入。学院外的艾俊川,在过去十几年中写了多篇文史杂考类文章,部分辑入《文中象外》一书,在他的多篇“翻案文章”里,除了早年几篇,其他基本是e考证之作。出书之时,艾俊川并未挑明这点,当时他觉得利用数据库和网络搜索都是取巧之举,难登大雅之堂。现在他的看法已经有了改变:“自古以来考据都要依靠大量藏书,使用一些检索工具,清代有类书,民国有引得,现在是e考据,‘工欲善其事,必先利其器’,使用了先进、好用的工具,有什么见不得人 的呢?”他近年来的文章,如果使用e考据,就会做出说明,比如今年发表的一篇纠正《小莽苍苍斋藏清代学者书札》人名识别错误的文章,题目就叫《对小莽苍苍斋藏札的几则e考证》。

不久前,第二届两岸e考据文史研习营在浙江大学举办,黄一农、薛龙春等多位学者结合自己研究中有趣的e考据案例,帮助学员体会“e考据究竟是一种怎样的方法”。与传统考据“上穷碧落下黄泉”的精神一样,在e时代的考据,更要利用好一切可能的方式来“动手动脚找东西”;而唯有文史基础扎实者,使用e考据才更如虎添翼。在这个意义上,研究者都认为,e考据和传统考据方法之间并无冲突,而是相辅相成。正如黄一农所言:“e考据的最高境界就是去掉e。”

去掉e——也就是考据。文史研究依然航行在实事求是、质朴谨严、讲求“无一字无来历”的乾嘉学派的遗产大河里,只是e时代的后浪推将起来,把学术的标准抬得更高。

海量的数据库,提供一些意料之外的信息

大约四年前,黄一农离开曾被学界前辈寄予厚望的中西交通史领域。起因是,他在研究“红衣大炮”时读到一篇论文,说曹雪芹的祖先是红衣大炮炮队的教官,可经他仔细查考下来发现并非如此。那时候他有心试验e考据的效果,于是由此迈进完全陌生的红学领域:“我如果找一个熟悉的领域开始做e考据,大家都知道你在里面浸淫很久了,做得好,也本就该那么好。”而他选择的这个陌生领域,恰恰还被开垦多年、似已无地可耕——一开始,即便顶着“中研院”院士头衔,黄一农以红楼梦研究申请台湾“国科会”基金也失败了,理由是,这个领域不管从史学还是文学的角度都不再值得一做。

从胡适开始的新红学研究,目的是把历史上曹雪芹家族的人脉网络以及他们的经历铺陈出来,看一看和《红楼梦》之间如何对话。但这一领域有许多关键问题,百年来都未得到共识,例如对于曹雪芹是否为《红楼梦》的作者,正反双方都提不出足够令人信服的材料。黄一农把曹雪芹的家族脉络、姻亲关系和交游圈一一查找出来,从而佐证了胡适的推想:曹雪芹并非凭空写这部小说,曹寅家族和爱新觉罗宗室、纳兰家族、傅恒家族之间的人际网络,都隐约呈现在《红楼梦》中,曹雪芹是把家族口传笔录的历史消化吸收、融合创造,塑造出了新的人物角色。黄一农在研习营课堂反复强调,e考据在查找人物关系、勾勒背景网络时是最厉害的,传统的方法拉不出这样一张大网。

对此,南京师范大学艺术史学者薛龙春也有同感。他在研究明代艺术史时比较注意信札材料。私人信札今天公布出来以后,写信人和收信人之间来往信札的内容可以提供丰富的研究材料。薛龙春曾围绕明末清初书画家王铎进行e考据,意想不到地勾勒出王铎各个时期“朋友圈”:“过去以为王铎只有两三个熟人,和黄道周、倪元璐关系好,和钱牧斋认识,可是进一步考证却发现,他和六七十个他的同年进士保持着非常密切的关系,和阉党集团的人也有关联,入清以后他和辽东满族的一些汉姓包衣也有联系,他其实在各个时期都在建立自己的人脉网络。”

如今研究者们可以接触到的是海量的数据库,最大的好处是,有些平时可能不在阅读范围内,甚至不在计划查阅的范围内的资料,因为e考据而跃入眼帘,提供一些意料之外的信息。这在过去的学术条件下是做不到的。

考证知识点已不叫学问,e时代对学术有更高要求

曹雪芹卒年是红学界争论多年的问题。曹雪芹为数不多的好友之一敦诚在挽诗中写“四十萧然太瘦生”、“四十年华付杳冥”,张宜泉在《春柳堂诗稿》的《伤芹溪居士》诗题小注中称芹溪居士“年未五旬而卒”。如果这两首诗确实都在写曹雪芹,那么“四十”和“年未五十”是否相差太远?这个问题,学殖深厚者容易理解,古人对年岁有举成数的习惯,做寿一定是向上找成数,而对于作古之人,为了表达惋惜,挽诗中一定是向下找成数。如果研究者恰恰不知道这个知识点,是否有机会搞清楚呢?黄一农在数据库里搜索到一些和《红楼梦》完全无关的证据:

洪亮吉悼钱维乔有“茫茫六十年,仙佛误君久”句,而钱氏享寿六十八岁。

黄景仁挽李文藻诗中有“去年随计上皇都,四十功名半刺初”句,指其在擢广西桂林府同知(所谓“半刺”)未及一年后就过世,黄景仁在挽诗末的小注称李文藻的卒年为四十八(实应享寿四十九岁)。

这些诗句呈现了古人挽诗中对年岁的写法,可见挽诗中的“四十”并非单指四十岁,这与“年未五旬而卒”是不矛盾的。黄一农举此例说明,e考据的确可以增加解决问题的可能性。

e考据确为这些“小考证”提供了便利。过去考证一个人生卒年即被认为颇见功力,有人一辈子的学问可能就是做出某个研究对象的一本年谱。在没有数据库与互联网的年代,研究者用到的索引,是靠老先生一条一条找出来的。如《二十四史人名索引》,是把每个人名找出来,对照二十四史的哪一篇里面有。这类工作在今天已经容易得多,通过搜索海量数据,很容易在几种资料之间建立勾连。

薛龙春曾考证过一件明代上海人殷廷枢写给一位“念老年亲翁太史”的书札。这件书札前页已不存,所见残页中提到要为他促成一件买卖,因为对方“恐非大不得已,绝不至漫割所最爱”,所以很可能是艺术品或是古董。这位收信人需要满足三个条件:他必定是殷的同年进士,他的字号的第一个字是念,他是翰林院的编修或是检讨。殷廷枢是万历十七年(1589)进士,按照传统的方法,需要根据《进士题名碑录》一一核查他的同年的字号,工作量很大。可是在百度中键入“万历十七年进士号念”之后,检索结果便出现一条“王肯堂号念西居士”的信息,再去相关数据库反查王肯堂,就得到这样的传记:“王肯堂号宇泰,又号念西居士,南直金坛人。万历己丑进士,仕至编修。”王完全符合收信人的三个条件。我们如果对艺术史有所了解,会知道王肯堂是有名的收藏家,曾先后购得数十种《兰亭》拓本,名迹王珣《伯远帖》上也有他和同年进士董其昌的题跋。这与书札内容亦相印合。

又如高居翰《画家生涯》一书中引用了一件仇英写给某翰林院官员的书札,但不知此人究竟为谁何。书札末尾提到:“闻宅中多合豨莶丸,求数服,有叶亦乞见惠。《素问》拜印一部。……又蒙方壶令弟惠银。”

薛龙春对这位官员的考证思路如下:

首先,从书札末尾可以得到如下信息:该官员是医学世家,家中曾刊刻《素问》一书,他的弟弟号方壶。如果以“方壶”为关键词检索古籍数据库,会有800余条记录,甄别极为费时。但是如果以“素问+明刊本”为关键词,很快可以得到明代上海人顾从德翻刻宋本的记录。再以关键词“顾+方壶”进行检索,发现《清河书画舫》曾记载文伯仁曾为顾汝修作《方壶图》。汝修是顾从德的字,此时在方志库中检索顾从德,可以知其父为顾定芳,再检索顾定芳,获知他“尤精于医,世宗时召拜御医”,长子从礼工书,官中书舍人,兼翰林院典籍。仇英的信必写给此人。

诸如此类考证,包括前述王铎的六七十人同年进士圈,在过去或许是很了不起的考证,但在e考据环境下已经不足为奇。就像在西方艺术史传统中,考证一个人生卒年,或鉴定一幅绘画的真伪,都还称不上是学问。因为这种单点考证不构成问题,与思想无涉,只是一些基础成果。

e考据改变了我们占有、阅读与查考文献资料的环境,但在本质上与传统的考据并无冲突。比起前人用索引、引得之类的文献进行有限的检索,今人拥有的是海量关键词的检索系统。而如何设置关键词,考验的就是各人功底。因此,e考据其实对学术提出了更高要求。如黄一农所说:“如果你只是做上一代人那种水平的研究,那是浪费了我们这一代人所处的特殊环境。”

e考据可用于信息类的检索,但对修辞类的基本没有作用

目前,中国古代文史的研究者已有多种数据库可以选择。以爱如生公司的数据库为例,其包括:

中国近代报刊库(要刊编、大报编)
中国基本古籍库爱如生古籍数据库(方志、谱碟、金石、丛书、类书、辞书、经典、史学、俗文、别集、敦煌、档案)
爱如生数字丛书(明清实录、永乐大典、二十五史订补、全清经解、佚书合编、历代笔记汇纂、宝卷新集、历代碑志、古今图书集成、缙绅全录、正续道藏、明代日用类书、医书集成)
爱如生数字古典(全四库、古版画、八藏合集、丛书总纂)

对于数据库和网络资源,研究者各有看法。整理了许多开放获取学术资源发布在网上的青年教师王国强(微博@陆浑戎),和薛龙春都提到了不同研究领域对e资源的依赖会有很大不同。例如,对一个研究秦汉史的学者来说,可能纸质文本就可以满足需要;而对于世界史的研究者而言,网络获取资料是非常重要的途径。大型数据库往往对明清研究最起作用,因为明清文集靠个人的阅读不可能穷尽。

然而,文献在数字化的过程中有很多的错误,会影响检索,检索时一定要核对原文。薛龙春说他曾经见过的最糟糕的数据化点校本,可以错达六成。

对于数据库不可避免的局限性,研究者已经摸索而知如何进退。“e考据急不得,条件不成熟可以等一等,但别把问题忘掉”,是艾俊川的心得。作为一名财经编辑,他十几年前就想考证“金融”一词。过去人们推测它是来自日本的新词,但在中国的来龙去脉未得其详。后来每次有了新的检索工具,他都试着检索一下,但进展都不大。今年终于等来了机会,一是可以在线阅读早稻田大学藏明治图书,二是可以使用《申报》检索。利用这两个工具,他考证出了“金融”在日本产生、演变的历史,和这个词在光绪末年传入中国的情况,解开了经济学史上的一个谜团。

此外,他更感到e时代考据的重要特点是能在网络世界结识同好,充分辩难,互相启发,拉近了普通人与学术的距离,也给学术带来深刻变化。

对文史研究者,尤其是艺术史学者而言,还有一片大天地是图像的数字化,而这却是最困难的部分。高居翰生前曾计划把全球收藏的中国书画建成一个大数据库,所涉工作量极大——除了书画的质地、长宽、时代、作者等要素,作品上的跋文、印章等内容最好也能够被数字化。这种图像数据库显然比文字数据库复杂得多。

据薛龙春介绍,现在的艺术品拍卖系统,单是印章的图像辨识也还没有办法做到。理想的数据库是能够一一辨识书画上的印章,比如检索“王原祁”,就能获得他所有印鉴的信息,不仅知道全球一共有多少王原祁的作品,分别收藏何处,呈现清晰的图像,还能显示作品上的文字、印章,这样就可以在图像和文字之间建立勾连,检索出画家和其他人的关系,但是这“很难完成”。上海博物馆曾做过馆藏中国历代画家印鉴款识,但也只是一个馆的章,而且也未数字化,只是纸本。

除了技术上的局限,数据库和网络资源作为研究的辅助工具,最不能作为的地方,就是对人之为人的情感判断了。按照薛龙春的话来说,就是e考据可用于信息类的检索,但对修辞类的基本没有作用。所谓修辞,就是感觉性的、主观的描述。比如,司马迁对项羽的态度到底是褒还是贬,这是没办法靠检索一下得出结果的,只能老老实实读《史记·项羽本纪》。

更进一步,对于文史研究中虚实结合、需要由思维方式起作用的部分,e考据更是无法代劳。一个熟读古书的人看到典故不用查就能会意,而如果做文史研究每个典故都要去查,整体的研究感受一定不同。同样,对于图像研究来说,即便有一天电脑具备了识别文字的功能,能够区分篆书、草书、手写体,但仍然无法替代个人对图像本身的审美认识。

薛龙春也由此表达了他对现有研究过度依赖数据库的担忧:“现在完全把艺术史当文献来做,当然有积极的一面,会解决一些问题,但是对于艺术史本身的推进不会有任何作用。因为艺术史最终无法离开风格和形式这两个非常重要的要素。”他以南京大学藏南唐著名画家王齐翰的《挑耳图》为例:“如果只是做画面、题跋的辨识、作品的递藏关系,历史系可以做得更好,但艺术史正是要在这些之外,建立自己的方法。”也是在这个意义上,视觉训练的成果始终是数据库没法替代的。“就和学文献的人脑子里有个文献库一样,讲到宋代有哪些书、哪些笔记,脑子里马上要有印象。艺术史的研究者脑中应该有一个图像库——董其昌有哪些最重要的作品,八大山人早期是什么风格,大概哪一年以后风格是什么样,在一件作品拿到手时,就应该很快可以判断出来,这些都不是依赖数据库能完成的。”

支撑研究的依然是文献功底和原典

门外汉初识e考据,大约一边觉得这件“利器”不容小觑,一边又不敢深信,于是免不了要问:

《金瓶梅》的作者能够e考据出来吗?
对孟森的清初疑案可以用e考据重新试试吗?

拿这些问题相询黄一农,他说:“千万不要误以为e考据是一把可以打开所有历史谜团的钥匙,只能说,有些问题比较有机会解决。而有些问题,如果没有材料,那还是没有结果。”谈到《金瓶梅》作者考,就很能显出材料之间的分别。“有些东西很难找到答案,因为真实的东西不见得能够沉淀下来。比如我查到纳兰家族世系和后代婚姻关系,这些都是史书记载的历史,只要数据库中有,答案就直接告诉你了。但《金瓶梅》作者的问题不同,即使你查到某本书上说《金瓶梅》作者是谁,也不见得就能够相信。”

假设乾嘉时代有位学者要做一个研究,需要考据,跟现在考据之间的差别是什么呢?其实,论证与思维的过程依然接近,只是一位乾嘉学者穷其一生都在整理的复杂问题,现在因为有了电子工具、有了完全不同的资料呈现方式,可能不出几天就完成考据工作,而且做得更漂亮。

熟读深思,心知其意,在文史研究中从来都是第一要义。e考据其实与传统考据毫无冲突,只是在搜索查证方面,做到极致。工具与方式从来无所谓对错,全看人如何使用。

对于本身文史功底就好的学者,e考据肯定更有用,而对尚不具备良好文史功底的入门者来说,几乎没用,甚至适得其反。如何巧妙设置关键词,和本身的知识基础有关。如果这些基础都不晓得,那光靠搜索也很难有效。薛龙春举例说,看到年兄,首先要能反应过来是同年;说到职官,明代讲大司马,而明代没这个官,应该知道这是指兵部尚书;董其昌有很多字号,如果只知用董其昌作为关键词搜索,出来的结果就非常有限,但如果知道搜董华亭、董松江、董思白、董玄宰……就会出来一大堆结果。“这其实和整体的知识有关,也和你对研究对象的研究深入程度有关。”因此,薛龙春一直强调,研究某个人、某个时期、某个现象,最基础的相关文献必须精读,然后才谈得上利用数据库。在没有熟悉基础文献的情况下,用数据库搜集资料其实显得盲目又不得法。因为搜集来的资料都是点,没有上下文,资料之间没有关系,材料之间就无法实现勾连。这样的后果就是,用一条条材料堆出来的文章,完全不能构成一个场景,而如果要构成一个场景,一定是对文献相当熟悉。

“我做王铎的研究时,起码看过他七八个版本的诗文集,非常细致地阅读过。他身边的朋友,差不多有100部左右的文集,我也都看过。然后再是搜集到他一千多张传世的作品,各种信札书画等。这样才能说对他有比较好的了解。否则,在网上搜到各种碎片的信息,是没用的。所有的研究到最后都是实现信息之间的勾连,这样你才能通过想象重构一个历史场景。”

这也就是为什么,即便有了e考据,陈寅恪的许多工作也并不会被取代,即便有了数据库,钱锺书的学问的价值也并不会减半。

附:

大数据
  全世界各领域的数字化程度不断加深。商业领域称之为“大数据”,并且试图去了解使用者偏好以从中获利。其实文科也同样面临大数据的挑战。
  “e考据其实就是文科对于大数据的一个回应,它真的有机会让好多领域都提升到一个新境界。
  “数字化的文献将会越来越丰富,大家应该都来思考,寻找文史研究的新议题。”
  ——黄一农
  
      “全文检索(包括图像说明)很重要,可以提高利用率。最理想的状态当然是这种功能越高越好、越智能化越好(比如可以自动推送关联度高的关键词甚至资源),有让使用者反馈的机制就更好了。”
  ——王国强(微博@陆浑戎)
  
近代学人说乾嘉学派

  其治学根本方法,在“实事求是”、“无征不信”。其研究范围,以经学为中心,而衍及小学、音韵、史学、天算、水地、典章制度、金石、校勘、辑逸等等;而引证取材,多极于两汉,故亦有“汉学”之目。
  ——梁启超《清代学术概论》
  
      乾嘉间学者,实自成一种学风,和近世科学的研究法极相近,我们可以给他一个特别名称,叫做“科学的古典学派”。
  ——梁启超《中国近三百年学术史》

  清学所以真能迥然超绝前代,一小半在于他的成绩,大半在于他的基本方法与精神。他们自称为考证之学,或考据之学,或考核之学。总而言之,这是一种实证主义的精神与方法,他的要点只是“拿证据来”。
  ——胡适《胡适遗稿·清代思想史》

   我爱好他们的治学方法的精密,爱好他们的搜寻证据的勤苦,爱好他们的实事求是而不想致用的精神。以前我曾经听得几个今文家的说话,一位清代的经学是“支离、琐屑、餖飣”的,是“束发就缚,皓首难穷”的,到这时明白知道,学问必须在繁乱中求得的简单才是真实的纲领;若没有许多繁乱的材料作蓝本,所定的简单 的纲领便终是靠不住的东西。
  ——顾颉刚《古史辨》





您需要登录后才可以回帖 登录 | 注册

本版积分规则

爱如生国学 ( 京ICP备12023608号 )

GMT+8, 2024-4-25 17:07 , Processed in 0.078568 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表