关灯
护眼
字体:

唐宋历史评论.第三辑_包伟民/刘后滨【完结】(9)

  二 唐代官员资料及其社会交往的数据化

  为了充实数据库内容,让其发挥更大的效用,CBDB的项目工作有一大部分是关于电子化的。CBDB北京大学项目组在过去修订郝若贝教授为数据库留下的数据时,是利用人工作业的方式录入并处理历史人物资料的。[7]不过,到了最近几年,项目组已经大量运用半自动半人工的方式处理新数据,大大提高了工作效率。其中自动化作业包括使用计算机语言编写算法,挖掘史料文本中的人物信息,尤其是格式规整的传记文本和人名列表。以下将分别介绍项目组对几部历史文献的处理。

  我们在项目开始初期发现,先收录《唐五代人物传记资料综合索引》的资料有很大好处。它是一部唐代人物资料的基本工具书,收书的范围涵盖正史、诗传、职官资料、书目、书画书、五代十国记载、方志及有关释氏之书等共83种,搜罗唐五代的现存人物资料出处,为学者检索史料提供了极大的便利。该书一共收近3万人,其中列出姓名(和其他常用称谓)和传记资料的出处,方便学者翻检。而且,它为CBDB提供了大批人物的“社会区分”资料,共有2778条人物的身份信息。CBDB中“社会区分”栏目是记载人物的各种身份的,包括诗人、画家、僧人、书法家等,尤其便于学者对特定人群进行专题研究。

  这部索引除了搜罗资料的范围很广以外,另一好处在于厘清了大量同名人物的情况。同名人物的消歧(disambiguation)是CBDB项目经常要处理的数据问题之一。由于项目收录来自多种不同来源的人物资料,所以同姓名人物不少,放入CBDB时需要小心区分。一般做法是:如果能根据历史材料确定同名者是同一人,则合并同名人物的数据;如果不能确定,则都保留。所以每当可能,我们都尽量吸取已有的研究成果,例如《唐五代人物传记资料综合索引》的考订。傅璇琮先生曾讨论他和其他编者在这方面的做法:“正因为资料搜集不易,因此区分同姓名人物就特别困难。编一代历史人物的索引,一定会碰到不少同姓名的人物,较具一定水平的索引,遇见这种情况,决不能不加区分,照书即录。”“有时有四、五个人为同一姓名,就须查核其籍贯、郡望、字号、世系、事迹,加以细心的甄别,稍一忽略,就会张冠李戴……还有不少是姓名相同,时代相近,但别无确切材料证明其为同一人的,我们就本着阙疑的精神,姑且作二人处理。”[8]在编纂此书的时候,傅先生等编者已经综合了许多零散的文献资料,对同姓名人物进行甄别。举一例子,《新唐书·宰相世系表》里出现过两位裴薦,《唐五代人物传记资料综合索引》中就分别列出,并写明其中一位是裴裔的儿子,另一是裴迪的儿子,明确区分。[9]对于这类人物,编者注明了他们的字号、籍贯、职官、时代等,以资区别。这种记载帮我们确定两位裴薦不是同一人,为CBDB的数据工作带来很大的便利。《唐五代人物传记资料综合索引》编者之一许逸民先生曾举书中例子指出,做这种编撰工作需要很好的学术判断力:“譬如人名索引,有时同一人前后姓名有变更,有时并非一人而同名同姓,皆需要合并为一人或区分为二人……辨析同名同姓而非一人的办法,除上述世系不同外,还可以借助字号、籍里、职官、生卒时代有异等加以区别。”[10]除了根据这种现有成果,我们还在哈佛内亚与阿尔泰学系博士生文欣的建议下制定了计算机算法,根据不同史料中亲属人名的重合度,厘清哪些同名人物可由计算机批量判断是否为同一人,哪些不能由机器稳妥地判断,需要人工考证。这样既大大减低了人工操作的工作量,又保证数据比较准确。

  除了《唐五代人物传记资料综合索引》以外,我们还对大批唐代官员和士人的资料进行数据化。我们利用的材料包括古今学者对九卿、刺史、方镇和科举士人的考证,主要来源分别是郁贤皓和胡可先的《唐九卿考》、郁贤皓的《唐刺史考全编》、吴廷燮的《唐方镇年表》,还有徐松撰、孟二冬补正的《登科记考补正》。[11]这些都是系统性强、目标在于一网打尽的年表式参考书,以年代、人物或地点排序,一一辑录,并一般都标出文献出处。[12]目前,前三部书已经处理完毕,共得1765条出任九卿的资料,共1421人;13373条出任刺史的资料,共8818人;15871条方镇资料,共8178人。至于《登科记考补正》,笔者执笔之时仍在处理中,但已为5603条唐代登科资料进行电子化,共4520人。以上几组人群有所重叠,所以项目组处理时必须对同名人物进行甄别,做法与上述类似。由于这些九卿、刺史、方镇和科举士人的资料是系统的,它们成为CBDB数据之后,学者可以用来全面地研究唐代官员和士人群体、官职迁转、制度运作等。例如,我们在过去无法准确并迅速为这样的问题找到答案:曾任刺史者有多少人曾担任九卿官职?不过,当CBDB录入这批资料之后,学者可以运用CBDB的数据迅速得出建立在海量资料上的计算结果——如果按照上述参考书的辑录,8818位刺史中有258位曾任职九卿。[13]显而易见的是,这样的答案如不使用数据库辅助,绝对无法立刻得出,必须经年累月、耗费大量精力。

  除了《唐五代人物传记资料综合索引》,我们处理的另一部索引是《唐五代人交往诗索引》。[14]此工具书涵盖唐五代诗人的交往诗作,将每个人所作的交往诗进行交叉比对,再以姓氏排序。由于这些交往诗都是在特定场合中写成的,又有具体的交流对象,所以是很有史料价值的材料。我们的取材是根据《全唐诗》和多种拾遗作品,对这些材料进行整理,列明唐五代人的交往关系。索引分为两类,A类为作者与其他人交往或提及别人的诗;B类为其他人与该作者交往或提及这位作者的诗。用社会网络研究的眼光看,这种编排方式记载的其实是一个诗人的个体社会网络(ego network),而且是有方向性的(directed)。A类资料的每一条都是该诗人对其他人的关系,B类则记载了其他人对该诗人的关系。在CBDB系统中,这一类“社会关系”会归入“著述关系”(Writings)一类下面的“应酬文字”中。在整理这些关系的过程中,索引的编者还考证了大量人名的历史情况,例如各种只提到诗人的姓氏、官名和号的诗题究竟指的是什么人物,为我们了解唐代诗人做了很大贡献。《唐五代人交往诗索引》将为CBDB提供25978条社会关系数据,对研究唐五代士人交往、诗歌创作、文人群体等课题都有重要价值。


小贴士:如果觉得52书库不错,记得收藏网址 https://www.52shuku.vip/ 或推荐给朋友哦~拜托啦 (>.<)
传送门:排行榜单 | 好书推荐 |