关灯
护眼
字体:

唐宋历史评论.第三辑_包伟民/刘后滨【完结】(8)

  [26] 参见:https://ora.ox.ac.uk/objects/uuid:c0c281cd-4c2d-46ea-94b0-f7758cf0c3e6。

  唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥[1]

  徐力恒

  一 引言

  由于计算机及网络技术的普及,文献类历史数据库的便捷性、整合性和全面性,历史学者在研究中使用数据库的情况日渐普遍。作为搜集史料的一种方法,历史学者一般能熟练地在各种全文数据库进行关键词检索,尤其是把古籍材料变成电子文本的数据库。然而,对于其他可用于研究的数据库,大多数学者是陌生的。作为中国史领域中发展历程较长,也比较重要的“中国历代人物传记资料库”(下称CBDB)的项目成员之一,笔者希望通过讨论这个大型的基础数据库的发展,引发学界对这项开放的学术资源的兴趣和讨论。CBDB的操作原理跟全文数据库不一样,而且不少学者未必了解CBDB近年处理历史资料的进展和特点,故有本文的写作。由于CBDB项目网站已经提供了说明文件,所以本文重点不在介绍项目基本情况和历史,而侧重探讨项目组在近年致力充实的唐代资料部分,尤其是我们近三年工作的进展。[2]

  “中国历代人物传记资料库”是由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、台湾中研院历史语言研究所共同主持的学术数据库。该项目的目标在于系统地收录中国历史上所有重要的传记资料,整理成数据,并免费公开,供学术研究之用。截至目前,该数据库共收录超过37万人的传记资料。这些人物资料既可在线查询,又可全部下载,以便用户离线时在计算机使用。这些数据除了可以作为历史人物研究的参考资料以外,亦可用于统计分析、地理空间分析与社会网络分析等用途,是利用计算机辅助历史研究的基本工具。

  当前,这个数据库为每个人物的条目都设了多种数据栏目类别,尽可能详细地记录其中信息,并且以相互关联的表格保存,即按照人名、时间、地址、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、事件等进行保存。需要强调的是,这个数据库的最大优势不仅是作为人物资料的参考,而且是作为一套可供批量分析的数据来使用。换言之,学者固然可以把CBDB当作一部电子版的历史人物辞典来使用——当我们想了解某个历史人物,可以利用人名检索,找出关于他的信息。但是,和一般对人物数据库的理解不一样的是,CBDB既不提供一篇篇的人物小传,也不包含古籍的全文。它提供的是多个相互关联的表格,把人物信息整理出来,放入其中,以便学者进行批量分析。用户通过对数据库进行查询,可以获得大批人物信息。其中关键的是,这些查询除了利用人名,也可以利用人名以外的各种信息,例如地名、官名,甚至是亲属关系、社会关系等,查出一批人物的资料,供学者参考和分析。而且检索条件可以设定多种,在一次查询中就能加入相对复杂的检索条件。

  建立这种数据库结构的目标不单是史料的电子化,更重要的是为了达到史料的“数据化”。史料的电子化是把古籍材料转化成电子文本。至于史料的数据化,意指在进行电子化之后,还更进一步,把史料整理成能被电脑程序使用和分析的格式,相互连接,建成数据库。换言之,数据化是对数字化的拓展与推进。[3]数据化工作产出的数据不仅可以用于全文检索,还可以用来进行更多样的查询和分析,并可灵活地导出到其他软件,以便进行批量处理,或用不同方式来呈现,如统计表格、电子地图等。每当提及对数据库的利用,都容易让人联想到量化分析,不过数据化的目标其实不限于产生用于量化分析的数据,还可以产生用于其他分析方法的数据。通过对研究资料进行数据化,人文学者可以更有效率、更系统地解决既有的学术课题,也可以通过数据发现一些新的问题。关于这些话题,我将在本文介绍CBDB项目工作时举例说明。

  2015年起,由罗杰伟(Roger E.Covey)先生创立的唐研究基金会(Tang Research Foundation)为CBDB项目提供了资助,资助专门用于增加数据库中唐代人物资料的学术工作。这个项目的目标是利用三年左右的时间处理唐代的主要人物资料,促进唐史研究。以下介绍的工作都是在这个项目的支持下完成的。在这个项目开始之前,CBDB已经累积了一批关于唐人的资料,累计大约有45000人的信息。这些信息大多是通过和其他研究者合作获得的。比如,CBDB曾和京都大学的“唐代人物知识资料库”(Pers-DB:A Knowledge Base of Tang Persons)建立协议,获得3700多个人物的传记数据。[4]另外,CBDB编辑小组又和美国加州州立大学的姚平教授合作,得到其在《唐代墓志汇编》和《唐代墓志汇编续集》中搜集而来的16300多人亲属资料。[5]加州大学伯克利分校的谭凯(Nicholas Tackett)教授长期从墓志等材料中搜集人物信息,也贡献了22000个唐五代人物的数据。[6]虽然CBDB中的唐代人物数目看似不少,但数据量仍不算充分,尤其在跟CBDB中宋人资料相比的时候。例如,在2015年以前,唐代人物的“社会关系”数据只有不到400条,连CBDB宋代“社会关系”数据量的1/240都不到。所以,自2015年开始,CBDB项目除了参与数据的分享合作,也开始了独立的数据化工作,重点处理、收录唐代资料。


小贴士:如果觉得52书库不错,记得收藏网址 https://www.52shuku.vip/ 或推荐给朋友哦~拜托啦 (>.<)
传送门:排行榜单 | 好书推荐 |