关灯
护眼
字体:

唐宋历史评论.第三辑_包伟民/刘后滨【完结】(4)

  在一次实验中,我们整理了《元祐党籍碑》(12世纪前十年)、秦桧(1090~1155)迫害的人员名单(12世纪40年代)和庆元党禁(12世纪90年代)等三个名单中的所有人物,然后搜罗每个时代在世士人的所有传世文章。[12]然后,我们分析三个名单中的人在这些文章中有哪些是同时出现的。由于坊间已经有大量材料被电子化,所以这种大规模的分析是可以做到的。我们以CBDB的“指数年”(index years)为标准,[13]囊括了1104年、1142年和 1196年这三年前后各三十年的所有宋人文集中的篇章。1104年前后三十年的相关史料包含59969篇作品,包括2231 位作者的23701759字;1142年前后三十年的相关史料包含47040篇作品,包括1139位作者的18780575字;1196年前后三十年的相关史料包含52593篇作品,包括2598位作者的23446605 字。由于电脑对文本进行自动检测的技术仍有很大局限,这些数据需要经过人工仔细处理,拿掉不相关的资料。

  我们据此可以得出三组文集史料都出现的人物究竟有哪些。我们得出这些数据之后,可以用来做什么?其中列出什么作品论及不同党派的成员,并注明次数是多少。我们能够以此发现哪些作品是我们过去研究中没有足够重视的,应该得到更多注意。通过这些党争成员同时出现的关系,我们还可以进行社会网络分析,考察党争成员的网络重合度为何,有哪些小群体,并且其中有哪些人物占据重要地位,能起到把不同人群连起来的作用。我们可以由此回到一手史料和二手材料,进一步研究这些人物和我们过去忽略的一些小群体。我们也可以进一步考察有哪些因素影响这种同时出现的人,及其中小群体的成员构成,例如籍贯、家庭关系、仕途等。另外,我们希望以后能记录史料如何呈现不同时期的党争成员之间的社会关系,并有什么样的变化。这项研究仍在进行之中,但初步结果显示几个群体在党派结构上相当不同——元祐党人名单是小群体的松散结合,庆元党禁则是紧密地和一个核心人群连在一起的,而秦桧迫害的人员之间的关系则不明显。这显示社会网络分析可以用来展示社会关系有什么影响,也可以用来反映社会关系的缺席有哪些影响。我们也打算借助中国历史的大型群体传记数据库和文本数据库,推进目前分析历史上社会网络的做法,尤其是发展取样(sampling)的方法,用以比较社会网络中共同出现的人(co-occurrence)和同时代人群的随机抽样人群。这项工作显示,道学群体是一个联系很紧密的群体,因为当我们利用同样方法抽样分析庆元党人中的一百个人在52593篇作品中共同出现的程度的时候,发现其要远远低于道学群体。

  这些提取数据的方式对研究很多历史问题都有帮助。我和我的一位博士生熊慧岚目前正在研究修筑城墙的长时段历史。我们利用一系列“正则表达式”(regular expressions)[14],描述地方志和文集中城记、门记等史料一般提到修筑城墙的文字表述,藉此提取数据。据此我们建了一套数据集,涵盖从宋代到清代修筑城墙的活动记载。这可以让我们在空间和时间上呈现城墙的修筑活动、维护、坚固程度、工程材料、使用人力、涉及、规模、地点、作用等方面。这种研究方法对其他历史学者也有用处,例如城市史、军事史专家在研究城市规划和军事科技时就可以利用这样的数据集,考察修筑城墙和火药技术发展的关系。[15]

  这样的大型数字化研究计划可以用于大规模的考察,也可以让用户集中考察具体文本中的史料、人物、地点和修筑事件。当然,为了达到这种目标,历史学者需要面对一些新的挑战。他们要投入大量时间在数据审编之上。所有数字化计划都是如此,因为自动化方法不是完美的。另外,历史学者进行这种大规模分析的时候,可能要调整自己的期待值。我们进行数字化的研究时,需要调整研究的习惯。例如,当进行大规模分析时,可能要忍受试验和失败,也可能得容忍一定程度的不准确数据和凌乱。而且,这种工作也不可能是单枪匹马可以完成的。要得到新的认识,就必须得到不同专长的学者合作,一起发展适合人文研究的数字化研究方法和平台。[16]

  三 关于成为开发者

  也是因为体会到这一点,引发我主持开发“码库思”(MARKUS),一个用于古代汉语文本分析和阅读的平台。[17]我过去在申请一个研究政治沟通的项目时,决定聘用一位计算机专业的博士后,以我们对宋代私人著述的标记为基础,主力开发可视化和分析信息网络的工具。[18]当这个项目行将结束之时,我可以断定花这么多时间和资源在数字化研究之上是让我非常满意的决定。历史学者通常会把建立网站、数据库和电子平台的工作假手于他人,承包给学校内部或学校以外的开发商。这些开发商通常只能投入有限的时间,而且会利用现成模板来解决他们客户需要处理的问题。当我和一位全职的博士后、对人文研究感兴趣的计算机专家合作时,我终于可以开始处理我研究《挥麈录》时遇到的问题。这些问题属于中国数字化研究中的一些关键的结构性问题。

  第一,正如我在别处指出的那样,[19]20世纪90年代初以来就有一些大型商业公司建立数据库,为历史学者提供中文古籍的全文数据库。不过,它们没有在数据发现、可视化和文本分析等方面花太多精力,但这些全部是让我们能更好地利用电子媒介做研究的工具。这些数据库提供的检索功能仍然非常有限,检索结果的处理也很原始,提供的参考工具也不多,对于检索结果的文本输出也有诸多限制,让人难以接受。当下的研究者往往需要从多个文本库中搜集和处理材料,但这些数据库的设计仍然用著作种类、作者、书名、地点(例如对地方志而言)等限定学者的检索条件。[20]不同数据库提供各有出入的文献种类,使得不同数据库仍在不断出现,但内容往往存在重复。它们之间没有相互操作性(interoperability),使得研究者难以从多个数据库取得它们需要的资料。


小贴士:如果觉得52书库不错,记得收藏网址 https://www.52shuku.vip/ 或推荐给朋友哦~拜托啦 (>.<)
传送门:排行榜单 | 好书推荐 |