关灯
护眼
字体:

唐宋历史评论.第三辑_包伟民/刘后滨【完结】(5)

  第二,那些为了给研究者在处理文本和整理笔记上提供方便的软件也存在一些限制。当我为了研究政治沟通而试用各种用来标注笔记和书信的方法时,我一开始用过一个为社会科学研究者设计、商业的量化分析软件,然后也改用人手标记过一些文件。前者包含一些方便的标记和可视化功能,但由于它是商业软件,所以它和其他数据库(对我们来说就是CBDB和CHGIS)缺乏相互操作性。另外,由于它没有完善的输出功能,所以其他软件不能读取和使用它的文件。特定的文件格式也使得分享和可持续性变成问题。这些软件在处理东亚语言上也有问题,虽然这些问题近来逐渐得到解决。利用一些标准格式(例如简称为TEI的文本标码标准)手动地标记文件可以解决这些问题,但又会带来其他不足。例如,很多标记步骤是重复进行的,其实可以自动化处理;而且,由于编辑的界面很原始,这种手动标记方法对于研究者来说在视觉上不直观。

  我很庆幸能聘用数字人文专家何浩洋做博士后。我和他首先做的是总结我在标记宋人笔记中采用的方法。在CBDB的基础上,我们发展出人名、地名、官名和时间信息的自动标记功能。得到这些帮助时,学者可以比使用一般数据库更完善地发现和分析文本,效率又比手动标记高得多。

  我们在开发这个工具的过程中不断加入新的功能,并把它设计成更贴近历史学者和人文学者的工作流程。我们加入手动标记的功能,使用户不只可以修订、加入标记,还可以更自由地定义标记的类别。我们在这平台上加入词典的参考工具,因为它不只是用来标记文本,也是给研究者用来阅读史料的(见图2)。我们加入了用于特定语言和领域的词典时,用户可以同时看到很多参考文献中的词条解释。系统里也有做笔记的功能,用户能够在其中记录对文本的翻译、笔记和写上待办事项(例如注明以后需要查证的地方)。此外,我们也加入关键词标记的功能,让研究者可以上传自己的关键词名单,甚至利用正则表达式、关键词索引(KWIC)或关键词生成器(一个利用词频分析关键词出现模式的工具)来分析文本。我们也提供了筛选功能,让用户可以利用标记来选取特定段落。

  图2 码库思平台界面

  图中右栏显示标记选项和参考资料。

  此外,我们简化了提取文本的操作,整合码库思和其他数据库,并利用现成的软件来简化为数据进行可视化的过程。在两年时间之内,我们把码库思变成一个关联的系统。在这个系统里,大量文本的标记和可视化可通过自动化操作。当我们把码库思储存的文件连到Palladio和PLATIN等可视化工具,[21]用户可以通过我们命名为VISUS的界面导入标记时提取的CBDB人物资料,并以地图、社会网络图、表格、时间轴、饼图和词云(word cloud)等形式检阅那些资料。用户也可以输出所有数据,利用专门的空间分析、网络分析、统计分析等软件,进行更复杂的分析。为了让导入文本变得更容易,码库思已经连到一些人们常用的开源文本库,例如德(Donald Sturgeon)建立的“中国哲学电子书计划”(Chinese Text Project)[22]。我们未来还会将码库思跟维习安(Christian Wittern)的“漢籍リポジトリ”(Kanripo)[23]连接。

  我们在未来会继续让码库思灵活地在标记、阅读、探索、分析和做笔记等功能之间切换,更好地贴近研究者的工作流程。我在参与开发时学到很多——在设计这种研究的基础设施然后付诸实行的过程中,我更好地注意到数字媒介和方法的长处和短处。当人们具有批判性和建设性地参与其开发,为它的改善而努力时,可以使之更好地为人文学科服务。这种经验也让我体会到学界和其他界别之间合作的重要性。大部分新加入和未来会加入的功能都来自人文研究者和学生的建议。这些例子包括对社会关系的标记,允许认定不同信息之间存在各种关系;也包括使用数字化手段对文本进行比较,还有利用机器学习提升自动标记的准确率(precision)和召回率(recall)。通过跟国际上的计算机专家(如台湾大学的项洁和杜协昌)合作,我们也开发出同时标记多个文件的功能。

  对历史研究来说,这种合作其实不是新事物。20世纪初唐宋史研究的前辈们为了他们本身和学界的研究需要,编过不少索引、引得、词典和其他工具书,为中国历史研究的发展做出了很大的贡献。开发数字化工具,其实是这种合作的延伸和提升。如果我们希望我们学术单位的资源能完善地利用资源,就应该更积极地参与这种开发。当然,这种参与同时会带来一些新挑战。在学术单位里找到办法让数字化服务能够运营下去,只是数字史学学者面对的众多挑战之一。学者也面对迫切的需要,为学生设计课程,确保他们得到充足的训练,了解人文相关的数字化研究方法、数字媒介的理论和批判,还有反思传统和数字化语文学的工具。

  四 小规模的文本标记

  从我个人的经验来看,投入时间总结一个研究项目采取的数字化研究方法是值得的,尤其当其他学者采用这些方法在研究取得新进展时。[24]对于研究者本身,这也是值得做的事情。在我做完宋人笔记的研究之后,我开始了两个小型的研究计划——一个是研究杨万里的书信,另一个是对《贞观政要》的研究。前者是一个比较历史项目的一部分,该项目的目标是通过分别细读文人、教士的书信,比较他们政治参与的模式和影响。后者是一个集体项目,目标是把《贞观政要》译成英文,作为“剑桥政治思想史原著系列”(Cambridge Texts in the History of Political Thought)的新书出版。[25]我们开发码库思对这些项目的工作是有帮助的——码库思在经过改良之后,更适用于我们处理的问题。这启发我们继续进行开发,让历史学者能够做小规模的分析。


小贴士:如果觉得52书库不错,记得收藏网址 https://www.52shuku.vip/ 或推荐给朋友哦~拜托啦 (>.<)
传送门:排行榜单 | 好书推荐 |