仿东方头条新版   >   科技  >  正文

历史学家的新技艺:遥读作为史料的电子邮件

读过这个系列文章前传的读者,应该对“历史学家的新技艺”多了几分认知,也大致了解到用数字手段处理电子邮件的趣味。但是,对历史学者而言,前传中使用的方法还停留在邮件的外围,虽然新奇有趣,但流于表面,还隐约有一点炫技的成份。电子邮件的文本蕴藏着更为丰富的内容,不对它们进行解读,而把精力用在最表层的统计上,无疑是浪费了手中的一把好牌。

进入邮件的内部

10年的电子邮件,已经构成了一个小型的数据集。10076封电邮,虽然都已经由笔者阅读和书写,但要概括这个电邮数据集的内容,并不是一件容易的事情。传统的方法是把电子邮件当作史料一样去阅读、整理、分类,在细读中不断提取重要信息。虽然每封电邮并非长篇大论,但成千上万封邮件叠加起来,需要花费的时间也不是一个小数目。笔者大致换算了一下,所有邮件正文内容字数超过了300万,如果用A4纸打印的话,需要2100余张。Chauvin并不是什么名师大家,这样的耗时耗力是否值当?既想把握文献的内容,又不想太花心思,这样两全其美的事情到底有没有呢?有!这也正是历史学家需要掌握的新技艺之提高版。

帮助研究者获得爬梳史料的捷径,恰好是“遥读”(distance reading)最擅长的地方。古人所云,“观其大略而达至豁然贯通”,似乎提前预知了数字人文技法的高效率。对于我们的电邮数据集,遥读的方法正合“观其大略”的诉求。我们就把这场实验做得更加深入一些,看能否挖掘出更有趣味的结果来。

最简易的一种方式,就是老少咸宜的词频统计。当然,可以供我们进行内容挖掘的对象,其实包含两种类型的文本:邮件的主题以及邮件内容。词频统计的方法对应这两种文本,可能有不一样的适用度。主题本身就具概括性,所以词频统计时逢对手,或许能有精细的结果;邮件内容要庞杂一些,输出的结果可能要粗枝大叶。我们这样猜测,实际结果又如何呢?

今日热点

小编精选

热门推荐

联系我们|118.25.52.22:39016 All Right Reserve 版权所有