回到日历

本杰明·施密特-百万文本的可视化语法

将可视化语法应用于数百万文本:Bookworm项目

本杰明•施密特东北大学文本、地图和网络实验室的核心教员助理教雷竞技app最新版raybet雷竞技授

文摘:

人文学科中的大量文本集合为可视化带来了独特的问题。几十年的数字化项目给人文主义者留下了几十个主要的文本集合,大小从数千到数百万个文档不等。每一个都代表了其本身的大量档案,值得广泛分析。作为一项规则,大多数人文主义者只能通过搜索引擎访问这些文本,将其宽泛的大纲和偏见留给“远程阅读”的紧急实践,这需要大型团队重新实现相对简单的任务。

本次演讲将概述通过Bookworm平台中表达的元数据对大型全文馆藏进行数据建模的综合策略,Bookworm平台是由作者和莱斯大学的Erez Aiden共同领导的项目,目前由一些主要的文本存储库部署,包括医学遗产图书馆、耶鲁大学图书馆和Hathi信托。Bookworm是一个平台,通过集成全文和元数据,将数据公开用于统计分析和定量研究,为任何数字图书馆的元数据进行文本分析和研究提供了表达语法。将单词和元数据视为等效实体,可以极快地访问大型集合的描述性统计数据,并易于与各种外部工具集成,例如用于合并主题模型详细分析的Mallet和用于命名实体识别的Stanford自然语言工具包。数据建模策略支持各种各样的文本可视化,从时间图表到多变量模型到网络。本次演讲将以数字图书馆和其他一些大型收藏的例子来说明更大的平台,包括数以万计的电影和电视节目,以及数百万学生对教授的评价。

生物:

本杰明·施密特(Benjamin Schmidt)是东北大学(Northeastern University)历史雷竞技app最新版raybet雷竞技学助理教授,也是文本、地图和网络实验室(NuLab)的核心教员。他的研究兴趣是数字人文和美国在19世纪和20世纪的知识和文化史。他的数字人文研究专注于从数据可视化和机器学习中适应技术,以实现对历史数据的批判性分析。他的论文《关注》(Attention)描述了从1890年到1960年,教育学、广告学和心理学中衡量和定义注意力的方法的变化如何改变了美国人对这一主题的理解。他还不时地使用数据来撰写相对不相关的美国高等教育主题和历史小说的准确性。