历史研究议程和多语种光学字符识别

Theatrical playbills from the British Library

在过去的十五年,光学字符识别(OCR)技术已经数十亿图片的书籍、报纸、和其他材料成文本在谷歌图书搜索,互联网档案馆,美国国会图书馆,Europeana等等。数字丰富现有的学生、研究人员和一般读者在很大程度上集中在过去的100年里,在当前系统表现良好。虽然不完美甚至最现代的文档,目前可用的OCR系统更适合年长的打印文本,无论他们的语言,和手稿。

在这个报告中,东北大学的大卫·a·史密斯和柯莱恩raybet雷竞技雷竞技app最新版NULab为文本、地图和网络调查当前状态的OCR历史文献和推荐具体步骤,研究人员,实现者,资助者可以取得进步在未来五到十年。先进的人工智能图像识别,自然语言处理,机器学习将推动重大进展。更重要的是,分享目标、技术和数据在计算机科学的研究人员,在书和手稿的研究中,和在图书馆和信息科学将开启令人振奋的新问题,使社会分配资源和衡量进展。

这份报告写的安德鲁·w·梅隆基金会的慷慨支持。作者的结论是完全的责任。

“历史的研究议程和多语种OCR”现在是可用的。