数据管理

新政策将影响研究数据共享和学术交流

我们监控最近的政策和立法变化,可能会影响东北大学教师的工作,员工,和学生的研究人员。raybet雷竞技雷竞技app最新版读了三个即将变化的简要概述,为了他们的预期实现的日期。

国家卫生研究院(National Institutes of Health))政策数据管理和共享

它是什么?美国国立卫生研究院的新政策在数据管理和共享旨在改善结果的重现性和可靠性研究工作通过拓宽访问上传。

什么时候会发生变化吗?2023年1月25日

这可能会如何影响人员吗?

  • DMSP:所有国家卫生研究院建议将需要提交的数据管理和共享计划(DMSP)。以前,只有国家卫生研究院建议资金超过一定阈值需要DMSP。
  • 数据可用性:研究数据预计将访问“尽快,不迟于一个相关的出版物,或结束的奖/支持期间,以先到期者作准。“此外,新政策强烈鼓励建立存储库共享数据的使用。
  • 成本:合理的成本相关数据管理和共享可能包括在国家卫生研究院的预算请求。

额外的资源:

芯片和科学行为

它是什么?芯片和科学行为主要是半导体制造和遏制劳动力相关的管道,但也包括一些开放科学指令。

什么时候会发生变化吗?一年颁布后(大约在2023年9月)

这可能会如何影响人员吗?法案生效后,应用程序将需要获得国家科学基金会奖包括机器可读的数据管理计划(纯数字)。我们没有预料到,这将大大影响研究,因为大多数纯已经机器可读的,除非他们包括表或图表。这个要求将使更加无缝的机构和投资者使用的系统之间的信息共享,最终减少文书工作负担的研究人员。

额外的资源:

白宫科技办公室备忘录:确保免费,立即和公平获得联邦政府资助的研究

它是什么?OSTP的新的谅解备忘录(又名纳尔逊备忘录)构建在OSTP 2013霍尔德伦备忘录。新的备忘录将使研究由美国政府机构立即向公众开放。这消除了当前可选1年禁运,同时适用于出版物和数据潜在的同行评议的研究。根据新的纳尔逊备忘录,出版物的定义扩大超出文章也适用于同行评审书章节和会议论文集。

什么时候会发生变化吗?纳尔逊的备忘录将首先影响资助机构,将全面实施公共访问和数据共享计划到2025年底。

这可能会如何影响人员吗?备忘录生效后,研究人员和公众将受益于更广泛、更直接的获得联邦政府资助的研究成果。备忘录敦促使用持续的标识符(pid)明确识别作者从属关系、资助者和更多,所以这将是一个伟大的时间来获得,并开始使用ORCID iD如果你不已经有一个了。美国政府也表示兴趣检查当前学术激励机制,以便更好地识别机构和研究人员的支持的公共访问研究。

额外的资源:

图书馆与校园合作伙伴合作,包括研究管理和研究计算,开发指导和资源来帮助研究人员浏览这些变化。像往常一样,如果你需要帮助数据管理和数据管理和共享计划,或者如果你正在寻找一个安全、永久的家对你的研究成果,我们在这里帮助!

Katz磁带提供宝贵的资源在音乐行业的历史

这篇文章的作者是肖恩Plaistowe和编辑莫莉布朗和Giordana Mecagni清晰。

Larry Katz是一个音乐记者花了漫长的职业生涯在波士顿地区的报纸和杂志工作。在为即将到来的文章收集信息,这成了他的练习记录采访音乐家和艺术家和把他们放在一边,以防他们被证明是有用的在未来。随着时间的推移,他积累了超过1000的集合这些访谈,与艺术家厄撒基特、卡莉·西蒙,这位丰塔纳(猫王的鼓手),飞船,大卫·鲍伊,Ornette科尔曼,艾瑞莎•弗兰克林,鲍勃·马利,詹姆斯·布朗,迈尔斯·戴维斯,和爱尔摩伦纳德,以及演员包括泰德·丹森、梅尔·布鲁克斯和洛雷塔迪瓦恩。

2020年,拉里把他收藏的东北大学档案(NUASC)和特殊的集合。raybet雷竞技雷竞技app最新版

一个拼贴画各种音乐家和艺术家。中心是一个盒式磁带,贴上“Katz磁带”

这些采访创建一个迷人的资源,提供洞察音乐和艺术行业在各种各样的风格和时代。,你都可以抓一些小说和音乐历史的亲密时光。在一段录音中,你会听到奇怪的Al Yankovic讨论获得许可的困难模仿艾米纳姆的音乐。其他磁带和艺术家尼娜西蒙艾梅曼讨论音乐的影响,甚至在唱片业的挑战和偏见。这些访谈包含无数的安静时刻,比如王子讨论他偏爱他的家在明尼阿波利斯海岸,以及他最喜欢的电影。安静的点击茶杯碟子的联系厄撒基特讨论她的事业提供了一个受欢迎的连接和归属感的感觉,会觉得珍贵在研究这些数字和音乐新闻更普遍。

黑白图像的一个卷曲的黑发和一件衬衫。
Larry Katz。照片由卡茨磁带的网站。

1975年曼哈顿音乐学校毕业后,拉里·卡茨担任贝斯手开始前他在波士顿的新闻业的职业生涯真正的纸在1980年。1981年,拉里一直是一个自由作家的音乐波士顿环球报波士顿凤凰之前被录用的波士顿先驱报作为一个特色的作家,他涵盖了各种各样的艺术和生活方式比之前作为音乐评论家和专栏作家。2006年,他成为艺术先驱报》的编辑,2008年他接管了功能部门,一个角色,他直到2011年。

2013年,拉里重新审视他的磁带收藏。Re-listening采访了记忆的环境和背景下,这些录音是在,他觉得必须分享信息。他开始一个博客,Katz录音带,在那里他开始写反思艺术家和他们的采访,经常考虑事件发生以来最初的对话。伴随着这些倒影,拉里提供了一个转录采访记录的他经常穿插著名表演艺术家或歌曲相关的链接。拉里还捐赠NUASC这个博客的内容。

公众可以访问此集合可用涉及许多手和协作,内部和外部。首先,磁带被数字化乔治血液LP提供的慷慨资助图书馆的英联邦项目由波士顿公共图书馆。一旦数字化卷录音带是安全地回到NUASC集合工作人员的手中,然后交给的文件数字生产服务部门做艰苦的工作处理和分类收集。他们把音频文件包含多个访谈,访谈相结合,在多个空白磁带编辑,并创建了目录记录。

博客的内容是另一个挑战。尽管已经数字化,将内容从拉里东北部的独立网站托管证明是困难的。最初,我是希望我们可以使用一个方便的WordPress功能,将使整个布出口他的博客。没有这样的运气。相反,我发现了一些脚本,使我可以刮拉里的许多独特的图像包含在每个帖子。博客也与许多歌曲和表演托管在YouTube,但不幸的是,由于时间和版权法的变幻莫测,这些视频被删除。在可能的情况下,我试图恢复认可的视频的链接。作为一个额外的功能,我创建了一个播放列表包括许多歌曲中引用这些文章。

现在收集已经编目和博客已经摄入,我们欢迎任何搜索自己喜欢的艺术家,倾听他们的采访中,读一些关于艺术家的回忆和见解形式拉里和面试,和听音乐播放列表的一些艺术家拉里采访thekatztapes.library.northeastern.edu

除了Larry Katz集合,在波士顿的研究者和爱好者的艺术可能会感兴趣的真正的纸记录和波士顿凤凰记录在NUASC,可用。

简要概述机器学习实践的数字集合

雷竞技app最新版raybet雷竞技东北大学图书馆数字化过程物理材料利用几个不同的工作流处理打印文档、照片、和模拟音频和视频记录。数字化工作流程的每一步,从收集审查扫描到元数据描述,进行彻底的对细节的关注,可能需要数年时间才能完全过程集合。例如,大约160万张照片《波士顿环球报》图书馆收藏由东北大学档案馆和特殊集雷竞技app最新版raybet雷竞技合可能需要几十年才能完成!

如果这些步骤可以提高使用人工智能技术来完成的部分工作,释放员工将更多精力投入在工作流的元素需要人类的注意呢?读了一个非常简短的概述人工智能和三个潜在的选择处理《波士顿环球报》馆藏和其他数字图书馆收藏。

一个由三部分组成的循环,与“输入”导致“模型学习和预测”导致“反应”回到“输入”

人工智能和机器学习是什么?
人工智能(AI)是一个广泛的术语用于许多不同的技术,试图模仿人类推理。机器学习(ML)是人工智能的一个子集,一个程序教自己如何学习和理性。项目学习通过使用一种算法来处理现有的数据和发现模式。每个模式预测评估和得分根据准确的预测可能是也可能不是,直到达到一个可接受的水平的准确性预测。

毫升可以监督或无监督,根据结果所需的类型。监督学习是当指令提供协助算法将研究人员学习如何识别模式。无监督学习算法时美联储数据和发现自己的模式,研究人员可能不知道。

道德
我们进行这项工作,重要的是要注意,人工智能技术是人造的,因此人类偏见中直接嵌入技术本身。因为可以使用人工智能技术在如此大的规模,这些偏见造成的潜在的负面影响大于需要标准人类努力的工具。尽管人们很容易接受并尽快使用一个很有用的技术,这是一个研究领域,我们必须确保工作符合我们的制度伦理和隐私实践才能实现。

人工智能或ML技术可以用来帮助过程数字集合?
光学字符识别:最广为人知和使用形式的人工智能在数字集合实践可能识别印刷文本使用光学字符识别,或光学字符识别。光学字符识别是一个过程,分析印刷文本和提取文本对象,如字母,单词,句子。结果可以直接嵌入在这个文件中,像一个PDF OCR文字,或单独存储,像METS-ALTO文件,或两者兼而有之。

温彻斯特的头版新闻的截图
图片来源:一个OCR页面的截图温彻斯特的新闻AltoViewer METS-ALTO编码了。

OCR现代文本文档工作相当好,尤其是英语,但OCR的一个特别的挑战是历史文献。更多关于这个挑战,我建议历史和多语种OCR的研究议程,一个相当NULab发布的最新报告。

搜索结果的屏幕截图,显示返回的结果是,因为搜索词匹配OCR文档中的文本。

我们已经可以看到在图书馆的使用OCR的好处数字库服务与OCR文本嵌入到文件,文件的全文提取并存储在文本文件中。文本索引,提高文本文件通过检索文件的可发现性与搜索条件相匹配的文件的元数据或全文。


从《波士顿环球报》的照片库集合,以读手写标记描述。
数字化的照片从《波士顿环球报》图书馆收藏。

HTR:手写文本识别、HTR像OCR,但对于手写,不打字的,文本。笔迹非常独特的个体,给教学带来了一个困难的挑战机器来解释它。HTR严重依赖有大量数据训练模型(在这种情况下,大量的数字化图像手写),所以即使一次模型是准确地训练一组的笔迹,它可能不是有用的准确解释另一组。Transkribus项目试图导航这一挑战通过创建批手写数据训练集。研究人员提交至少100转录为特定的笔迹图像集Transkribus和Transkribus使用集作为训练数据来创建一个HTR模型来处理剩下的手写文本的语料库。HTR呼吁《波士顿环球报》收集的后背照片包含手写文本描述图像,包括摄影师的名字,照片拍摄日期,分类信息,描述或者一个地址。

计算机视觉:计算机视觉是指人工智能技术,使机器能够处理图像和视频,本质上训练机器“看见”。这种类型的人工智能机器是特别具有挑战性,因为它需要学习如何观察和分析图片和理解的内容。计算机视觉算法训练来识别模式不同的物体或人,试图准确地分类和识别模式。在东北校园的图片,例如,计算机视觉算法可以识别建筑对象或对象或树对象的人。

一张黑白照片的男人被逮捕了两名警察旁边的分析照片的内容:鞋类(98%);鞋(96%);手势(85%);风格(84%);军事的人(84%);黑白(84%);军装(80%);帽(80%);帽子(78%);街头时尚(75%); Overcoat (75%)
谷歌云的愿景API的分析结果黑白照片

在数字工作流集合,使用时产生的输出计算机视觉工具将需要评估其有效性和准确性。在上面的例子中,返回的术语来描述图像技术出现在照片(主题是穿鞋和帽子和大衣),但条件不充分捕捉图像的精神(一个人被拘留在一个演示)。

有很多使用计算机视觉伦理担忧,尤其是识别人脸和分配的情绪。如果我们使用这个特定的技术,它可以生成关键词或其他描述性元数据可能不是现在的波士顿环球报收集的图片,但是我们需要小心,以确保不嵌入问题评估过程描述,像一个抗议的形象描述为一场骚乱。

计算机视觉已经被应用在一些数字工作流集合。卡内基梅隆大学图书馆开发了一个称为内部工具帮助档案员提高元数据。一个档案管理员使用软件来标记选择图片,然后程序返回其他图像标识在视觉上相似,无论其盒,文件夹,允许档案管理员轻松地应用相同的标记那些看起来很相似的图像,而无需手动寻找。

许多其他方面的人工智能和ML技术需要研究和评估之前他们可以集成到我们的数字集合的工作流。我们需要评估工具和确定需要培训员工的技能来执行工作。我们也会继续看领导人在这个领域深入探究世界的人工智能图书馆的工作。

推荐的资源:
机器学习+库:报告字段/柯莱恩的状态:https://blogs.loc.gov/thesignal/2020/07/machine-learning-libraries-a-report-on-the-state-of-the-field/
数字图书馆、智能数据分析和增强描述/布拉斯加-林肯大学:https://digitalcommons.unl.edu/libraryscience/396/

学会写数据管理计划,找出社会媒体知道你,和更多

“你在这里”由马里奥Klingemann艺术品

你的上班让你感觉如何?地图!Facebook知道你什么?下载您的数据!你需要说什么关于你的数据给予建议?了解数据管理计划!

我们举办一些活动本月配合爱周数据濒临灭绝的数据周,你被邀请参加:

查看完整的阵容和注册你的位置:bit . ly / snelldata19

“你在这里”马里奥Klingemann在Flickr上,由2.0 CC

自带食物数据和代码!为可再生的出版研讨会做准备

车间传单ν数据代码

我们将代码的海洋在校园11月8日实践,互动的研讨会。

这两个小时会话是一个独特的机会将您自己的数据和/或代码!你会收到专家,循序渐进的指导:
  • 组织你的文件
  • 创建一个电报密码本(以便其他人——更不用说你的“未来的自己”——可以了解如何和为什么你所做的事情)
  • 准备你的代码和数据文档和重用
  • 最大化你的研究的潜在再现性输出
大约20名与会者空间有限,所以请尽快注册保留你的地方。更多信息和注册链接在这里。 问题吗?联系Jen弗格森汤姆Hohenstein