DS 1990。选择性。(1 - 4小时)

为在其他学术机构学习的课程提供选修学分。可无限重复。


DS 2000。数据编程。(2小时)

通过商业、体育、教育、社会科学、经济学和自然世界的案例研究,介绍数据和信息科学的编程。通过Python和Excel介绍编程、数据结构和数据分析中的关键概念。集成使用数据分析库和工具。用于从不同来源获取和以编程方式集成数据的调查技术。解释数据分析管道以及如何在每个阶段应用编程。讨论从应用程序编程接口(api)和数据库中编程检索数据。介绍预测分析的预测和分类。说明统计技术的局限性。

并修课程(s):DS 2001

属性(s):NUpath分析/使用数据


DS 2001。数据科学编程实践。(2小时)

在跨学科上下文中应用数据科学原理,每个部分侧重于不同学科的应用。涉及多个学科的新实验和阅读(包括计算机科学和特定部分的学科重点)。需要多个跨学科学科相结合的项目。

并修课程(s):DS 2000


DS 2500。用数据进行中级编程。(4小时)

为数据科学提供中级到高级Python编程。介绍使用Python的面向对象设计模式,包括封装、组合和继承。高级编程技能包括软件架构、递归、分析、单元测试和调试、沿袭和数据来源、使用高级集成开发环境和软件控制系统。通过案例研究来调查数据科学中的关键概念,重点是机器学习(分类、聚类、深度学习);数据可视化;自然语言处理。附加指定阅读调查伦理,模型偏差,和数据隐私相关的当今大数据世界的主题。为学生提供一个机会,以准备更高级的数据科学课程,并在商业环境中为软件开发和数据科学项目做出实际贡献。

先决条件:DS 2000最低成绩为D-

并修课程(s):DS 2501

属性(s):NUpath分析/使用数据


DS 2501。ds2500实验室。(1小时)

实践中讨论的编程技术DS 2500通过亲身实验。

并修课程(s):DS 2500


DS 2990。选择性。(1 - 4小时)

为在其他学术机构学习的课程提供选修学分。可无限重复。


DS 2991。数据科学研究。(1 - 4小时)

提供在教师监督下进行入门级研究或创造性工作的机会。


DS 3000。数据科学基础。(4小时)

介绍核心的现代数据科学技术和方法,为后续的数据科学课程提供基础。涵盖:在标准数值计算库(例如NumPy)中使用张量和应用线性代数;处理和整合来自各种结构化和非结构化来源的数据;概率论、统计学和机器学习的介绍概念;基本数据可视化技术;现在是标准的数据科学工具,比如Jupyter笔记本。

先决条件:CS 2510最低成绩为D-或DS 2500最低成绩为D-

属性(s):NUpath分析/使用数据,NUpath自然/设计的世界


DS 3500。数据高级编程。(4小时)

深入研究企业级软件系统的设计和实现,重点是更复杂的数据驱动应用程序的软件体系结构。涵盖可扩展的体系结构,支持测试、数据来源、重用、可维护性、可伸缩性和健壮性,以及构建用于大规模采用和易于使用的软件api和库。学生使用分布式处理、基于流的数据处理和通过消息传递的进程间通信来设计、实现和测试复杂的松散耦合面向服务的体系结构。探讨流行数据分析和可视化框架的特性、功能和底层设计。

先决条件:DS 2500最低成绩为D-


DS 3990。选择性。(1 - 4小时)

为在其他学术机构学习的课程提供选修学分。可无限重复。


DS 4200。信息表示和可视化。(4小时)

介绍可视化的基本原理、方法和技术,以创建适合探索和发现的有效信息表示。涵盖了可视化创建的设计和评估过程,数据的可视化表示,人类视觉和感知的相关原则,以及基本的交互原则。研究数据类型和广泛的可视化数据编码和表示。从物理学、生物学、健康科学、社会科学、地理、商业和经济学中抽取例子。强调静态和交互式可视化的良好编程实践。在Excel和Tableau以及R、Python和开放的基于web的创作库中创建可视化。需要Python, JavaScript, HTML和CSS编程。需要大量的写作,包括文档、解释和对数据分析和可视化结果的讨论。

先决条件:CS 2510最低成绩为D-或DS 2500最低成绩为D-

属性(s):NUpath分析/使用数据,NUpath写入密集型


DS 4300。大规模信息存储与检索。(4小时)

介绍结构化和非结构化数据的数据和信息存储方法。介绍如何使用分布式存储设施构建大规模信息存储结构。探讨了数据质量保证、存储可靠性以及处理非常大的数据量的挑战。研究如何对多维数据建模。实现分布式数据库。考虑多层存储设计、存储区域网络和分布式数据存储。应用算法,包括图遍历,哈希和排序,复杂的数据存储系统。考虑了大规模数据存储和检索的复杂性和难度。需要使用非关系数据库、文档数据库、键列数据库、键值数据库和图形数据库,并使用R、Python和c++编程。

先决条件:CS 3200最低成绩为D-;(ds4100,最低成绩为D-或DS 3000最低成绩为D-)

属性(s):NUpath分析/使用数据


DS 4400。机器学习与数据挖掘(4小时)

介绍有监督和无监督预测建模、数据挖掘和机器学习概念。使用工具和库来分析数据集,构建预测模型,并评估模型的拟合性。涵盖常见的学习算法,包括降维、分类、主成分分析、k-NN、k-均值聚类、梯度下降、回归、逻辑回归、正则化、多类数据和算法、增强和决策树。研究支持算法的概率、统计和线性代数的计算方面,包括抽样理论和计算学习。需要用R和Python编程。将概念应用于常见的问题领域,包括推荐系统、欺诈检测或广告。

先决条件:(ds4100,最低成绩为D-或DS 3000最低成绩为D-);(CS 2810最低成绩为D-或经济2350最低成绩为D-或ENVR 2500最低成绩为D-或数学3081最低成绩为D-或MGSC 2301最低成绩为D-或PHTH 2210最低成绩为D-或2320年心理学最低成绩为D-))或(CS 2810最低成绩为D-;CS 3500最低成绩为D-)

属性(s):NUpath分析/使用数据,NUpath顶点经验,NUpath写作密集


DS 4420。机器学习与数据挖掘(4小时)

继续介绍有监督和无监督预测建模、数据挖掘和机器学习概念。涵盖学习算法的数学和计算方面,包括内核、时间序列数据、协同过滤、支持向量机、神经网络、贝叶斯学习和蒙特卡罗方法、多元回归和优化。使用数学证明和实证分析来评估算法的有效性和性能。研究支持算法的概率、统计和线性代数的其他计算方面。需要用R和Python编程。将概念应用到常见问题领域,包括垃圾邮件过滤。

先决条件:DS 4400最低成绩为D-

属性(s):NUpath分析/使用数据,NUpath顶点经验,NUpath写作密集


DS 4440。实用神经网络。(4小时)

提供现代神经网络(“深度学习”)工具和方法的实践介绍。涵盖神经网络的基础知识,并介绍了从简单前馈网络到循环神经网络的标准和新架构。还包括随机梯度下降和反向传播,以及相关的拟合技术。强调通过现代工具包在实践中使用这些技术。具体介绍了Keras(以及TensorFlow)和PyTorch,它们分别说明了静态和动态网络实现。回顾这些模型对各种类型的数据(包括图像和文本)的应用。

先决条件:DS 4400(可同时修读)最低成绩为D-

属性(s):NUpath分析/使用数据


DS 4970。初级/高级荣誉项目(4小时)

专注于学生进行研究或生产与学生专业领域相关的产品的深入项目。与大三/大四项目2或学院规定的同等学历相结合,获得学科项目中的8个学分荣誉。


DS 4971。初级/高级荣誉项目(4小时)

专注于第二学期的深度项目,学生在该项目中进行研究或生产与学生专业领域相关的产品。

先决条件:DS 4970最低成绩为D-


DS 4973。数据科学专题。(4小时)

提供数据科学的讲座课程,主题通常不会在正式课程中教授。不同产品的主题可能有所不同。可以重复多达四次。

先决条件:CS 3000最低成绩为D-;(CS 3500最低成绩为D-或DS 3500最低成绩为D-)


DS 4990。选择性。(1 - 4小时)

为在其他学术机构学习的课程提供选修学分。可无限重复。


DS 4991。研究。(4小时)

提供在教师监督下进行研究的机会。

属性(s):NUpath集成经验


DS 4992。直接研究。(1 - 4小时)

在部门成员的指导下就选定的主题独立工作。可无限重复。


DS 4993。独立的研究。(1 - 4小时)

在部门成员的指导下就选定的主题独立工作。可无限重复。


DS 4994。实习。(4小时)

为学生提供实习工作机会。可无限重复。

属性(s):NUpath集成经验


DS 4996。体验式教育指导学习。(1 - 4小时)

利用学生认可的体验活动,并将其与学术专业的学习相结合。仅限于那些使用它来满足他们体验式教育需求的学生。可无限重复。

属性(s):NUpath集成经验


DS 4997。数据科学论文。(4小时)

为学生提供在教师指导下准备本科论文的机会。


DS 4998。数据科学论文续篇。(4小时)

专注于学生继续在教师监督下准备本科论文。


DS 5010。数据科学编程导论“,”(4小时)

提供编程和数据结构基础的入门课程。涵盖列表、数组、树、哈希表等;程序设计、编程实践、测试、调试、可维护性、数据收集技术以及数据清洗和预处理。包括一个课程项目,学生使用所涵盖的概念从网络上收集数据,清理和预处理数据,并使其为分析做好准备。


DS 5020。数据科学线性代数概论“,”(4小时)

提供统计、概率和线性代数基础知识的入门课程。涵盖随机变量、频率分布、集中趋势的度量、分散的度量、分布的矩、离散和连续的概率分布、链式法则、贝叶斯法则、相关理论、基本抽样、矩阵运算、矩阵的迹、范数、线性无关和秩、矩阵的逆、正交矩阵、矩阵的范围和零空间、矩阵的行列式、正半定矩阵、特征值和特征向量。


DS 5110。数据管理和处理概论“,”(4小时)

向学生介绍数据科学的核心任务,包括数据收集、存储、整理、转换、处理、管理和建模,以便从原始观察中提取知识。编程是本课程的交叉部分。为学生提供一个机会,通过短期作业获得数据科学任务和工具的经验。包括一个基于真实数据的学期项目。


DS 5220。监督机器学习与学习理论。(4小时)

介绍有监督的机器学习,这是一种算法的研究和设计,使计算机/机器能够从经验或数据中学习,并给出具有已知结果的数据示例。为监督决策提供模型和算法的广泛视图。讨论模型和算法背后的方法论基础,以及实际实现和使用的问题,以及评估性能的技术。包括一个涉及编程和/或实际数据集工作的学期项目。要求熟练掌握Python、R或MATLAB等编程语言。


DS 5230。无监督机器学习与数据挖掘。(4小时)

介绍无监督机器学习和数据挖掘,这是从大量数据中发现和总结模式的过程,没有已知结果的数据示例。提供无监督数据探索的模型和算法的广泛视图。讨论模型和算法背后的方法论基础,以及实际实现和使用的问题,以及评估性能的技术。包括一个涉及编程和/或与现实生活数据集工作的学期项目。要求熟练掌握Python、R或MATLAB等编程语言。


DS 5500。顶点:数据科学中的应用。(4小时)

为学生提供了一个在以前的课程中学习到的数据科学技能和建立投资组合的最高机会。学生通过将其应用到真实数据的长期项目中来练习可视化、数据整理和机器学习技能。学生既可以提出自己的项目,也可以从行业选择中选择。强调整体的数据科学过程,包括科学问题的识别,合适的机器学习方法的选择,以及结果的可视化和交流。讲座可能包括其他主题,包括可视化、通信和数据科学伦理。

先决条件:CS 5800最低成绩为C-或EECE 7205最低成绩为C-);DS 5110最低成绩为C-;DS 5220最低成绩为C-;DS 5230(可同时修读)最低成绩为C-


DS 6962。选择性。(1 - 4小时)

为在其他学术机构学习的课程提供选修学分。可无限重复。


DS 7990。论文。(4小时)

在项目主管的同意下提供选定的工作。


DS 7995。项目。(1 - 4小时)

为学生提供在教师监督下直接参与数据科学项目的机会。可重修一次,共8学分。


DS 8982。读数。(1 - 8小时)

在教员的指导下提供精选的阅读材料。可无限重复。