第 9 周

数据导入与齐整

发布者

曾永艺

发布日期

2022年11月11日


“问渠那得清如许?为有源头活水来。” 在上一讲中我们主要讲述 dplyr 包基于数据操作语法(A Grammar of Data Manipulation)的核心函数,并利用 nycflights13 包提供的数据集作为示例。数据操作语法想要达到其预期目标依赖于其所操作的 tibble 对象为“齐整的数据”(tidy data),而在数据科学实践中我们往往会从不同来源读取 / 导入形形色色的数据集,这就需要我们掌握 tidyverse 中与数据导入和数据齐整有关的 R 包及其核心函数。

本讲主要涵盖以下几方面的内容:

1. 数据导入

2. 数据齐整



1. 课前准备

📖 阅读 R for Data Science 一书第10章、第11章和第12章,这些章节依次介绍 tibble、readr 包和 tidyr 包。

此书的中文翻译版 《R数据科学》 发行有官方pdf电子版,对应章节为“第7章 使用tibble实现简单数据框”和“第8章 使用readr进行数据导入”(很遗憾,原书关于 tidyr 包的第12章在翻译版中并未出现,🙃)。若觉得英文阅读有点吃力的同学,可找来参阅。

由于上课内容较多,而上课时间有限,上课节奏预计较快,有些内容甚至会一带而过,请同学们务必腾出时间来过一遍上述预习章节的内容。

2. 课堂讲义

🖥️ 第6讲 数据导入与齐整

课堂讲义 PDF 版腾讯会议云录制链接将分别于课前和课后发布在 QQ 课程群内,请有需要的同学自行下载或观看。

3. 随堂练习

⌨️ 见课堂讲义

4. 课后作业

✍️ 课后作业