第 7 周

dplyr数据处理 II

预习
随堂练习
讲义
作业
发布者

曾永艺

发布日期

2022年10月28日


在上一讲中我们用两次课的时间学习 R 语言编程方面的核心知识:向量函数,为接下来探索“净土宇宙 🌌”奠定了知识基础。“净土宇宙 🌌”的核心数据结构并非原子型向量或普通列表对象,而是 tibble(由行(样本)和列(变量)构成的表格型数据),dplyr 包基于数据操作语法A Grammar of Data Manipulation)构建出一组用来操作 tibble 对象的核心函数——它们就是我们在接下来两次课中需要学习、理解并掌握的知识。

本讲主要涵盖以下几方面的内容(其中加粗字体为本次课的讲授内容):

  1. 样本处理
  2. 变量处理
  3. 汇总
  4. 分组和行式处理
  5. %>% 连接多个操作
  6. 合并多个数据集
  7. 操作数据库和 data.table

1. 课前准备

📖 阅读 R for Data Science 一书第5章、第13章第18章,这些章节依次介绍如何利用 dplyr 包中的核心函数对单表数据和关系型数据表进行处理以及管道操作符 %>% 的相关知识。

此书的中文翻译版 《R数据科学》 发行有官方pdf电子版,对应章节为“第3章 使用dplyr进行数据转换”、“第9章 使用dplyr处理关系数据”和“第13章 使用magrittr进行管道操作”。若觉得英文阅读有点吃力的同学,可找来参阅。

由于上课内容较多,而上课时间有限,上课节奏预计较快,有些内容甚至会一带而过,请同学们务必腾出时间来过一遍上述预习章节的内容。

2. 课堂讲义

🖥️ 第5讲 dplyr数据处理

课堂讲义 PDF 版腾讯会议云录制链接将分别于课前和课后发布在 QQ 课程群内,请有需要的同学自行下载或观看。

3. 随堂练习

⌨️ 见课堂讲义——思维体操,无需动手编程

4. 课后作业

✍️ 课后作业