Whole Game

本书的这一部分的目标是为你快速概述数据科学的主要工具:导入整理转换可视化数据,如图一所示。我们希望向你展示数据科学的“全貌”,为你提供所有主要组成部分的足够信息,以便你可以处理真实但简单的数据集。本书的后续部分将更深入地涉及这些主题,扩大你可以处理的数据科学挑战的范围。

base
图一:在本书的这一部分,你将学习如何导入、整理、转换和可视化数据。

下面四章着重介绍了数据科学的工具:

  • 可视化是学习 R 编程的一个很好的起点,因为其收益非常明显:你可以制作优雅且信息丰富的图形,帮助你理解数据。在第1章 数据可视化中,你将深入了解可视化,学习 ggplot2 图的基本结构,以及将数据转化为图形的强大技术。

  • 通常单独进行可视化是不够的,因此在第 3 章数据转换中,你将学习允许你选择重要变量、筛选关键观测结果、创建新变量和计算摘要的关键动词。

  • 在第 5 章数据整理中,你将了解整洁数据,这是一种存储数据的一致方式,使转换、可视化和建模变得更容易。你将学习基本原理,以及如何将数据整理成整洁形式。

  • 在你可以转换和可视化数据之前,你需要先将数据导入 R。在第 7 章数据导入中,你将学习将 .csv 文件导入 R 的基础知识。

在这些章节之间还有四章着重介绍你的R工作流程。在第 2 章工作流程:基础知识、第 4 章工作流程:代码风格和第 6 章工作流程:脚本和项目中,你将学习编写和组织 R 代码的良好工作流程实践。这些将为你长远的成功打下基础,因为它们将为你提供在处理真实项目时保持组织的工具。最后,在第 8 章工作流程:获取帮助中,你将学习如何获取帮助并持续学习。