图形类型

下面列出了可以在探索性数据分析 (EDA) 中使用的不同类型的图形。点击各个图形即可查看图形的示例、图形所使用的变量数量以及对图形用途的描述。

直方图

  • 变量数:1。
  • 显示数据的形状或分布;可以帮助识别离群值。
  • 了解关于直方图的更多信息。
图 1:直方图

并排直方图

  • 变量数:2。
  • 显示多组数据的形状或分布;可以帮助识别离群值。
图 2:有两个变量的并排直方图

条形图

  • 变量数:1。
  • 显示分类变量的频数计数;可以是垂直的(如下图图3所示),也可以是水平的。
  • 了解关于条形图的更多信息。
图 3:显示计数的条形图

分组条形图

  • 变量数:2 个或更多,取决于使用多少个变量来定义组。
  • 显示由另一个变量定义的各组的条形图。分组条形图在分组变量的每个水平内有单独的图表。
图 4:分组条形图

堆叠条形图

  • 变量数:2 个或更多,取决于使用多少个变量来定义组。
  • 显示由另一个变量定义的各组的条形图。堆叠条形图针对分组变量的每个水平有一个长条。表示另一个变量计数的颜色或图案堆叠在每个长条中。
图 5:针对分组变量的每个水平显示一个长条的堆叠条形图

帕累托图

  • 变量数:1。
  • 按变量频数计数的顺序显示。对于强调“少数重要(的信息)”很有用。帕累托图是条形图的一种,它还包含累积百分比曲线。
  • 了解关于 帕累托图的更多信息。
图 6:按变量频数计数显示的帕累托图

堆叠填充条形图

  • 变量数:1。
  • 按变量频数计数的顺序显示。用来代替帕累托图,特别是在有许多分类的情况下。对于强调“少数重要(的信息)”很有用。
  • 了解关于堆叠填充条形图的更多信息。
图 7:多个分类按变量频数计数顺序显示的堆叠填充条形图

马赛克图

  • 变量数:2 个或更多。
  • 显示分类变量之间可能存在的关系。对于查找数据错误(例如分类输入错误)很有用。在 x 轴上显示多个变量的一种特殊类型的堆叠条形图。
  • 了解关于马赛克图的更多信息。
图 8:显示分类型变量之间可能存在的关系的马赛克图

树图

  • 变量数:2 个或更多。
  • 显示变量之间可能存在的关系。一种特殊类型的堆叠条形图,由不同的变量决定颜色、顺序和大小。
  • 了解关于树图的更多信息。
图 9:显示变量之间关系的矩形树图

箱线图

  • 变量数:1。
  • 显示数据的分布。方块(箱体)的各部分标识第 25 百分位数、中位数(第 50 百分位数)和第 75 百分位数。视数据而定,须线显示最小值和最大值,以及出现在须线外部的离群值。用于查找数据错误以及探索一个变量。
  • 了解关于箱线图的更多信息。
图 10:箱线图

并排箱线图

  • 变量数:2 个或更多,取决于使用多少个变量来定义组。
  • 显示由另一个变量定义的各组的箱线图。用于查找数据错误以及探索两个或更多变量。
图 11:用于探索两个或多个变量的并排箱线图

正态分位数图

  • 变量数:1。
  • 确定“变量有正态分布”这个假设是否合理。
图 12:用于确定变量是否有正态分布的正态分位数图

线图

  • 变量数:2。
  • 显示随时间推移的变化。x 轴上必须有按时间顺序列出的值。线图也称为运行图,对于查找离群值很有用。
  • 了解关于线图的更多信息。
图 13:显示随时间推移变化的线图

包含分类的线图

  • 变量数:2 个或更多,取决于使用多少个变量来定义组。
  • 显示由另一个变量定义的各组的多个线图。用于了解多个变量随时间推移的变化以及查找离群值。
图 14:含有分类的线图,用于了解多个变量如何随时间的推移而变化

散点图

  • 变量数:2 个或更多,取决于使用多少个变量来定义组的颜色和标记。
  • 显示两个变量之间可能存在的关系并确定离群值。为其他变量添加颜色和/或标记有助于进行探索性数据分析。添加参考线或规格限有助于确定离群值。
  • 了解关于散点图的更多信息。
图 15:显示两个变量之间可能存在的关系的散点图

散点图矩阵

  • 变量数:多个。
  • 显示多个变量之间可能存在的关系,观察所有双向组合。可以添加其他图形:为每个变量添加直方图来确定离群值,为每个散点图添加密度椭圆来确定多维度的离群值,添加相关性热图来清晰地呈现可能的关系。
图 16:显示多个变量之间可能存在的关系的散点图矩阵

饼图

  • 变量数:1 个或更多。
  • 显示变量部分与整体的关系。为多个饼图添加分类比单个饼图更有用。对于单个变量,条形图更容易区分值之间的细微差异。
  • 了解关于饼图的更多信息。
图 17:显示变量的部分与整体关系的饼图

热图

  • 变量数:2 个或更多。
  • 显示变量之间可能存在的关系。最常用于随时间推移而变化的数据。使用颜色来探索变量之间的关系。
  • 了解关于热图的更多信息。
图 18:显示变量之间可能存在的关系的热图

茎叶图

  • 变量数:1。
  • 显示数据的形状并确定离群值。在计算机出现之前使用较广泛;现在更常用直方图。
图 19:显示数据的形状并确定离群值的茎叶图