线图

什么是线图?

线图显示连续型变量随时间推移的变化。线图也称为趋势图、运行图或时间序列图。

线图显示随时间推移的变化

线图显示连续型变量如何随时间推移而变化。衡量时间的变量绘制在 x 轴上。连续型变量绘制在 y 轴上。

线图示例

示例 1:基本线图

图 1 中的图形显示了在不同时间点测量的鹦鹉的体重变化。图中同时显示了数据点和线条。您可能想省略这些点。体重数轴的数据有参考意义。它还包含了有用的轴标签。此图可让您直观地看到鹦鹉体重(以克计量)如何随时间推移而变化。

图 1:显示随时间推移的体重变化的基本线图

在质量控制中,像上面这样的基本线图被称为运行图。它显示 y 轴上的变量值“随时间推移的运行情况”。

示例 2:考虑缺失值

图 2 中的线图也使用了鹦鹉体重数据。在本例中,在某些日期没有按计划测量鹦鹉的体重。此线图在连线时没有穿过缺失值。我们还添加了注解来强调此线图有缺失值这个情况。您也可以在连线时穿过缺失值,或使用虚线连接穿过缺失值。了解数据中的缺失值,并清楚如何在图形中显示缺失值,对分析人员来说很重要。

图 2:含有缺失值的线图

示例 3:何时使用回归来代替线图

图 3 中的图形显示了两个连续型变量的散点图。x 轴显示体重;y 轴显示睡眠时间。此图形还显示了用线条连接的点,这是错误的。这些点代表不同种类的动物,不存在随着时间推移变化的关系。图 4 中的图形显示了含有简单线性回归的散点图,这是显示这些数据的正确方法。

图 3:线图的错误使用
图 4:这个含有线性回归的散点图比图 3 中的线图更有用

示例 4:考虑 y 轴尺度

创建线图或其他任何图形时,请注意尺度。例如,在过去,书上常常建议将0包含在y轴上。现行的做法则要求仅在 0 对数据有意义时才使用它。图 5 显示了澳大利亚多年来第 4 季度酒店房间占用率的历史数据。y 轴遵循过去的做法,以 0 为起点。使用这种方法的问题是,它会使逐年差异所产生的视觉影响最小。将图 5 与图 6 进行比较。图 6 对 y 轴范围使用了更合理的数值集合,这样更容易看到 2006 年的峰值。大多数软件工具会自动创建能够表达数据含义的y轴。有些软件工具还可以让您更改轴。

图 5:y 轴上包含 0 的线图
图 6:y 轴上不包含 0 时,不同年份之间的差异更容易看清楚

示例 5:代表不同类别的多个线条

线图可以包含多个线条。图 7 中的图形显示了智能手机操作系统从 2006 年(当年发布了第一部智能手机)到 2011 年的市场份额历史数据。每条线显示不同操作系统随时间推移的变化。

图 7:单个线图中的多个线条,按颜色分类

在创建包含多个线条的线图时,请务必根据图形将如何被传阅和分享,来考虑所需使用的颜色。图形始终是彩色的吗?它会是黑白的吗?请记住,即使在进行黑白打印时,颜色也有明显的差异。还有一种选择是,使用不同样式的线条对颜色进行补充,或者代替颜色。虽然,在仅有少量线条时图例可能很有帮助,但是,当图形有许多线条时,图例就没有太大的帮助了。但是,当使用另一个变量来定义图形中的不同线条时,图例就可以发挥作用了。

图 7 中的线图使用了两条不同颜色的实线来代表市场份额随时间推移而增加的两种操作系统。因为颜色有足够大的差异,在进行黑白打印时容易区分。此图形还使用了两条不同的虚线来代表市场份额随时间推移而减少的两种操作系统。此线图还在左上角使用了图例。

线图与数据类型

对于线图,x 轴上的变量定义时间。大多数软件工具会将这个变量存储为连续型变量。

连续型数据:适合使用线图

线图对 y 轴上的连续型数据比较适用,因为连续型数据是在具有许多可能值的尺度上进行衡量的。以下是连续型数据的一些示例:

  • 年龄
  • 血压
  • 体重
  • 温度
  • 速度

对于所有这些示例,线图都是用于显示变量随时间推移而变化的最适合的可视化工具。

分类型或名义型数据:选择另一种图表类型

线图对分类型或名义型数据不太适合,因为这些类型的数据是在具有特定值的尺度上进行衡量的。

对于分类型数据,样本会分成多个组,并且响应可能有定义好的顺序。例如,在一项调查中,要求您从“强烈不同意”到“强烈同意”这样的范围来提供意见,您的响应就是分类型的。

对于名义型数据,样本也分成多个组,但没有任何特定的顺序。例如,居住的国家/地区就是名义型变量。您可以使用国家/地区缩写,也可以使用数字对国家/地区名称编码。无论采用哪一种方式,您都只是在为不同的数据组命名而已。

您可以使用分类型或名义型变量作为分组变量,以便使用多个线条向线图中添加多个组,如图 7 中所示。