马赛克图

什么是马赛克图?

马赛克图是分组显示数据百分比的一种特殊类型的堆叠条形图。它是列联表的图形表示法。

如何使用马赛克图?

马赛克图用于显示关系以及对多个组进行直观的比较。

马赛克图显示关系

马赛克图是一种特殊类型的堆叠条形图。对于两个变量,列的宽度与水平轴上绘制的变量的每个水平中的观测值数量成比例。条形的垂直长度与第一个变量每个水平内第二个变量中的观测值数量成比例。

马赛克图有助于显示关系以及对多个组进行直观的比较。图 1 显示了临床试验数据的马赛克图。目标是比较安慰剂组和研究药物治疗组 65 岁以上患者的分布。理想情况下,临床试验在每个治疗组中应该有大致相同的老年患者百分比。

图 1:比较两个治疗组中老年受试者分布的马赛克图

图 1的马赛克图显示,安慰剂组的老年患者百分比高于研究药物组。开展临床试验的团队需要确定,这两个百分比是否“足够接近”,能否满足目标。此马赛克图还显示,总体上老年人所占的百分比较低。

马赛克图示例

示例 1:添加标签

图 2 通过向马赛克图添加标签对基本示例进行了扩展。

图 2:比较两个治疗组中老年受试者分布的马赛克图,添加了百分比标签

我们现在可以看到,安慰剂组和研究药物组中的老年患者百分比大约有 10% 的差异。可以使用独立性卡方检验来评估此差异是否显著。

当只有少量单元格时,向马赛克图添加标签是可行的。如果有许多单元格,最小的那些单元格可能无法添加标签。当数据集较小时,基于有限的信息,可以使用计数标签而不是百分比来突出显示可视化信息。

示例 2:代表类别的两个变量

马赛克图可以延伸到两个以上的变量。图 3 中的图形显示了泰坦尼克号上旅客的生存百分比。类别由旅客的船票舱位以及旅客的性别这两个水平的组合构成。

图 3:按旅客舱位和性别比较生存率的马赛克图

示例 3: x 轴上的百分比

马赛克图可以在 x 轴上显示百分比。图 4 显示了城市学校和农村学校学生的数据。学生们给出他们的目标,是希望拥有良好的成绩、擅长体育运动,或是受人欢迎。

图 4:比较不同区域学生的目标的马赛克图

该马赛克图显示,城市学生和农村学生的目标彼此非常相似,百分比非常接近。农村学生有不同的目标,并且在 3 个目标中几乎是平均分布的。另外,也可以使用计数来标注马赛克图。

示例 4:使用排序的顺序

马赛克图有时会根据类别显示自然排序顺序。请参看关于泰坦尼克号生存率的示例 2,将其作为一个示例。

当马赛克图没有自然顺序时,很难用它来进行直观的比较。图 5 显示了按车辆类别生产制造地点的马赛克分布图。

图 5:按车辆类别生产制造地点的马赛克分布图

可以看到,所有大型轿车都是在美国制造的,但难以比较在美国制造的紧凑型轿车和中型轿车的百分比。

我们可以通过将美国制造的车辆按百分比递增的顺序对车辆类别排序来改进马赛克图。图 6 显示了改进后的马赛克图。可以更方便地比较此图中的数据组。

图 6:车辆类别生产制造地点分布的马赛克图,按美国制造商百分比排序

现在我们可以看到,在美国制造的紧凑型轿车比中型轿车多。排序后的图表还突出显示了所有大型轿车都是美国制造的。