——数据是什么,不是冰冷的数字,不是躺在数据库里,躺在硬盘上,躺在图书馆的那些尘埃,而是鲜活的东西。
outline:
数据可视化背景:数据+可视化 what & why,
数据,不用多说,最强大的积累,世界的来源,没有数据的积累,人类什么都不是。数据有几大类:
俗话说:一图胜千言,各种感觉器官接受信息的比例是:视觉87%,听觉7%,嗅觉3.4%,触觉1.5%,味觉1%
【展示各种比例数据】
数据可视化:如何图表展示 how
1,时间趋势的可视化
时间是个天然的数据维度,我们时刻关注时间,不论数据是哪种类型,我们必然会期望看到它在这段时间内是上升还是下降,发现其中的趋势,回顾过去,超越现在,预测未来。
趋势数据分离散型和连续型,离散的数据基于事件的,一段时间一个事件就会发生若干次,比如一个赛季就会发生38场足球比赛,WDM中基于天的数据都是离散事件,比如我们统计crash的次数;而连续型的数据是基于实时变化的,可以认为是随着时间不断变化的,比如温度,会一直持续变化。总结,我们人类定义的最小时间单位基本上在秒这个概念上,我们做数据的可以这样去区分离散和连续:如果事件在很小的时间粒度发生,比如UV这样的,基本可以定位到秒级别,那么这是连续型数据;如刚才的crash信息,因为不可能是每秒都在发生,甚至都不是每分钟都发生,那么可以定义为离散型数据。
--离散型:柱形图和散点图,当然对于非时序的分类数据,离散型的数据图展示也满足。
基本柱形图:横轴时间轴,纵轴数据轴,要注意柱形宽度,柱形间隔,柱形高度,柱形图的视觉线索是:高度,数值越小,柱形越矮,数值越大,柱形越高。tip1:处理的数据都是正数时,请永远让柱形图的数值轴从0开始,否则会让人难以从视觉上比较各柱形的高度。如果在时间趋势柱形图上想表达多一个维度的概念,可以利用柱形颜色加以区分。tip2:柱形间隔选择时要小心,如果间隔宽度和柱形宽度相近,视觉上会产生振动效应,给人感觉就是柱形和间隔的角色互换。
堆叠柱形图:在基本柱形图上,堆叠多个矩形。如果数据存在子分类,并且各个子分类之和是有意义的,就可以使用堆叠柱形图。注意一点,这种情况子分类不宜过多。
散点图:用圆点代替矩形,可能意义更明确,小巧而集中,这种表达有一种“流”的感觉。散点图的视觉线索是:位置,通过xy坐标来观察,通过与其他点的位置来比较。散点图不强制要求从0开始。注意一点,数据不永远是真实的,笔误等各种原因都会导致数据偏离现实。
--连续型:其实数据等价于离散型,区别只在表达的现实意义。
点点连接:散点图连接起来,基本折线图,更有跃动感,默认了线性变化,也就是说从a点到b点的稳定变化。(表示人口变化没问题)
台阶形:适合表达会长时间停留在某个数值上,然后突然增长或衰退的事务变化。(银行利率)
平滑形:数据点杂乱且趋势不是简单的线性稳定趋势,那么可以估算出一条平滑曲线,一般我们会拟合出一条样条曲线或者贝塞尔曲线。
2,比例的可视化(分类的可视化)
在比例中寻求什么?最大,最小,总体分布?
--整体中包含各个部分:占比数据非常重要。
饼图:像切蛋糕一样切成若干个楔形,每个楔形代表整体的一个部分,楔形的角度代表占比(视觉线索也可以认为是面积),总和一定是100%。饼图在表示数据时有着一些争议,因为它不像柱形图或者基于位置的图形那样精确,衡量角度或比例要比衡量长度复杂。但是如果数据块不是特别多,饼图是个很不错的选择(良好组织数据,不要将一个饼图分成太多块)。对饼图的一般设计是选择好颜色,同时按照顺序从12点方向开始顺时针排列楔形块。颜色的深浅代表了重点的强弱,需要强调的部分颜色要深。
面包圈图:中间有洞的饼图,视觉线索不再是角度,但是跨过的弧度仍然和面积一样可以作为视觉线索。面包圈图中间部分适合放置标签或者其他内容。
堆叠柱形图:不仅仅用于时间趋势数据类型,对于比例的展示,堆叠图可以通过改变横轴为类别轴,将柱形高度定义为单个类别的总和,内部柱形高度代表了子分类的数值。堆叠柱形图的表达能力是N个饼图的和。
板块层级图:treemap,一种基于面积的可视化方式,通过每一个板块(矩形)的尺寸大小来度量。外部矩形代表父类别,而内部矩形代表子类别。最适合显示层级结构和树状结构的数据。
--带时间属性的比例:比例加时间属性,很自然的组合
堆叠面积图:水平轴时间,垂直轴是比例(100%),可以理解为按时间将一系列的堆叠柱形图连起来。
3,关系的可视化
关系中寻求的就是变量之间的关联,比如一个量增加了,另一个怎么变?它们是因果关系还是关联关系,更深入可以探求到数据的分布。
--关联性:联系(correlation),发现事物之间的关联,如果确定关联性,那么可以根据一项已知指标来预测另一指标。
散点图:表示变量之间的关系,这时的散点图横轴代表一个变量的数值,纵轴也代表一个变量的数值,每个点的坐标xy代表了关系。这时的散点图读图方法是:从左往右,如果是上升的趋势,那么是正相关,否则是负相关,如果杂乱无章,则不相关。
散点图矩阵:多个x轴,多个y轴,多个变量之间进行xy比较。
气泡图:同散点图一样,只不过气泡的大小表示第三个变量(比散点图多一个维度)。tip:用圆形表示数据时,要用面积来定义尺寸,而不是半径、直径或周长。气泡图中的圆形可以被正方形等其他图形代替。
--分布:利用平均数、中位数、众数、重心、线型等来判断数据的分布。
直方图:等价于柱形图,横轴表示某个延续性变量,纵轴表示频率或可能性,柱形高度表示柱形所在取值域出现的频率或可能性,柱形宽度表示数值轴上的某个取值域,取值域应该彼此一致。一般直方图的柱形间隔非常小或者没有,并且英文叫做histogram,而柱形图我们叫bar或者column。直方图用来主要观察分布,而不是看到每个具体的数值。比如图像分析里有个典型的图像颜色特征叫做颜色直方图,就是统计一幅图像的各个灰度级别的像素个数绘制的一个图形。
密度图:直方图的数值轴是延续性的,但是整个分布依然被分成了多个柱形。每个柱形代表的都是一些条目的集合。对于柱形内部的变化,柱形图无法表达,因此可以利用密度图来对分布的细节变化进行可视化。基本架构是:横轴代表数值轴,纵轴代表可能性大小或者比例,曲线高度代表相应值发生的可能性,曲线下的面积代表整体1.
最后还可以考虑直方图和密度图的结合,等价于柱状图和折线图结合。
4,空间关系的可视化
我们一般把空间信息的寻求量化到地图层面,基于地域维度。利用地图做空间关系的可视化,要比用常规图表更直接,结合地域维度使地区数据更显而易见。同时对于个别感兴趣的区域的数据可以更方便的观察,可以让人们专享数据。
--具体位置:给出地点的经纬度信息
单纯点图:直接将经纬度点信息标注到地图对应位置。类似现实中在地图上按图钉。这样的可视化只能标注出发生特定事件的地点,也就是指明了类别,维度的话只包含地域维度和事件类别维度。可以看做一维。在这个点图上的扩展就是加入跟踪信息,将有序的点用直线连接起来。线的长短将会成为明显的视觉线索表明点与点之间的距离关系。
气泡地图:在单纯点图的基础上,加一个维度,表明了在发生特定类事件的地区的数值大小。
--地区:以宏观更大范围的汇总数据
地区着色:以地区区域为单位,通过着色表示指标的高低。
--跨越时间和空间:将时间维度加入空间地图里,查看随时间变化在地区维度上的数据指标变化。
系列组图:将一组地区的图表(前面说过的点图或者着色区域图)按时间顺序排放,随着视线的移动(从左到右或从上到下),可以看出变化趋势。
刻画变化:不是将状态按顺序展示出来,而是进行差额计算,直接将变化以着色图的形式展现。使观察更聚焦,直接看变化。
动画:让数据动起来,是最直观和吸引人的设计。
未来:想象力
不管怎么讲,数据可视化是辅助我们拿数据讲故事的最有力的武器。
与我们结合:数据可视化是最终的展现,数据产品的终极形态有两种,一种是利用数据做强大的分析和挖掘,得到有意义的可以汇总成知识的内容;另一种就是通过丰富的想象力用可视化形式将其展示。