正确流程:数据采集 -> 数据处理和变换 -> 可视化映射 -> 用户感知
一、数据采集
数据采集是数据分析和可视化的第一步,俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。
数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。
1.内部数据采集:
指的是采集企业内部经营活动的数据,通常数据来源于业务数据库,如订单的交易情况。如果要分析用户的行为数据、APP的使用情况,还需要一部分行为日志数据,这个时候就需要用「埋点」这种方法来进行APP或Web的数据采集。
2.外部数据采集:
指的数通过一些方法获取企业外部的一些数据,具体目的包括,获取竞品的数据、获取官方机构官网公布的一些行业数据等。获取外部数据,通常采用的数据采集方法为「网络爬虫」。
二、数据处理和变换
数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。
一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。
三、可视化映射
对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。
可视化元素由3部分组成:可视化空间+标记+视觉通道
1.可视化空间
数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。
2.标记
标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。
根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。
3.视觉通道
数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积...)、形状(三角形、圆、立方体...)、方向、颜色(色调、饱和度、亮度、透明度...)等。
四、用户感知
可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。
用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。