数据可视化复习笔记2022

1.可视化释义

可视化对应Visualize和Visualization。Visualize是动词，即“生成符合人类感知”的图像；通过可视元素传递信息。Visualization是名词，表达“使某物、某事可见的动作或事实”,对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力，也可用于表达对某目标讲行可视化的结果，即一帧图像或动画。在计算机学科的分类中，利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术，称为可视化。简单来说，可视化就是原先我们看不到的事物，用更加直观的、方便人类理解的图像展示出来。

2.可视化三个功能

① 信息记录：例如将浩瀚烟云的信息记录成文、世代传播的有效方式之一是将信息成像或采用草图记载。例如人们通过摄影的方式记录月相的变化。

② 支持对信息的推力和分析：通过将信息以可视的方式呈现给用户，将直接提升对信息认知的效率，并引导用户从可视化结果分析和推理出有效信息。极大降低了数据理解的复杂度，突破了常规统计分析方法的局限性。可视化能显著提高分析信息的效率，其重要原因是扩充了人脑的记忆，帮助人脑形象地理解和分析所面临的任务。可视化可以清晰地展示证据，在支持上下文的理解和数据推理方面也有独到的作用。

③ 信息传播与协同：面向公众用户，传播与发布复杂信息的最有效途径是将数据可视化，达到信息共享与论证、信息协作与修正、重要信息过滤等目的。可视化、人机交互技术等在协同式知识传播与科学发现中有重要作用。

3.可视化历史阶段哪几个？

17世纪之前：图标萌芽 16世纪时，人类已经掌握了精确的观测技术和设备，也采用手工方式制作可视化作品。可视化的萌芽出自几何图表和地图生成,其目的是展示一些重要的信息。

1600-1699年：物理测量 17世纪最重要的科学进展是对物理基本量的测量设备与理论的完善，广泛用于航空、测绘、制图等。同时，制图学理论与实践迅速成长。17世纪末，产生了基于真实测量数据的可视化方法。人类开始了可视化思考的新模式。

1700-1799年：图形符号 18世纪发明了新的图形化形式和其他物理信息的概念图，18世纪是统计图形学的繁荣时期，发明了折线图、柱状图、饼状图等。

1800-1900年：数据图形 19世纪上半叶，统计图形、概念图等迅猛爆发，掌握了整套统计数据可视化工具，包括柱状图、饼图等。19世纪下半叶，进入了统计图形学的黄金时期。

1900-1949年：现代启蒙 20世纪上半叶对于可视化而言是一个缺乏创新的时期，人们意识到图形显示的方式能为很多领域提供新的洞察和发现机会。多维数据可视化和心理学的介入成为这个时期的重要特点。

1950-1974年：多维信息的可视编码 1967年，法国人出版了《图形符号学》一书，奠定了信息可视化的理论基石。随着个人计算机的普及，人们逐渐开始采用计算机编程生成可视化。

1975-1987年：多维统计图形 20世纪70年代以后，数据密集型计算开始走上历史舞台，造就了对于数据分析和呈现的更高需求。1977年，发表了“探索式数据分析”的基本框架， 1982年，出版了The Visual Display of Quantitative Information一书。这些理论同Jacques Bertin的图形符号学，逐渐推动信息可视化发展成一门学科。

1987-2004年：交互可视化 数字化的非几何的抽象数据如金融交易、社交网络、文本数据等大量涌现，促生了多维、时变、非结构化信息的可视化

2004年至今：可视分析学 是一门新兴的学科，核心理论基础和研究方法尚处于探索阶段。2004年起，研究界和工业界都沿着面向实际数据库、基于可视化的分析推理与决策、决实际问题等方向发展。

4.DIKW模型

在信息管理、信息系统和知识管理学科中，最基本的模型是“数据、信息、知识、智慧”模型。它以数据为基层架构，按照信息流顺序依次完成数据到智慧的转换。数据、信息、知识、智慧四者之间的结构和功能方面的关系构成了信息科学的基础理论

5.什么是视觉感知与认知？

感知指客观事物通过感觉器官在人脑中的直接反映。人类感觉器官包括眼、鼻、耳，以及遍布身体各处的神经末梢等，对应的感知能力分别称为视觉、嗅觉、听觉和触觉等。

认知指在认识活动的过程中，个体对感觉信号接收、检测、转换、简约、合成、编码、储存、提取、重建、概念形成、判断和问题解决的信息加工处理过程。认知心理学将认知过程看成由信息的获取、编码、储存、提取和使用等一系列认知阶段组成的按一定程序进行信息加工的系统。

6.解释色彩空间，以及典型的几种色彩空间

色彩空间：也称色彩模型或色彩系统，是描述使用一组值表示颜色的方法的抽象数学模型。人眼的视网膜上存在三种不同类型的光感受器，所以原则上只要三个参数就能描述颜色。

CIE 1931 XYZ色彩空间是采用抽象模型定义的通过实验获得的色彩空间。它的改进版本CLEL*a*b*色彩空间完全基于人类的视觉感知而设计，致力于保持感知的匀称性。

RGB色彩空间采用笛卡尔坐标系定义颜色三个轴分别对应红绿蓝三个分量，应用广泛。

CMYK色彩空间：CMYK四个字母青色、品红色、黄色、黑色常用于印刷行业。

HSV/HSL色彩空间是两个不同的色彩空间。在HSV色彩空间中，H指色相，S指饱和度，V指明度。在HSL色彩空间中，L表示亮度。可以用圆柱体坐标系表示。

7.标记与视觉通道的定义

可视化编码由标记和用于控制标记的视觉特征的视觉通道组成。标记是数据属性到可视化元素的映射，用于直观地代表数据的性质分类; 视觉通道是数据的值到标记的视觉表现属性的映射，用于展现数据属性的定量信息，两者的结合可以完整地对数据信息进行可视化表达。

标记通常是一些几何图形元素，标记具有分类性质，因此不同的标记可用于编码不同的数据属性。视觉通道则用于控制标记的展现特征，从定量的角度描述标记在可视化图像中的呈现状态。

4.视觉通道的类型有哪些

数据通常以有序的和分类的两种形式存在，而视觉通道在表现上也存在两种不同的功能，例如，颜色的色调通常用于表现分类而无序的数据，而同一颜色的不同亮度却更多地用来表现顺序性。因此，合理使用不同的通道展现数据所包含的信息，对于数据可视化而言是非常重要的基础。

分为定性的视觉通道，定量或定序的视觉通道，分组的视觉通道。从方法学上而言，定性的视觉通道适合编码分类的数据信息，定量或定序的视觉通道适合编码有序的或者数值型的数据信息，而分组的视觉通道则适合将存在相互联系的分类的数据属性进行分组，从而表现数据的内在关联性。

8.视觉通道的表现力排序

分类的（是什么/在哪里）：位置，色调，形状，图案

分组的（关系）：包含、连接、相似、接近

定量的/定序的（程度）：坐标轴位置，长度，角度，面积，亮度/饱和度，纹理密度

9.视觉通道表现力判断标准

精确性：主要描述了人类感知系统对于可视化的判断结果和原始数据的吻合程度。

可辨认性：如何调整取值使得人们能够区分该视觉通道的两种或多种取值状态，是视觉通道的可辨认性问题。换句话说，这个问题相当于如何在给定的取值范围内，选择合适数目的不同取值，使得人们的感知系统能够轻易地区分它们。

可分离性：描述了在被用于表达数据属性的时候，两两之间的干扰现象。

视觉突出：仅仅很短的时间内，人们可以仅仅依赖感知的前向注意力直接发觉某一对象和其他所有对象的不同。

10.数据集的表达形式分几类？

三类：① 数据记录集：数据记录由一组包含固定属性值的数据元素组成。数据记录主要有三种形式:数据矩阵、文档向量表示和事务处理数据。

② 图数据集：图是一种非结构化的数据结构，由一组节点和一组连接两个节点之间的加权边组成。常见的图数据有万维网链接图、化学分子式等。树是一种没有回路的连通图，是任意两个顶点间有且只有一条路径的图。

③ 有序数据集：有序数据是具有某种顺序的数据集。常见的数据集包括空间数据、时间数据、时空数据、顺序数据和基因测序数据等。

11.数据相似度、相异度定义及常用方法

数据相似度是衡量多个数据对象之间相似的数值，通常位于0和1之间。与之对应的测度是相异度，其下限是0，上限与数据集有关，可能超过1。邻近度是相似度和相异度的统一描述。

常用方法：欧几里得距离，明科夫斯基距离，余弦距离，Jaccard相似度。

12.数据获取协议定义

数据获取协议作为一种通用的数据获取标准，在科研领域应用比较广泛。通过定义基于网络的数据获取句法，以完善数据交换机制，维护、发展和提升数据获取效率。理论上，数据获取协议是一个中立的、不受限于任何规则的协议，它提供跨越规则的句法的互操作性，允许规则内的语义互操作性。

13.在原始数据中，常见的数据质量问题包括哪些？

噪音和离群值、数值缺失、数值重复等

14.为什么要进行数据精简？

由高维性带来的维度灾难、数据的稀疏性和特征的多尺度性是大数据时代中数据所特有的性质。直接对海量高维的数据集进行可视化通常会产生杂乱无章的结果，这种现象被称为视觉混乱。为了能够在有限的显示空间内表达比显示空间尺寸大得多的数据，我们需要进行数据精简。在数据存储、分析层面进行的数据精简能降低数据复杂度，减少数据点数目并同时保留数据中的内涵特征，从而减少查询和处理时的资源开销，提高查询的响应性能。

15.在科学计算中，通常根据测量标度，将数据分为哪四类？

类别型数据：用于区分物体；

有序型数据：用来表示对象间的顺序关系；

区间型数据：用于得到对象间的定量比较；

比值型数据：用于比较数值间的比例关系。

16.原始数据绘图包含哪些?

数据轨迹、是一种标准的单变量数据呈现方法

柱状图、采用长方形的形状和颜色编码数据的属性

直方图、是对数据集的某个数据属性的频率统计

饼图、采用饼干的隐喻，用环状方式呈现各分量在整体中的比例

等值线图、使用相等数值的数据点连线来表示数据的连续分布和变化规律。

走势图、是一种紧凑简洁的数据趋势表达方式，使用高度密集的折线图表达方式来展示数据随某一变量的变化趋势。

散点图和散点图矩阵、散点图是表示二维数据的标准方法。散点图矩阵是散点图的高维扩展，用来展现高维数据属性分布。

维恩图、维恩图使用平面上的封闭图形来表示数据集合间的关系。

热力图、使用颜色来表达位置相关的二维数据大小。

17.简述盒须图要点

盒须图是一种通过标绘简单的统计值来呈现一维和二维数据分布的方法。它的基本形式是用一个长方形盒子表示数据的大致范围，并在盒子中用横线标明均值的位置，同时在盒子上部和下部分别用两根横线标注最大值和最小值。

18.设计制作一个可视化视图包括三个主要步骤？

确定数据到图形元素（即标记）和视觉通道的映射;

视图的选择与用户交互控制的设计;

数据的筛选，即确定在有限的可视化视图空间中选择适当容量的信息进行编码，以避免在数据量过大情况下产生的视觉混乱，也就是说，可视化的结果中需要保持合理的信息密度。为了提高可视化结果的有效性，可视化的设计还包括颜色、标记和动画的设计等。

19.在可视化设计的方法学中，有许多方法可以提高可视化的美学性，总结起来主要有三种？

聚焦：设计者必须通过适当的技术手段将用户的注意力集中到可视化结果中的最重要区域。

平衡：要求可视化的设计空间必须被有效地利用，尽量使重要元素置于可视化设计空间的中心或中心附近，同时确保元素在可视化设计空间中的平衡分布。

简单：要求设计者尽量避免在可视化中包含过多的造成混乱的图形元素，也要尽量避免使用过于复杂的视觉效果。在过滤多余数据信息时，可以使用迭代的方式进行，即过滤掉任何一个信息特征，都要衡量信息损失，最终找到可视化结果美学特征与传达的信息含量的平衡。

20.在可视化系统中，动画于过渡效果功能有哪四点？

用时间换取空间，在有限的屏幕空间中展示更多的数据

辅助不同可视化视图之间的转换与跟踪，或者辅助不同可视化视觉通道的变换

增加用户在可视化系统中交互的反馈效果

引起观察者注意力

21.什么是可视化隐喻？

在解释或者介绍人们不熟悉的事物和概念的时候，常常将其与一个人们所熟悉的事物进行比较来帮助理解。在可视化中也常常使用这样的方法，将需要介绍的事物和概念用人们所熟知的事物的视觉形态来呈现。时间隐喻和空间隐喻在可视化隐喻最常见。

22.简述信息可视化的数据状态参考模型

整个可视化流程被分成四个不同的数据阶段，数值分析，抽象表达，可视化抽象表达和视图。三种数据转换操作为：数据转换，可视化转换和视觉映射转换将数据从一个阶段转换至另一个阶段，需要从这三种数据转换操作中选择一种。

23.解释移动四边形法

移动四边形法的基本思想是逐个处理二维空间标量场的网格单元，插值计算等值线与该网格单元边的交点，根据网格单元上每个顶点与等值线的相对位置，按一定顺序连接这些交点，生成等值线。

24.什么是三维数据场？

指分布在三维物理空间，记录三维空间场的物理化学等属性及其演化规律的数据场。获取方式分为两类：设备采集获取和计算模拟。

25.三维标量场数据常用的三类可视化方法？

截面可视化、间接体绘制、直接体绘制

观察三维标量场的最简便方法是采用二维截面对数据取样。面可以是任意方向的平面、曲面甚至多个曲面。

间接体绘制和直接体绘制统称为体绘制。是探索、浏览和展示三维标量场数据最常用且最重要的可视化技术，支持用户直观方便地理解三维空间场内部感兴趣的区域和信息。

26.按照网格形态划分，采样空间网格可分为哪几类？

均匀网格、指沿三个正交轴按固定的间隔对三维空间进行各向同性或各向异性采样所生成的网格。

矩形网格、矩形网格的采样方向沿三个正交轴进行，各个轴上的采样间隔自适应分布，如乘要的区域对应在轴上的区间,具有高采样密度。

曲线网格、拓扑结构等价于矩形网格，但网格的边是曲线，可由矩形网格自由变形得到。

不规则网格、采样单元可以是任意形状，例如四面体、六面体、支持空间的自适应剖分，主要用于有限无仿具等，体现了分而治之、好钢用在刀刃上的思想。

27.常规的三维数据场采样方式是什么？又分为哪几种？

常规的三维数据场采样方式是立方点阵，其基本单元是立方体，又分为简单点阵，即笛卡尔点阵、体中心立方点阵和面中心立方点阵三种。

28.Nyquist-Shannon采样理论

离散数据场的采样频率需要大于2倍的截止频率才能保证离散场可重构出原始的连续数据场。

如果一个系统以超过信号最高频率至少两倍的速率对模拟信号进行均匀采样，那么原始模拟信号就能从采样产生的离散值中完全恢复。

29.什么是压缩感知？

通过分析信号的稀疏性，可以在远小于Nyquist-Shannon采样率的条件下，采用随机采样获得离散数据场，应用非线性重建算法完美的重建原始的三维连续数据场。

30.简述经典光学模型

经典的光学模型建立了与所在体素的的标量值相关的发射、反射、散射、吸收和遮挡五类光线模型：

吸收光学模型、认为体素不发射和散射光，仅吸收所有的入射光；发射光学模型正好相反，认为体素仅发射光，但不吸收任何入射光。

发射-吸收光学模型是吸收模型和发射模型的结合，认为体素不仅自身发射光，而且还吸收入射光，但不产生光的散射效果。

散射光照阴影光学模型是体素和外部光源的全局光照模型，三维标量场之外的光源对体素产生光照效果，前面体素可能吸收或遮挡外部光，从而对后面体素产生阴影效果。

多次散射光学模型考虑光在不同体素之间的多次散射过程。不同的光学模型对应于不同的光照计算流程和光学积分方式。

31.直接体绘制流程包括哪几个部分

采样重建：重构出采样点，在原始三维空间连续标量场中的数据值。
数据分类：对重构出的数据值进行分类，主要通过传输函数来实现，将数据值映射为光学属性。
光照计算：如果存在外部光源，则根据图形学的光照明算法计算外部光源的光学贡献。
光学积分：将光学贡献根据体绘制积分进行光学积分，生成直接体绘制图像。

32.什么是传输函数

是一组定义了数据值及其相关属性与颜色、不透明度等视觉元素之间的映射关系的函数。不透明度决定了显示哪些特征，重要特征设置较大的不透明度，背景信息设置较小的不透明度;颜色定义了如何显示这些特征，不同的特征赋予不同的颜色，可以在视觉上直观地区分这些特征。

python 数据可视化

数据可视化 复习笔记2022

相关文章

数据可视化复习笔记2022