基于大数据的特点及其应用需求,结合数据可视化的研究现状,介绍了适合大数据的数据可视化技术,分析了大数据条件下数据可视化需要解决的八个关键问题;针对大数据可视化应用自主开发的交互式可视化设计平台Autovis及其应用进行了探讨。
图灵奖获得者jimgray曾说,数据密集型科学发现是继实验归纳、逻辑推演、仿真模拟之后的第4类科学方法,作为前3种科学范式的补充,这种方法进一步促进人类科技的进步。图灵奖获得者吉姆格雷曾说过,数据密集型科学发现是继实验归纳、逻辑演绎和模拟之后的第四种科学方法。作为对前三种科学范式的补充,这种方法进一步推动了人类科学技术的进步。
数据在促进许多科学领域和各行各业发展的同时,也带来了前所未有的挑战。为了有效地理解数据,避免“大数据”变成“大垃圾”,有必要开发更好的工具来支持整个研究过程,包括数据捕获、数据治理、数据分析和数据可视化。
在大数据时代,数据可视化技术得到了广泛的应用,但它也面临着许多新的挑战。大数据可视化是一个面向应用的研究领域。本文从应用实践的角度,重点阐述了大数据背景下大数据可视化的内涵、研究进展、相关技术和产品以及面临的一系列挑战。
大数据可视化内涵
数据可视化是以可视化的形式展示抽象的“数据”,帮助人们理解数据。与传统的数据可视化相比,大数据可视化处理的数据对象有着根本的不同。基于现有的小规模或中等规模的结构化数据,大数据可视化需要有效地处理大规模、多类型和快速更新的数据。这给数据可视化的研究和应用带来了一系列新的挑战。
数据可视化的概念于1987年正式提出。经过30多年的发展,它逐渐形成了三个分支:科学可视化、信息可视化和可视化分析。近年来,这三个子领域逐渐合并。这篇论文叫做“数据可视化”。
本文试图在传统数据可视化的基础上,给出大数据可视化的内涵:大数据可视化是指能够有效处理大规模、多类型、快速变化的数据的图形交互探索和显示技术。
其中,有效手段在合理的时间和空开销范围内;大规模、多类型和快速变化是处理数据的主要特征;图形交互探索是指通过图形手段支持数据的交互分析;显示技术是指数据的可视化显示。
大数据可视化技术
首先,从方法层面介绍了基本满足通用数据可视化需求的通用技术。然后,根据大数据的特点,重点介绍了相关的大规模数据可视化、时间序列数据可视化、面向可视化的数据采样方法和数据可视化生成技术。
常用数据可视化技术
在数据可视化技术的应用过程中,大多数不是技术驱动的,而是目标驱动的。该图显示了目前在行业中广泛使用的数据可视化方法。数据可视化的目标被抽象为比较、分布、组合和关系。
按目标分类的常用数据可视化方法
对比。比较不同元素之间或不同时间的值。分发。查看数据分布特征是数据可视化最常用的场景之一。构图。查看数据的静态或动态组合。关系。查看变量之间的相关性通常用于结合用户的专业知识和场景需求来判断多个因素之间的影响关系。
大规模数据可视化
大规模数据可视化通常被认为是处理tb或pb规模的数据。经过几十年的发展,大规模数据可视化已经经历了大量的研究,主要集中在并行可视化和原位可视化。
(1)并行可视化
并行可视化通常包括三种并行处理模式,即任务并行、流水线并行和数据并行。
任务并行性将可视化过程分成独立的子任务,同时运行的子任务之间不存在数据依赖关系。
流数据片段在管道中并行读取,可视化过程分为几个阶段。计算机并行执行每个阶段,以加速处理过程。
数据并行是一种“单程序多数据”的方式,它将数据分成多个子集,然后以子集为粒度并行执行程序,处理不同的数据子集。
(2)原位可视化
可视化是在数值模拟过程中产生的,以缓解大规模数值模拟的输出瓶颈。根据不同的输出,现场可视化分为图像、分布、压缩和特征。
输出是图像的现场可视化。在数值模拟过程中,数据被映射到可视化并保存为图像。
输出是分布式数据的现场可视化,根据用户定义的统计指标,在数值模拟过程中计算并保存统计指标,然后将统计数据可视化;
输出是压缩数据的现场可视化。压缩算法用于减小数值模拟数据的输出规模,压缩后的数据作为后续可视化处理的输入
以输出为特征的原位可视化采用特征提取方法,在数值模拟过程中提取特征并保存,将特征数据作为后续可视化处理的输入。
时间序列数据的可视化
时间序列数据可视化是从数据的角度帮助人类观察过去和预测未来,如建立预测模型、进行预测分析和分析用户行为。
面积图可以显示一定时期内数量值的变化和发展,其中大部分常用于显示趋势。气泡图可以将一个轴的变量设置为时间,或者将数据变量随时间的变化动画化。蜡烛图经常被用作交易工具。
甘特图通常用作项目管理的组织工具。热图通过颜色变化显示数据,直方图适用于显示连续间隔或特定时间段的数据分布。
折线图用于以连续的时间间隔或时间跨度显示定量值,其中大多数用于显示趋势和关系。南丁格尔玫瑰图绘制在极坐标系统上,适用于周期性时间序列数据。Ohlc图经常被用作交易工具。
螺旋图沿着阿基米德螺线绘制基于时间的数据。堆叠面积图的原理与简单面积图相同,但它可以同时显示多个数据系列。量化波形图可以显示不同类型数据随时间的变化。
此外,具有空之间位置信息的时间序列数据通常与上述可视化方法相结合,例如轨迹图。
面向可视化的数据采样方法
面向可视化的时间序列数据采样主要是优化时间序列数据折线图的可视化效果。这种研究的主要目的是从时间序列数据中选择一小部分时间序列数据,并利用折线图上点和线的视觉效果,使所选数据的视觉效果尽可能接近原始数据的视觉结果。
斯坦纳逊总结了一些基于折线图的时间序列数据采样算法,认为折线图中的每个数据点都有自己的视觉权重。Kehagias提出了M4聚合时间序列数据采样算法。Guo等人总结了空:表征约束、可见性约束、平移一致性和缩放一致性之间的四种数据可视化约束,并提出了一种基于可视化约束的贪婪策略采样算法。
数据可视化生成模式
经过几十年的发展,数据可视化已经形成了从底层编程到顶层交互定制的多层次生成模式。
数据可视化生产模式
根据语言类型,编程方法可以分为函数式编程和声明式编程。根据图表元素的封装级别,功能编程可以分为更基本的图形编程界面。声明式编程出现相对较晚,其中采用了图形语法的可视化语法。
交互式数据的可视化生成使用户无需通过交互式界面编程即可定制可视化图表。其中,polaris和tableau使用数据列拖动来交互生成可视化图表;旅行者和data2vis提供了根据数据自动生成可视化图表的能力;莱拉和dataillustrator提供了一种类似于visio的交互方式,可以将图表元素组合成图表。visflow在提供多个可视化模板的基础上,采用数据流的思想,将可视化图表作为数据处理流程的中间步骤,对数据进行可视化处理。
总的来说,编程方法的优势在于其丰富的表达能力和个性化定制能力,缺点是缺乏直观性,这就要求用户具备编程能力,相对需要更多的人力和时间成本;相对而言,交互模式的优点是直观,用户无需编程就可以定制图表,并且使用更加广泛。缺点是表达能力有限,系统功能和性能往往不能满足用户的个性化需求。
大数据可视化产品
本节重点介绍相关的大数据可视化产品,包括适用于特定大数据场景的传统数据可视化产品和适用于大数据的数据可视化产品。
传统数据可视化产品
作为微软推出的数据可视化产品,powerbi在2019年的gartnerbi象限排名第一。优点在于易于使用,并且交互模式类似于excel。缺点是性能相对较弱,缺少准备清洁工具的数据。
基于关系代数理论的Tableau是目前应用最广泛的数据可视化产品之一。其优势是基于拖放的交互、丰富的功能以及对hadoop和googlebigquery等大数据平台的支持;缺点是它只支持结构化数据、大数据的实时响应速度慢以及有限的权限限制。
Qlikview是一种新的数据可视化产品,应用越来越广泛。优点是数据关联查询和钻取能力强,图表绘制速度快。缺点在于缺乏易用性。作为一种基于内存的数据可视化产品,数据处理速度取决于内存大小,并且硬件要求很高。
大数据可视化产品
大数据背景下产生的数据可视化产品如下。
Apachesuperset是一个基于flask-appbuilder的开源数据可视化系统。b/s架构集成了地图、折线图和饼图等可视化方法,并提供了一种方便的看板定制方法。优点是系统可扩展性和权限控制机制;缺点是系统稳定性不足和大数据处理能力。
Apachezeppelin是一个用于大数据的交互式数据分析和协作记事本工具,是一个具有b/s架构的开源项目。优势是与不同大数据框架的集成能力和系统可扩展性;缺点是它需要编程,并且不支持异步。对于大规模数据,客户端可能需要等待很长时间。
大数据可视化挑战
数据可视化在大数据场景中面临许多新的挑战,包括数据规模、数据融合、图表绘制效率、图表表达能力、系统可扩展性、快速构建能力、数据分析和数据交互等。
数据比例
大数据规模大,价值密度低,这受到屏幕空的限制,并且可以显示的数据量有限。因此,为了有效地显示用户关心的数据和特征,有必要采用有效的数据压缩方法。目前,现有方法针对的是数据的采样或聚合,而没有考虑数据可视化的显示特性。最近,一些学者提出了针对特定视觉场景的数据压缩方法。然而,仍然缺乏通用的面向可视化的数据压缩方法和实用产品。
数据融合
大数据的另一种表现形式是数据类型多样,通常分布在不同的数据库中。如何整合不同来源和类型的数据,为用户提供统一的视觉视角,支持视觉关联探索和关系挖掘是一个重要问题。它涉及到许多技术问题,如数据关联的自动发现、多类型数据的可视化、知识地图的构建等。
图表绘制效率
随着数据规模的增加,图表可视化的效率越来越突出。目前,一些可视化产品开始使用webgl实现与gpu的并行绘制。越来越多的数据可视化产品采用b/s架构,其性能在一定程度上优于浏览器;此外,跨终端需求越来越普遍,这也给海图绘制带来了更多的挑战。
图形表达能力
随着数据源和数据类型的增加,数据用户对数据交互的需求越来越多。现有的数据可视化产品不能满足用户的可视化需求,经常会出现对所需可视化产品支持不足或不支持等问题。这就对系统的图形表达能力提出了更高的要求,同时也对系统支持用户个性化定制提出了新的要求。
系统可扩展性
大数据对数据可视化系统的可扩展性提出了新的挑战,系统的可扩展性将成为衡量大数据可视化系统的重要指标。
快速构建能力
大数据伴随着快速变化和不断增长的数据。如何帮助用户及时了解数据并发现问题,离不开快速构建数据可视化的能力,即快速定制用户数据驱动的图表的能力。当数据在S级甚至ms级更新时,能否实现图表的二级更新和快速定制?此外,图表定制后的快速共享和响应功能也将成为必要的系统功能。
数据分析
传统的商业智能工具主要侧重于数据过滤、聚合和可视化功能,已经不能满足大数据分析的需要。gartner提出了“增强分析”。只有结合丰富的大数据分析方法,形成数据探索性分析的闭环,才能实现数据可视化,用户才能有效理解数据。预测分析是大数据的趋势。数据可视化与预测方法的有效结合将帮助用户做出决策。
数据交互
大数据可视化的用户需要通过可视化与图表背后的数据和处理逻辑进行交互,以反映用户的个人需求,帮助用户以交互和迭代的方式理解数据。在传统交互方式的基础上,更加自然的交互方式将有助于用户更好地与数据进行交互,也有助于扩大大数据可视化产品的使用范围和应用场景。
大数据可视化技术和产品面临重大挑战,但也为其发展带来新的机遇。例如,yu等人提出的用于数据流可视化的自然语言交互界面是通过映射自然语言和常见的可视化操作来实现的。Microsoft excel软件集成了自然语言交互,其中annaparser算法抽象数据表,并结合表知识理解实现语义理解。
autovis
如前所述,大数据可视化面临一系列挑战。为此,该研究小组独立开发了数据感知交互式可视化设计平台autovis,旨在简化大数据的可视化过程。核心是帮助用户快速完成从数据到图表的设计过程,包括数据定义、图表设计、映射过程、图表交互和看板服务。
数据定义
Autovis支持常见的数据库类型,如iotdb、postgresql、mysql、sqlserver、sqllite等。,以及提供restfulapi接口的数据服务。设计并实现了抽象数据集的构造和计算技术,支持不同数据的自由组合,通过规范抽象数据集实现数据集的快速生成。
图表设计
Autovis采用模板化的思想,提供了100多个图表模板,涵盖了常用的可视化技术,并支持即时的模板扩展和拖放来实现二级图表的定义。此外,autovis提供了使用所见即所得图表组合定制看板的能力,并实现了分层次看板的定义。
映射过程
为了实现图表定制的可用性和实时可扩展性,即整合编程模式的表达能力和交互模式的可用性,autovis设计并实现了三种互补的数据到图表的映射模式:交互选项、扩展选项和手工编码。
图表交互
在大数据场景中,图形交互能力变得越来越重要。Autovis图表模板提供了常见的交互功能,包括点击、浮动、刷动等。此外,autovis还实现了看板图的自动关联,并支持跨图表和数据钻取的能力。
看板服务
Autovis在支持常见看板链接共享的基础上提供看板服务能力,即用户不仅可以共享看板或将看板集成到其他系统中,还可以动态地将参数传递给看板,并动态地调整看板可视化内容。此外,autovis围绕看板提供了“数字会议室”的功能,用户可以围绕数字看板进行数据驱动的讨论和决策。
数据可视化已经成为人们理解数据的重要方式。在大数据时代,人们需要更有效的数据可视化工具来可视化分析大规模数据并快速捕捉数据变化。
与传统的数据可视化相比,大数据也带来了数据规模、数据融合、图表绘制效率、图表表达能力、系统可扩展性、快速构建能力、数据分析和数据交互等诸多挑战。有效应对这些挑战将有助于大数据可视化。随着大数据和数据科学的普及,它将推动其应用到更多的领域。
标题:大数据可视化技术面临的挑战及应对措施
地址:http://www.hcsbodzyz.com/hcxw/660.html