【原创】薛存金:面向海洋异常变化的时空关联挖掘模型

内容为数据派独家内容数据派是清华大数据产业联合会官方微信公众账号,定期发布清华大数据系列讲座信息,分享讲座实录,欢迎个人转发、收藏 。

其他机构或媒体如需转载,请联系 yafei.xue@tsingdata.com 申请授权。

【在“数据派”回复“清华大数据”可下载此ppt(有效期7天哟)】

编辑:张梦


本文选自中国科学院数字地球重点实验室薛存金副研究员于2016年3月25日在清华大学“海洋大数据论坛”上所做的题为《面向海洋异常变化的时空关联挖掘模型》的演讲。



各位老师大家下午好,首先感谢清华大学提供这样一个平台。我这个比较具体,下面有几个方面展开。



简单说一下做这个事情的意义,首先海洋变化是对全球气候变化的响应与驱动的关系模式。第二是卫星遥感数据为宏观尺度上分析海洋异常变化提供了数据上的可行性。第三是传统的时空分析方法在处理时间序列时遇到的一些问题。



下面这个主要是遥感的海洋水测、动力。下面想分析一下目前的方法在梳理海洋各个之间的关系和遇到的问题。有信息、EOF、模式提取,这类方法提取时能够提取一类海洋要素是比较合适的。在时空相关分析方面包括典型的分析和SVD。针对多维的有多个或者两个以上的海洋之间有三个以上的方法提供相关的关系和模式,现在提的比较多的是数据挖掘的方法。从数据到信息、知识的过程。


下面分析一下我们想做的事情,利用多源数据和已有的时空挖掘算法,如何建立面向海洋异常变化的海洋时空挖掘理论?



针对时空关联规则挖掘模式做了一个框架结构。我们分析有四个方面的需求,首先要做的是从一个要素到多个海洋要素与全球变化信息的时空关联规则挖掘。第二是实现共位模式的海洋时空关联规则挖掘。第三是实现不同海域的海洋时空关联规则挖掘。第四是同时实现海洋时空关联知识在“区域”和“位置”上的可视化。


下面这个图简单的结构,从底层的数据层到中间的挖掘方法



现在对这个数据最基础的数据是遥感数据,为了实现不同的区间,对遥感数据有一个对象的提取。在方法方面分析了现有的方法,也有我们自己的方法。然后实现对象和栅格不同的关联。在这边我们首先想说一下针对遥感数据,首先是对象,有ENSO事件的识别、海洋锋、涡旋等,这些区域是比较敏感变化的区域提取



下面是单一的方法提出来的区域,这些区域都说明了不同的区域响应比较敏感的区,这些区我们也是作为一个对象的输入。



这个方法我们提出一个6F的基本方法,每一个区域的提取,这个是一个结果。这两条曲线现在看是比较吻合的,其中一条曲线是sst的时间特征。另外一条曲线是MEI,这两条曲线非常相关,基本上在0.98以上。这样的一个空间模态应该受到ENSO信号非常强的关联特征。



下面涉及到对象的提取过程,首先我们利用一个具像处理,把极简模式去掉,去ENSO相关的主干,然后提取敏感的区域。下面这张图比较难的是针对时间序列的,这是在太平洋这个点探出来的,下面这个明显的是季节模式,下面这张图是季节变化以后的模式,这种模式应该更能体现出序列变化的关系。



下面这个是面向栅格挖掘的结构,首先是针对多持续的遥感数据,满向时空挖掘的序列,然后是空间、时间、信息,定义一切的支持,这是我们的一个模式挖掘方法和模式的提取



下面这个框架是面向对象的,我们首先是基于遥感数据,提取了我们认为的敏感区域,通过一些参数的输入和算法的设计,最后实现对象与对象之间关联模式的提取



现在我们对已有的验算进行了分析,有一些缺陷,利用互信息的概念来挖掘方法



这个方法的概念利用信息论中的互信息概念,首先提取相关的2维关联模式。在平台下扫描的过程中,二维是计算复杂度最高的。针对二维的关联模式设计了M+1的算法,最后形成一个比较强的关联模式。



这个算法和比较典型的Apriori进行了对比,上面这个表列出来的是在扫描的次数上分了三个步骤,在第一步扫描时我们自己的算法是扫描一次,结果是25的关联模式。AP得出来的是15。第二个阶段是针对每一个关联模式的级别扫了一次,A级算发对后选级的选择一般次。在这一步中,我们针对比较复杂的项目越多,我们这里的计算复杂度会降低。第三步基本上是一致,是后选的关联规则,最后产生的是相关的关联规则。



下面是几个对比的情况,这个代表的是计算的时间,红色的曲线是AP算法,蓝色的曲线是我们的算法,在不同的支持度情况下,随着支持度的降低,效率是比较明确的。随着支持增加,这两个算法的差异不太明显。在二维关联模式基础的过程中,如果支持增加,勾选项就比较少。这一项相对两个之间的差异不会太大。从关联模式上来看,随着支持度的增加,模式降低了,这个符合基本关联的情况。



这个是每一个栅格对应了同步的模式,每一个规格数往栅格上填写,数多的话代表敏感性比较强,我们可以明显地看到,在东太平洋、西太平洋是比较敏感的。也许我们会想更进一步地分析,对某一个要素产生的环节要素的影响,我们想做一个例子,把ENSO放在前面,ENSO发生的情况下,海洋响应敏感区域的分布情况。下面还要具体看哪两个的具体情况,我们可以看到ENSO在前,sstA在后。



下面具体的例子是遥感数据从1998年到2012年的数据分析,把上面所有的算法和系统的研发建立一个数据库的情况。


最后就是我们得出来的一些具体规则的挖掘。这个表达的LaNina事件发生的时候,区域1SLA异常降低,前后2个月该区域温度变化的情况。最后讨论涉及到这样的规则框架,有两个策略,对象和栅格。然后是每个栅格要素与运算信息比较全面,但是比较复杂。如果是对象的话,算法简单,但是信息丢失是一个情况。谢谢大家。


相关文章

自1998年我国取消了福利分房的政策后,房地产市场迅速开展蓬...
文章目录获取数据查看数据结构获取数据下载数据可以直接通过...
网上商城系统MySql数据库设计
26个来源的气象数据获取代码
在进入21世纪以来,中国电信业告别了20世纪最后阶段的高速发...