如何确定急剧增加/减少的数据点并使它们不适用?如何识别和消除异常值?

问题描述

我正在清理来自多个温度传感器的数据。我正在尝试编写代码,以查找相对于相邻数据点数据急剧增加或减少的位置,并使该点为NA / null。

我试图通过一个for循环和几个if语句来做到这一点,但是这种方法似乎存在一些问题。即,if语句实际上不适用于NA值。因此,如果循环的第一部分由于增加太多而使其中一个条目成为NA,则第二部分将返回错误,因为它试图对NA条目执行操作。

我希望将异常值设为NA,而不是删除条目,因为稍后我希望可以用相邻值的平均值替换NA值。

有人知道不一样的方法来识别/消除变化太大/异常的数据吗?


#maximum change per sampling interval 
c<- 1.5   
#make datapoints that increased/decreased too much from the previous datapoint NA
                for(x in 2: length(cleandata)){

                if((cleandata$tempdiff[x] - cleandata$tempdiff[x-1])>=c) cleandata$tempdiff<-NA
                if((cleandata$tempdiff[x-1]-cleandata$tempdiff[x])>=c) cleandata$tempdiff<-NA
                }

这是数据集的简化部分:

structure(list(TIMESTAMP = structure(c(1594911720,1594911780,1594911840,1594911900,1594911960,1594127280,1594127340,1594127400,1594127460,1594127520,1594127580),tzone = "",class = c("POSIXct","POSIXt")),sensor = c("TempDiffs.1.","TempDiffs.1.","TempDiffs.2.","TempDiffs.2."
),tempdiff = c(10.45,12.5,10.52,10.48,12.47,12.48,12.49,12.52,12.52)),row.names = c(NA,-11L),groups = structure(list(
    sensor = c("TempDiffs.1.","TempDiffs.2."),.rows = structure(list(
        1:5,6:11),ptype = integer(0),class = c("vctrs_list_of","vctrs_vctr","list"))),row.names = 1:2,class = c("tbl_df","tbl","data.frame"),.drop = TRUE),class = c("grouped_df","tbl_df","data.frame"))

与此过程有关的另一个问题是传感器之间的过渡。我的数据被格式化为长/高。因此,有一列标识传感器,另一列包含温度数据。每个传感器具有不同的“典型范围”温度。因此,当从一个传感器切换到另一个传感器时,此代码可能会使数据无效,因为它的变化很大。我想出一种解决此问题的方法是在使异常值无效之前,按传感器列对数据进行分组。我会对此提出任何建议!

解决方法

我认为这应该可行。

{{1}}

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...