如何确定急剧增加/减少的数据点并使它们不适用？如何识别和消除异常值？

问题描述

我正在清理来自多个温度传感器的数据。我正在尝试编写代码，以查找相对于相邻数据点数据急剧增加或减少的位置，并使该点为NA / null。

我试图通过一个for循环和几个if语句来做到这一点，但是这种方法似乎存在一些问题。即，if语句实际上不适用于NA值。因此，如果循环的第一部分由于增加太多而使其中一个条目成为NA，则第二部分将返回错误，因为它试图对NA条目执行操作。

我希望将异常值设为NA，而不是删除条目，因为稍后我希望可以用相邻值的平均值替换NA值。

有人知道不一样的方法来识别/消除变化太大/异常的数据吗？


#maximum change per sampling interval 
c<- 1.5   
#make datapoints that increased/decreased too much from the prevIoUs datapoint NA
                for(x in 2: length(cleandata)){

                if((cleandata$tempdiff[x] - cleandata$tempdiff[x-1])>=c) cleandata$tempdiff<-NA
                if((cleandata$tempdiff[x-1]-cleandata$tempdiff[x])>=c) cleandata$tempdiff<-NA
                }

这是数据集的简化部分：

structure(list(TIMESTAMP = structure(c(1594911720,1594911780,1594911840,1594911900,1594911960,1594127280,1594127340,1594127400,1594127460,1594127520,1594127580),tzone = "",class = c("POSIXct","POSIXt")),sensor = c("TempDiffs.1.","TempDiffs.1.","TempDiffs.2.","TempDiffs.2."
),tempdiff = c(10.45,12.5,10.52,10.48,12.47,12.48,12.49,12.52,12.52)),row.names = c(NA,-11L),groups = structure(list(
    sensor = c("TempDiffs.1.","TempDiffs.2."),.rows = structure(list(
        1:5,6:11),ptype = integer(0),class = c("vctrs_list_of","vctrs_vctr","list"))),row.names = 1:2,class = c("tbl_df","tbl","data.frame"),.drop = TRUE),class = c("grouped_df","tbl_df","data.frame"))

与此过程有关的另一个问题是传感器之间的过渡。我的数据被格式化为长/高。因此，有一列标识传感器，另一列包含温度数据。每个传感器具有不同的“典型范围”温度。因此，当从一个传感器切换到另一个传感器时，此代码可能会使数据无效，因为它的变化很大。我想出一种解决此问题的方法是在使异常值无效之前，按传感器列对数据进行分组。我会对此提出任何建议！

解决方法

我认为这应该可行。

{{1}}

data-cleaning for-loop na outliers r r