R函数中的POSIXlt和突变问题

问题描述

我正在研究具有n个数据帧的项目。在我与他们合作之前,有必要进行一些处理。 这些操作之一是向每个数据框添加“年”,“月”和“天”的列。还会获得并保留格式为“ yyyy-mm-dd”的“ date”列。

dateiNamen<-dir(path="input_folder",pattern = "merged",all.files = T)

Auswertung<-function(Dateiname){
  setwd("input_folder")
  data<-read.delim(Dateiname,stringsAsFactors = FALSE)
  data$date<-as.Date(data$date)
  data<-subset(data,data$date>"1994-12-31")
  data<-data[,colMeans(is.na(data))<0.15]
  
  Ausgabedatei <- paste0("output_folder",Dateiname,"_bearbeitet",".csv")
  write.table(data,file = Ausgabedatei,row.names = F,col.names = T,sep=",")
  setwd("Project_folder")
}

fun<-lapply(dateiNamen,Auswertung)

这是第一步,它应按预期工作,此后,任何这些数据帧的“日期”列(XX $ date)都具有以下结构:

head(XX$date)
[1] "1995-01-01" "1995-01-02" "1995-01-03" "1995-01-04" "1995-01-05" "1995-01-06"

str(XX$date)
 Date[1:9131],format: "1995-01-01" "1995-01-02" "1995-01-03" "1995-01-04" "1995-01-05" "1995-01-06" "1995-01-07" "1995-01-08" "1995-01-09" "1995-01-10" ...

class(XX$date)
[1] "Date"

dput(head(XX$date))
structure(c(9131,9132,9133,9134,9135,9136),class = "Date")

现在,我将第二个函数应用于数据框以在每个数据框中创建年,月和日的列:

dateiNamen2<-dir(path="output_folder",all.files = T)

Spalten<-function(Dateiname){
  setwd("output_folder")
  data<-read.csv(Dateiname,header = TRUE,";")
  
  
  data<-data%>%
        dplyr::mutate(     year = lubridate::year(date),month = lubridate::month(date),day = lubridate::day(date))
  
  Ausgabedatei <- paste0("output_folder_2",sep = ",")
  setwd("Project_folder")
}

fun2<-lapply(dateiNamen2,Spalten)

当我应用此功能时,出现以下错误

**Error in as.POSIXlt.default(x,tz=tz(x)): 
dont kNow how to convert "x" in class ""POSIXlt""**

我无法弄清楚是什么原因导致了这个问题,因为如果我在单个文件上运行相同的命令,它将可以很好地工作。 也许你们当中有人看到我想念的东西。

是的,这些功能可能“更漂亮”,但是它们是我写过的第一个功能。我会继续努力! :)

解决方法

您可以尝试使用此功能吗?

Spalten<-function(Dateiname){

  data <- read.csv2(Dateiname) #.....(1)
  data <- data %>%
            dplyr::mutate(date = as.Date(date),#.....(2)
                          year = lubridate::year(date),month = lubridate::month(date),day = lubridate::day(date))
  
  Ausgabedatei <- paste0("output_folder_2/",Dateiname,"_bearbeitet",".csv") #.....(3)
  write.table(data,file = Ausgabedatei,row.names = FALSE,col.names = TRUE,sep = ",")
}

dateiNamen2 <- list.files(path="output_folder",pattern = "merged",all.files = TRUE,full.names = TRUE) #.....(4)
fun2 <- lapply(dateiNamen2,Spalten)
  1. 使用read.csv2是因为它具有默认的sep = ";",并且header对于TRUE函数始终是read.csv
  2. 如果我们没有在read.csv2中明确提及该类,那么我认为日期不会自动读入“ Date”类。因此最好将其首先转换为“ Date”类。
  3. 如果"output_folder_2"是文件夹的名称,则应该有一个"/"来分隔文件名和文件夹名称。
  4. 使用list.files而不是dir来创建带有full.names = TRUE的文件名,以便它返回文件的完整路径,而我们不必使用setwd
  5. AuswertungSpalten函数中正在执行的操作组合到一个函数中,然后一次读写文件而不是在每个函数中分别进行处理,这会更好。 / li>