问题描述
我正在研究具有n个数据帧的项目。在我与他们合作之前,有必要进行一些处理。 这些操作之一是向每个数据框添加“年”,“月”和“天”的列。还会获得并保留格式为“ yyyy-mm-dd”的“ date”列。
dateiNamen<-dir(path="input_folder",pattern = "merged",all.files = T)
Auswertung<-function(Dateiname){
setwd("input_folder")
data<-read.delim(Dateiname,stringsAsFactors = FALSE)
data$date<-as.Date(data$date)
data<-subset(data,data$date>"1994-12-31")
data<-data[,colMeans(is.na(data))<0.15]
Ausgabedatei <- paste0("output_folder",Dateiname,"_bearbeitet",".csv")
write.table(data,file = Ausgabedatei,row.names = F,col.names = T,sep=",")
setwd("Project_folder")
}
fun<-lapply(dateiNamen,Auswertung)
这是第一步,它应按预期工作,此后,任何这些数据帧的“日期”列(XX $ date)都具有以下结构:
head(XX$date)
[1] "1995-01-01" "1995-01-02" "1995-01-03" "1995-01-04" "1995-01-05" "1995-01-06"
str(XX$date)
Date[1:9131],format: "1995-01-01" "1995-01-02" "1995-01-03" "1995-01-04" "1995-01-05" "1995-01-06" "1995-01-07" "1995-01-08" "1995-01-09" "1995-01-10" ...
class(XX$date)
[1] "Date"
dput(head(XX$date))
structure(c(9131,9132,9133,9134,9135,9136),class = "Date")
现在,我将第二个函数应用于数据框以在每个数据框中创建年,月和日的列:
dateiNamen2<-dir(path="output_folder",all.files = T)
Spalten<-function(Dateiname){
setwd("output_folder")
data<-read.csv(Dateiname,header = TRUE,";")
data<-data%>%
dplyr::mutate( year = lubridate::year(date),month = lubridate::month(date),day = lubridate::day(date))
Ausgabedatei <- paste0("output_folder_2",sep = ",")
setwd("Project_folder")
}
fun2<-lapply(dateiNamen2,Spalten)
**Error in as.POSIXlt.default(x,tz=tz(x)):
dont kNow how to convert "x" in class ""POSIXlt""**
我无法弄清楚是什么原因导致了这个问题,因为如果我在单个文件上运行相同的命令,它将可以很好地工作。 也许你们当中有人看到我想念的东西。
是的,这些功能可能“更漂亮”,但是它们是我写过的第一个功能。我会继续努力! :)
解决方法
您可以尝试使用此功能吗?
Spalten<-function(Dateiname){
data <- read.csv2(Dateiname) #.....(1)
data <- data %>%
dplyr::mutate(date = as.Date(date),#.....(2)
year = lubridate::year(date),month = lubridate::month(date),day = lubridate::day(date))
Ausgabedatei <- paste0("output_folder_2/",Dateiname,"_bearbeitet",".csv") #.....(3)
write.table(data,file = Ausgabedatei,row.names = FALSE,col.names = TRUE,sep = ",")
}
dateiNamen2 <- list.files(path="output_folder",pattern = "merged",all.files = TRUE,full.names = TRUE) #.....(4)
fun2 <- lapply(dateiNamen2,Spalten)
- 使用
read.csv2
是因为它具有默认的sep = ";"
,并且header
对于TRUE
函数始终是read.csv
。 - 如果我们没有在
read.csv2
中明确提及该类,那么我认为日期不会自动读入“ Date”类。因此最好将其首先转换为“ Date”类。 - 如果
"output_folder_2"
是文件夹的名称,则应该有一个"/"
来分隔文件名和文件夹名称。 - 使用
list.files
而不是dir
来创建带有full.names = TRUE
的文件名,以便它返回文件的完整路径,而我们不必使用setwd
。 - 将
Auswertung
和Spalten
函数中正在执行的操作组合到一个函数中,然后一次读写文件而不是在每个函数中分别进行处理,这会更好。 / li>