问题描述
我已经刮取 26 个 html 到我必须按模式拆分的数据框中。数据示例:
vers<-c("El Señor te bendiga y te guarde; el Señor te mire con agrado y te extienda su amor; el Señor te muestre su favor y te conceda la paz","Eviten toda conversación obscena. Por el contrario,que sus palabras contribuyan a la necesaria edificación y sean de bendición para quienes escuchan","No seas sabio en tu propia opinión; más bien,teme al Señor y huye del mal. Esto infundirá salud a tu cuerpo y fortalecerá tu ser.","Den gracias a Dios en toda situación,porque esta es su voluntad para ustedes en Cristo Jesús","¡Cuán bueno y cuán agradable es que los hermanos convivan en armonía! ","Tú,Señor,eres mi porción y mi copa; eres tú quien ha afirmado mi suerte.","bla bla señor bla bla","bla bla señor bla bla")
data<-c("1 enero 2020","2 enero 2020","3 enero 2020","4 enero 2020","5 enero 2020","6 enero 2020","7 enero 2020","8 enero 2020","9 enero 2020","10 enero 2020","11 enero 2020","12 enero 2020","13 enero 2020","14 enero 2020","15 enero 2020","16 enero 2020","17 enero 2020","18 enero 2020","19 enero 2020","20 enero 2020","21 enero 2020","22 enero 2020","23 enero 2020","24 enero 2020","25 enero 2020","26 enero 2020")
vers_123 <- data.frame(data,vers,stringsAsFactors=FALSE)
这是我得到的输出(一个包含 26 个连接向量列表的列表):
现在我想把它转换成一个维护这个结构的 data.frame。或者至少我想保留列表的 ID(26 个 ID,对于每个列表中的每个拆分文本)
我尝试使用 unlist,但这样我将所有拆分的文档都放在一个列表中。这使得无法知道它们属于哪个文档(行)。
我也试过下面的代码,但是这个代码不能正确识别从第二行开始的列表(我想是因为 26 个列表中的每一个都没有相同的长度)
vers123_splitted<-unlist(strsplit2 (vers_123$vers,split= "Señor|Dios",type = "before"))
cols <- c("z1","z2","z3","z4")
nC <- length(cols)
ind <- seq(from=1,by=nC,length=nrow(vers_123))
for(i in 1:nC) {
vers123_splitted[,cols[i]] <- vers[ind + i - 1]
}
我想要这样的东西:
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)