R:将长的单列数据帧扩展为两列,按字母和数字拆分,忽略标点符号

问题描述

我有一个很大的数据集,其中包含关键字,最后是一个值。我设法以pdf格式读取数据,并且剩下的数据如下:

  myData <- c("adjuster","7","hours","rate","oct 2 - 16,","19","_NA_NA_NA_NA_","total","gross","pay","6500","_NA_NA_NA_table","NA_copy","of","9.16.19 to 9.30.19.xlsx_NA")

myDataDF <- as.data.frame(myData)

我的目标是将单列字符数据“扩展”为两列,一列用于alpha值,第二列用于下面的数字值。我想介绍标点符号,但由于某些数字值带有标点符号,因此忽略了它作为将关键字与值分开的一种方式。我想用空格折叠关键字,直到找到一个数值,然后将其放在“值”列中。

我已经尝试过使用不同格式(长字符串和字符串拆分)的这种数据做很多事情,但是这种格式似乎最有利于达到最终目标(具有实际分析和执行计算的数据) 。我只是不知道如何合格才能继续崩溃,直到您在R中击中一个数字。

最终,如果看起来像这样,那就太好了

+==========================================+============================+
|                 keyword                  |           value            |
+==========================================+============================+
| adjuster                                 | 7                          |
+------------------------------------------+----------------------------+
| hours rate oct 2 - 16                    | 19                         |
+------------------------------------------+----------------------------+
| hours rate _NA_NA_NA_NA_ total gross pay | 6500                       |
+------------------------------------------+----------------------------+
| _NA_NA_NA_table NA_copy of               | 9.16.19 to 9.30.19.xlsx_NA |
+------------------------------------------+----------------------------+

解决方法

最后一行模式不是很清楚。根据数据,我们可以通过仅检测数值或“ myData”列中的“ xlsx”来创建分组列,然后subject通过https://stackoverflow.com/questions/64515601/problem-with-web-scraping-of-required-content-from-a-url-link-in-rsummarise以外的值来创建分组列第二列为paste

last

-输出

last