R：将长的单列数据帧扩展为两列，按字母和数字拆分，忽略标点符号

问题描述

我有一个很大的数据集，其中包含关键字，最后是一个值。我设法以pdf格式读取数据，并且剩下的数据如下：

  myData <- c("adjuster","7","hours","rate","oct 2 - 16,","19","_NA_NA_NA_NA_","total","gross","pay","6500","_NA_NA_NA_table","NA_copy","of","9.16.19 to 9.30.19.xlsx_NA")

myDataDF <- as.data.frame(myData)

我的目标是将单列字符数据“扩展”为两列，一列用于alpha值，第二列用于下面的数字值。我想介绍标点符号，但由于某些数字值带有标点符号，因此忽略了它作为将关键字与值分开的一种方式。我想用空格折叠关键字，直到找到一个数值，然后将其放在“值”列中。

我已经尝试过使用不同格式（长字符串和字符串拆分）的这种数据做很多事情，但是这种格式似乎最有利于达到最终目标（具有实际分析和执行计算的数据）。我只是不知道如何合格才能继续崩溃，直到您在R中击中一个数字。

最终，如果看起来像这样，那就太好了

+==========================================+============================+
|                 keyword                  |           value            |
+==========================================+============================+
| adjuster                                 | 7                          |
+------------------------------------------+----------------------------+
| hours rate oct 2 - 16                    | 19                         |
+------------------------------------------+----------------------------+
| hours rate _NA_NA_NA_NA_ total gross pay | 6500                       |
+------------------------------------------+----------------------------+
| _NA_NA_NA_table NA_copy of               | 9.16.19 to 9.30.19.xlsx_NA |
+------------------------------------------+----------------------------+

解决方法

最后一行模式不是很清楚。根据数据，我们可以通过仅检测数值或“ myData”列中的“ xlsx”来创建分组列，然后subject通过https://stackoverflow.com/questions/64515601/problem-with-web-scraping-of-required-content-from-a-url-link-in-r除summarise以外的值来创建分组列第二列为paste值

last

-输出

last

alphanumeric r r regex string string