如何针对两个不同的数据和值分别匹配两个单独数据框中的行中的元素？

问题描述

我有两个数据框，下面为它们复制了真实数据。第一个数据帧如下：

FirstDataFrame <- data.frame("GroupID"   = c(1902,1905,1906,1914,1932,1964,1964),"SubjectID" = c(24626,13300,14126,2619,914,872,13325,12539,12597,13314,13343,1723,13333),"Age"       = c(17,13,16,17,5,9,8,14,10,7,16))

第二个数据帧看起来像，每个Age的值都被计数：

SecondDataFrame <- data.frame("OtherID" = c(1,2,3,4,6),"Age5" =c(0,11,12,57),"Age6"= c(0,52),"Age7" = c(0,42),"Age8" = c(0,50),"Age9" = c(0,46),"Age10" = c(0,41),"Age11" = c(19,"Age12" = c(14,39),"Age13" = c(54,78,83,13),"Age14" = c(69,101,145,0),"Age15" = c(59,114,128,"Age16" = c(77,127,107,"Age17" = c(61,91,82,0))

AgeX的{{1}}列中的每一个都对应特定的单岁年龄，如列名所示。

我的目标是针对SecondDataFrame中的每个GroupID：

提取年龄值（可能是向量）。请注意，FirstDataFrame内的某些年龄可能相同。例如，我可能有两个14岁的孩子。
在GroupID中，找到SecondDataFrame行，该行包含与ID中的年龄相匹配的最高频率，并且的计数至少为1 （如果年龄翻倍，则至少为2）在GroupID中。也就是说，找到具有最高列匹配频率（向量索引？）的GroupID行（或者也许是向量，我曾考虑过为每个OtherID设计一个向量）。
在OtherID内，将选定的GroupID分配给每个符合该条件的OtherID。
对于与该SubjectID的每次匹配，将关联的AgeX列中的计数减少1。
在OtherID内重复，直到所有GroupID的年龄都与SubjectID匹配为止。
循环到下一个SecondDataFrame。

正如您在GroupID中看到的那样，我有FirstDataFrame个主题，这些主题不能全部分配给GroupID中的同一OtherID。每个SecondDataFrame中的主题也有所不同。

要使事情变得更加复杂，GroupID年龄列没有截止值，因此如果所有OtherID和非OtherID都为在列Age11至Age5 或 Age10至Age12之间的所有非零计数。

我已清理数据，以使Age17中的每个AgeX计数至少包含{strong> 相同年龄的SecondDataFrame中的对象。已设置FirstDataFrame和FirstDataFrame中的最小和最大年龄值，以便它们完全匹配。

如何确保最大数量的比赛并适当减少计数？我发现了一些与获得最大匹配数有关的问题/答案。但是：

他们正在对一个向量与另一个向量进行简单测试，和/或
他们并没有减少匹配向量中的计数，而只是测试一个元素是否存在（或不存在），或者一个向量中有多少个值与另一个向量中的值匹配。

我可以使用嵌套的SecondDataFrame循环，但是我在如何进行频率匹配和减少计数方面陷入困境。我当时以为我需要在for ()年纪最小的年龄开始比赛，并在GroupID年内增加年龄，这就是我陷入困境的时候。

编辑：最终的GroupID如下所示：

FirstDataFrame

但是，FirstDataFrame <- data.frame("GroupID" = c(1902,16),"OtherID" = c(2,6,3)也将根据概率选择。例如，OtherID 1905年的三个少年也有可能处于GroupID 1或2。

相应地，对于OtherID中的每个匹配项，匹配的年龄单元将减少1。因此，对于SecondDataFrame 1905年，GroupID将以计数为结尾： OtherID = 82，Count13 = 127和Count16 = 81，这表示与原始计数相比减少了1，因为每个子匹配项都会将可用匹配项减少1。

解决方法

这是一个需要解决的长期而艰巨的问题，我不确定我是否已回答所有问题。

这是我解决此问题的方法，首先通过根据FirstDataFrame拆分GroupID并获得一个列表：

split_df <- split(FirstDataFrame,FirstDataFrame$GroupID)
split_df
#$`1902`
#  GroupID SubjectID Age
#1    1902     24626  17
#
#$`1905`
#  GroupID SubjectID Age
#2    1905     13300  13
#3    1905     14126  16
#4    1905      2619  17
#
#$`1906`
#  GroupID SubjectID Age
#5    1906       914   5
#6    1906       872   9
#
#$`1914`
#  GroupID SubjectID Age
#7    1914     13325   8
#8    1914     12539  14
# ...

现在，我将集中讨论一种情况，然后使用for循环遍历它。我选择1905，它是列表的第二个元素。首先提取该组的年龄，然后创建一个频率向量（而不是年龄）。我不知道更好的方法，所以这是不雅的解决方案

i = 2
ages <- split_df[[i]]$Age
ages
#[1] 13 16 17

ind_ages <- ages - 4 # "Indexize" ages: Age 5 become 1,6 become 2,...,17 become 13
ind_ages
#[1]  9 12 13

freq <- tabulate(ind_ages,nbins = 13)
freq
#[1] 0 0 0 0 0 0 0 0 1 0 0 1 1

频率向量的长度为13，在第9、12和13位为零，其余为零...这与SecondDataFrame中的第2至14列匹配。

现在，您可以派生一种向这些孩子随机分配OtherID的方法。一种可能性是使用多项式似然：给定分配给箱的一组概率，从箱9、12和13中获得3个球的机会。

对于SecondDataFrame中的每一行，我们可以计算每个年龄的比例（并将其用作概率）：

props <- apply(SecondDataFrame[,2:14],1,function (x) x/sum(x))
props
#            [,1]      [,2]      [,3]      [,4]       [,5]       [,6]
#Age5  0.00000000 0.0000000 0.0000000 0.1222222 0.14814815 0.14736842
#Age6  0.00000000 0.0000000 0.0000000 0.1333333 0.09876543 0.13684211
#Age7  0.00000000 0.0000000 0.0000000 0.1333333 0.11111111 0.11052632
#Age8  0.00000000 0.0000000 0.0000000 0.1000000 0.13580247 0.13157895
#Age9  0.00000000 0.0000000 0.0000000 0.1333333 0.08641975 0.11842105
#Age10 0.00000000 0.0000000 0.0000000 0.1333333 0.13580247 0.10789474
#Age11 0.05428571 0.0000000 0.0000000 0.1000000 0.09876543 0.11052632
#Age12 0.04000000 0.0000000 0.0000000 0.1444444 0.14814815 0.10263158
#Age13 0.15142857 0.1529412 0.1522936 0.0000000 0.03703704 0.03421053
#Age14 0.19714286 0.1980392 0.2660550 0.0000000 0.00000000 0.00000000
#Age15 0.16857143 0.2235294 0.2348624 0.0000000 0.00000000 0.00000000
#Age16 0.21714286 0.2490196 0.1963303 0.0000000 0.00000000 0.00000000
#Age17 0.17142857 0.1764706 0.1504587 0.0000000 0.00000000 0.00000000

同样，使用apply()，我们可以计算出三个孩子排成一行的可能性（props中的注释变为列）。

likelihood <- apply(props,2,function (x) dmultinom(freq,size = sum(freq),prob = x))
likelihood
#[1] 0.03382111 0.04032567 0.02699215 0.00000000 0.00000000 0.00000000

prob_OtherID <- likelihood / sum(likelihood)
prob_OtherID
#[1] 0.3344025 0.3987156 0.2668819 0.0000000 0.0000000 0.0000000

属于OtherID的孩子的概率为33.4％，2为39.9％……这只是似然的加权平均值。这种计算方式仅在孩子数量少的情况下有效。如果您说一组中有100个孩子，则此代码由于数字问题而中断。

现在使用sample()为孩子们选择一个OtherID，更新列表。

chosenID <- sample(SecondDataFrame$OtherID,size = 1,prob = prob_OtherID)
split_df[[i]]$OtherID <- chosenID

最后，转到SecondDataFrame中的相应行，将年龄频率减去该组孩子的年龄频率：

SecondDataFrame[SecondDataFrame$OtherID == chosenID,2:14] <- 
    SecondDataFrame[SecondDataFrame$OtherID == chosenID,2:14] - freq

现在将它们放入for循环中，工作就完成了！更多注意事项：在本示例中，i = 4处的循环中断是因为SecondDataFrame中没有行同时具有8岁和14岁的孩子。其次，此算法不能保证您能够使用OtherID为其全部分配，因为随着SecondDataFrame中频率的降低，您越来越容易遇到{{1 }}。也许您会很幸运地将它们全部填满而没有错误，或者容量可能比主题数大得多，那么您会没事的。否则，您将不得不考虑其他方法来解决此问题。

dataframe matching r r vectorization