标记大量配对的训练数据

问题描述

我正在训练一个模型来确定两个人是否相同。该模型应容纳两个人(表示为数据框行)

我正在尝试标记的配对数据 表格

Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
300 | 50     | 1     | na          | africa | 12     | 90
Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
700 | 100    | 0     | na          | africa | 12     | 90

这些对中的每对都发送到单独的csv文件中进行标记,因为我想训练一个分类器,该分类器将成对的人行并标记为重复项或不重复。

如您所见,如果我只有10个人,则可能很快就会失去控制。 10 C 2 = 45对。关于如何简化数据标记的任何想法?

我曾经考虑过要在excel中执行此操作,但是我觉得打开这么多excel文件肯定会造成问题。

解决方法

  • 排序数据框 O(N * log(N))
  • 检查相邻行是否相等 O(N)

要对相邻行进行操作,只需shift将该列移到一个位置即可;将每一行与原始行进行比较。

,

所以我想通了,我只需要在excel中将行配对, 即row1功能,row2功能,标签。 水平阅读功能很烦人,但是如果我使用外接显示器或2台显示器,那并不可怕。