问题描述
我正在训练一个模型来确定两个人是否相同。该模型应容纳两个人(表示为数据框行)
我正在尝试标记的配对数据 表格
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
300 | 50 | 1 | na | africa | 12 | 90
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
700 | 100 | 0 | na | africa | 12 | 90
这些对中的每对都发送到单独的csv文件中进行标记,因为我想训练一个分类器,该分类器将成对的人行并标记为重复项或不重复。
如您所见,如果我只有10个人,则可能很快就会失去控制。 10 C 2 = 45对。关于如何简化数据标记的任何想法?
我曾经考虑过要在excel中执行此操作,但是我觉得打开这么多excel文件肯定会造成问题。
解决方法
- 排序数据框 O(N * log(N))
- 检查相邻行是否相等 O(N)
要对相邻行进行操作,只需shift
将该列移到一个位置即可;将每一行与原始行进行比较。
所以我想通了,我只需要在excel中将行配对, 即row1功能,row2功能,标签。 水平阅读功能很烦人,但是如果我使用外接显示器或2台显示器,那并不可怕。