问题描述
我有一个数据框,其中包含州列表以及该州内的县ID。每个县内都有一些人的身份证,每个县的身份证总数可能不同。每个州最多有20个县。我在下面做了一个简短的示例,以显示该架构的外观。
基本上,我想对县进行随机抽样,并使用与县相关的IDS进行进一步分析。但是我希望ID的总数为每个州IDS总数的10%。有什么好方法吗?
我尝试了df.groupby('State')。apply(lambda x:x.sample(frac = .1),但最终在县ID的某些部分获得ID,基本上我想通过县的ID总数等于州总数的10%,我只是不知道该怎么写。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)