导出GCP自然语言注释器的已过滤子集

问题描述

我正在基于GCP的自然语言AutoML实体提取服务构建训练数据集。我的文档中有一部分带有标签,我想将其导出以进行一些初步的探索性数据分析。我可以添加一个过滤器来显示标签化”的文档,但是如果我尝试导出,它将导出我所有的文档。

有什么方法可以只导出那些符合过滤条件的内容?通过Python API也可以。

解决方法

实际上,AutoML控制台中的“导出数据”链接将始终导出完整的数据集。没有仅导出所选项目的选项,但是有一个“删除所选项目”的选项。 为了完成您的任务,我建议一种解决方法是删除“不需要的”项目。让我解释一下。

我建议您执行以下步骤。

  1. 导出完整的数据集(因此您不会从生产数据集中删除任何内容)。
  2. 通过从步骤1导入完整的数据集,在AutoML项目中创建一个新数据集。
  3. 过滤未标记的文档。
  4. 全选并删除(通过执行此操作,您将删除副本数据集中的未标记数据)。

这样,您的新数据集将仅包含带标签的文档,您可以执行导出数据并将结果集用于EDA。

最诚挚的问候!