导出GCP自然语言注释器的已过滤子集

我正在基于GCP的自然语言AutoML实体提取服务构建训练数据集。我的文档中有一部分带有标签，我想将其导出以进行一些初步的探索性数据分析。我可以添加一个过滤器来显示“标签化”的文档，但是如果我尝试导出，它将导出我所有的文档。

有什么方法可以只导出那些符合过滤条件的内容？通过Python API也可以。

实际上，AutoML控制台中的“导出数据”链接将始终导出完整的数据集。没有仅导出所选项目的选项，但是有一个“删除所选项目”的选项。为了完成您的任务，我建议一种解决方法是删除“不需要的”项目。让我解释一下。

我建议您执行以下步骤。

这样，您的新数据集将仅包含带标签的文档，您可以执行导出数据并将结果集用于EDA。

最诚挚的问候！