Google Vertex AI AutoML - 无法为 CSV 数据集指定架构

问题描述

我已经基于一些 CSV 文件在 Vertex AI / Datasets 中创建了表格数据集。但是,当我尝试在 AutoML 中使用这些数据集进行训练和预测时,无法指定字段的数据类型。在 the docs 中,我找不到如何进行“转换”。理论上它支持以下类型:

对于 BigQuery 表,很明显可以获取数据类型,因为它是由表的架构明确指定的。但是,对于 CSV 文件,有时找出字段的类型并不明显,实际上在我的情况下,有时 AutoML 会错误地猜测。任何想法如何为 CSV 文件明确指定数据类型?

解决方法

在 Automl 中有一些用于训练数据模型的步骤:

第一步是通过确保正确(格式化、保持最佳行数、宽或窄格式、使用空格分隔文本、适当地表示空值等)来准备 Best Practice 之后的数据。和数据导入后。)

Automl tables 中导入数据后,它会自动检测和分析所提供的 CSV 文件,并提供有关分类、数字、文本和时间戳数据类型的信息,如下图所示。数据类型的转换发生在数据导入之后。

在您的情况下,Automl 猜测不正确,因此我们可以通过单击箭头(出现在数据类型旁边)来明确指定数据类型,如下图所示。 有关 Automl 表的演示,请参阅此 video

enter image description here