GCP AutoML“复杂”示例

问题描述

我正在使用 GCP 的 AutoML 产品首次涉足 ML 类型的工作。我在一家水系统技术公司工作，想使用 AutoML 来识别潜在客户。我们有一个事件数据集，其中包括 1950 年至 2020 年之间的日期、坐标、一些关于该事件的数字数据，以及一个名称，用于标识在同一“位置”发生的具有不同坐标或日期的两个事件。>

此信息应足以推断出我们的产品/服务在某个地理区域内是否有很好的广告机会。目前对数据集的理解是，类似时间范围和地理区域中的一组事件应该表明对我们产品的潜在需求，我认为可能会引入额外的数据，例如。平均收入、以前的客户/网络访问等

数据集没有任何字段来量化事件对客户来说是好还是坏的指标。这是我不知道如何继续的地方。

我们准备在地理区域内进行一些测试广告，以确定我们的手动分析是否准确。然后使用这些测试的结果为我们在广告中使用的“训练数据”设置一个值。

我想这更像是一个工作流/数据科学问题，而不是一个专门的 GCP AutoML 问题。

示例数据：（大的“D”和小的“F”/“L”，以及地理和时间集群，表示该地理区域的潜在客户。）该数据集目前有 50,000 多个条目。

NAME    COORDINATE     DATE          D    F    L    No.
FFAY    xx.aa yy.aa    1950/02/15    50   5    15   1
FFAY    xx.ab yy.ab    1950/02/15    75   2    19   2
FFAY    xx.ac yy.ba    1950/02/16    60   9    22   3
FFAY    xx.ad yy.cb    1950/02/17    50   5    25   4
IATT    yx.aa xy.aa    1958/11/04    90   2    17   1
IATT    yx.aa xy.aa    1958/11/08    75   3    13   2
IATT    yx.aa xy.aa    1975/06/22    55   5    32   1
IATT    yx.aa xy.aa    1975/06/22    67   12   45   2

.....
.....
.....

FFAY    xx.af yy.af    1999/05/27    20   3    7   1
FFAY    xx.ag yy.ag    1999/05/30    22   7    9   2

解决方法

您说得对，您的数据需要一个标签。您可以尝试手动标记明显的数据样本，然后您可以尝试对数据进行聚类以查看其中是否存在某些模式？我要做的是尝试在空间上可视化具有不同属性的数据。

如果您可以运行新实验以收集更多带有标签的数据，这将是检查先前步骤假设的绝佳机会。更重要的是，有时甚至很少（~20）个标记数据样本也足以为更大的数据样本（~1000）构建一个很好的模型——我对潜在客户评分问题做了类似的事情。但这取决于问题和数据质量。

您可以尝试使用 MLJAR AutoML，而不是在相当昂贵的 GCP AutoML 上运行。它是一个开源的python包。 GitHub 上提供https://github.com/mljar/mljar-supervised 重要说明：MLJAR 是完全透明的，您可以查看模型的详细信息，而 GCP AutoML 模型是黑盒的。对 MLJAR 与 GCP 的最终性能感到好奇，在这里您对来自 Kaggle https://mljar.com/automl-compare/

的 10 个数据集进行了比较

automl data-science dataset dataset dataset google-cloud-automl

GCP AutoML“复杂”示例

问题描述

解决方法

相关问答