使用Spark在Google Dataproc上的情感分析

问题描述

由于我要在Google Cloud平台上进行情感 分析的工作,因此我决定使用 Dataproc 。是否值得使用Dataproc或有任何建议。我需要对Twitter上的巨大数据集进行情感分析。那就是我决定将Google云平台用作我的大数据和分布式环境。

解决方法

对于您的用例而言,GCP Dataproc绝对是一个不错的选择。 Dataproc本身支持Spark,最近还添加了对Spark 3的支持。

请检查哪个Dataproc image适合您的用例。

在集群上配置和运行Spark作业时,遵循以下资源可能会有所帮助。

  1. Creating and configuring cluster

  2. Submit a job

  3. Tutorial运行Spark scala作业

  4. 来自社区Spark jobPySpark Job

    的更多资源