问题描述
由于我要在Google Cloud平台上进行情感 分析的工作,因此我决定使用 Dataproc 。是否值得使用Dataproc或有任何建议。我需要对Twitter上的巨大数据集进行情感分析。那就是我决定将Google云平台用作我的大数据和分布式环境。
解决方法
对于您的用例而言,GCP Dataproc绝对是一个不错的选择。 Dataproc本身支持Spark,最近还添加了对Spark 3的支持。
请检查哪个Dataproc image适合您的用例。
在集群上配置和运行Spark作业时,遵循以下资源可能会有所帮助。
-
Tutorial运行Spark scala作业
-
来自社区Spark job,PySpark Job,
的更多资源