我们如何从Apache Spark读取非常大的xml文件？

问题描述

我想在Spark上读取非常大的xml文件数据集（每个xml文件大小= 1TB），并对每个文件启动解析过程，以便最终将csv文件作为表。

我知道我们可以在Hadoop中使用StreamXmlRecordReader并处理xml，然后从spark中使用HDFS中的xml数据块，也可以从databricks中使用spark-xml库，使用java Mahout XmlInputFormat（Hadoop）解析xml，一些说对于大型xml文件，hadoop方法更好，因此需要了解解决此问题的最佳方法

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-kafka apache-spark spark-streaming