导入html文本时缺少定界符错误

问题描述

使用Designer玩Azure机器学习，并在导入数据时出现“找不到分隔符”错误。

我最初从几百个存储为天蓝色斑点的html文件开始。每个文件都将被视为一行文本，但是，我无法导入这些文件以进行进一步的文本分析。

我创建了一个Data Factory作业，该作业导入了每个文件，从文本中删除了所有制表符，引号，cr / lf，添加了文件名列并将其全部存储为以制表符分隔的组合文件。在notepad ++中，我可以确认格式为FileName tab HtmlText。这是我要导入到ML中的文件，并在尝试定义导入模块时收到缺少的定界符消息。

这是我尝试创建数据集时出现的错误：

{
  "message": "'Delimiter' is not specified or invalid."
}

问题1：是否有更好的方法对大量html文件进行文本分析？

问题2：在合并的.tsv文件中，是否需要使用一种有效的格式？

问题3：字符串列可能有最大长度吗？我的html可以是十万个字符。

解决方法

您是对的，可能是行长，但是我的猜测是仍然有一些特殊字符（例如，以\开头的任何字符都没有正确地转义或删除。如何刮取和剥离文本数据？您是否尝试过使用beautifulsoup？

azure-machine-learning-service azure-machine-learning-studio