导入html文本时缺少定界符错误

问题描述

使用Designer玩Azure机器学习,并在导入数据时出现“找不到分隔符”错误

我最初从几百个存储为天蓝色斑点的html文件开始。每个文件都将被视为一行文本,但是,我无法导入这些文件以进行进一步的文本分析。

我创建了一个Data Factory作业,该作业导入了每个文件,从文本中删除了所有制表符,引号,cr / lf,添加文件名列并将其全部存储为以制表符分隔的组合文件。在notepad ++中,我可以确认格式为FileName tab HtmlText。这是我要导入到ML中的文件,并在尝试定义导入模块时收到缺少的定界符消息。

这是我尝试创建数据集时出现的错误

{
  "message": "'Delimiter' is not specified or invalid."
}

问题1:是否有更好的方法对大量html文件进行文本分析?

问题2:在合并的.tsv文件中,是否需要使用一种有效的格式?

问题3:字符串列可能有最大长度吗?我的html可以是十万个字符。

解决方法

您是对的,可能是行长,但是我的猜测是仍然有一些特殊字符(例如,以\开头的任何字符都没有正确地转义或删除。如何刮取和剥离文本数据?您是否尝试过使用beautifulsoup