nlp – 如何从Gutenberg项目中删除页眉/页脚?

我尝试过各种方法从Gutenberg项目中删除许可证,用作语言学习项目的语料库,但我似乎无法提出无人值守的可靠方法.到目前为止,我提出的最好的启发式是剥离前二十八行,最后一个398,它为大量的文本工作.任何建议,我可以自动剥离文本(这是非常相似的许多文本,但每个案例略有不同,以及一些不同的模板),以及如何验证的建议文字已被精确地剥离,将非常有用.

解决方法

你不是在开玩笑几乎就好像他们试图让AI完成这个工作.我只能想到两种方法,两者都不完美.

1)在Perl中设置一个脚本来处理最常见的模式(例如,查找“生成的”这个短语,继续下一个空白行,然后剪切),但是对于什么是预期(例如,下一个文本应该是标题或作者).当模式失败时,你会知道的.第一次模式失败,手动执行.第二次修改脚本.

2)尝试Amazon’s Mechanical Turk.

相关文章

python方向·数据分析   ·自然语言处理nlp   案例:中...
原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo....
ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集...
 Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具...
NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一...
做一个中文文本分类任务,首先要做的是文本的预处理,对文本...