我有一些
HTML,我需要从页面中提取实际的书面文本.
到目前为止,我已经尝试使用Web浏览器并呈现页面,然后转到文档属性并抓取文本.这有效,但仅限于支持浏览器的地方(IE com对象).问题是我希望这也可以在wine下运行,所以我需要一个不使用IE COM的解决方案.
必须有一种编程方式来做到这一点是合理的.
解决方法
我不确定在Delphi中推荐解析HTML的方法是什么,但是如果是我的话,我会想要捆绑一份html2text(使用该名称的旧
C++ program或更新的
Python program)并生成一个打电话给其中一个.
您可以使用py2exe将Python html2text转换为可执行文件.两个html2text程序都是根据GPL许可的,但只要您将其可执行文件与您的应用程序捆绑在一起并根据GPL的限制使其源可用,那么您应该没问题.