我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息.
我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏.
你会建议什么技术/图书馆?
更新/备注
>速度无关紧要 – 只要它能在不到10分钟的时间内解析大约5MB的HTML.
>它真的很简单.
解决方法
您可以使用HTMLParser(
http://htmlparser.sourceforge.net/)in与URL#getInputStream()组合来解析Internet上托管的HTML页面的内容.