你如何从网页(Java)中获取文本?

我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息.

我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏.

你会建议什么技术/图书馆?

更新/备注

>速度无关紧要 – 只要它能在不到10分钟的时间内解析大约5MB的HTML.
>它真的很简单.

解决方法

您可以使用HTMLParser( http://htmlparser.sourceforge.net/)in与URL#getInputStream()组合来解析Internet上托管的HTML页面的内容.

相关文章

HTML代码中要想改变字体颜色,常常需要使用CSS样式表。CSS是...
HTML代码如何让字体盖住图片呢?需要使用CSS的position属性及...
HTML代码字体设置 在HTML中,我们可以使用标签来设置网页中的...
在网页设计中,HTML代码的字体和字号选择是非常重要的一个环...
HTML(Hypertext Markup Language,超文本标记语言)是一种用...
外链是指在一个网页中添加一个指向其他网站的链接,用户可以...