使用java html解析器进行文本提取

我想使用一个html解析器,以一种漂亮,优雅的方式执行以下操作

>提取文字(这是最重要的)
>提取链接,元关键字
>重建原始文档(可选但很好的功能)

从我的调查到目前为止jericho似乎适合.你们推荐的其他任何开源库?

解决方法:

我最近尝试了HtmlCleaner和Cyber​​NekoHtml. Cyber​​NekoHtml是一个DOM / SAX解析器,可以产生可预测的结果. HtmlCleaner有点快,但往往无法产生准确的结果.

我推荐Cyber​​NekoHtml. Cyber​​NekoHtml可以完成你提到的所有事情.例如,提取所有元素及其属性的列表非常容易.如果要重构页面,可以遍历构建每个元素的DOM树.

这里有一个开源java html解析器列表:
http://java-source.net/open-source/html-parsers

上一篇:元数据提取-Java


下一篇:是否可以反编译.dll / .pyd文件以提取Python源代码?