使用java html解析器进行文本提取

2023-02-22 08:04:07

我想使用一个html解析器,以一种漂亮,优雅的方式执行以下操作

>提取文字(这是最重要的)
>提取链接,元关键字
>重建原始文档(可选但很好的功能)

从我的调查到目前为止jericho似乎适合.你们推荐的其他任何开源库？

解决方法:

我最近尝试了HtmlCleaner和CyberNekoHtml. CyberNekoHtml是一个DOM / SAX解析器,可以产生可预测的结果. HtmlCleaner有点快,但往往无法产生准确的结果.

我推荐CyberNekoHtml. CyberNekoHtml可以完成你提到的所有事情.例如,提取所有元素及其属性的列表非常容易.如果要重构页面,可以遍历构建每个元素的DOM树.

这里有一个开源java html解析器列表：
http://java-source.net/open-source/html-parsers

码农公寓