我想使用一个html解析器,以一种漂亮,优雅的方式执行以下操作
>提取文字(这是最重要的)
>提取链接,元关键字
>重建原始文档(可选但很好的功能)
从我的调查到目前为止jericho似乎适合.你们推荐的其他任何开源库?
解决方法:
我最近尝试了HtmlCleaner和CyberNekoHtml. CyberNekoHtml是一个DOM / SAX解析器,可以产生可预测的结果. HtmlCleaner有点快,但往往无法产生准确的结果.
我推荐CyberNekoHtml. CyberNekoHtml可以完成你提到的所有事情.例如,提取所有元素及其属性的列表非常容易.如果要重构页面,可以遍历构建每个元素的DOM树.
这里有一个开源java html解析器列表:
http://java-source.net/open-source/html-parsers