转 nutch网页快照乱码解决方法

修改apache-tomcat-7.0.55\webapps\nutch-1.2下的cached.jsp

将content = new String(bean.getContent(details))

修改为content = new String(bean.getContent(details),"utf-8")

转 nutch网页快照乱码解决方法

在画红框的地方加上UTF-8即可

以下内容参考:http://blog.csdn.net/xiaomage_cn/archive/2010/07/13/5731112.aspx进行总结

如果改为UTF-8后如果为gb2312、gbk等页面将会出现乱码

然后还有一些文章是对Metadata修改parseDate的contentmeta来实现获取正确的编码方式,这个思路是非常正确的,但是还是有一点问题,仍然会存在一些gb2312的页面出现乱码,下面对网页快照乱码进行最终的一个简单的解决办法:

修改cache.jsp如下:

转 nutch网页快照乱码解决方法

上面画红框的是修改后的内容

蓝框是原始内容

转于 http://blog.csdn.net/witsmakemen/article/details/8187541

上一篇:OpenGL阴影,Shadow Volumes(附源程序,使用 VCGlib )


下一篇:关于dom脚本编程的一些优秀理念总结