基于网页内容的聚类系统设计
- 根据给出的一组网页地址,然后对指定的网页按内容聚成3类
- 网页地址如下所示
1 http://blog.sina.com.cn/s/blog_59d698c90102zfct.html
2 http://blog.sina.com.cn/s/blog_9c2fe26f0102z3ja.html?tj=fina
3 http://blog.sina.com.cn/s/blog_6479dc5b0102ymb3.html
4 http://blog.sina.com.cn/s/blog_59d698c90102zfd2.html
5 http://blog.sina.com.cn/s/blog_59d698c90102zfcl.html
6 http://blog.sina.com.cn/s/blog_14fdd56530102yknf.html?tj=tiyu
7 http://blog.sina.com.cn/s/blog_62dc4e590102zot3.html?tj=fina
8 http://blog.sina.com.cn/s/blog_1506181220102z9x9.html?tj=fina
9 http://blog.sina.com.cn/s/blog_683c082b0102z3qc.html
实现步骤
1、抓取指定网址的源码;
2、解析网页文章内容;
3、对文章内容进行分词,并转换成向量表示(词袋法或TF.IDF);
4、选取合适的距离公式和聚类算法进行聚类,要求聚成3类。(可以用欧式距离或余弦距离等。聚类方法可以考虑用K-means方法等。)
具体要求
1、显示解析后的网页文章内容;
2、显示文章对应的向量;
3、显示文章向量与三个类的类中心距离;
4、显示最终的分类结果,即哪些网址分为一类。