声明:本文首发在博客园晨星落羽,Shulin_Cao和lvmememe首页,转载请注明出处。
前言
2016.5到2017.5,我们三人(lvmememe,Shulin_Cao,晨星落羽)共同完成了一个本科生科研项目——简体中文版儿童搜索引擎。在做的过程中我们发现,垂直搜索引擎的框架其实都差不多,只不过数据库中存的资源不同而已,一些技术比如网页爬虫、网页提取、信息检索在大多数垂直搜索引擎中是通用的。因此就有了这篇文章,把我们在做项目的过程中用到的技术分享出来,希望能够对感兴趣的朋友有所帮助。本文会详细说明项目中我们已经实现的功能使用的技术,同时也会阐述一些我们希望以后可能会实现的功能。本文期望达到的效果是,一年以后,当我已经忘记现在用到的技术细节,自己再照着这篇文章做,依然可以做出一个同样的搜索引擎。
事实上,本文介绍的框架是一种最基本的简易框架,项目的完成也不代表项目的完善,我们还有许多功能鉴于时间限制和自身水平的限制,暂时没有实现。这些功能在文章中也会提及,只是无法展开细讲。尤其是机器学习、人工智能、数据挖掘等技术,在本文中不会涉及,本文关注更多的是网页爬虫(信息获取)、词条排序(信息检索)、前端后端通讯(信息展示),用到的语言主要包括Python、Java、PHP和前端网页制作的语言。
或许在专业人士看来,本文所讲解的技术也只是几十年前的古老技术,但是我们写这篇博客的目的也不是炫耀自己的技术有多高超,只是想分享一下自己的成果。希望大牛们谅解我们作为低年级本科生水平有限,对于文章的错误,欢迎批评指正,如果有好的想法,也欢迎多多交流!
项目的演示网址:http://www.kidsearch.cn/kidsearch/
目录
1. 垂直搜索引擎的框架介绍
2. 通过Python实现结构化信息获取
2.1 爬虫需要的环境
2.2 基于宽度优先搜索的网页爬虫
2.3 通用的网页信息结构化信息提取的方法
2.4 文章类网页提取的方法
...
3. 通过Lucene对结构化信息进行索引和检索
3.1 Lucene的安装与配置
3.2 Lucene基本检索功能的测试
3.3 把结构化信息加入索引并提供检索服务
3.4 站内检索等待条件的检索
...
4. 通过socket通讯提供网页检索服务
5. 通过MySQL实现用户管理和搜索历史记录
6. 加入元搜索的功能作为信息检索的补充
7. 敏感词和停用词过滤的实现
7.1 Lucene检索的敏感词和停用词过滤
7.2 前端检索的敏感词过滤(针对元搜索)
(鉴于篇幅较长,每日24:00之前更新一次)