大学做毕业设计的时候开始接触到搜索这个方向,当时做了一个很简单的爬虫然后将博客园的数据爬到了自己的数据库里,又download了博客园整个网站的样式,弄了一个作品交给老师混了优-。现在回过头来发现当时自己做的那个爬虫和设计都十分简陋,从时间和空间上来看,都跟菜鸟一样,飞不高、爬不快,而且时不时就挂掉了,而且还是单线程的(虽然当时有弄多线程,但是晕晕萌萌,也不知道效率怎么样),所以自那以后就一直惦记着要重新弄一个。
但是,当我在思考要怎么设计一个爬虫时(如今我已是毕业一年,参加工作一年了),我发现现在的我想得比当时想得多了一些,不仅仅从爬虫的功能,同时还有整体的开发框架、系统的可拓展性、数据结构的设计、设计模式,甚至是想弄一个像谷歌那样的搜索网站(当然,这显然只是说说而已)所涉及到的网站的架构和之后的网站的扩展等等问题,忽然之间,我发现我掉入了一个大坑里了。
所以,为了不至于掉在坑里起不了,我觉得,我有必要一步步来。写此博文,目的有二:一则捋清思路,二则集思广益(其实就是想各位路过的众大神拍拍砖,指点指点)。
接下来,我会整理一下目前我对该项目的数据库设计和想要实现的功能,然后po上来,欢迎拍砖。