Previous
最近在看并发编程,但是对于我这么个渣渣来说,显然有点儿困难,于是跟一个老司机请教,(ˇˍˇ) ~请他来出一个场景,然后我把我放在这个场景里面进行设计,so,玩一玩。。。
场景设计
数据库里面导入10w篇文章,然后对文章进行内容分词,采用多线程方式,线程池方式;
达到要求:
1,性能最大化;
2,资源收集 批量更新;
步骤设计
数据抓取
使用Python抓取10w的文章,存入mysql;
获取关键词集合
取出来所有文章不重复的关键词集合
关键词提取
使用tfidf算法进行关键词提取;