项目整体流程

 

项目整体流程
#!/bin/bash

## 文件目录
######################## Local Contens ##############################
# 主目录
root_dir= hadoop@bigdata03:/data/beiyou/minelab/
#子目录
    $root_dir/Src/liming/
                /yinhang/
                /shaoxianlei/
# 子目录
    $root_dir/source_data
    Commmon/search_keywords.data
           /datafilter_keywords.data
           /stopwords.list
           /rate_avg_overlap.data(rate_i avg_i overlap_i)(计算覆盖范围)
           /director_filter_keywords.data
           /anchorman_filter_keywords.data
           /program_actor_filter_keywords.data
           
    Conf/topicid/2014****/topicname_id.data.total
        
    SinaUser/2014****/sinauser.data(用户id    昵称    性别    location    图片url    生日    粉丝数    微博数    关注数    标签列表)
    TencentUser/2014****/tencentuser.data(用户id    昵称    性别    location    图片url    生日    粉丝数    微博数    关注数    标签列表)
    
    SinaWeibo/2014****/sina.retain(微博id    用户id    创建时间    内容    评论数    转发数    赞数    关键词id)
                      /sina.droped(微博id    用户id    创建时间    内容    评论数    转发数    赞数    关键词id)
                      /sina.unfiltered(weiboid\tcontent(分词,去停用词,空格分隔)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\t创建时间)
                      /sina.data(weiboid\tcontent(分词,空格分隔)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\t创建时间)
                      /weiboid_update.list(关键词id    微博id    微博url 微博内容 用户id)
                      /comment_retweet_praise.update(微博id 评论 转发 赞 微博内容 用户id topicid)
                      
    TencentWeibo/2014****/tencent.retain(微博id    用户id    昵称    创建时间    内容    评论数    关键词id)
                         /tencent.droped(微博id    用户id    昵称    创建时间    内容    评论数    关键词id)
                         /tencent.unfiltered(weiboid\tcontent(分词,去停用词,空格分隔)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\t创建时间)
                         /tencent.data(weiboid\tcontent(分词,空格分隔)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\t创建时间)
                         /comment.update(无)
                         
    Tianya/2014****/tianya.retian(帖子id    楼主id    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    关键词id)
                   /tianya.droped(帖子id    楼主id    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    关键词id)
                   /tianya.unfiltered(帖子id\tcontent(分词,去停用词,空格分隔)\t-1\t回复数\t点击数\t0\tuserid\t关键词id\t创建时间)
                   /tianya.data(帖子id\tcontent(分词,空格分隔)\t-1\t回复数\t点击数\t0\tuserid\t关键词id\t创建时间)
                   /click_reply.update(无)
                   
    TieBa/2014****/tieba.retain(帖子ID    帖子标题    回复数    创建时间    关键词id)
                  /tieba.droped(帖子ID    帖子标题    回复数    创建时间    关键词id)
                  
    Video/2014****/pptv/pptv.retain(评论id    视频名称    评论内容    用户昵称    回复数    评论时间)
                       /pptv.droped(评论id    视频名称    评论内容    用户昵称    回复数    评论时间)
                       
    Video/2014****/sohu/sohu.retain(评论id        总的视频名称(如央视春晚2013)+子节目名(如春暖花开 那英)    视频id    评论内容    用户id    评论时间)
                       /sohu.droped(评论id        总的视频名称(如央视春晚2013)+子节目名(如春暖花开 那英)    视频id    评论内容    用户id    评论时间)
                       
    Video/2014****/youku/youku.retain(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                        /youku.droped(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                        
    Video/2014****/aiqiyi/aiqiyi.retain(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                         /aiqiyi.droped(评论id    视频名称    视频id    评论内容    用户id    评论时间)
    Miss_craw_rate/2014****/miss_craw.data(所有关键词在新浪微博上显示的总条数(int))
#子目录
    $root_dir/TotalStatus/2014****/overall_effect.result(total_comment_count total_forward_count total_attention_count)
                                /word_count.data(万字)
    $root_dir/Program/2014****/topn_program.list(1    programname    count)
                              /topn_program.weibo                                
    $root_dir/Actor/2014****/topn_actor.list(1    actorname count)
                            /topn_actor.weibo
    $root_dir/TotalTopic/2014****/topn_topic.list(1    topicname count)
                                 /topn_topic.weibo
    $root_dir/DirectorTopic/2014****/topn_topic_director.list
                                    /topn_topic_director.weibo
    $root_dir/AnchormanTopic/2014****/topn_topic_anchorman.list
                                     /topn_topic_anchorman.weibo
    $root_dir/TiebaTopic/2014****/
    
    $root_dir/TimeTrend/2014****/topic_timetrend.data(topic_name time)
                                 
    
#子目录
    $root_dir/lda_model/2014****/
                                /train.data
                                /wordmap.txt
                                /linenum_topicid.map
                                /model-final.tassign
                                /model-final.twords
                                /model-final.others
                                /model-final.perplexity
                                /model-final.phi
                                /model-final.theta
                                /nw.data
                                /nd.data
                                /realtopic_ldatopic.map(ldatopic\trealtopic:attribute\trealtopic:attribute)
                                /topicid.data(topicid topiccontent count)
#子目录
    $root_dir/director_model/2014****
                                    /director.data(sina\tweiboid\tcontent(分词,去停用词)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\tcreat_time)
                                    /train.data
                                    /inf.data
                                    /wordmap.txt
                                    /linenum_topicid.map
                                    /model-final.tassign
                                    /model-final.twords
                                    /model-final.others
                                    /model-final.perplexity
                                    /model-final.phi
                                    /model-final.theta
                                    /nw.data
                                    /nd.data
                                    /realtopic_ldatopic.map
                                    /topicid.data
                                    /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个,没有则为‘null’), 评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                    /final.data(source,weiboid,ldatopic(4th),self_topic(‘null‘),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                                自身的Topic在最终计算的时候另外考虑
    

#子目录
    $root_dir/anchorman_model/2014****
                                    /anchorman.data(sina\tweiboid\tcontent(分词,去停用词)\ttopicid(没有为-1,多个用:分割)\t评论\t转发\t赞\tuserid\t关键词id\tcreat_time)
                                    /train.data
                                    /inf.data
                                    /wordmap.txt
                                    /linenum_topicid.map
                                    /model-final.tassign
                                    /model-final.twords
                                    /model-final.others
                                    /model-final.perplexity
                                    /model-final.phi
                                    /model-final.theta
                                    /nw.data
                                    /nd.data
                                    /realtopic_ldatopic.map    
                                    /topicid.data
                                    /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                    /final.data(source,weiboid,ldatopic(4th),self_topic,评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                                自身的Topic在最终计算的时候另外考虑

                               
#子目录
    $root_dir/lda_inference/2014****/inf.data(第一个字段为数据来源:source\tweiboid\tcontent(分词,空格分开))
                                    /result_data/(第一个字段为数据来源:sina\tencent\tianya) (source\tweibo_id\t1:39(空格)3:24)
                                    /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                    /final.data(source,weiboid,ldatopic(4th),self_topic(‘null‘), 评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                                自身的Topic在最终计算的时候另外考虑
    
#子目录(延迟两天计算,只计算一次)
    $root_dir/Influence/2014****
                       /common/top_comment_retweet_praise.list(weiboid count content userid)
                       /opinion_leader/opinion_leader_weibo.data
                                      /opinion_leader.data
                                      /topn_opinion_leader.list
                       /analysis/topic_topweibo.list(topicid topiccontent\tweiboid1:retweet\tweiboid2:retweet\tweiboid3:retweet) 
                                /influence_weiboid.list(weiboid)
                             

#子目录(延迟两天计算,只计算一次,汇总所有的结果)
    $root_dir/FinalResult/overall_effect.final(total_comment_count    total_forward_count    total_attention_count)
                         /hot_talk/topn_topic.final(topic_content related_count)
                                  /topn_program.final(program_name related_count)
                                  /topn_actor.final(actor_name related_count)
                                  /topn_topic_director.final(topic_content related_count)
                                  /topn_topic_anchorman.final(topic_content related_count)
                                  /topic_timetrend_chw.final(topic_name    count_list[])
                                  /topic_timetrend_60.final(1 topic_name    count)
                                  
                                  
                         /influence/topic_coverage.final
                                   /influence_propagation.final(topiccontent weibo_timer_shaft)
                                   /opinion_leader.final(username    coment_retweet_praise)
                                   /top_comment_retweet_praise.final(weiboid    count userid    weibo_content)

###########################################################################

###################### Hadoop Contents #############################################
#主目录
hdfs_root_dir = "cctv"
                   
#子目录
    $hdfs_root_dir/lda_model/2014****
                                     /nw.data
                                     /wordmap.txt

#子目录
    $hdfs_root_dir/lda_inference/2014****
                                /inf.data
                                /newnw.data
                                /newnw.data.tmp
                                /middle_data/result_data/part-r-00***
                                /output/

#####################################################################################



################################ 数据预处理 #########################################
#原始数据存放位置及命名:
    root_dir:hadoop@bigdata02:/home/minelab/raw_data/
    每天创建文件夹:2014****/
        数据文件夹:
            SinaWeibo/${keyword_id}.txt
            TencentWeibo/${keyword_id}.txt
            TianYa/${keyword_id}.txt
            TieBa/${keyword_id}.txt
            Viedo/${video_source}/${video_source}.txt
        数据字段(字段之间都用‘\t‘分割,对于没有的字段填充’null‘,字段说明在单独的配置文件中,不用写到文件的第一行):
            SinaWeibo:
                主键key 关键词 微博id 用户id 微博url 创建时间 内容 图片url 视频url 音乐url 发博来源 转发数 评论数 赞数 所转发微博id 所评论微博id(目前都是0) 抓取时间
            TencentWeibo:
                微博ID    用户ID    用户名    微博内容    评论数    发布时间    抓取时间
            Tianya:
                帖子ID    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    楼主ID
            TieBa:
                帖子ID    帖子标题    创建时间    楼主名称    正文
            Video:
                pptv:
                    评论id    视频名称    评论内容    用户昵称    是否vip    ip地址    回复数    评论时间    

                搜狐视频:
                    评论id    视频名称    视频id    评论内容    用户id    评论时间

                优酷:
                    评论id    视频名称    视频id    评论内容    用户id    评论时间
                    
                爱奇艺
                    评论id    视频名称    视频id    评论内容    用户id    评论时间
            SinaUser:
                主键key 用户id testresult 昵称 property domainname 性别 描述 用户类型 认证原因 location 省份 城市 图片url 博客url 微号 生日 星座 关注数 粉丝数 微博数 qq msn mail 性取向 情感状况 血型 关注列表 粉丝列表 标签列表 创建时间 更新时间


详见:数据预处理.pipeline

################################ 整体情况 ############################################
详见整体情况.pipeline            

################################ 热议指数 ############################################
详见热议指数.pipeline

################################ 影响力   ############################################
详见影响力.pipeline

## 数据可视化
详见
整体流程

项目整体流程

上一篇:C语言—控制小球移动(同贪吃蛇移动原理)


下一篇:WebAudioAPI