第六次Scrum meeting
任务及完成度:
成员 | 12.21 | 12.22 |
陈谋 |
任务1040:完成*的数据处理后的json处理(98%) 任务1114-1:完成对网页数据的处理和整合(60%) 任务1114-2:完成对pdf、ppt数据的处理和整合 在对在线组后台添加数据的时候会发现数据添加成功,但是query的时候却找不到的问题 所以还需要与在线组进行沟通交流,以确定最终的格式规范 |
任务1114-3:完成对doc(x)数据的处理和整合 |
卢惠明 |
任务1042-1:测试tags的正确率、召回率和F值(100%) 任务1042-2:测试关键词的正确率、召回率和F值(20%) 由于对数据源进行分类整理需要的时间较多,所以处理起来比较困难 |
任务1042-3:完成最终结果分析,并对算法进行一些改进 |
李剑锋 |
任务1044:完成知乎网站的数据处理(100%) 任务656:完成软件的UI处理,并让前后端程序以弱耦合的方式连接 (10%) 想要推倒我们以前的界面从头做起很困难,所以我们尽可能在保证以前界面的同时,把耦合度降低 |
任务656:完成软件的UI处理,并让前后端程序以弱耦合的方式连接 |
马腾跃 | 任务1046:测试程序的可靠性和稳定性 | 任务1046:测试程序的可靠性和稳定性 |
刘夕霆 |
任务1047:完成与手机客户端组的需求交流,并实时更新需求,并整理成一份文档(70%) 与手机客户端小组的联系一直是我们的重点,我们将会在这个阶段完成对手机客户端小组需要的数据的支持 |
任务1047:完成与手机客户端的需求交流,并实时更新需求,并整理成一份文档 |
仉伯龙 |
任务1050:整合在线组和手机客户端两组的要求,并和爬虫组进行沟通,完成相应的文档撰写(70%) 这个阶段能够接起来是最关键的,所以我们多次进行沟通交流,以确保最后能够成功连接成功 |
任务1050:整合在线组和手机客户端两组的要求,并和爬虫组进行沟通,完成相应的文档撰写 |
燃尽图:
开会照片:
代码/文档签入记录:
Tags的正确率、召回率和F值:
系统输出的结果和人工标注的结果进行比较,采用的评价指标为正确率,召回率及F值;具体计算公式如下:
1)查准率(precision)是指人工抽取和自动抽取均判断为tags的数目占整个自动抽取为tags的比率,它反映tags抽取系统准确抽取tags的能力。
precision = |{人工标注的tags} ∩ {系统的tags}| / |{系统的tags}|
2)召回率(recall)是指人工抽取和自动抽取均判断为tags数占整个人工抽取tags的比率,它反映tags自动抽取系统发现tags的能力。
recall = |{人工标注的tags} ∩ {系统的tags}| / |{人工标注的tags}|
3)F测度值(F Measure)是查准率与召回率的调和平均值
F = 2 * precision * recall / (precision + recall)
F值最高时的实验结果::
查准率:0.6260958503798948
召回率:0.6264619883040936
F值:0.6262788658287051