渣排版预警!
出发点
新闻用户为什么会点:
主观:用户兴趣/热点事件
客观:新闻标题(新闻入口)/新闻内容(更简单,更有趣)
标题分类:
surprise,好奇,负例,数字,你,客观的描述,问题的形式 。。。。
我们这个目标就是建立问题的形式。
ABtest:
question形式点击基本为15%,非question为13%(虽然abtest感觉不太标准。
用户的好奇心。
任务 Task
1.原文中直接抽取标题
2.摘要式抽取标题,理解完文本之后,自己生成
1.句法树
2.seq2seq
给输入的新闻文本,通过seq2seq产生headline
解决方法
seq2seq,rnn处理。每个单元替换成为lstm,GRU(核心都是通过gate来保留信息)
gru效率比lstm高,而且更简单,故选择gru
用attention mechanism去做的标题生成
word encoder是BI-Gru处理:正向信息和反向信息
sentence encoder也是一个bi-gru
实验评价结果
很牛逼