问答系统
SQuAD数据集
给定一段文字作为context,给定一个问题question,从context中寻找一段连续的文字(text span)作为问题的答案。
https://rajpurkar.github.io/SQuAD-explorer/
代码
https://github.com/galsang/BiDAF-pytorch
几个sample问题
文本摘要系统
给定一长段原文,
生成较短的摘要。
模型思路
Seq2Seq模型
Copy Mechanism
Coverage Loss
代码
https://github.com/atulkum/pointer_summarizer
大规模预训练语言模型
ELMo
一个预训练两层双向LSTM语言模型
https://www.aclweb.org/anthology/N18-1202
https://github.com/allenai/allennlp
AllenNLP
一个很好的构建NLP模型的package,基于PyTorch
AllenAI在2018 EMNLP上的一个tutorial
https://github.com/allenai/writing-code-for-nlp-research-emnlp2018/blob/master/wri
BERT
不是一个语言模型,目标是预测masked word
OpenAI GPT-2
代码
https://github.com/huggingface/pytorch-pretrained-BERT