DuReader是中文机器阅读理解数据库,包含一个基线模型,可以用来研究机器阅读理解。
项目地址:https://github.com/baidu/DuReader
运行基线模型的步骤:
1. 系统安装Python
2. 安装PaddlePaddle(也可以选择TensorFlow方式运行,这样需要安装TensorFlow)
3. 下载项目代码
https://github.com/baidu/DuReader.git
4. 下载数据,解压到项目代码的data目录
https://ai.baidu.com/broad/download
解压后的数据:
5. 下载第三方依赖库
cd utils && bash download_thirdparty.sh
6. 训练模型
这里要对源代码进行下修改,我的系统python的运行命令是python3,因此修改paddle/run.sh中的python命令:
注释掉paddle/run.py中导致错误的输出代码:
cd paddle && sh run.sh --prepare
sh run.sh --train --use_gpu 0 --pass_num 5
我用的Mac,无法使用GPU,因此要设置参数use_gpu为0,采用CPU来计算。
接下来要开始研究啦,在此基础上创建更好的模型:)