hanlp 2.x
的文档逻辑不太好看,这里记录一下语义角色标注任务的相关代码与文档中的重要内容
hanlp github地址:https://github.com/hankcs/HanLP
hanlp各种任务缩写:https://hanlp.hankcs.com/docs/data_format.html#naming-convention
从文档中可以看到“tok”是分词,“srl”是语义角色标注
hanlp语义角色标注标签含义:https://hanlp.hankcs.com/docs/annotations/srl/cpb.html#chinese-proposition-bank
任务思路
- 导入模型(更多请参考:https://blog.csdn.net/weixin_35757704/article/details/122741836)
- 传入句子,说明需要执行的任务
- 导出结果
示例代码
import hanlp
if __name__ == '__main__':
# 导入模型
lp_model = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)
sentences = [
"语义角色标注是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。",
]
for _se in sentences:
sentences_analyze = lp_model(_se, tasks=['tok', 'srl']) # 执行分词与语义标注
srl_analyze = sentences_analyze['srl']
for srl_info in srl_analyze:
for text, mark, index_0, index_1 in srl_info:
print(text, mark)
pass
pass
得到的结果:
语义角色标注 ARG0
是 PRED
一种浅层的语义分析技术 ARG1
标注 PRED
句子中某些短语为给定谓词的论元(语义角色),如施事、受事、时间和地点等 ARG1
为 PRED
给定谓词的论元 ARG1
其 ARG0
产生 PRED
推动作用 ARG1