首个中文医疗NLP挑战正式开榜啦!

各位开发者们,有没有遇到过算法才思泉涌但无数据验证的困境?或是论文方向确定但没算力支持检测模型得分的问题?别怕,天池数据集最新推出了打榜的功能,第一弹就聚集了8大优质医疗NLP数据集,让我们一起来看看吧。


中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。


CBLUE自2021年4月1日起上线,排行榜每日8点统一更新排名。每个月定期评出王者、星耀和钻石,以每月最后一天上午8点的排名结果为准(如2021年4月以4月30日上午8点排名结果为准)。其中王者有一队,为第一名;星耀有两队,为第二名和第三名;钻石有三队,为第四名、第五名和第六名。以上排位获得不同礼品。


作为首个中文医疗信息处理挑战,CBLUE覆盖了8大医疗NLP任务,在吸收往届CHIP学术评测的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。下面介绍下CBLUE榜单所包含的数据集。


CMeEE

数据集全称是Chinese Medical Entity Extraction,由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供,这是一个标准的NER识别任务,共包括9大类实体:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。和传统NER略有不同的是,实体之间存在嵌套关系,嵌套实体是医学文本中常见的现象,因此在模型处理上要比常用的NER模型复杂。


CMeIE

数据集全称是Chinese Medical Information Extraction,与CMeEE的数据提供方一样。这是一个关系抽取任务,共包括53类关系类型(具体类型参加官网介绍),从关系种类数量来看,这是一个比较难的任务。与传统的关系抽取任务有两处不同: 1. 预测阶段并没有事先给出要判定关系类型的实体,输入就是原始的文本,因此选手需要同时处理实体识别和关系抽取,可以看作是一个端对端的关系抽取任务;2. 训练数据中的实体并没有给出具体的下标,如果一个实体在句子中多次出现,这个任务的难点是无法得知关系中的实体具体是指哪一个实体。


此外这个任务的标注数据还提供了一些额外的信息,如“Combined”字段表示两个实体是否出现在同一个句子中,true表示两个实体分布在跨句子中,false表示分布在同一个实体中。跨句子的关系抽取一直是关系抽取中较难解决的问题。总体上这个任务的难度较大,特别希望看到刷榜选手有好的解决思路。


CHIP-CDN

数据集全称是CHIP - Clinical Diagnosis Normalization dataset,是由医渡云(北京)技术有限公司提供的。前缀CHIP[2]表示中国健康信息处理会议,全称是China Health Information Processing Conference,是由CBLUE榜单的发起单位中国中文信息学会(CIPS)医疗健康与生物信息处理专业委员会主办的关于医疗、健康和生物信息处理和数据挖掘等技术的年度会议,是中国健康信息处理领域最重要的学术会议之一。这是一个标准的实体标准化/归一化任务,将给定的实体映射到标准字典(ICD10)上,是一个非常真实的医学临床的任务。


这个任务的难点由于医学表达过于多样,要预测的词汇可能会存在多个归一词条,如数据集例子中给出的“右肺结节转移可能大” -> “肺占位性病变##肺继发恶性肿瘤##转移性肿瘤”,应该需要融入医学知识才能更好的解决这个问题。


CHIP-CTC

数据集全称是CHiP - Clinical Trial Criterion dataset,是由同济大学生命科学与技术学院提供。是一个典型的端文本多分类问题,共有44个类别(具体类别请参照天池官网)。按照笔者的经验,多分类问题最大的难点是要解决样本分布不均匀的问题,刷榜选手需要关注下样本分布比例问题。


CHIP-STS

数据集全称是CHIP - Semantic Textual Similarity dataset,是由平安医疗科技提供。是一个典型的语义相似度判断问题,共包含5大类疾病,0/1两类标签。这个任务应该不太难。


KUAKE-QIC

数据集全称是KUAKE-Query Intention Classification,是由夸克公司提供。也是一个文本分类问题,共有11种分类(具体分类请查看天池官网),这个任务的难点会是输入均来自于真实的用户query,存在一定的噪音。


KUAKE-QTR

数据集全称是KUAKE-Query Title Relevance dataset,也是由夸克公司提供。和CHIP-STS类似,是一个典型的Query-Title match问题,只不过是一个4分类问题(共0~3分 4档)。笔者看了下例子,部分例子还是比较难,如“Q=大腿软组织损伤怎么办,T=腿部软组织损伤怎么办”,这对Q-T的相关性是2分而非3分,因为“大腿”是“腿部”的一个子集,这类任务应该要融入医学知识来能做到更好的性能。


KUAKE-QQR

数据集全称是KUAKE-Query Query Relevance dataset,也是由夸克公司提供。和KUAKE-QTR类似,是一个典型的Query-Query match问题,是一个3分类问题(共0~2分 3档)。任务的难点同KUAKE-QTR,需要融入医学知识和常识来能做到更好的性能,如这个例子“Q1=石榴上火么, Q2=吃番石榴上火吗”,相关度是0分,官方给的解释是“石榴和番石榴”是两种完全不同的水果。互联网语料的丰富度是几个KUAKE前缀任务都要面临的问题。


总体来看,8个任务覆盖了NLP领域大部分类型的问题,包括序列标注、文本分类和句子关系判定,因为这是一个LUE(Language Understanding)榜单,所以没有出现文本生成的任务。任务类型丰富,均贴近实际应用,部分任务(如CMeIE关系抽取)很有难度。欢迎业界和学术界的同行们一起加入到CBLUE benchmark的建设中,一起来推动医疗行业标准数据集的发展。


详情请参见数据集专题页数据集详情页。更多活动信息和动态,请扫描下方二维码加入官方钉群后获得。也可以发送需求邮件到tianchi_opendataset@alibabacloud.com。期待你的加入和建议!

首个中文医疗NLP挑战正式开榜啦!

上一篇:允许ubuntu下mysql远程连接


下一篇:noopener与nofollow之间的区别