一、数据资产目录建设
依据卫生部信息化工作领导小组办公室卫生部统计信息中心2011年3月发布的《基于电子病历的医院信息平台建设技术解决方案——业务部分》。
临床服务域
包含12个二级类目:患者标识、患者服务、入出转、医嘱、病历文书、护理文书、检验、检查、手术麻醉、治疗、输血、健康体检,业务子域共计26个。
医院管理域
包含4个二级类目:医疗管理、人力资源管理、财务管理、物资及后勤服务管理。共有业务子域共26个。
平台应用域
包含5个二级类目:区域医疗协同、管理决策、临床决策、公共卫生信息上报、患者公众服务。共有业务子域20个。
梳理建设以业务活动为核心的数据资产目录,如图一:
图一:以业务活动为核心的数据资产目录
二、数据中心建设
根据业务活动创建主题,如图二:
图三:业务活动主题
梳理数据元标识符,保证每一个数据元的标识符具有唯一性(基本数据集:城乡居民健康档案、疾病管理、医疗服务、电子病历等)
1、数据元标识符“DE08.10.052.00”来源依据《TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方》,如图三:
图三:TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方
2、数据允许值“WS218--2002”来源依据《WS 218-2002 卫生机构(组织)分类与代码》,如图四:
图四:WS 218-2002 卫生机构(组织)分类与代码
关联映射业务系统表字段,并创建调度任务,如图五。
图五:创建映射关系,并加入调度任务
映射多表情况下,需要选择关联表主外键字段,如图六:
图六:主外键关系
调度任务可支持针对单表、全表,历史数据抽取,实时数据监听抽取俩种模式,如果图七:
图七:调度任务
三、数据质量质控
具有对数据质量进行评估的完整的指标体系。至少应该有完整性(事件、表单、记录、表项),一致性(主数据一致性、逻辑一致性),唯一性(无二义冗余、指标及计算口径),及时性,原始性,可溯源性及可测量性。
四、数据中台建设
根据数据资产目录快速定位业务主题,如图八:
图八:根据目录快速定位业务表
根据不同业务场景,自定义勾选数据元名称,自动生成API或新的主题库(数据集市)
五、技术架构参考
数据仓库
主要步骤包括:⑴ 命名实体识别,即在文本中找到关键词,并能与文中所指的概念对应起来。如在某一文本中,不仅能通过基因符号识别出这个基因,也可以通过同义词,或以往名称识别出该基因。⑵ 信息抽取,基于语言结构的先验知识(如自然语言中的主、谓、宾三元结构),通过自然语言处理方法,抽取出特定的动词或名词。⑶ 信息存储,将抽取到的信息(数据)加载并转存到标准化数据模型中,形成以患者为中心、医院临床信息系统(HIS、EMR、LIS、PACS等)无缝、连续和可互操作的集中式医疗大数据平台。该过程中的数据抽取、转化、加载称之为数据仓库(extract-transform-load, ETL)技术。
构建综合诊治知识库
精准治疗绝不是某一阶段的精准,应贯穿治疗全过程,即治疗前需要精准诊断,然后精准治疗,治疗失败后还需要再精准诊断和再精准治疗,直至治疗结束。
机器学习与应用
获取并控制到海量且有效的医疗大数据后,运用不同的机器学习算法,对规范化治疗中出现的“耐药性”病例进行再分析,从构建好的知识库中进行“学习”并存储,为下一步的临床治疗(包括药物、手术、放/化疗和生物治疗)实施提供精确的支持与指导。
大数据技术
基于Hadoop大数据平台搭建全文检索引擎,实现海量结构、非结构化数据的高效存储和检索,提供更快、更优用户体验。
安全管理
医疗大数据的隐私保护主要依赖于传统数据隐私保护的密码学技术。通过建立数据的分级制度,对于不同级别的信息采用不同的保护措施,并设定访问权限的控制。