人工智能企业云知声首度公开“医疗+AI”战略

2022-08-02 20:04 来源：读者提供作者：网友发布浏览：0

核心提示来源：南早网　　医疗领域是一个典型的富文本富知识领域，存在大量专业术语和知识以及海量医疗文本数据，包括电子病历、医学教材、临床指南和医学文献等。医疗AI的核心是让机器训练成一个合格的医生，能够阅读并理解医疗文本，具有医疗专业知识，并能做出正

资料来源:Nanzao.com

医学领域是典型的文本和知识丰富的领域，拥有大量的专业术语和知识以及海量的医学文本数据，包括电子病历、医学教材、临床指南和医学文献等。医疗的核心是把机器培养成一个合格的医生，能够阅读和理解医学文本，具备医学专业知识，做出正确的医疗决策。

近日，云知声-中科院自动化所语言与知识计算联合实验室团队取得关键技术突破，自主研发了基于高效持续学习的医学预训练语言模型，并针对多项下游任务进行了微调。该方法在CBLUE2.0月榜综合得分排名第一，体现了团队在医疗AI行业的技术领先性。

中国医学信息处理排行榜CBLUE2.0榜单排名

CBLUE:中国医学信息领域首个公开评测基准

中文医学信息处理挑战列表CBLUE是由中国信息学会医学健康与生物信息处理专业委员会在合法、开放、共享的理念下发起的，旨在推动中医药NLP技术和社区的发展。这个榜单的设计综合考虑了两个维度:任务类型和任务难度。目标是建立一个涵盖广泛任务类型的基准，同时保证任务的难度。因此，榜单在吸收以往CHIP/CCKS/CCL等学术评价任务的同时，也适当增加了行业数据集。业务数据集的特点是数据真实且有噪声，这对模型的鲁棒性提出了更高的要求。CBLUE benchmark 2.0的任务形式多样，涵盖了5大类任务和15个子任务，包括医学信息抽取、医学术语标准化、医学文本分类、医学句子关系判断和医学对话理解与生成。其数据来源广泛，包括医学术语、医学教科书、电子病历、临床试验征集文本、互联网咨询文本等。榜单推出后，受到了学术界和产业界的广泛关注。自2021年4月正式上线以来，已吸引了包括医疗专业人士在内的超300支团队参与榜单，逐渐发展成为检验中文医疗信息处理能力的“金标准”。

CirBERTa，云知声医学前期培训的语言模型

云知声-中科院自动化所语言与知识计算联合实验团队在医学预训练语言模型技术上取得突破，登上CBLUE2.0榜首，模型在5个单项任务中排名第一，在10个单项任务中排名前三，取得了74.700的好成绩。

成功峰会背后的关键技术是CirBERTa，这是由联合实验室团队开发的医学预训练语言模型。首先，基于团队在医学知识图谱和医学文本理解方面的多年积累，利用预训练语言模型领域增强和知识增强技术，我们学习了超过100万个医学术语和超过200G的医学文本数据，大大提高了我们理解和生成医学文本的能力。其次，现有的预训练语言模型方法侧重于建模一般的语义理解能力，不能有效区分不同难度水平的样本，导致对困难样本的处理能力较弱。为了解决这个问题，CirBERTa在DeBERTa-V3模型的基础上融入了持续学习的概念。一方面，自动识别和检测当前模型中难以理解的语义内容；另一方面，通过增量训练，模型可以更好地理解和记忆这些语义内容。连续迭代学习的两个方面增强了模型的语义表达能力和困难数据的学习能力。无论是在通用领域，还是在医疗等低资源领域，CirBERTa都显著提高了模型的训练效率和深度语义分析能力，实现了SOTA效应。

CirBERTa模型示意图

在此之前，云知声已经成功将医疗领域的NLP技术投入到多个项目中，并在多个评测比赛中获得冠军和亚军。本次峰会有效验证了云知声在医疗NLP技术上的先进性和全面性。目前，预训练语言模型CirBERTa已经全面应用于云知声智慧医疗的多条产品线，包括病历质控系统、单病种质量管理平台、导诊预诊机器人、医保审核系统等。未来，云知声将继续推动自然语言处理、知识图谱等技术在医疗领域的技术创新，用科技的力量打造虚拟医生，提供智慧医疗服务，建设智慧医院。