今日：

通知公告

投稿指南

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

期刊导读

主页 > 期刊导读 >

医学文献中疾病误诊信息的提取

来源：临床医学研究与实践 【在线投稿】栏目：期刊导读时间：2020-12-28

作者:网站采编
关键词:
摘要：0 引言全世界50 年来平均误诊率为30%，但鉴于医疗水平的限制，误诊率一直高居不下，尤其是一些疑难杂症。因此，从文献中提取误诊信息供医生和患者参考尤其必要。冯洪海[1]等

0 引言

全世界50 年来平均误诊率为30%，但鉴于医疗水平的限制，误诊率一直高居不下，尤其是一些疑难杂症。因此，从文献中提取误诊信息供医生和患者参考尤其必要。冯洪海[1]等统计和分析了现阶段互联网医学用户症状和相应的疾病分布情况，官兵[2]、张雪齐[3]等针对单独的一种疾病或一类疾病的误诊信息做出了研究。目前还没有文献对医学误诊文献做过系统的分析。

在做文本数据分析之前，已从权威医学期刊获取了大量的医学误诊案例文献。通过人工读文献的方式，从中总结出初始的误诊关键字、通过对关键字进行分析，将关键字进行分类，而后分类建立模型。从文献中获取文本信息，从中提取出初始的疾病库，通过编程实现误诊信息模型并通过模型将文本中的误诊信息提取出来。

1 算法设计过程

误诊信息分两种：一种是疾病A 误诊为疾病B，因此，疾病分“误诊为”的疾病B 和“被误诊”的疾病A。另一种是多个疾病互相混淆而有可能误诊。在标题或正文中，多处出现疾病名称，但未必是疾病之间误诊的信息，因此，要先由误诊关键字确定误诊上下文。另外，即便出现两个疾病，两个疾病之间误诊的信息有正反两个方面，即有可能A 误诊成B，也可能B 误诊成A。

1.1 误诊关键字的获取

误诊上下文分为标题和正文两种。通过比较，针对标题的误诊关键字适用于正文；针对正文的误诊关键字不一定适用于标题。针对标题的“误诊…”、“误诊为…的…”等关键字。针对正文的误诊关键字“需与…相鉴别”、 “易与…混淆”等。

1.2 误诊信息上下文的提取

误诊信息上下文的预处理，借鉴文献[4]中的策略。关于上下文长短的确定，文献[4]中设定为误诊关键字为误诊关键字所在的两个句号段落。本文将提取单元设定为含有误诊关键字的一个句号的句子。

1.3 识别疾病以及提取文献中的误诊信息

流程如图1 所示。

2 提取结果

对于训练集，加入更为准确的关键字，去除“B 超-疾病”和一些没有必要存在的提取结果，如“高血压-高血压”等结果，将算法进行改进，完善算法的控制逻辑。扩充疾病库之后，错误率也明显下降。经上述的完善之后，疾病提取的错误率降低到14.22%。

测试集中存在有当前误诊关键字集合之外的关键字，导致一些误诊规律无法被提取出来，目前召回率稳定在99%，错误率稳定在16.89%。完善疾病库、完善关键字集合、完善算法的提取规则将是下一步优化的目标。

表1提取结果统计表（训600练篇集）（4训37练5集篇）测试集（500 篇）错误率错误率召回率错误率去错除明误显 2.00% 14.22% 99% 16.89%

3 结束语

不论是训练集还是测试集，错误率和召回率都与误诊关键字列表和疾病列表的完整性有关，未来要降低错误率和提高召回率，需要从完善误诊关键字列表和研制新的疾病实体名称识别算法方面入手，因为有些疾病名称是俗语或简化描述或在国际疾病标准术语中未载入。

通过在大量医学误诊案例中总结误诊信息、提取误诊关键字、建立误诊模型等方式提取医学误诊文献中误诊信息。在后期的研究过程中，可对提取结果的精确度做更加准确的处理。从文本中分析出的误诊为的疾病可能有若干种，这些疾病之间可能也存在误诊关系；这些疾病也存在和“误诊”病不相关的情况，后续研究可对结果做统计分析，完善疾病库、关键字集合和算法的提取规则，总结更普遍的规律，减少医学误诊的发生。

［1］冯洪海,孙元灿,李利敏,宋舒晗,黄俊辉.基于Web 医学数据的互联网医学用户研究[J].计算机时代,2014(04):41-46.

［2］官兵,张惠箴,汪亮.胃底伴血管瘤的脾组织植入误诊为胃肠间质瘤1 例 [B]. 临床与实验病理学杂志,1001=7399(2019)05-0618-02.

［3］张奇雪,阮宏莹,郑永哲,张桂敏,林鹏.鼻硬结病误诊为鼻中隔囊肿1 例. 临床耳鼻咽喉头颈外科杂志 [B].

［4］刘源,冯洪海.医疗纠纷文献的数据挖掘[J].电子技术与软件工程[J].R197.3;

图1 算法一

0 引言全世界50 年来平均误诊率为30%，但鉴于医疗水平的限制，误诊率一直高居不下，尤其是一些疑难杂症。因此，从文献中提取误诊信息供医生和患者参考尤其必要。冯洪海[1]等统计和分析了现阶段互联网医学用户症状和相应的疾病分布情况，官兵[2]、张雪齐[3]等针对单独的一种疾病或一类疾病的误诊信息做出了研究。目前还没有文献对医学误诊文献做过系统的分析。在做文本数据分析之前，已从权威医学期刊获取了大量的医学误诊案例文献。通过人工读文献的方式，从中总结出初始的误诊关键字、通过对关键字进行分析，将关键字进行分类，而后分类建立模型。从文献中获取文本信息，从中提取出初始的疾病库，通过编程实现误诊信息模型并通过模型将文本中的误诊信息提取出来。1 算法设计过程误诊信息分两种：一种是疾病A 误诊为疾病B，因此，疾病分“误诊为”的疾病B 和“被误诊”的疾病A。另一种是多个疾病互相混淆而有可能误诊。在标题或正文中，多处出现疾病名称，但未必是疾病之间误诊的信息，因此，要先由误诊关键字确定误诊上下文。另外，即便出现两个疾病，两个疾病之间误诊的信息有正反两个方面，即有可能A 误诊成B，也可能B 误诊成误诊关键字的获取误诊上下文分为标题和正文两种。通过比较，针对标题的误诊关键字适用于正文；针对正文的误诊关键字不一定适用于标题。针对标题的“误诊…”、“误诊为…的…”等关键字。针对正文的误诊关键字“需与…相鉴别”、 “易与…混淆”等误诊信息上下文的提取误诊信息上下文的预处理，借鉴文献[4]中的策略。关于上下文长短的确定，文献[4]中设定为误诊关键字为误诊关键字所在的两个句号段落。本文将提取单元设定为含有误诊关键字的一个句号的句子识别疾病以及提取文献中的误诊信息流程如图1 所示。2 提取结果对于训练集，加入更为准确的关键字，去除“B 超-疾病”和一些没有必要存在的提取结果，如“高血压-高血压”等结果，将算法进行改进，完善算法的控制逻辑。扩充疾病库之后，错误率也明显下降。经上述的完善之后，疾病提取的错误率降低到14.22%。测试集中存在有当前误诊关键字集合之外的关键字，导致一些误诊规律无法被提取出来，目前召回率稳定在99%，错误率稳定在16.89%。完善疾病库、完善关键字集合、完善算法的提取规则将是下一步优化的目标。表1提取结果统计表（训600练篇集）（4训37练5集篇）测试集（500 篇）错误率错误率召回率错误率去错除明误显 2.00% 14.22% 99% 16.89%3 结束语不论是训练集还是测试集，错误率和召回率都与误诊关键字列表和疾病列表的完整性有关，未来要降低错误率和提高召回率，需要从完善误诊关键字列表和研制新的疾病实体名称识别算法方面入手，因为有些疾病名称是俗语或简化描述或在国际疾病标准术语中未载入。通过在大量医学误诊案例中总结误诊信息、提取误诊关键字、建立误诊模型等方式提取医学误诊文献中误诊信息。在后期的研究过程中，可对提取结果的精确度做更加准确的处理。从文本中分析出的误诊为的疾病可能有若干种，这些疾病之间可能也存在误诊关系；这些疾病也存在和“误诊”病不相关的情况，后续研究可对结果做统计分析，完善疾病库、关键字集合和算法的提取规则，总结更普遍的规律，减少医学误诊的发生。【参考文献】［1］冯洪海,孙元灿,李利敏,宋舒晗,黄俊辉.基于Web 医学数据的互联网医学用户研究[J].计算机时代,2014(04):41-46.［2］官兵,张惠箴,汪亮.胃底伴血管瘤的脾组织植入误诊为胃肠间质瘤1 例 [B]. 临床与实验病理学杂志,1001=7399(2019)05-0618-02.［3］张奇雪,阮宏莹,郑永哲,张桂敏,林鹏.鼻硬结病误诊为鼻中隔囊肿1 例. 临床耳鼻咽喉头颈外科杂志 [B].［4］刘源,冯洪海.医疗纠纷文献的数据挖掘[J].电子技术与软件工程[J].R197.3;

1

文章来源：《临床医学研究与实践》网址: http://www.lcyxyjysj.cn/qikandaodu/2020/1228/694.html

上一篇：临床医学检验技术质量管理中存在的问题及对策
下一篇：手机软件可精确诊断呼吸系统疾病

临床医学研究与实践投稿 | 临床医学研究与实践编辑部| 临床医学研究与实践版面费 | 临床医学研究与实践论文发表 | 临床医学研究与实践最新目录
Copyright © 2018 《临床医学研究与实践》杂志社 版权所有
投稿电话：投稿邮箱：