一种ppi相关糖尿病风险预测模型的建模方法和应用
技术领域
1.本发明涉及医学诊疗技术领域,具体涉及一种ppi相关糖尿病风险预测模型的建模方法和应用。
背景技术:2.质子泵抑制剂(protonpump inhibitors,ppis)是临床上一类常用的抑制胃酸分泌药,常用于治疗急、慢性消化系统胃酸相关性疾病,包括胃食管反流病、消化道溃疡、上消化道出血以及预防和治疗应激性胃黏膜病变等。由于ppis起效快,抑酸作用强且持久,短期安全性、耐受性良好,临床应用十分广泛,是全球应用最广泛的十大药物之一。尽管短期安全性良好,越来越多的研究证实长期使用ppis会带来很多健康风险,如骨折、慢性肾脏病、铁或维生素b12缺乏等。申请人前期研究发现长期使用质子泵抑制剂会增加2型糖尿病风险发生风险。考虑到使用人数之多,若ppis的长期使用可以升高糖尿病的风险,带来的后果非常严重。然而鉴于ppis的重要临床价值,规律服药对于胃食管返流、胃溃疡、抗幽门螺杆菌等疾病的治疗非常重要,盲目停药会影响治疗效果。如何合理、精准的使用ppis,对于临床医生和患者都十分重要,但目前尚缺乏个体化用药的指导工具。
3.现阶段,本领域的研究人员关于糖尿病风险的模型有诸多研究,例如发明专利cn113903450a公开了一种2型糖尿病风险预测模型的构建系统,所述的构建系统通过调查研究居民患病状况和行为生活方式之间的关系,确定2型糖尿病的危险因素,建立回归模型,并将各回归系数经数学转换后,得到各危险因素对应的权重值,建立危险评分体系,为2型糖尿病的预防和干预提供科学合理的建议。发明专利cn102063568a公开了个体水平糖尿病预测模型,所述的模型利用年龄、性别、身高(cm)、体重(kg)、腰围(cm)、糖尿病的家族史、高血压病史、高血脂病史以及最近一次的空腹血糖值(mmol/l)的自身信息,通过meta合并分析的效应值计算糖尿病危险因素的加权值,进一步计算目标对象未来n年的糖尿病发病风险值(pn),如果p值≥5%为糖尿病高危;<5%为正常人群。但是,上述模型考虑的均是日常因素,没有考虑ppi使用带来的影响,而基于糖尿病风险模型进行ppis个体精准化治疗的尚未报道。对于ppis的潜在风险,美国aga和中国的临床应用指导原则都提出要严格适应症以及控制剂量和使用时长,如aga推荐对于大多数有慢性ppi使用指征且每天服用两次的患者应考虑降至每天一次ppi。另外的j9九游会真人的解决方案包括长期ppis使用者常规筛查或检测骨密度、血肌酐、镁或维生素b12水平等,这类筛查(如对铁或维生素b12缺乏)还没有证实是否可以获益,因此如何权衡长期使用ppis的利弊,目前尚未解决。
4.构建ppis相关糖尿病的预测模型,可以指导不同风险水平患者的个体精准化用药,但相关的研究和发明尚未见报道。针对上述技术问题,本发明基于构建预测ppi使用相关糖尿病风险的预测模型,建立评价不同个体长期使用ppi并发糖尿病的风险分层装置,通过该装置可将临床ppi使用人群划分为低风险组和高风险组,对于没有增加绝对风险的人群可以安全使用ppi;对于高风险人群,建议仔细评估长期使用ppi的必要性,寻求替代治疗方案,并定期筛查异常血糖和t2dm。
技术实现要素:5.针对上述技术问题,本发明将构建一个糖尿病的预测模型,通过计算不同糖尿病风险的人群使用ppi后带来的额外风险大小,识别长期使用ppi引起糖尿病的高风险人群,为ppi合理化使用提供依据,具体技术方案如下:
6.本发明首要目的是提供一种ppi相关糖尿病患病风险的标志物,所述的标志物包括空腹血糖,体重指数,γ谷氨酰转肽酶,甘油三酯,性别,年龄,尿酸,血红蛋白a1c,吸烟,饮酒,身体活动和家族史。
7.本发明的第二目的是提供所述的标志物在预测ppi相关2型糖尿病患病风险中的应用。
8.本发明的第三目的是提供一种ppi相关糖尿病风险的预测模型的构建方法,包括如下步骤:
9.(1)数据采集模块:使用问卷采集个人年龄、性别等基本人口学特征、生活方式和健康状况的相关信息;
10.(2)数据处理模块:对采集到的数据进行变量预处理,然后基于单因素分析筛选出初步纳入的潜在预测因子;
11.(3)模型构建模块:
12.s1构建初始模型:以潜在预测因子为基础,构建糖尿病风险预测初始模型;
13.s2模型优化:使用lasso回归为初始模型选择重要的预测因子,根据10折交叉验证方法来确定最优的λ值,从而确定对糖尿病有预测作用的变量;
14.s3最优模型获取:将初步选择的变量纳入cox回归模型中,使用逐步回归法筛选最终进入模型的变量;
15.s4模型验证:验证模型的准确性和校准度;
16.(4)额外风险和安全阈值计算模块:计算不同风险的人群使用ppi后带来的额外风险大小,确定高危人群。
17.优选的,步骤(2)中初步纳入的潜在预测因子包括:年龄、性别、受教育程度、收入、bmi(体重(kg)/身高(米)的平方)、腹型肥胖、吸烟、身体活动/运动、每天蔬菜/水果摄入量、每周红肉/加工肉的摄入、父母糖尿病家族史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。
18.优选的,步骤(3)所述的模型验证中,绘制roc曲线以及计算auc值和harrell’s c统计量来评价模型的准确性,通过校准曲线评价模型的校准度。
19.优选的,步骤(3)筛选出的最终进入模型的变量包括年龄、性别、受教育程度、收入、bmi、腹型肥胖、吸烟、父母糖尿病史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。
20.本发明的第四目的是提供一种ppi相关糖尿病风险的预测模型的构建系统,其应用于所述的构建方法,其包括:
21.数据采集模块,至少用于数据采集,获取样本数据集;
22.数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;
23.模型构建模块,至少用于将所述有效样本的不完整数据集构建模型,并使用lasso回归和cox逐步回归模型的方法拟合训练集,记录最优模型参数;
24.额外风险和安全阈值计算模块,至少用于根据模型10年风险预测值来计算模型额外风险和安全阈值。
25.本发明的第五目的是提供一种预测ppi相关糖尿病风险的预测系统,包括:
26.为评价模型的预输入模块,至少用于输入待诊断数据;
27.由所述方法构建得到的ppi相关糖尿病风险,至少用于对该待评估数据进行评估;
28.显示模块,至少用于显示预测结果。
29.本发明的第六目的是提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用所述预测ppi相关糖尿病风险的预测系统。
30.本发明的第七目的是提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用所述预测ppi相关糖尿病风险的预测系统。
31.本发明的有益效果是:1)本发明通过对常用的预测因子进行筛选,筛选出12项最优预测因子:年龄、性别、受教育程度、收入、bmi、腹型肥胖、吸烟、父母糖尿病史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。2)本发明利用预测模型来筛选ppi相关糖尿病的高危人群,为ppi的个体化治疗提供了依据。
附图说明
32.图1 模型构建流程图
33.图2 糖尿病预测模型的列线图
34.图3 模型验证roc曲线
35.图4 10年的校准度曲线
具体实施方式
36.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
37.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
38.以下实施例中的十折交叉验证,英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。十折交叉验证之所以选择将
数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。但这并非最终诊断,争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。
39.本发明所述的技术方案中,bmi=体重(kg)/身高(米)的平方
40.实施例一、一种ppi相关糖尿病风险的预测模型的构建方法
41.参考附图1,一种ppi相关糖尿病风险的预测模型的构建方法,包括如下步骤:
42.(1)数据采集模块:使用问卷采集个人年龄、性别等基本人口学特征、生活方式和健康状况的相关信息;
43.(2)数据处理模块:对采集到的数据进行变量预处理,然后基于单因素分析筛选出初步纳入的潜在预测因子;
44.初步纳入的潜在预测因子包括:年龄、性别、受教育程度、收入、bmi(体重(kg)/身高(米)的平方)、腹型肥胖、吸烟、身体活动/运动、每天蔬菜/水果摄入量、每周红肉/加工肉的摄入、父母糖尿病家族史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。
45.(3)模型构建模块:
46.s1构建初始模型:以潜在预测因子为基础,构建糖尿病风险预测初始模型;
47.s2模型优化:使用lasso回归为初始模型选择重要的预测因子,根据10折交叉验证方法来确定最优的λ值,从而确定对糖尿病有预测作用的变量;
48.s3最优模型获取:将初步选择的变量纳入cox回归模型中,使用逐步回归法筛选最终进入模型的变量;
49.最终进入模型的变量包括年龄、性别、受教育程度、收入、bmi、腹型肥胖、吸烟、父母糖尿病史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。
50.s4模型验证:验证模型的准确性和校准度;
51.绘制roc曲线以及计算auc值和harrell’s c统计量来评价模型的准确性,通过校准曲线评价模型的校准度。
52.(4)额外风险和安全阈值计算模块:计算不同风险的人群使用ppi后带来的额外风险大小,确定高危人群。
53.实施例二、一种ppi相关糖尿病风险的预测模型
54.一种ppi相关糖尿病风险的预测模型的构建系统,其应用于所述的构建方法,其包括:
55.数据采集模块,至少用于数据采集,获取样本数据集;
56.数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本特征;
57.模型构建模块,至少用于将所述有效样本的不完整数据集构建模型,并使用lasso回归和cox逐步回归模型的方法拟合训练集,记录最优模型参数;
58.额外风险和安全阈值计算模块,至少用于根据模型10年风险预测值来计算模型额外风险和安全阈值。
59.利用预测模型,我们将计算患者未来10年的糖尿病发生风险,同时计算个体使用ppi后会增加的额外风险,判断ppi使用后糖尿病风险增加的高危人群,实现个体化精准治
疗。
60.实施例三、一种ppi相关糖尿病风险的预测模型的应用
61.以下我们将以英国ukbiobank数据库为例,说明本发明的具体实施过程。
62.uk biobank是在英国地区进行的进行约50万人的大型队列研究项目,我们将利用此队列人群对我们的发明技术进行说明。
63.1.在排除基线患糖尿病、癌症以及潜在预测因子信息缺失的人群后,共有309468人纳入分析,纳入人群的基线特征如表1所示。
64.表1纳入人群的基线特征
[0065][0066]
2.经过平均12.6年的随访后,共有9650例2型糖尿病发生。糖尿病患者和非患者比较,15个潜在预测因子都有差异,包括:年龄、性别、受教育程度、收入、bmi(体重(kg)/身高(米)的平方)、腹型肥胖、吸烟、身体活动/运动、每天蔬菜/水果摄入量、每周红肉/加工肉的摄入、父母糖尿病家族史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。
[0067]
3.使用lasso回归模型对变量进行初步筛选,根据c-index对应的最佳λ值,排除了身体活动/运动、每天蔬菜/水果摄入量、以及每周红肉/加工肉的摄入三个变量,将剩余的变量纳入cox回归模型,使用双向逐步回归法进一步筛选变量,并建立最终的预测模型,如
表2所示。
[0068]
表2最终纳入预测模型的变量
[0069][0070][0071]
4.最终的模型中,纳入的变量包括年龄、性别、受教育程度、收入、bmi、腹型肥胖、吸烟、父母糖尿病史、既往血脂异常史、心脑血管疾病、是否接受高血压降压治疗、他汀类药物使用。为方便该模型在临床中的使用,进一步构建了列线图,如图2所示。
[0072]
5.对模型的预测性能进行评价,模型的c-统计量为0.814,3年、5年和10年的roc曲线如图3所示,auc值分别为0.823、0.828和0.824,表明模型具有良好的准确性。同时使用模型预测的10年糖尿病发生风险的平均值为1.08%,而实际观测的10年糖尿病发生风险为2.17%,10年校准曲线的斜率为0.966(图4),表明该模型有良好的校准度。
[0073]
使用建立的预测模型对个体未来10年的糖尿病风险进行预测,并根据其风险将人群分为10等分,然后计算不同人群使用ppi后额外增加的糖尿病风险。如表3所示,对于接近一半的未来10年糖尿病风险较低(《1%)的人群,使用ppis额外增加的风险很低(0.49%);而对于10%左右的未来10年糖尿病风险很高(》5%)的人群,使用ppis会额外增加3%以上的糖尿病风险。此结果说明我们构建的预测模型可以识别ppi使用后糖尿病风险增加的高危人群,实现个体化精准治疗。
[0074]
表3不同风险的人群ppi使用后额增加的dm风险
[0075][0076]
本专利构建了一个糖尿病的预测风险模型,可以计算个体未来10年的糖尿病风险。更重要的是,利用本模型可以计算使用ppi会带来的糖尿病额外风险,识别高危人群。本专利可以来指导ppi用药,实现个体精准化治疗。
[0077]
与现有技术相比,本发明旨在通过构建糖尿病预测模型,对个体未来10年内ppis使用导致的糖尿病风险进行分层,筛选出低风险合理用药人群和高风险人群,并提供ppi使用推荐建议,从而达到个体化用药的目的。与现有方案相比,本发明有以下优点:1).根据个体化风险进行精准化治疗,减少了控制剂量和使用时长带来的疾病复发风险;2)与常规检测血糖相比,本发明可以减少额外的花费。
[0078]
除本专利构建的预测模型外,个体可以使用既往的糖尿病预测模型来判断自己未来罹患糖尿病的风险,粗略估计使用ppi后可能增加的风险。同时,除预测模型进行分层外,个体可根据是否伴有常见的糖尿病风险因素来判断未来糖尿病的风险来权衡ppis使用的获益和潜在的糖尿病风险。若个体有多个糖尿病风险因素,如肥胖、家族史、高血压等,则要建议仔细评估长期使用ppi的必要性,寻求替代治疗方案,并定期筛查异常血糖和t2dm;对于无糖尿病风险因素的个体,则可以安全使用ppis。