决策树在贫困农村老人就诊影响因素中的应用
张艺潇, 冯文Δ
北京大学公共卫生学院卫生政策与管理系, 北京 100191
摘要

目的:探究贫困地区农村老人就诊行为的决策模式,为精准医疗扶贫提供科学依据。方法:采用分阶段抽样的方法,对内蒙古自治区乌兰察布市下属察哈尔右翼前旗、察哈尔右翼中旗、察哈尔右翼后旗、凉城县共4个贫困旗县的1 271名老人进行横断面问卷调查,内容主要包括社会经济人口学特征、日常消费水平、欧洲五维健康量表(EuroQol five dimensions questionnaire, EQ-5D)和直观式健康量表(visual analogue scale, VAS)、社会支持量表,以及卫生服务需要和利用情况,遴选其中在过去30 d内存在身体不舒适情况的1 039名老人为研究对象。采用卡方检验分析不同群体之间的差异,并利用Logistic回归和决策树两种方法对贫困农村老人在身体不舒适时的就诊行为进行多因素分析,探索老人就诊决策的影响因素。结果:研究对象平均年龄(71.8±7.1)岁,52.2%为文盲,85.8%具有中等社会支持,58.5%与配偶同住,多居于15 min医疗圈内,不能从子女处获得经济支持。30 d内身体不舒适时的就诊率为31.0%。卡方检验显示,就诊率在年龄、民族、居住模式、日常消费指数、住房类型、社会支持得分、有无子女补贴、前往医疗机构交通时间、健康自评得分水平间的差异均具有统计学意义。在影响老人就诊行为的因素判别上,决策树模型比Logistic回归模型有更低的分类错误率。Logistic回归模型错误分类率为31.4%,显示年龄、民族、居住模式、日常消费指数、社会支持总得分、前往医疗机构交通时间和健康自评得分的差异对就诊决策有统计学意义。决策树模型错误分类率为28.6%,显示前往医疗机构交通时间、居住模式、文化程度、年龄、是否有子女补贴、社会支持总得分依次构成老人就诊决策的主要影响因素,预测变量重要性分别为0.42、0.21、0.13、0.11、0.07和0.06。结论:在贫困农村地区,医疗资源、经济承受能力、家人,以及个人的社会人口学特征是影响老人身体不舒适时的就诊决策的关键因素,应当将改善老人的医疗状况融入社会整体发展,通过综合干预改善贫困地区农村老人的医疗服务利用水平。

关键词: 就诊率; 老人; 决策树; 影响因素
中图分类号:R193 文献标志码:A 文章编号:1671-167X(2018)03-0450-07
Decision tree analysis in determinants of elderly visits in poor rural areas
ZHANG Yi-xiao, FENG WenΔ
Department of Health Policy and Management, Peking University School of Public Health,Beijing 100191, China
Δ Corresponding author’s e-mail,fengwenmail@sina.com
Abstract

Objective:To explore the influencing factors of elderly outpatient visits and to provide evidence for poverty reduction in health in the poor rural areas.Methods:Through stratified sampling, a total of 1 271 aged people in four poverty Qi/County of Ulanqabcity were surveyed, including Qahar Right Wing Front Banner, Qahar Right Wing Middle Banner, Qahar Right Wing Rear Banner and Liangcheng County. Their socio-economic and demographic characteristics, daily consumption, EuroQol five dimensions questionnaire(EQ-5D) and visual analogue scale(VAS),social support, health service needs and utilization were collected through cross-sectional household questionnaires. 1 039 aged people who had experienced physical discomfort in the past 30 days were selected as subjects for the study. The differences between the groups were analyzed by chi-square test. A Logistic regression equation and a decision tree of elderly visits were built to find factors influencing decision-making of the aged.Results:The average age of the research subjects was 71.8 years, with 52.2% being illiterate and 85.8% with middle social support. 58.5% of the subjects living with their spouses, mostly living in 15 min medical circle and without any financial support from their children. The 30-day visiting rate when having physical discomfort was 31.0%. The chi-square test showed that the differences in visit rates among age, ethnic, residence patterns, daily consumption index, housing types, social support scores, grown children’s economic assistance, travel time to medical institutions, and health self-assessment scores were statistically significant. Compared with Logistic analysis, the decision tree showed lower error rate of classification. Logistic regression model’s error rate of classification was 31.4%,showing that the differences in visit rates among age, ethnic, residence patterns, daily consumption index, social support scores, travel time to medical institutions, and health self-assessment scores were statistically significant. The decision tree model’s error rate of classification was 28.6%, showing six main influencing factors, including the travel time to medical institutions, cohabitants, education level, age, whether adult children provide economic support and social support score. The importance of these predictors were 0.42, 0.21, 0.13, 0.11, 0.07 and 0.06, respectively.Conclusion:In poor rural areas, medical resources, economic affordability, family and individual socio-demographic characteristics are the key factors affecting decision-making for the aged. It is necessary to integrate the improvement of the health care of the aged into the overall development of the society. And comprehensive interventions should be adopted to improve the outpatient utilization for aged in poor rural areas.

Key words: Visiting rate; Aged; Decision trees; Determinant

伴随着我国的老龄化进程, 老人的医疗问题日益成为关注热点。全国调查显示, 我国老人健康状况较差, 两周患病率高达56.9%, 慢性病患病率高达71.8%, 具有较高的医疗需要[1]。医疗资源的配置是为了解决群众的健康问题, 但作为社会财富再分配的体现, 其配置水平与当地经济水平直接相关, 马太效应明显[2]。有研究发现, 新农合实际补偿比在30%~40%, 在补偿水平较低的同时, 门诊补偿显示出受益不公平性, 制约门诊服务受益[3, 4], 因此, 贫困农村地区的老人可能同时面临高需求、低供给和低补偿的三重压力和现实冲突。如何认识和理解这些问题, 并打破其桎梏, 成为解决目前贫困农村地区精准医疗扶贫工作无法回避的现实和前提。以往研究者多利用多元回归方法识别医疗服务利用的影响因素。然而, 传统回归方法检验的是变量对样本整体结局的预测能力, 对预测个体结局的敏感性不足[5]; 随着预测变量数量的增加, 交互项数量也急剧增长, 传统回归方法要求必须预先指定潜在的交互项以及变量的分割节点, 无法动态处理和计量数据节点, 对回归结果带来人为干扰[6]。决策树(decision tree)是一种管理决策模型, 随着数据挖掘技术的发展, 决策树算法实现以实例为基础的归纳学习, 用于构建反映对象与属性值之间映射关系的决策分支[7]。构建过程中, 考量每个变量的独立影响和变量之间所有可能的交互作用, 确定最有效的分类变量, 将数据集递归分割为两个或多个子群, 使子群内的观察值较母群更为均匀。得出的模型不仅易于理解个体行为, 也能够更好地反映变量之间的交互作用, 往往比回归模型具有更高的预测准确度[8], 因此, 本文在分析贫困农村老人就诊行为模式影响因素的同时, 比较两种方法的作用, 为改善贫困农村卫生服务利用相关制度寻求更科学可行的依据。

1 资料与方法
1.1 调查对象

为制定北京市-乌兰察布市精准医疗扶贫方案, 研究组于2016年7— 8月在内蒙古乌兰察布市开展针对农村老人的入户调查。该调查采用县-乡-村-户的四阶段随机抽样方法, 在选取的内蒙古自治区乌兰察布市下属察哈尔右翼前旗、察哈尔右翼中旗、察哈尔右翼后旗、凉城县4个贫困旗县中, 共调查来自8个乡镇/苏木、32个村/嘎查的1 280名老人。纳入标准:(1)具有贫困旗县当地农业户口; (2)年龄在60岁及以上; (3)自愿参与问卷调查。排除标准:(1)存在认知功能障碍; (2)与调查员之间存在语言沟通障碍。共回收有效问卷1 271份。本研究目的是了解贫困农村老人在身体不舒适时的就诊情况, 故遴选其中在过去30 d内存在身体不舒适情况的1 039名老人为研究对象。

1.2 调查工具

通过自制调查问卷收集资料, 主要包括以下5部分:(1)社会经济人口学特征, 包括性别、年龄、婚姻状况、居住模式等; (2)日常消费水平, 包括做饭用水、燃料类型; (3)欧洲五维健康量表(EuroQol five dimensions questionnaire, EQ-5D)和直观式健康量表(visual analogue scale, VAS), 反映生命质量情况; (4)肖水源[9]编制的社会支持量表; (5)医疗服务需求与利用情况, 包括慢性病情况、过去30 d内身体不舒适时是否就诊等。

1.3 统计学方法

调查问卷经质量复核, 统一采用EpiData 3.1软件录入。采用SPSS Statistics 20.0对老人身体不舒适时的就诊情况进行描述性分析和卡方检验, 以及构建Logistic回归方程, 并利用SPSS Modeler 18.0软件构建决策树C5.0模型进行老人就诊决策的多因素分析。

1.4 质量控制

研究设计阶段, 根据本课题组预调查情况对问卷进行修改和完善。现场调查阶段, 设置两名督导员, 每日复核问卷, 及时解决缺漏和前后逻辑矛盾。数据录入阶段, 通过双录入、设置逻辑检错和录入后选取10%问卷复核, 保证数据质量。

2 结果
2.1 基本情况

研究的1 039名老人平均年龄为(71.8± 7.1)岁, 其中女性622人, 占59.9%; 汉族为主, 占98.1%; 大部分为在婚/同居, 占60.6%, 丧偶占34.6%; 调查对象文化程度普遍较低, 文盲占52.2%, 小学学历占32.4%; 从居住模式来看, 与配偶同住者居多, 占58.5%, 独居占34.7%; 从日常消费水平来看, 使用自来水做饭的占比为89.3%, 使用煤炭作为做饭燃料的占比为86.2%; 大部分老人居住在砖瓦房, 占89.8%; 社会支持为中等水平者居多, 占85.8%, 仅3.3%的老人拥有高水平社会支持。经济条件方面, 家庭年人均收入平均为(5 225.4± 4 432.5)元, 仅10.6%的老人能从子女处获得经济补贴。68.8%的老人居于15 min医疗圈中, 5.6%的老人前往医疗机构的交通时间在31 min及以上。从健康状况来看, 90.3%的老人患有慢病, 27.0%的老人患有3种及以上慢病; VAS健康自评得分平均为61.16分, 可见对象普遍对自身健康评价不高, 见表1

表1 就诊率影响因素单因素分析结果 Table 1 Chi-square test results of outpatient visits
2.2 不适时就诊情况

调查对象30 d内身体不舒适的就诊率为31.0%, 随年龄的增长先降低后逐渐升高。少数民族、住房为砖瓦房、能从子女处获得收入补贴的老人就诊率高于汉族、住房为土坯房、不能从子女处获得收入补贴的老人; 独居老人就诊率最高, 为34.2%, 与配偶同住者次之, 为30.4%; 日常消费指数、社会支持得分越高, 就诊率也越高; 前往医疗机构交通时间越长, 就诊率越低; 健康自评得分水平为“ 很低” 、“ 较低” 的老人就诊率高于得分更高者。就诊率在年龄、民族、居住模式、日常消费指数、住房类型、社会支持得分、有无子女补贴、前往医疗机构交通时间、健康自评得分水平间的差异均具有统计学意义(P< 0.05), 见表1

2.3 就诊行为的Logistic回归模型

年龄、民族、居住模式、日常消费指数、社会支持总得分、前往医疗机构交通时间和健康自评得分对就诊决策的影响差异有统计学意义(P< 0.05)。身体不舒适的就诊率与年龄、社会支持总得分正相关, 与前往医疗机构交通时间和健康自评得分负相关。少数民族较汉族更倾向于就诊, OR值为3.409。与独居老人相比, 与配偶同住和其他居住模式的老人更不倾向于就诊, OR值分别为0.751和0.433。与低日常消费指数的老人相比, 中、高日常消费指数的老人更倾向于就诊, OR值分别为2.330和2.916。Logistic回归模型错误分类率为31.4%, 见表2

表2 就诊影响因素的Logistic回归模型 Table 2 Logistic regression analysis results of outpatient visits
2.4 就诊行为的决策树模型

2.4.1 决策树模型 贫困农村老人身体不舒适时是否就诊的C5.0决策树模型生长为4层, 共14个节点, 如图1。该模型错误分类率为28.6%, 分类能力较好。决策树模型的根节点划分变量为“ 前往医疗机构交通时间” , 说明交通时间对决策树分类信息增益率的提高最为重要。交通时间短于8 min的老人30 d内身体不舒适的就诊率为40.9%, 高于交通时间长于8 min老人的24.8%; 与配偶同住、能够得到子女补贴的老人有更高的就诊率。在独居的老人中, 小学文化且更高年龄的老人, 以及文盲且更低社会支持的老人就诊率更高, 见图1。

图1 就诊行为的决策树结构图Figure 1 Decision tree analysis results of outpatient visits

2.4.2 预测变量重要性 筛选出的6个影响变量按照重要性由大到小排序为前往医疗机构交通时间、居住模式、文化程度、年龄、是否有子女补贴、社会支持总得分, 其重要性分别为0.42、0.21、0.13、0.11、0.07、0.06, 其中前往医疗机构交通时间对于贫困农村老人身体不舒适时是否就诊的个人决策尤为关键。

3 讨论

本研究中, 决策树模型分类正确率高于回归模型, 说明决策树模型能够更好地反映老人的就诊行为决策模式。

3.1 交通时间是影响老人就诊决策的首要因素

决策树C5.0算法使用信息增益率而非信息增益量来选择分类属性, 分类更加准确, 且能够通过离散化来处理连续性变量[10]。例如, 在决策树模型的构建过程中, 变量“ 前往医疗机构交通时间” 作为连续变量进入模型, 软件自动将研究对象分割为交通时间在8 min内和超过8 min两个子群, 说明以8 min 为分割点, 能最大限度提高决策树模型信息增益率, 实现分类效率最大化。其中, 后者就诊率为24.8%, 远低于前者的就诊率40.9%, 可见与医疗机构的距离是阻碍老人就诊的首要因素。大量研究发现在贫困地区农村, 与医疗机构距离越短, 居民就诊率越高[11, 12], 本研究回归结果与此相似。考虑到贫困老人的身体条件和交通能力, 应进一步完善村级医疗卫生服务机构建设, 尤其重视加强村级卫生人力的配置和服务能力, 方便老人就医。8 min的就诊距离远低于目前当地15 min医疗圈的规划, 提示在内蒙古等地广人稀的地区, 应当进一步规划更有地域针对性的医疗设施布局, 如在自然村建立卫生点、开展流动医疗服务等。

3.2 独居老人更倾向于利用门诊服务

部分老人虽然距离医疗机构较近, 但就诊决策仍受同住者影响。决策树模型的第二层显示, 独居者相较与人同住者更倾向于就诊, 与卢芸等[13]、朱晓健等[14]研究结果一致, 其原因可能是没有家人陪伴照料的老人, 更容易产生焦虑情绪[15], 对待健康问题更为敏感和谨慎, 在就诊便利的前提下, 更倾向于就诊, 因此, 对于独居老人, 医疗服务提供者在治疗疾病的同时承担了心理安慰和社会支持的角色, 应当给予老人更多的关怀和安慰, 帮助他们缓解焦虑, 改善健康状况。

3.3 文化程度和经济状况影响老人就诊决策

决策树模型第三层显示, 独居老人就诊决策受文化程度影响较大, 文化程度较低的老人就诊率较高, 与常凤姣等[16]的研究结果一致, 可能是由于医学知识的匮乏加剧焦虑情绪, 促使文化程度低的老人就近就诊, 而初中及以上学历者更倾向于自我医疗[17]。与配偶同住的老人就诊决策受“ 子女补贴” 影响较大, 有子女补贴的老人就诊率远高于没有子女补贴的老人, 这说明子女提供的经济支持缓解了老人医疗消费的预算约束, 有利于老人释放合理医疗需求。多项国内外研究发现经济条件是制约居民就诊的重要因素[18, 19, 20], 本研究结果一方面说明, 贫困地区现有的社会基本医疗保障对门诊的补偿力度尚显不足, 不利于老人在必要时利用门诊服务; 另一方面也提示在中国传统文化作用下, 包含子女在内的大家庭而非仅仅是个人或者夫妻, 仍然是个人获取医疗服务时经济支持的重要来源。新加坡的重要医疗保险渠道— — 保健储蓄计划(medisave)即考虑到家庭内部的共济性, 允许保员使用保健储蓄支付其直系亲属的医疗费用[21], 这种设计与我国家庭观念相符, 值得借鉴。

3.4 社会支持和年龄对老人就诊决策的影响

尽管回归结果显示, 调查对象整体就诊率与社会支持总得分呈现微弱的正相关关系, 但决策树模型显示社会支持水平对独居的文盲老人这一特定人群有较大影响。社会支持总得分低于21分的老人就诊率远高于得分较高者, 可能与老人寻求社会支持的心理动机有关。与邻居、朋友的交往是独居老人社会支持网络的重要组成部分[22], 当该途径无法提供充分的社会支持, 尤其在老人身体不舒适, 心理较为脆弱时, 医疗服务提供者这一特殊主体就成为老人寻求支持的对象。提示应该从大健康的概念出发, 将健康中国与精准扶贫战略相结合, 塑造友善互助的社区环境, 增进邻里关系, 为独居老人获取社会支持提供渠道。此外, 本研究回归模型和决策树模型均提示年龄较大的老人就诊率更高, 与中、高龄老人身体功能进一步退化, 两周患病率和慢病患病率更高有关[23], 应当对这部分老人的健康问题给予更多关注。

3.5 本研究的局限性

本研究存在一定的局限性, 第一, 本研究是回顾性研究, 由于调查对象年龄较大, 可能存在一定的回忆偏倚; 第二, 调查发现, 老人普遍混淆自行购药和到村医处就诊, 加之一些乡镇药店由村医或者乡镇卫生院医务人员兼职开设, 难以对这两种处置方式进行区分, 因此统一界定为就诊; 第三, 决策树方法关注探索研究对象的个人行为模式, 而非样本对象推论的总体[11]; 决策树模型中连续变量分割点的选取是以当地调查对象为基础, 其更普遍的地域适用性和可推广性还有待论证。可以肯定的是, 不同老人群体就诊决策的影响因素不同, 在政策制定和实施干预时应当考虑不同人群的特征, 采取更有针对性的方案。

The authors have declared that no competing interests exist.

参考文献
[1] 国家卫生计生委统计信息中心. 2013第五次国家卫生服务调查分析报告[M]. 北京: 中国协和医科大学出版社, 2015: 97-100. [本文引用:1]
[2] 孙雯. 江苏农村卫生资源配置问题分析及老年人医疗保障对策研究[J]. 国外医学·卫生经济分册, 2017, 34(1): 9-1018. [本文引用:1]
[3] 郭振友, 吴侃, 应国英, . 农民卫生服务利用与受益公平性分析——基于广西桂林的调查[J]. 医学与哲学(A), 2017, 38(2): 49-52. [本文引用:1]
[4] 马杰, 温静, 任彬彬, . 农村居民两周患病未就诊原因及影响因素分析[J]. 中国公共卫生, 2010, 26(5): 551-552. [本文引用:1]
[5] Piper ME, Loh WY, Smith SS, et al. Using decision tree analysis to identify risk factors for relapse to smoking[J]. Subst Use Misuse, 2011, 46(4): 492-510. [本文引用:1]
[6] Lehavot K, O’Hara R, Washington DL, et al. Posttraumatic stress disorder symptom severity and socioeconomic factors associated with veterans health administration use among women veterans[J]. Womens Health Issues, 2015, 25(5): 535-541. [本文引用:1]
[7] Zorman M, Podgorelec V, Kokol P, et al. Finding the right decision tree’s induction strategy for a hard real world problem[J]. Int J Med Inform, 2001, 63(1): 109-121. [本文引用:1]
[8] Perlich C, Provost F, Simonoff JS. Tree induction vs. logistic regression: A learning curve analysis[J]. J Mach Learn Res, 2003, 4(2): 211-255. [本文引用:1]
[9] 肖水源. 《社会支持评定量表》的理论基础与研究应用[J]. 临床精神医学杂志, 1994(2): 98-100. [本文引用:1]
[10] Wagacha PW. Induction of decision trees[R/OL]. (2003-05-09)[2018-02-01]. http://erepository.uonbi.ac.ke/handle/11295/44263. [本文引用:1]
[11] 何永欢, 汪颖, 张启军, . 某省居民2周就诊情况及其影响因素分析[J]. 中国卫生信息管理杂志, 2016, 13(3): 303-308. [本文引用:2]
[12] 潘红潮, 王前强, 覃英华, . 广西农村贫困人群卫生服务现状及影响因素分析[J]. 现代医院管理, 2015, 13(3): 20-23. [本文引用:1]
[13] 卢芸, 田密, 朱焱. 老年居民社区卫生服务的利用现状及影响因素[J]. 贵阳医学院学报, 2015, 40(4): 368-372. [本文引用:1]
[14] 朱晓健, 罗珺璟, 顾宇华, . 上海某社区居家高龄老人卫生服务需求和利用情况及相关因素分析[J]. 上海预防医学, 2015, 27(3): 145-148. [本文引用:1]
[15] 严丹君, 俞爱月. 老年人焦虑、抑郁和生活满意度及相关性[J]. 中国老年学杂志, 2011, 31(10): 1847-1848. [本文引用:1]
[16] 常凤姣, 季铁鑫, 孙静, . 内蒙古巴彦淖尔市农村居民卫生服务利用现状及影响因素分析[J]. 中国初级卫生保健, 2015, 29(8): 8-9. [本文引用:1]
[17] 张磊, 吴明. 北京市外来农村流动人口自我医疗情况及其影响因素分析[J]. 北京大学学报(医学版), 2015, 47(3): 455-458. [本文引用:1]
[18] 李亚运, 杨帆, 陈鸣声, . 新医改前后江苏省农村患者就诊影响因素及其变化研究[J]. 中国卫生事业管理, 2016, 33(8): 605-608. [本文引用:1]
[19] Tran BX, Long HN, Nong VM, et al. Health status and health service utilization in remote and mountainous areas in Vietnam[J]. Health Qual Life Outcomes, 2016, 14(1): 85. [本文引用:1]
[20] 胡丹, 朱靖, 杨帆, . 江苏省城乡居民健康状况及卫生服务利用分析[J]. 中国卫生资源, 2017, 20(2): 158-161. [本文引用:1]
[21] 廖晓诚. 新加坡医疗保障体系运行机制及现状评述[J]. 东南亚纵横, 2014(12): 45-51. [本文引用:1]
[22] 唐浩, 施光荣. 农村留守老人的生活满意度及其影响因素分析[J]. 安徽农业大学学报(社会科学版), 2015, 24(5): 80-86. [本文引用:1]
[23] 邓阳, 朱云芳, 陈怡蓉, . 昆明市某县农村留守老人卫生服务需求、利用及影响因素分析[J]. 昆明医科大学学报, 2014, 35(7): 50-53. [本文引用:1]