时间:2024-04-24
王潇潇 郭旭林 陈建 陈梦昕
【提 要】智慧养老体系参与意愿影响因素本身是一个具有丰富内涵并受复杂因素影响的管理问题,传统研究因方法所限难以全面揭示其内在影响机制。本文在理论和实证研究基础上,以北京为例通过社会调研选择最优机器学习模型算法来训练和检验大数据,开展多层次数据挖掘进行探索性研究,揭示影响智慧养老体系参与意愿的主要因素。
【关键词】 智慧养老;参与意愿;数据挖掘
一、研究背景
隨着中国老龄化问题日益加重,如何养老已经成为需要认真研究的重大社会问题。根据国家统计局数据显示,截至2019年末,我国60岁以上老龄人口已经达到约25388万人,占总人口比例为18.1%,其中65岁及以上老年人口达17603万人,占总人口的12.6%。国际上通常将60岁以上的人口比重达到10%,或65岁以上的人口比重达到7%的国家或地区划分为老龄化社会。因此,当前我国人口老年化问题已经相当严重。北京是中国老龄化态势最具代表性的城市之一,据北京市统计局数据显示,2019年北京市60岁及以上常住人口371.3万人,占17.2%,远远超过10%的标准。据北京民政局预计,2030年北京市老龄化将达到重度,户籍老年人口占比超过30%,2050年北京市户籍老年人将超过630万,并且这种人口结构和社会形态将持续50年。我国传统的养老模式难以满足日益增长的老年人口的需求。因此,将大数据、互联网科技等金融科技应用于养老服务,加速传统养老模式向智慧化方向转变,应该成为缓解养老压力的一种有效途径。
(一)智慧养老的定义
英国生命信托基金首次提出“智慧养老”,所谓“智慧”即利用物联网、云计算和人工智能等现代科技,打破原有的时间和空间束缚,将老人、社区、医护人员、医疗机构、政府、服务机构形成一个有机整体,以此提高养老服务质量。国内关于智慧养老的相关研究最早可追溯到2007年胡黎明在《新型数字化居家式养老社区解决方案》一文中所提到的“数字化养老”,随后陆续发展成 “信息化养老”(2010)、 “科技养老”(2011) 、“网络化养老”(2012) 等概念。2013年以后,学术界开始统一使用“智慧养老”来代替上述概念。
学者们大多从服务内容、科学技术以及其优势特点来阐释智慧养老的概念。左美云(2014)认为智慧养老是以互联网等现代科技为媒介,一方面为老年人提供安全、医疗保健、娱乐休闲、学习交流等服务,另一方面对涉老信息进行监测、上传、分析、处理,从而满足老年人各项需求,提高其生活质量;向运华和姚虹(2016)认为智慧养老是利用物联网技术采集汇聚老年人的健康状况和需求等信息,从而实现紧急救助、生活照料、健康预警、远程诊疗等各种养老需求的智能供需交互。张雷和韩永乐(2017)认为智慧养老利用科技促进老人更多参与互动,不仅丰富了老人物质生活,也满足了老年人的精神生活需求,提升了老人的幸福感。虽然学者们的侧重点和表达多有不同,但立足点还是在“智慧”这个核心上,“智”是综合利用互联网、物联网、大数据等先进技术和智能化产品,“慧”是为老年人提供更加安全便捷、健康舒适的贴心服务。
通过对文献研究的比较以及网络公开资料的阐释,笔者认为以下对智慧养老概念的界定符合本文研究范围和内容的要求:智慧养老是一种以数据为基础的养老模式,核心是数据采集,政府和社会服务机构对数据进行整理分析,归纳老年人需求以及生活中所遇到的问题,对养老服务进行升级和完善。最终使政府监管更加及时透明,数据化决策更加精准,居家、社区、机构服务终端管理更加智能,推动社会养老资源的高效配置。
(二)智慧养老的发展
伴随着大数据、互联网科技和金融科技的发展与广泛应用,养老模式逐渐向智慧养老模式发展。2015年国务院印发《关于积极推进“互联网+”行动的指导意见》,明确提出了“促进智慧健康养老产业发展”的目标任务;2017年发布的《智慧健康养老产业发展行动计划(2017-2020年)》,明确提出要加快智慧健康养老产业发展,到2020年基本形成覆盖全生命周期的智慧健康养老产业体系。这些政策的出台,说明智慧养老已经上升到国家战略层面。同期,北京市按照《工业和信息化部办公厅、民政部办公厅、国家卫生计生委办公厅关于开展智慧健康养老应用试点示范的通知》要求,大力促进北京地区智慧健康养老的发展。
目前,北京市“智慧养老”发展成果已经初显,截至2019年年底,北京市16个区中有7个区已经建成包括网页和手机端App的智慧养老服务信息平台,有5个区正在建设智慧养老服务平台。这些“智慧养老”项目均借助大数据与互联网等技术来满足老人和家庭的现代化、科学化和人性化的养老需求,也推动了北京市智慧养老产业的发展。
二、基于数据挖掘的智慧养老参与意愿影响因素研究
学者们在有关意愿研究中所选取的研究方法多为描述性统计分析和logistic回归方法。但是logistic回归要求只有显著力量才可纳入,而智慧养老参与意愿影响因素较多,许多不显著因素的综合作用可能会对参与意愿产生较大影响,因此logistic回归方法不一定能够准确预测和判别参与智慧养老意愿。而数据挖掘方法能够较好处理高纬度、线性不可分数据,对多变量问题进行建模,广泛应用于分类数据的判别与预测,常用的分类模型有决策树、支持向量机和随机森林等。其中,决策树具有分类速度快、可读性高等优点(Breiman L I et al,2008)。支持向量机模型在研究分类问题时运用较多,通过将向量映射到一个更高维的空间里,对非线性、多维度的小样本数据表现较好(Cortes C and Vapnik V, 1995)。随机森林模型是一种多数表决的分类算法,分类拟合效果较好,也在研究分类问题时得到广泛应用(Breiman L,2001)。总体来说,虽然支持向量机、决策树、随机森林的方法已经有广泛的应用,但目前在智慧养老需求意愿问题方面的研究性应用还不多。因此本文尝试用决策树、支持向量机和随机森林等数据挖掘方法对智慧养老需求意愿进行建模和预测。
(一)模型研究的主要内容
1. 智慧养老需求意愿的影响因素。高林等(2019)提出,“智慧养老”需求意愿包括老年人文化程度、健康状况自评、自理能力、精神需求、物质生活水准、经济情况、子女压力、社区宣传和政策体制等。本文将结合高林等学者提出的几个影响因素并纳入老人对智能终端的熟悉程度、子女经济状况、老人子女数等变量,通过描述统计、方差分析、卡方检验等方法探究影响需求意愿的主要原因。
2.智慧養老需求意愿及变化数据挖掘模型。对适龄老人“智慧养老”需求意愿及变化建立 Logistic 回归、决策树数据挖掘模型,对适龄老人“智慧养老”需求意愿做出判别和预测,基于正确率、查准率、查全率、AUC、Press'Q 这 5 个指标评价模型的性能。
(二)数据搜集
1.样本选取
本文以北京市为例进行智慧养老相关调查研究,以北京市16个行政区为调研对象,收集到了包括东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、平谷区、密云区在内的14个区的203个有效数据。样本分布情况如表2所示。
2. 问卷调查
问卷调查对象为北京市各行政区内 50岁以上老人,调查时间为 2019 年 12月20日-2020年1月15日,调查方式为社区实地问卷,调查内容包括居住地所在行政区、年龄、文化程度、身体健康状况、收入情况、子女数、子女收入情况、生活自理能力、对智能终端熟悉程度、社区对智慧养老宣传力度、社区是否建立了智慧养老平台、老人是否接触过类似智慧平台13个方面。
3.调查结果概述及统计性分析
本次调查一共收集有效问卷203份,问卷调查的基本情况见表3。
(三)数据挖掘模型对比分析
1.Logistic回归。上文描述性统计分析了“智慧养老”需求意愿的影响因素,但仅检验了各自变量与因变量单独的关系,并没有把各个因素结合起来。此部分将用Logistic回归研究各自变量与因变量之间的关系。通过Logistic回归,显著的自变量会被引入模型。但是考虑到影响智慧养老需求意愿的因素很多,许多因素并不显著,但其综合影响可能较大,因此需要进一步改进。
(1)数据准备及变量赋值
由于影响“智慧养老”需求意愿的因素较多,本文结合以往学者的研究成果,建模时以智慧养老需求意愿为因变量,其中将“打算参加智慧养老”赋值为1,“不打算参加智慧养老”的赋值为0;以老年人文化程度、年龄、经济情况、子女数、子女经济状况(子女月平均工资)、自觉健康状况、自理能力、对手机等智能终端的熟悉度、社区宣传力度、是否了解或接触过智慧养老平台或相关类似平台、政府智慧养老平台是否建立完善11个变量为自变量,具体变量赋值见表4。
(2)模型回归
Logistic模型使用逐步回归分析方法筛选变量,最后进入模型的变量包括:老年人的文化水平(受教育程度edu)、老人的月收入情况(pay)、老人生活自理能力(self)和老人对智能终端的熟悉程度四个变量(见表5)。
(3)智慧养老需求意愿建模预测
采用 5 折交叉验证法,并重复 10 次,建立 Logistic 回归模型并进行预测。步骤如下:第一,把总样本平均分为 5 份,每次取其中 4 份作为训练集,剩余 1 份作为测试集,进行建模预测;第二,更换训练集和测试集,再次进行建模,共建立 5 次模型;第三,重复 1、2 步骤 10 次;第四,最后基于50 次测试结果,比较各分类算法的性能。建立 Logistic 回归模型时,调用 R 语言软件的“nnet”包。表6 为 Logistic 回归模型 50次建模预测的平均结果,其中实际参与智慧养老意愿的平均值为31,无参与意愿的平均值为16.4 。适龄老人实际有参与意愿,且被预测为有参与意愿的平均值为26.3 ,被预测为无参与意愿的平均值为 4.7;实际无参与意愿,但被预测为有参与意愿的平均值为2.8,被预测为无参与意愿的平均值为 13.6。
2.数据挖掘模型。Logistic 回归模型对智慧养老需求意愿进行了建模,11 个变量中只有4个进入到模型中,但现实中影响智慧养老需求意愿的因素很多,许多单个因素虽然不显著,但这些因素的综合作用可能会对结果产生较大影响。而数据挖掘的方法在建模时不要求影响因素是显著的,同时能较好处理高纬度、线性不可分数据,其广泛应用于分类数据的判别与预测。因此本文接下来将通过决策树模型方法,对智慧养老参与意愿进行建模预测。
True positives(TP)表示实际结果为正例,预测结果也为正例的样本数;False positives(FP)表示实际结果为负例,但被预测为正例的样本数;False negatives(FN)表示实际结果为正例,但被预测为负例的样本数;True negatives(TN)表示实际结果为负例,预测结果也为负例的样本数。混淆矩阵如表7所示。
模型预测结果根据以下几个指标评价性能:
正确率(Accuracy):Accuracy =(TP+TN)/( TP+FN+FP+TN),是正确分类的样本数与总样本数的比值,若正确率越高,则对样本分类的效果越好。
查准率(Precision):Precision=TP/(TP+FP),表示在被预测为正例的样本中,其中实际为正例的占比。
查全率(Recall):Recall=TP/(TP+FN),表示在实际为正例的样本中,其中被预测为正例的占比。
AUC:表示 ROC 曲線下面积的大小,AUC 的值在区间(0.5,1.0)内,在该区间内AUC的值越大,则说明模型的准确性越高。
Press'Q:
其中 N 是样本总数,n 是被正确分类的样本数,k 是分类组数。该工具是为了检测模型的分类结果与随机的分类结果之间是否具有显著性差异,其服从自由度为 1 的卡方分布,当 Press'Q 的值大于 3.84 时,说明两者具有显著性差异。
同时,在建立模型中容易造成过拟合现象,为了避免这种现象,因此我们采用 5 折交叉验证法,并重复 10 次,建立模型并进行预测。
(1)决策树模型
决策树模型是一种分类模型,模型呈树状结构,广泛应用于自然科学领域,具有可读性好,拟合速度快等优点。在分类时,依据基尼系数进行特征选取;建模时,通过训练集数据,基于损失函数最小化的原则进行建模;预测时,根据已建立的决策树模型对预测集数据进行分类(Breiman L I et al ,2008)。决策树算法一般由两步组成:(a)决策树生成,根据训练集数据生成一个尽可能大的决策树;(b)决策树剪枝,用测试集数据,依据损失函数最小化原则,对决策树进行剪枝。同时,为了确保模型的准确度,本文调用 R 语言软件中的“rpart”包,通过设置复杂性参数 CP 值,经过多次实验发现 CP 值为 0.014 时,模型的准确率最高,最终,建立模型并进行预测。
表 8 为决策树模型 50 次建模预测的平均结果,其中实际具有智慧养老需求意愿的平均值为31,无需求意愿的平均值为 16.4。适龄老人实际有需求意愿,且被预测为有需求意愿的平均值为28.9,被预测为无需求意愿的平均值为2.1;实际无需求意愿,但被预测为有需求意愿的平均值为 0.2,被预测为无需求意愿的平均值为 16.2。
整体来说,数据挖掘模型的决策树模型在正确率、查准率、查全率、AUC、PressQ方面的结果都好于Logistic回归模型。其中决策树模型的正确率95.1%大于Logistic模型的84.2%,查准率99.3%大于Logistic回归模型的90.3%,查全率93.2%大于Logistic回归模型的84.8%。AUC决策树模型较接近1,且决策树模型的PressQ值4.01大于Logistic模型的3.92,表明决策树分类方法好于Logistic模型的结果。
三、主要结论与建议
由Logistic回归模型和数据挖掘模型可知,北京地区适龄老人对智慧养老需求意愿的主要影响因素是老年人的文化程度、老年人的月收入水平、老年人的生活自理能力、老年人对智慧终端的熟悉程度。而老年人年龄、子女数、子女经济状况(子女月平均工资)、社区宣传力度、是否了解或接触过智慧养老平台或相关类似平台、政府智慧养老平台是否建立完善等因素对老人的智慧养老需求的影响并不大。
近年来多项相关养老政策的出台的确提高了一部分人加入智慧养老体系的意愿,但我国自古以来养儿防老理念早已深入人心,导致总体而言人们的智慧养老参与意愿仍不高。未来几年是智慧养老推行和实施的关键期和成熟期,如何更好地解决上述问题,完善智慧养老体系,提高养老服务水平,增强对老年人的安全保障等,是当今学者和实务界人士需重点考虑的问题。譬如,利用社区力量组织举办各种丰富的教育文化活动,同时鼓励民间组织开展老年人再教育活动,为愿意学习各种书法、绘画、舞蹈以及棋类等的老年人提供平台;加大对老年人信息服务建设的投入力度,比如购置智能检测仪,时刻关注老年人的身体健康以及出行安全等情况,从而能为应对老年人出现的突发情况提供应急措施。
参考文献
[1]高林:《社区老年人“智慧养老”需求意愿影响因素分析》,《卫生职业教育》,2019年第12期。
[2]胡黎明:《新型数字化居家式养老社区解决方案》,《智能建筑》,2007年第11期。
[3]向运华、姚虹:《养老服务体系创新:智慧养老的地方实践与对策》,《西安财经学院学报》,2016年第6期。
[4]张雷、韩永乐:《当前我国智慧养老的主要模式、存在问题与对策》,《社会保障研究》,2017年第2期。
[5]左美云:《智慧养老的内涵、模式与机遇》,《中国公共安全》,2014年第10期。
[6]Breiman L I et al, “Classification and Regression Trees (CART)”, Encyclopedia of Ecology, 2008, Vol.3:582-588.
[7]Cortes C,Vapnik V, “Support-Vector Networks”, Kluwer Academic Publishers,1995,Vol.20:273-279.
[8]Breiman L, “Random Forests”, Machine Learning, 2001, Vol.1:5-32.
(*王潇潇、郭旭林、陈建,中国政法大学商学院(研究生院);陈梦昕,中国矿业大学管理学院(北京)。本文是2019年度教育部哲学社会科学研究后期资助重大课题《全生命周期养老准备的金融理论与实践创新研究》的阶段性成果(项目编号:19JHQ007)。责任编辑:崔克亮)
RESEARCH ON INFLUENCING FACTORS OF
PARTICIPATION INTENTION OF BEIJING SMART PENSION
SYSTEM BASED ON DATA MINING
Wang Xiaoxiao, Guo Xulin, Chen Jian, Chen Mengxin
Abstract: The smart pension system itself has a management problem with rich content and influenced by complex factors. The traditional research is difficult to reveal its comprehensive inner influence mechanism because of the limitation of methods. This paper collects large sample data through social investigation on the basis of theoretical and empirical research, selects the optimal machine learning model algorithm to train and test the large data, carries out multi-level data mining for exploratory research, reveals influencing factors of participation intention of Beijing smart pension system.
Keywords: Smart Pension; Participation Intention; Data Mining
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!