时间:2024-07-28
邓朗妮 赖世锦 兀 婷 廖 羚 钟锰军
(1.广西科技大学 土木建筑工程学院,柳州 545006; 2.广西科技大学 BIM研究中心,柳州 545006)
数据挖掘是从海量数据中提取出有用的信息并探索数据中隐藏的规律的过程,主要包括数据准备、规律寻找、规律表示等步骤,主要任务有关联分析、聚类分析、演变分析等。而题录信息是对文献总体内容的概述,是文献外部重要的条目集合。使用有效的方法对题录信息的统计与分析,能有效地挖掘文献隐藏的信息,对了解学科研究热点以及学科研究的前沿起到重要作用。目前对文献题录信息数据挖掘的软件有文献题录信息统计分析工具[1](SATI)、社会网络分析软件(UCINET)、文献信息可视化软件(Citespace)等,相应软件发展为学术研究热点与学术研究发展趋势分析带来便利。
在实际应用中,刘甲学等基于共词分析的国内信息资源管理研究热点进行可视化分析[2]。吕坤灿等基于社会网络分析(UCINET)对BIM应用模式进行比较分析[3]。张立茂等基于社会网络分析(UCINET)对BIM设计人员进行行为挖掘的研究[4]。邓逸川等运用UCINET软件对中国BIM学术影响力进行分析[5]。朱记伟等利用Citespace软件对国内BIM技术相关研究进行对比分析[6]。尹怀琼等对SATI、Netdraw及Cite Space软件文献计量和可视化分析进行对比并阐述相应之间优缺点[7]。三款软件应用比较中发现,在计量上SATI对统计来源文献期刊和作者发文量方面比Cite Space好,但对无意义的关键词不进行剔除处理对可视化分析产生影响。在可视化上,UCINET携带插件Netdraw具有应用简单、节点关系显示度高、支持格式较多的优点,存在聚类分度不高的缺陷; 而Cite Space软件功能多样,在学术研究趋势的分析较好,但存在对数据格式要求高、软件复杂、不易于操作的不足。如何结合SATI、Ucinet、Cite Space软件的特点,高效地对BIM学术研究进行题录信息挖掘与分析是当前面临的问题。本文以数据挖掘理念为引导,以文献题录信息数据计量统计软件为辅助工具,提出一种基于数据挖掘技术的BIM学术热点与学术趋势分析方法。文章从数据的获取、数据的处理、数据的可视化展示、数据的分析四大块进行讲述,介绍该方法的实现过程,并以全国BIM学术会议为例进行方法应用过程展示。
图2 文献题录信息导出界面
该方法主要由数据获取、学术热点分析、学术趋势分析三大部分组成(见图1),借助SATI、Ucinet、Cite Space三款题录信息统计分析软件对数据进行分析,挖掘数据中隐藏的规律与有价值的信息,为相应科研提供参考,下面将对方法各项流程进行说明。
图1 学术热点与学术趋势分析方法研究流程图
该方法主要针对国内信息量最大的中文文献数据库CNKI进行研究,在知网期刊数据库中输入相应检索词,在检索结果中点选检索出文献,通过知网文献管理中心可以导出不同格式的题录信息文件(见图2),本文需要导出EndNote及Refworks两种格式文件,其内容包含论文标题、摘要、关键词、作者、机构等信息。以这两种格式文件数据作为分析原始数据。
图3 SATI软件数据导入与处理界面
(1)基于SATI的数据处理
将导出EndNote格式的题录信息文件导入文献题录信息统计分析工具(SATI)进行处理(见图3),然后进行关键词等字段的抽取,再进行词频统计得到统计文档,最后软件根据词频统计文档生成Excel格式的共词矩阵。该软件可生成词条共现矩阵(分相似矩阵、相异矩阵、多值矩阵和二值矩阵四种)、频率分布矩阵(包含频率分布矩阵两种)、文档词条矩阵(分多值矩阵和二值矩阵两种)三类共八种矩阵[8]。不同矩阵类型对共词可视化呈现会有不一样的效果,可以根据研究需求选择合适矩阵。
(2)基于UCINET的数据处理与展示
首先,将SATI导出Excel格式的共词矩阵数据复制到UCINET数据格式转换功能的Spreadsheet-untitled中(见图4),转换为##d格式数据文件; 然后,启动UCINET网络中心度计算工具,将##d格式数据文件导入,可以对关键词点度中心度、接近中心度、中间中心度等中心度进行计算(见图5),每个关键词中心度的值代表着该词在关键词网络中占据的核心性; 最后,将##d格式数据文件导入到UCINET自带插件NetDraw中(见图6),生成可视化关键词节点网络图,图形节点大小代表关键词网络中占据的核心性。通过不同功能的数据处理展示,能很好地发现数据中隐藏的信息与规律,为学术热点分析提供帮助。
图4 UCINE数据格式转换界面
图5 UCINET软件中心度计算界面
图6 UCINET软件可视化呈现界面
图7 Cite space软件数据导入界面
(3)学术热点分析过程
图8 Cite space软件主界面
本分析方法从关键词中心度与关键词共词可视化网络图两方面结合进行,关键词中心度包含关键词点度中心度、关键词接近中心度、关键词中间中心度,其中关键词点度中心度是指关键词网络中各节点占据的核心性; 关键词接近中心度是关键词网络中某一节点到图中其他节点距离之和,值越小该点就越是核心点; 关键词中间中心度是指某一节点在两个节点中间的位置,值越大代表它和图中和节点联系越紧密。关键词共词可视化网络图可以将各关键词联系与结构可视化展示与平面图中,节点大小代表关键词出现的频数,两节点连线的宽度代表两关键词的关系性。通过中心度与网络图对比分析,能够有效、准确地发现研究热点。
(1)基于Cite Space的数据处理与可视化呈现
Cite Space是一款应用于科学文献中识别并显示科学发展新局势和新动动态的软件,是学术研究趋势分析很好的辅助工具,但其操作要求相对较高,需要长时间研究。数据导入软件前建立一个文件夹,在创建文件夹里面创建四个文件夹命名分别为:data、input、output、project,将知网导出的RefWorks格式数据文件命名改为以download_开头的文本文档,并保存在input文件夹中。接着运用Cite Space软件中数据导入入口将input文件夹数据导入(见图7),导出出口选择output文件夹,数据处理后,在Cite Space主界面点击NEW为上步处理数据进行命名并将数据保存软件制定文件夹中,完成数据处理。然后将数据处理后存在output文件夹中的数据复制到data文件夹中,再回到软件操作界面(见图8); 最后,根据研究需要,可以在界面上进行时间、分析对象、展示效果等自定义设置,点击GO!按钮就可以生成关键词等研究对象的可视化与研究趋势图形。
(2)学术趋势分析过程
学术趋势分析,是对学术研究动向以及未来发展的描述,对研究领域更全面的了解,能更好地确定前沿的研究课题。本方法通过Cite Space软件对关键词可视化展示,能够发现研究热点的变化过程,并确定当前的前沿研究,通过对文献研究机构,以及作者分析,我们可以发现当前前沿研究的科研团队,为了解前沿研究成果带来便利。
图9 关键词可视化共词网络图
本文以全国BIM学术会议为例讲述基于数据挖掘的BIM学术热点与学术趋势分析方法。全国BIM学术会议是中国图学学会BIM专委会组织召开的国内高水平学术会议,先后在北京、上海、广州、合肥举办了四届全国BIM学术会议,会议内容覆盖BIM基础研究、BIM技术研究、BIM应用研究等,聚集全国高校领先的BIM科研团队成果、企业BIM技术创新与应用的成果,以此会议为例,对国内BIM学术热点与趋势分析更具有代表性。本文是以第二、三、四届学术会议论文集为分析数据。通过知网文献管理中心导出EndNote格式与RefWorks格式的题录信息,其信息包含标题、摘要、关键词、作者、机构等作为分析原始数据。运用SATI、Ucinet、Cite Space三款题录信息统计分析软件对数据进行挖掘,分析近年学术会议BIM热点研究及BIM学术研究趋势。
(1)关键词网络分析。按照上述方法对学术会议论文题录信息进行处理,将数据导入ucinet中,进行共词网络分析,得到关键词可视化共词网络图(见图9)。
从图2中可以看出,在图中共有100个节点,每个节点代表一个高频关键词,节点大小代表关键词核心性,节点间通过相互关联的线段链接,线宽表示两点间的关联性大小。“BIM”、“BIM技术”、“建筑信息模型”等关键词位于网络图的核心位置,核心关键词周围围绕很多关键词,说明基于BIM的研究课题广阔,研究深度在加强。BIM在城市轨道交通的研究较多,BIM与物联网、三维扫描、大数据等新兴技术相结合,为BIM技术研究带来新方向; BIM在装配式建筑的应用是BIM应用研究热点,是我国建筑工业化发展趋势。下面结合中心度分析来准确寻找学术会议的热点研究。
(2)点度中心度分析。点度中心度这一定量指标是衡量网络中各个节点的地位[9],本文通过点度中心度大小来判断BIM学术热点。
从表1中可以发现“BIM”的点度中心度为99,表明关键词“BIM”处于网络图的核心地位,而统计中点度中心度的平均值为5.6。共有“BIM”、“BIM技术”、“建筑信息模型”、“进度管理”、“轨道交通”、“IFC标准”、“GIS”、“装配式建筑”等26个关键词大于平均值,这些关键词在该网络地位较高,为学术会议研究热点。
表1 部分关键词点度中心度数据
1Degree2NrmDegree3Share1BIM99.00014.2860.1772BIM技术 49.0007.0710.0873建筑信息模型 17.0002.4530.0308进度管理 15.0002.1650.02710轨道交通13.0001.8760.02311IFC标准 12.0001.7320.0214GIS 11.0001.5870.02014装配式建筑 10.0001.4430.018
(3)接近中心度分析。网络图中某一节点的接近中心度是指该节点到网络中所有其他节点的最短距离之和,其体现某一节点不受其他节点控制的能力。某节点的接近中心度的值越小,越说明该节点是网络的核心点。
表2 部分关键词接近中心度数据
1Farness2nCloseness1BIM648.00015.2782BIM技术678.00014.6023建筑信息模型686.00014.4318进度管理693.00014.28614装配式建筑693.00014.28613项目管理694.00014.26512施工管理696.00014.224
从表2中可以发现“BIM”的接近中心度最小为648,表明该点最容易到网络中所有关键词节点,在该网络图中节点“BIM”处于核心地位。其中“进度管理”、“装配式建筑”、“项目管理”、“施工管理”等关键词接近中心度都小于平均接近中心度。表明这些关键词与网络图中其他关键词关联较为紧密,为BIM学术研究热点。
(4)中间中心度分析。关键词中间中心度的度数表示网络图中一个关键词节点影响其他关键词共现的能力,值越大越说明它与网络图中各节点联系越紧密,越是核心关键词。
表3 部分关键词中间中心度数据
1Betweenness2nBetweenness1BIM 2559.77952.7682BIM技术1464.29030.1853建筑信息模型423.4928.7305建筑信息模型(BIM) 284.2335.85914装配式建筑226.6474.67219三维扫描225.6484.65259参数化设计184.0003.7934IFC标准125.7382.592
从表3可以发现节点“BIM”中间中心度最大为2 559.779,而“BIM技术”、“建筑信息模型”度数值较大,说明他们是网络图中的核心关键词。其中“装配式建筑”、“三维扫描”、“参数化设计”、“IFC标准”等关键词中间中心度度数较大,是BIM应用研究、技术研究、基础研究热点。
(5)热点分析小结。根据三年全国BIM学术会议文献高频关键词社会网络分析与中心度分析,结果表明,BIM在装配式建筑的应用研究是研究热点,与林佳瑞[10]等从我国BIM发展政策现状综述及演变分析得出未来BIM与装配式建筑结合的政策发展结论相呼应。而基于IFC标准的数据转换与自动建模基础研究; BIM+三维扫描和BIM+GIS等技术研究; BIM在项目参数化设计、进度管理、等方向的应用研究等成为当前BIM研究热点。
本研究通过对Ucinet软件生成的关键词频数矩阵可视化网络图及Cite Space软件生成的关键词共现可视化图谱进行分析,判别近3年来BIM学术研究热点变化及研究发展总体趋势,对学术会议论文集中基于IFC的研究进行深层次分析,展示局部趋势分析过程。
(1)总体趋势分析
运用上述介绍的方法,运用Cite Space软件对三届全国BIM学术会议文献数据进行处理,得到关键词可视化图谱(见图10),图中不同线段颜色表示不同年份关键词联系,紫蓝色代表第二届(2016年),浅蓝色表示第三届(2017年),浅绿色表示第四届(2018年)。并结合ucinet软件生成的关键词频数矩阵可视化网络(见图11)进行BIM学术研究热点变换及发展趋势分析。
图10 基于Cite Space关键词可视化图谱
图11 关键词频数矩阵可视化网络
结合图10、11可知,“装配式建筑”、“IFC标准”、“三维扫描”、“进度管理”等关键词是三届会议共有的,再次证明上述BIM研究热点分析的结论。通过对比发现,第二届主要侧重BIM技术综合应用,文章以类似于“BIM技术在某工程应用”为主题的居多。第三届主要体现BIM技术与其他技术集成研究与应用,文章以类似于“BIM技术+某技术研究”为主题的居多。相比前两届,第四届论文集研究层面有较大提升,更加重视基础性研究。在研究程度上,第二届主要是BIM技术应用于建筑设计、施工阶段居多,从第三届起,论文更加重视BIM技术运用在建筑全生命周期的运维管理。对比汇总分析,发现基于IFC标准的基础研究、碰撞检测、深化设计、BIM+GIS、进度管理等研究在三届会议都出现。而第二届与第三届对比发现,第三届应用面与技术集成有明显提升,基础研究上涉及到了基于IFC的数据转换,而技术集成上更是丰富,出现大数据、三维激光扫面技术等; 在应用研究上涉及到运维的管理,同时BIM技术在钢结构深化设计也出现成果。第二届与第四届对比,发现第四届在建模上已经出现自动建模软件,同时提出参数化建模来提高模型的速率与精度,提出自动化、信息化理念; 在技术研究上,出现了无人机技术、图片处理技术、数据挖掘技术与BIM集成,智能工地与BIM综合平台建立也受到关注; 应用研究上,最明显是基于BIM的装配式建筑与IFC标准结合的基础研究。第三届与第四届对比,发现第三届已经出现装配式建筑与BIM结合、BIM出图应用点,无人机技术、大数据、倾斜摄影技术开始与BIM结合。不同的地方是自动建模软件应用实现参数化建模、BIM云平台研究助推BIM信息共享、智慧工地理念的提出为BIM应用提供方向。
(2)局部趋势分析
筛选出学术会议论文集中关于IFC的论文数据,运用ucinet软件生成基于IFC关键词可视化共词网络图(见图12),基于IFC关键词频数矩阵可视化网络图(见图13),运用上述分析思路进行分析。
图12 基于IFC关键词可视化共词网络图
图13 基于IFC关键词频数矩阵可视化网络图
IFC是建筑信息模型数据交换表达的标准格式,IFC的研究成果将决定BIM数据实现共享的层面。基于IFC的基础研究是这三届会议的热点,有图12发现研究关键词分成两个部分,左边以关键词“IFC”为中枢,右边以关键词“IFC标准”为中心,进一步观察发现,左边关键词集合注重体现技术集成的基础研究,实现BIM信息数据转换的多渠道,以及模型空间信息识别的多方式,为研究提供新思维。右边关键词集合多体现在自动建模、模型数据转换实现BIM信息共享,成果多应用在建筑设计与建造阶段。从图13可以发现,自动标注生成、自动建模思想从16年已经呈现,后面不断深入研究,数据转换与数据交换研究17年已经出现, 18年出现关系型数据库与八叉树与BIM数据交换与模型空间识别,三年的分析看,研究在向深度与广度方向发展。
通过上述分析,以及相关文献阅读,在预制构件自动建模上:刘思铖等提出利用IMU获取预制构件数据从而自动建模的方法[11]。徐睿等从构件位移计算、编码、无线网络传递数据解决了刘思铖提出的方法的局限性,提出基于IFC标准下针对预制构件自动生成含有预制构件语义信息与施工现场一致的装配式模型方法[12]。在BIM钢筋信息解析上,针对BIM进行二次开发对钢筋信息解析建模方法[13],不具备通用性,无法更好实现钢筋数据共享问题,陈红伦等提出了基于IFC标准下钢筋模型在各软件之间实现数据共享与交换的方法[14],该研究目前只解析了IfcReinforcingBar实体表达钢筋模型几何信息表达,对于板构件中钢筋网的表达还没有实现,后续可进行相应研究。对数据的存储与管理是BIM应用的一项重要工作。而数据库对数据的存储与管理能够克服IFC文件不支持并行操作、缺乏安全性的问题。利用关系型数据库存储上:张建平等利用该数据库存储IFC数据,建立建筑施工4D管理系统[15]; 张洋利用该数据库存储IFC数据实现结构化模型数据的读取、保存、提取等[16],从数据存储角度考虑,关系型数据库对于BIM数据存储、传递和共享更有利,为此,周颖等提供一种IFC格式数据能自动映射到关系型数据库的方法[17],目前该方法只进行材料及部分机械数据转换的研究,对于人员数据、更多施工机械等数据的转换还没有进行深度研究。
(3)小结
从上述分析可知,我国BIM相关研究基本覆盖了建筑行业各领域,随着研究的深入,BIM研究侧重点从应用研究转向基础研究,BIM研究价值的衡量更加注重实际效益,未来BIM研究将向更经济、更便捷、更接近市场的方向发展。
本文将SATI、Ucinet、Cite Space三款题录信息数据挖掘分析软件相结合,提出了基于数据挖掘的BIM学术热点与学术趋势分析方法,以三款软件处理统计分析的数据为依据讲述了BIM学术热点分析法,和BIM学术趋势分析法。并将该方法应用与全国BIM学术会议文献数据分析中,体现该方法的实用性,研究主要发现如下:
(1)将三款文献题录信息分析软件结合应用,能起到软件之间优势互补的作用,同时将不同软件对同一信息数据进行处理,能多角度、多渠道、多形式地进行数据挖掘和展示,有利于发现隐藏在数据信息中的规律,为研究工作提供帮助。
(2)将分析方法应用与全国BIM学术会议文献数据处理分析,结果表明,近年我国BIM学术热点主要有基于IFC标准的数据转换与自动建模基础研究; BIM+三维扫描和BIM+GIS等BIM集成的技术研究; BIM在项目参数化设计、进度管理、基于BIM的装配式建筑等方向的应用研究。未来BIM学术研究趋势将从应用和技术研究转向基础研究,以BIM落地难等问题为导向,以BIM应用价值为尺度,推动国内BIM技术更好发展。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!