时间:2024-07-28
江 琴
(江苏省江阴中等专业学校 江苏 江阴 214400)
在计算机技术和信息技术的飞速发展下,各个领域产生的数据量持续增多,数据规模日益增大,促进我国步入大数据时代[1]。 在大数据时代下,数据的获取与存储尤为重要,由此衍生的大数据创新技术为大数据分析提供有力保障。 大数据分析作为大数据领域中的关键组成,主要采用合适的数据统计分析方法对采集获取到的数据展开分析,从中提取价值信息进行归纳和总计,最终得出结论。总之,大数据分析的根本目的是从海量、无规则的数据中寻找具有价值的数据,从而提高数据价值或赋予新价值,以便为决策人员提供科学的参考。 但常规大数据分析容易受数据类型繁杂等诸多因素的影响,导致大数据分析的效果不佳[2]。 而在大数据分析中应用Python 语言则能显著提升数据分析的性能,Python 语言具有丰富的库资源,在提高信息处理效率、降低误差等方面具有较高的应用价值,在快速开发方面表现出显著优势,现阶段已经成为第三大编程语言,具有广泛应用价值。
在大数据时代背景下,大数据技术的应用范围愈加广泛,各个行业领域都会生成海量的数据。 大数据具有种类多、体量大的特点,且具有极高的数据价值,因此怎样对大数据进行有效的分析处理,提高大数据资源利用率,是现阶段信息技术领域面临的主要问题。 大数据分析主要是依靠相应的数据统计分析方法,在保持数据处理效率的同时,对大数据内部相关性及发展趋势展开重点分析。 常规的大数据分析流程为“收集—清洗—分析—可视化”。 其中数据收集是大数据分析的前提,一般通过互联网、数据库、本地文件或传感器等途径对数据进行主动获取;数据清洗则是将收集到数据样本中逻辑不清、无价值或不规范的数据剔除,或转化为满足质量要求的数据;数据分析主要是通过适当的统计分析方法实现的数据样本的分析,归纳数据之间的内部关联,得出分布规律;数据可视化则是借助图像处理技术,运用可视化图像将数据直观、形象地展现给用户,为用户对决策的制定提供参考。
在大数据分析中,集成信息系统(statistics analysis system,SAS)、Python 语言、R 语言都是常用的典型编程工具,其中R 语言和Python 语言是开源的,在互联网领域中得到广泛应用;而SAS 则是付费软件,是医疗和金融行业编程开发所使用的标准工具[3]。 考虑大数据分析过程中涉及大量数据交互、计算以及可视化,Python 语言凭借自身丰富的第三方库,更适合在大数据分析中应用,更便于实现多种数据分析。
1.2.1 Numpy 库—数据分析基础工具
Numpy 库作为Python 语言中进行数组处理和矢量运算的一个科学计算库,也是进行数据分析的标准工具。 借助Numpy 库能够有效实现Python 语言编程的高性能计算,为数组排列和适量计算提供有力帮助。 Numpy 库的矢量运算功能不仅具有多个便捷接口,而且具有较高的计算效率,其运算速度是程序员自行操作Python 语言展开运算的一倍左右。 即便Numpy 库不具备较多的高级分析能力,功能主要以基础数据分析为主,但应用Numpy 库是实现大数据分析的重要支持。
1.2.2 Pandas 库—数据分析专用库
Pandas 库作为基于Numpy 库的数据分析专用库,具有较高的数据分析能力,可以对数据样本进行分组、排序和归并等相关处理操作,也可以实现求和、极值、标准差等计算。 Pandas 库的应用主要是对结构化数据进行处理。对于大数据分析的数据收集而言,Pandas 库还支持对csv、xlsx、SQL Server、txt 等多种格式文件的读取,且包含多种应用程序接口(application programming interface,API)函数。
1.2.3 Matplotlib 库—数据可视化工具
Matplotlib 库是典型的绘图库之一,通常与Numpy 库配合使用,能够实现对数据分析结果的可视化,是应用Python 语言进行大数据分析中的关键可视化工具。 对于Matplotlib 库的应用主要利用plot 工具包,plot 工具包凭借自身具备的绘图API,实现了对绘图对象结构的有效封装,用户仅需对Pyplot 模块中的函数进行调用,即可通过极少量的代码完成所需图形的高质量绘制,包括散点图、直方图、三维图形等。 其中直方图是对数据体态特征的直接反映,如图1 所示的是满足正态分布下sigma 为20、mu为100 的10 万条数据的直方图。
图1 利用Matplotlib 库进行直方图绘制
1.2.4 Scikit-learn 库数据分析实现
Scikit-learn 库是基于Numpy 库、Matplotlib 库的机器学习库,支持回归、分类、聚类三个计算类别,且具有模型选择、数据降维处理、数据预处理等功能。 以下针对应用Scikit-learn 库实现回归计算的过程进行介绍。
首先对算法进行设计,Logistic 回归作为线性分析模型,是借助回归形式对分类问题进行有效解决。 假设特征向量x的属性值集合为(x1,x2,x3,…,xn),由此基于属性值线性组合得到的预测函数如式(1)所示:
式(1)中w代表权重,b代表偏值,由此可以认为算法是针对w与b的学习,也就是通过训练学习的方式得到w与b,保证预测值和真实值之间具有最小的均方误差[4]。 基于上述设定,针对数据点(x,y) ,如果数据点的预测值与真实值接近,即可生成如式(2)所示的线性回归模型,主要是对输入x与输出y之间线性关系的表征。
其次,需要应用Scikit-learn 库中的iris 数据展开训练预测。 若没有安装Python 科学计算包,可采用Anaconda,作为Python 语言的集成开发环境,实现对大量第三方包资源的集成,适用于Python 的数据处理、科学计算以及预测分析。 在安装完成Anaconda 之后,仅需通过对所需模块导入数据即可将数据输入划分为训练和测试两个集合;通过对Logistic 回归模型的合理选择,即可完成对数据的训练和预测。
在上述过程中,需要注意Scikit-learn 库通常会将训练获取到的数值存储在下划线末端属性之中,以此实现与程序员规划参数区域的有效隔离:其中权重w存储在coef_之中,偏值b存储在intercept_之中。
Python 语言作为程序的一种,可借助软件工具实现对网页数据的获取。 在对Python 爬虫的设计过程中,通过对爬取网页地址的确定,通过超文本传输协议(hyper text transfer protocol,HTTP)即可在信息页面获取所需的信息数据,利用lxml 对数据进行筛选、保存。 在对Python 语言进行应用的过程中,在面向对象的基础上,通过数据挖掘实现对数据编译的完善,进而为数据操作提供保障。 建立文件后,即可对爬虫程序的基本规则进行设定,将数据放置在指定位置上。 同时,在提取爬虫信息时,可依照Scrapy-Redis 对文件夹进行创建,在文件夹中对爬虫所需内容予以确定,实现对数据收集和分析的完善,进一步提升数据分析的时效性。
待完成Python 语言设计和数据信息的处理后,能够利用搜索引擎实现网址的发送。 例如在软件的开发设计完成后,可先对相关的数据信息进行网页搜索,构建链接通道,从而基于数据分析实现对数据规则及信息处理等的有效控制,保证数据抓取目标的达成。 而当新网站成功建立后,能够同其他网站构建合作关系,通过对Python 爬虫爬取的应用,对数据提取规则进行添加,以达成大数据分析的目标。
应用Python 语言的过程中,为提升网页信息数据获取的便利性,可借助爬虫软件搭建搜索引擎,通过对统一资源定位符(uniform resource locator,URL)数据的分析实现数据分析的目的。 在此过程中可以通过获取到的数据与目标数据之间的对比,得到URL 数据。 之后将存储地址作为根据,对相关数据展开统计和分析;将部分数据存储于本地磁盘之中,通过有效的数据整合促进大数据分析能力的提升。
对于数据抓取而言,进行抓取的页面中通常会存在较多的图片和广告,从而导致抓取到的数据容易出现失真的问题[5]。 由此,对于Python 语言的应用而言,可采用提供的数据预处理功能,优先对页面中的庞杂信息进行处理。 同时对于数据操作而言,可应用Python 语言对文字进行提取,通过爬虫实现对数据获取的控制,优化大数据分析与处理。
应用爬虫可实现对URL 数据的获取,处理页面信息,基于对爬虫信息的获取,能够对数据存储进一步优化,强化对网站数据的分析与处理。 由程序员收集页面中的相关数据信息,若数据存在相同情况即可合并,剔除其中的无价值信息,在计算机中存储有价值的信息。 为尽可能减少存储空间,需要对大数据先进行筛选,保证筛选过程的有效性。 在此过程中应用Python 语言则能有效处理页面数据,从而实现对信息抄袭的规避。
对于网络爬虫的应用而言,必须实现对爬取信息的强化控制。 基于对request 请求的设置,应用Python 语言具有的分页检索功能,基于对大数据的排序、分析、修改等,进一步提升Python 语言应用的舒适程度。
基于Python 语言自身的特点,对大数据分析中的实际应用进行设计。 基于对自动化平台的构建,在文件、执行、脚本、实时信息等多个方面展开综合管控,利用数据分析处理,进一步提高数据读取水平。 在数据逻辑分析过程中,应用Python 语言,优化文件信息和编程过程,通过对文件信息管控的强化,提高Python 语言的应用实效。 首先创建语言文件,通过对命令逻辑的设置处理数据流,待完成对文件信息的翻译后,即可实现对整个数字操作和数据流输出环节的优化。 其次,对应用设计过程中的信息实时处理而言,可以采用.xml 格式进行文件信息的编译,在数据输出和信息处理的基础上,输出和控制编译完成的文件信息,最终实现对相关数据的显示。 为保证对Python语言的有效控制,采用工作流重启方案,通过对临时文件的选择和处理,基于对现场文件的传输与控制,综合管控参数及赋值变化情况,最终实现数据显示与分析。 在此过程中,还可以采用cmd 命令,调用数据信息,实现数据的深度挖掘。
为验证大数据分析中应用Python 语言的分析能力,通过对某区域状态大数据的评估,将与传统智能数据分析系统进行对比分析,展开测试。
为确保测试的效果,构建模拟测试平台,采用三维机械设计软件(modular formation dynamics tester,MDT)和测量报告(measurement report,MR)定位装置对区域状态进行评估,搭建仿真模型对区域内的状态大数据进行收集,模型输出如表1 所示。
表1 模型输出统计
通过表1 得到的数据能够看出,仿真模型的输出数据和实际数据具有较高的拟合度,大数据信息准确性较高。在实际测试过程中,先进入大数据分析系统,进行大数据智能分析,对大数据分析通过准则进行设置,也就是在MR 大数据测量过程中需要保证不同建筑物的大数据采集情况,对不同建筑物进行差异颜色渲染,确保满足二区rsrp<-90 dBm,-110 dBm<三区rarp<-90 dBm,一区rsrp<-110 dBm。 之后即可进行大数据分析的时长测试。
应用Python 语言的大数据分析和传统大数据智能分析对不同区域仿真检测分析的耗时结果如表2 所示。
表2 测试结果
由表2 得到的测试结果可知,对于a~e 五个不同区域的测试而言,应用Python 语言的大数据分析耗时要明显优于传统大数据智能分析的耗时,证明应用Python 语言的大数据分析具有更好的分析性能,分析效率相对较高。
综上所述,Python 语言凭借其简单易学、具有丰富类库的特点在网络爬虫、Web 编程、人工智能等领域中得到广泛应用。 本文通过对Python 语言和大数据分析,明确Python 语言可以为大数据提供基础工具、专用库、可视化工具,以及实现分析过程。 测试结果证明:应用Python 语言的大数据分析在耗时方面明显优于传统大数据分析,Python 语言分析效率更高,可以更好地满足大数据分析的实际应用需求。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!