当前位置:首页 期刊杂志

基于互联网信息抓取的涉案企业大数据画像

时间:2024-04-24

孙沣仪

摘要 隨着经济的高速发展,企业犯罪数大幅提升、犯罪种类日益增多,严重威胁了国家的经济发展安全。大数据时代背景下,利用海量互联网信息,进行涉案企业大数据画像构建是公安机关面对严峻的企业犯罪形势必须的选择。

关键词 大数据 涉案犯罪 企业画像

一、企业犯罪

所谓企业犯罪,日本学者板仓宏的观点是认为系泛指与企业活动有关之一切犯罪行为;另一位日本学者室伏哲郎则是认为“指企业及其从业员,也就是法人或其代表人、使用人或是此等代表人士用人之代理人、使用人及其他从业员,关于其企业的业务,所犯的所有犯罪行为。”由此可知,凡是由企业活动给他人或社会造成危害的,均可称为企业犯罪,企业犯罪的内容可以归纳为两部分:1.企业本身的犯罪,即企业自身和企业成员是企业犯罪的重要构成部分,他们本身并不构成犯罪,因此他们的行为都被视为企业本身的行为。2.企业成员的犯罪,即企业成员利用企业的组织架构进行活动,在企业活动中为自身的利益所触犯法律。在此,仅讨论以企业法人的形式所违反法律的犯罪行为。

企业犯罪有许多不同种类。例如,违反经济法等有关法律,即为公司犯罪。破坏生态环境、危害社会秩序的行为,即为公害犯罪。利用企业违反社会经济秩序,又为经济犯罪。根据《刑法》有关条文,可大致分为:1.公司高层和管理人员经济犯罪类型,如行贿罪、职务侵占罪、玩忽职守罪、巨额财产来源不明罪等。2.公司经济犯罪类型,包括:(1)金融业务中的犯罪,如洗钱罪、集资诈骗罪、非法吸收公众存款罪等。(2)纳税中的犯罪,如偷税罪、骗取出口退税罪、非法出售增值税专用发票罪等。(3)知识产权使用中的犯罪,如侵犯著作权罪、侵犯商业秘密罪、销售假冒注册商标的商品罪等。(4)商品交易活动中的犯罪,如虚假广告罪、合同诈骗罪、非法经营罪等。(5)生产销售商品中的犯罪,如生产、销售伪劣产品罪,生产、销售假药罪等。(6)公司设立管理中的犯罪。如虚报注册资本罪,虚假出资、抽逃出资罪,隐匿、故意销毁会计凭证、会计账簿、财务会计报告罪等。(7)进出口贸易中的犯罪,如走私文物罪、走私贵重金属罪等。

二、企业画像

企业画像是企业数据的形象化展示,即将企业的信息标签化,也就是用一系列的标签简洁明了地刻画一个企业的特征,是在一连串数据上构建起来的企业模型。企业画像是描述目标企业、联系诉求与设计方向的有效利器,它是在根据目的的明确要求下,将企业的标签进行重新排列组合,从而形成自身的模型。

企业画像有两类,一是企业角色,二是企业属性。企业角色是指从企业群体中抽象出来的典型企业,是企业的虚拟代表。它的本质是用来表现企业的诉求,从企业的角度去思考问题,是针对企业寻找行为。企业属性是根据企业在社会活动和行为,生成的描述企业专属的标签的集合。利用已有的数据信息,进行定性和定量分析,描绘出企业的行为属性,适合进行企业的种类划分和聚类分析,是针对行为寻找企业。

三、互联网信息

(一)互联网信息搜集中的大数据思维

企业互联网信息的搜集的理想境界是应收尽收。“应收”,是搜集可能反映企业犯罪的所有数据,其他非涉案数据不搜集;“尽收”,是搜集尽可能多的信息,为企业的评估提供完备的信息和数据支持。两者有共通之处,即都要筛选出有涉案可能性的企业。信息化背景下,企业犯罪的研究离不开大数据,而大数据思维将推动企业犯罪研究的转型。

大数据思维的逻辑原理有两个:1.一切皆可量化。人们的一切行为都可以在互联网上留下痕迹,以信息的形式被记录、储存、转移和处理。例如,对淘宝上商品搜索的分析,人们的需求可以被数据化;对嘀嘀打车等打车信息的分析,人们出行的时段和频率可以被数据化;对微信等社交软件的状态进行分析,人们的情绪变动可以被数据化……现实世界可以以一种数据化的形式被展现,将数据与生态、社会世界相联系;2.万物皆有联系。大数据分析方法的核心即相关思维,从数据中发现关联,而不是仅仅考虑传统的因果。按上述的两项逻辑原理,如果企业的行为都可以被数据化,公安机关如果能够搜集到充分的数据信息,就能够在信息的基础上绘制企业画像,从而分析企业是否涉案的可能。

(二)数据容量需求

大数据思维下的企业涉案研究需要建立并完善企业信息数据库,按照“拇指法则”,进行数据分析,至少有65%~85%的时间花在搜集和准备数据上,如果是设立之初,花费的时间将会更多。从企业注册开始,到企业运行,乃至退市、解散的整个过程,都可以被视为信息的采集过程。

在运用互联网信息进行企业画像构建的过程中,信息究竟要多到何种程度才能保障画像的有效性,这一问题还没有一个统一的标准。《大数据时代》的作者维克托·迈尔·舍恩伯格认为,大数据应“大”到n=all,即全数据集合,才可以达到准确的评估。以局部的信息为基础进行分析得到的结论,诚然不可能是面面俱到,它可能是完全错误,也可能是以偏概全。但实际中,并不是这样。全数据的搜集只是一种范化的理论,是理想化的条件,不可能达成。美国政府面对这一问题,应对的措施是采用“最小数据集规则”,即每个业务部门按一定的规范和要求进行数据搜集,然后汇总到政府信息部门,通过社会信息共享系统实现大数据搜集的目标。

此外,信息搜集的数量在一定程度上体现为信息维度的多少。如果数据的容量只基于某一个维度上,那么由其产生的结论会存在偏差。就如公安机关在抓捕犯罪嫌疑人过程中,如果只有犯罪嫌疑人身高、体格等少量几个维度,就难以确定嫌疑人的体貌特征,对其绘制具有指导作用的人物画像,给破案带来困难。同样,对企业进行画像时,公安机关仅仅知道企业某一维度的信息远远不够,信息采集除了企业自主申报之外,还需要来自其他政府部门、金融机构、第三方平台等数据的补充。信息的采集还讲究证据。证据证明力大小不同,有的可以直接单独作为证据使用,有的需要其他证据进行补正,维度少的证据也需要通过维度多的证据进行补证,增加其可信度。因此,考虑搜集信息的维度时,既要考虑其多少,还要考虑其主次、大小的区别。例如,金融机构的财务结算数据,比工商行政管理部门进行登记的数据重要。

信息搜集時,要重视来源的广泛性和复杂性,精确性不是必须的。因为当信息存在杂乱时,会有更多正确的信息将其覆盖;当存在因粗略导致的误差时,更多数量的数据会对误差进行矫正。因此,对企业信息的搜集,我们有两个需要注重的地方:一是国家各个政府部门间的信息共享,二是政府部门以外,以金融机构为主体的信息。

(三)数据处理方法与技术

企业在互联网上的信息以企业数据为核心,包括搜集、处理、分析和检索四个方面。涉及到的相关技术主要有网络爬虫技术、重复数据删除技术、Lucene技术和基于Solr检索技术。

信息数据分析方法与技术的适当运用,能够极大地提高人们对事物的分析与观察能力。大数据思维模式下,涉案企业的画像绘制也发生了实质性的改变。如今我国企业信息搜集主要为信息检索,即利用关键字词进行查询,在海量信息中检索所需要的信息。因此,迫切需要提高、改善计算机的信息数据搜集、处理等过程的方法、速度与技术水平,减少人为主观性因素对判断的影响,实现对海量信息的充分操作与应用。与此同时,将数学、统计学、经济学以及计算机科学等关联学科进行整合,建立一套以计算机信息搜集与处理为核心的高效企业信息分析机制,是提高涉案企业分析研究的有效途径。

四、企业画像构建步骤

首先对标签进行系统性归纳整理,根据不同的涉案类型进行企业画像,构建特征标签库。再将企业画像形成的特征标签库应用于实际营销中精确的定位目标用户。画像构建大致可分为4个步骤,分别是为信息搜集、标签归纳、企业画像和特征应用。

(一)信息源

企业画像的第一步就是收集与之相关的信息源。在对信息源进行分析之前,应当收集所有可以反映企业相关信息的信息源,尽可能多地掌握企业的全量数据。企业的信息分散于大量不同的系统与平台之中,如企业从注册开始,就有着工商登记信息、金融借贷记录、企业财务披露、市场反馈与评价等不同维度的数据。进行企业画像,首先就要把这些散列在不同系统中的企业数据搜集起来,并进行集中归纳处理,将有关信息集中起来,按照一定需要形成体系,建立相应的标签。

(二)标签归纳

企业画像的第二步是根据企业信息的类型,分析属性,归纳出企业标签。标签是指对企业行为数据信息进行总结整理,归纳出企业的行为特征或属性特征。基础标签库主要包括政府监管信息,如纳税登记、行政奖惩等,还有企业自主披露信息,如企业年度财务报告。通过画像,将企业的具体行为进行归纳,分为不同的属性,整理汇总,最终汇集为一个多元化的标签库。

(三)涉案的理解

企业画像的第三步是对涉案的理解,将涉案可能性转化为建模的条件和要求,准备下一步的涉案企业建模。

根据具体的涉案类型,从而确定企业画像的目的,在此基础上制定企业画像标签,总结出企业画像的各类特征。确定企业画像目标之后,根据目标检索关联性强的信息,删除关联性弱的信息。强相关信息有利于发现企业涉案的可能性,帮助定位目标,发挥画像的价值。

汇集所有的强相关标签后,依据涉案类型研究需求,对标签进行梳理总结,对标签进行定性处理。这一系类整理一般在数据库完成,将复杂的数据简单化标签化,形成企业特征的标签库。

(四)数据建模

根据涉案研究的目标,可以确定数据模型信息的输入内容以及构建模型的目的。在对数据进行搜集、处理、分析处理的步骤之后,完成清洗整理,就可以进行画像模型的构建。画像中的数据操作主要包括数据处理、行为特征化分析、变量研究与筛选以及最终的模型建立,进行精细的数据操作从而科学形成数据建模。

(五)提供标签

在模型建立后,还需要对画像进行可视化操作,即画像的最后一步就是分析每个企业的社会活动行为,给企业的各种行为属性打上标签、进行归类,用可视化的数据将建模的结果表现出来。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!