时间:2024-05-04
张云峰
(上海股权托管交易中心 上海市 201203)
2020年3月1日施行的最新版《证券法》明确,“按照国务院规定设立的区域性股权市场为非公开发行证券的发行、转让提供场所和设施,具体管理办法由国务院规定。”《国务院办公厅关于规范发展区域性股权市场的通知》(国办发〔2017〕11 号)规定,“区域性股权市场是主要服务于所在省级行政区域内中小微企业的私募股权市场,是多层次资本市场体系的重要组成部分,是地方人民政府扶持中小微企业政策措施的综合运用平台。”根据中国证券业协会编著的《中国证券业发展报告(2020)》之《专题报告:2019年区域性股权市场和柜台市场发展综述》显示,截至2019年底,全国34 家区域性股权市场共有挂牌公司2.88 万家(其中股份公司1.11 万家),展示企业11.07 万家,登记托管企业43275 家,累计为企业实现各类融资11294.9 亿元,为区域性股权市场提供服务的中介机构7571 家,合格投资者91.10 万户。经过多年努力,34 家区域性股权市场共助推800 多家企业成功转入新三板、沪深交易所等市场。这些庞大的数据,是我国资本市场发展建设、助推中小微企业发展的宝贵资源。但是,多年以来,这些数据没有得到充分挖掘和有效利用,甚至为数不少的区域性股权市场在向监管机构报送监管数据时,尚存在报告数据标准不一、依据不足、无明细支撑、差错率高、参杂主观因素等问题。究其原因,主要就是没有功能健全的、科学合理的、自动化程度高的数据统计系统。因此,需要一个功能强大的、有效整合市场中各个分支系统数据的数据统计系统,为数据深度挖掘、大数据分析、人工智能等数据处理系统提供支撑,最终为国家资本市场发展、中小微企业发展战略提供决策参考。
(1)满足监管部门数据报送要求。根据监管部门的需求,对多维度数据进行自动化采集,再进行定制化分析、类别化统计,生成指定格式的报表,及时报送给监管机构。为达到报表生成准确、全面、及时,需要采用灵活的报表工具,为适应业务发展中新变化,需要通过插件技术以方便地扩充报表内容和格式。
(2)为市场参与者精准画像、精准评级。通过数据采集、提炼、统计,准确得到企业的财务、经营、管理、信用、客户分布、行业排名等情况;中介机构的服务特色、适应范围、优长劣短;投资者的投资偏好、风险承受能力、获利途径,对各市场参与主体实施分层分类管理,为实现精准化、差异化服务奠定基础。
图1:数据统计系统架构
图2:系统软件架构
(3)深度挖掘数据,提供增值服务。通过对数据的深度挖掘、定量或定性分析、构建数学模型等,为各市场参与主体推送有价值的研究报告,提供增值服务,帮助挂牌企业对接适合的投资或服务主体,帮助市场服务机构为挂牌企业提供精准金融服务,帮助投资者、企业并购方等精准对接目标对象,为投资者的投资操作提供决策参考。
(4)为市场监管提供有力支撑。通过企业跟踪、商业信用评估、舆情预警、综合分析等手段,对市场参与主体已经出现或可能出现的非法集资、信披滞后、信披造假、失信违约等风险事件及时做出提示,为市场监管的预警提示、防微杜渐、及时发现、准确处理提供了有力支撑,同时为建立市场征信体系发挥重要作用。
(5)节省人力成本,提高工作效率。统计系统的自动化操作,让业务人员从繁琐的事务性工作中解脱出来,专注做好高附加值的服务工作。
(1)数据整合使用。区域性股权市场的数据大都分散在交易撮合、登记结算、代理买卖、行情揭示、信息披露、综合金融服务平台、挂牌与监管管理、档案、舆情信用监测、客户关系管理等多个业务系统上,各个业务系统中的数据都是局部性信息,格式单一、数据维度少,而且各系统数据接口标准不统一。但是,监管部门要求报送的数据覆盖面广、维度多、时效性强;市场服务需要的数据需要集中,形成大数据库,而且这个大数据库是以创造智能决策为目标,通过对多源数据的提取、融合、梳理,最终整合形成的可分析、可利用的价值数据库。因此,需要设计统一的数据交换协议、接口规范标准,满足集合性、目标性、可分解性、整体性的多元化要求;基于已形成的标准体系,运用功能强大的数据采集引擎、数据运算引擎、数据分析引擎、数据存储引擎,对各个业务系统数据进行梳理、分析、归纳、整合,最终形成有价值的数据集。
(2)数据隐私保护。大数据的获取、存储、利用,无一不涉及安全隐私问题,区域性股权市场的数据同样涉及到大量企业、机构、个人的隐私信息,如何在保护用户隐私的前提下对数据进行分析利用,是需要解决的重要问题。采取的办法有,通过自建CA 认证中心、手机密码令牌加强对用户的安全认证,在数据采集、数据传输、数据分析等各个环节通过数字加密及签名技术保证数据的完整性和安全性,通过非对称加密算法对敏感信息的加密保护,提升数据存储的安全级别。
(3)系统分布式处理。区域性股权市场各个业务系统沉淀的数据有结构化的也有非结构化的,数据统计系统的功能是多层次和多元化的,因此采取分布式布局是必要的选择。在分布式处理模式下,具有不同功能的、或拥有不同数据的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协同完成大规模信息处理任务。具体应用的技术或系统包括:Redis 内存存储、MapReduce 多任务并行模型和HDFS 分布式文件系统,上述技术或系统可以很好地解决大数据采集、计算、分析、存储的计算瓶颈问题。
(1)投资者数据。主要包括投资者基本信息、账户信息、股权交易数据、非交易过户数据、存管银行数据、资金流水数据、关联经纪人信息等。
(2)企业数据。主要包括企业工商信息、股东名册、董监高资料、财务报表、定期公告、临时公告、权益分派数据、发行可转债情况、违规处罚情况、诚信档案信息、舆情监测数据等。
(3)中介机构数据。主要包括中介机构工商信息、中介机构年检情况、中介机构资格承继信息、中介机构新增资格申请信息、违规处罚情况、诚信档案信息、承接项目情况等。
(4)市场数据。主要包括市场行情信息、报价信息、成交信息、孵化基地信息、战略合作机构信息、挂牌仪式信息、市场培训信息等。
1.4.1 业务数据维护
(1)中介机构管理功能,实现中介机构基本信息、年费缴纳信息、资质证书信息和相关联络人信息维护。
(2)网点管理功能,实现孵化基地信息查询、维护和统计。
(3)战略合作信息维护功能,实现战略合作信息查询、维护和统计。
(4)资助政策维护功能,实现资助政策查询、维护和统计。
(5)同类市场数据统计功能,实现各类指标的查询、维护和统计。
(6)托管企业维护功能,实现托管股数、托管家数查询、维护和统计。
1.4.2 查询统计
(1)企业融资管理功能,实现企业挂牌前融资、企业挂牌后融资、企业股权质押、企业信用贷款、可转债维护和统计。
(2)企业分红数据管理功能,实现挂牌企业权益分派查询、维护和统计。
(3)挂牌企业信息综合管理功能。
(4)挂牌企业股东名册查询和统计功能。
(5)可转债信息查询和统计功能。
(6)投资者基本信息查询和统计功能。
(7)投资者和经纪机构对应关系查询和统计功能。
(8)数据文件导入功能,实现交易结算系统、行情揭示系统、网站系统、综合金融服务平台系统、挂牌与监管管理系统等数据的导入。
(9)报表生成功能,通过灵活的报表插件功能,实现监管报表和市场报表批量生成。
(10)挂牌企业财报数据采集功能,支持合并报表和非合并报表。
1.4.3 系统管理
包括角色管理、角色权限管理、用户管理、部门管理、系统内公告管理、密码修改等功能。
数据统计系统的架构需要满足以下特征:
(1)扩展性:支持增量式的快速扩展;
(2)可用性:采用应用层的容错机制,提高可用性;
(3)灵活性:使用灵活可动态改变的数据模型;
(4)一致性:支持分布式事务处理一致性模型。
数据统计系统架构如图1所示,该图展示了数据统计系统架构中关键组件。
数据采集:支持结构化、半结构化、非结构化数据采集。对于不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。另外通过数据采集引擎驱动实时数据采集、定时任务采集、API 接口数据推送等多种数据采集操作。
计算引擎和实时处理引擎:支持消息队列的Events(支持实时的事件)的输入,上游源源不断产生数据并放入消息队列,计算引擎不断消费、处理消息队列中的数据,处理完成之后,数据写入下游系统,这个过程不断持续进行。计算引擎的读写是基于内存,将迭代过程的中间数据缓存到内存中,根据需要多次重复使用。由于减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。第四代计算引擎,比如Spark 和Flink,已经支持流计算,大大提高了实时性。
图3:MapReduce 软件框架
图4:上海股交中心综合金融服务平台
数据存储引擎:针对结构化数据集、非结构化数据集使用不同的数据存储引擎,满足数据的存储管理和查询分析。
查询引擎:用可视化模式,选择需要分析的业务数据范围,再利用鼠标简单拖拽维度数据和度量数据进行 OLAP 多维分析,就可以按地区、细分市场、类别和年份等维度查看数据,并对应生成准确的可视化数据分析图表,直观展现数据分析结果。
相较于传统的数据统计系统,该数据统计系统的主要优势在于:
(1)支持多元结构数据处理。传统的数据统计系统主要针对结构化数据进行统计分析,该数据统计系统支持结构化、非结构化数据的处理。结构化数据是在企业业务应用中使用最多的一部分数据,也是其中比重最小的一部分数据;与之相比,非结构化数据含金量更高,例如系统日志数据、用户的点击行为等,这些数据的量级是结构化数据的几十倍。对于非结构化数据的存储和处理,大数据技术不再局限于传统的二维表结构,可以利用矩阵、向量以及图的形式进行存储和计算,能够提供更加丰富的数据分析手段,包括行为计算、自然语言处理、图像计算、关联关系计算等,这些手段能够更好地挖掘数据价值。
(2)数据统计系统采用分布式架构设计,通过内存分析、并行计算、读写缓存等技术大大缩短了数据处理和分析的时间周期。
(3)实现动态扩展。随着应用需求与容量的不断增长,该数据统计系统支持水平扩展,不需对系统架构进行变更,只做硬件扩容,并部署服务软件,即可满足系统容量扩展要求。数据统计系统扩容增加新节点之后,该系统自动根据忙闲程度在所有节点之间均衡数据,该操作无需人工干预,占用系统资源很少。数据统计系统可以通过增加集群节点的方式提高性能,性能提升可实现线性增长。
(4)实现了实时同步全量分析。传统数据统计系统采用抽样分析的手段进行数据统计分析,分析结果主要是面向群体的统计报表,维度是有限制的,统计的数据是在一定周期内的,结果往往已经是过时的了。该数据统计系统是在全量数据之上进行数据分析,利用机器学习技术和算法建模,实现对数据的实时分析,能够完全勾勒出企业的DNA,新的Key/Value 形式的存储结构摆脱了对维度的限制,可以更加方便地进行数据挖掘分析。
(5)提高容错能力。传统的分布式计算框架MPI(message passing interface,信息传递接口)虽然编程接口灵活且功能强大,但由于编程接口复杂且对容错性支持不高,无法支撑在大规模数据上的复杂操作。该数据统计系统分布式计算框架MapReduce,将对数据的处理归结为Map 和Reduce 两大类操作,从而简化了编程接口并提高了系统的容错性。
(6)该数据统计系统具有更为鲜明的行业特性。以区域性股权市场行业为应用场景,深入结合行业背景和应用特点,依据行业所能获取到的数据资源,定制出适合该类场景的算法、模型和解决方案。
(7)为建设云计算平台奠定基础。随着互联网、云计算技术的专业化分工,云平台的应用越来越普遍。基于数据统计系统,可以建设“区域性股权市场云”,再对接包括舆情信息公有云、工商数据云在内的其他公有云,即可建成一个高可扩展性、超大规模、高可用性、成本低廉的数据中心。再进一步地通过实施虚拟化、网格计算、自动化管理等云计算技术,就可逐步把区域性股权市场内部的数据中心建设成跨越至区域性股权市场之外的具有公共云平台特性的云计算平台。
数据统计系统的技术实现采用层次化、模块化结构,系统软件架构如图2所示。
(1)数据分析层:包括数据采集和数据分析二个部分。数据采集是数据分析生命周期中的重要一环,通过实时数据推送、定时任务数据抓取、批量文件导入、应用API 接口对接等多种方式获得各种类型的结构化、半结构化及非结构化的海量数据。数据分析的第一步是数据提取,从复杂格式的数据中提取(extract)出需要的数据;第二步是数据清洗;第三步是数据转换(transform),根据不同的应用场景、分析工具、分析系统的不同需要,将数据转换成不同的数据格式,最终按照预先定义好的数据模型,将数据加载(load)到数据库中去。
(2)编程模型层:主要采用MapReduce 和Storm 技术。MapReduce 是一个软件框架,基于该框架能够方便地编写应用程序,这些应用程序能够运行在服务器集群上,并以一种可靠的、具有容错能力的方式并行地处理TB 级别的海量数据集。Mapper 负责分解任务,即把复杂的任务分解为若干个“简单的任务”,然后各自独立处理,这样做的好处,一是数据或计算的规模相对原任务要大大缩小;二是用就近计算原则,把任务分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reducer 负责对Mapper 阶段的结果进行汇总,对多个map任务的输出,按照不同的分区,通过网络copy 到不同的reduce 节点,然后再对多个map 任务的输出进行合并、排序。MapReduce 软件框架如图3所示。
(3)数据存储层:包括Hcatalog(元数据)、Hbase(数据存储)、Redis(数据存储)。Redis 是一个key-value 存储系统,它支持存储的value 类型很多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合),这些数据类型都支持push/pop、add/remove 及更丰富的操作,正因如此,redis 能够支持多种不同方式的排序。Redis 在服务器端构建分布式存储,把当前任务切分处理,合理解决单个服务器内存、磁盘空间有限无法处理海量的缓存数据的问题。
(4)数据集成层:主要采用HDFS 分布式文件系统,HDFS充分满足了流数据模式访问和超大文件处理的需求,该系统可以运行于廉价的商用服务器上,它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等优势特征,为海量数据存储提供了可靠保障。
(5)安全防护设计:具体措施包括:用户认证、密码策略、权限控制、日志审计、数据加密。
用户认证:数据统计系统用户主要由三部分组成:应用用户、数据报送用户、系统管理用户,安全目标是禁止未认证的访问请求,确保所有访问请求都经过了正确认证且授权,通过组件认证、动态令牌、动态验证码、用户名和密码等多种安全认证机制,完成安全目标。
密码策略:目标是防范弱口令攻击和猜测用户口令行为,采用密码复杂性策略及无规律方式、规定时间密码失效、要求修改密码、密码错误锁定等安全策略。
权限控制:确保所有用户的权限都是其工作所必须的最小权限,权限的申请必须经授权审批。权限分为操作权限和授权权限,两种权限体系相互隔离。系统用户又分为管理员、审计员、操作员,三种权限相互独立、相互制约。
日志审计:安全目标是自动记录所有的访问请求,提供事后审计分析。日志记录的内容包括:用户登录、用户注销、数据访问、数据库启动停止恢复、切换审计、授权和回收权限审计、SET审计等。
数据加密:目标是保证敏感数据以密文的形式存储,在开发测试环境测试数据,须经过数据脱敏技术处理后再行使用。
上海股权托管交易中心率先设计并开发了《数据统计系统》,由本文作者领衔设计研发,是国内首个支持区域性股权市场数据统计分析、自动向监管机构报送监管数据的信息技术系统。该系统于2014年7月立项,2015年12月完成第一期开发并投入使用,第二期开发自2015年12月启动,至2016年9月完成并全部上线运营。期间,利用采集的数据样本,多次进行数据模拟训练,寻找合适的数据模型,建立相应的算法模型,经过多次迭代升级后,系统逐渐成熟,可以支持分布式系统架构,实现并行计算、内存分析、读写缓存等先进的技术应用,满足大数据并发系统处理要求。
现在,上海股交中心数据统计系统已经纳入规模更大的“上海股交中心综合金融服务平台”。该平台是以互联网、大数据、云计算等核心技术为基础,按照新概念互联网金融发展理念,以服务中小微企业为核心,面向企业、投资者、金融机构、中介服务机构开放的综合金融生态服务系统,该平台由门户平台、市场服务平台、企业服务平台、业务管理平台和数据支撑平台组成,如图4所示。
上海股交中心数据统计系统是数据支撑平台里的核心应用,有了以数据统计系统为核心的数据支撑平台对数据的驱动、汇聚、分析、应用,使得市场服务平台、企业服务平台、业务管理平台、门户平台等上层模块的高性能扩展、多样化展现、定制化服务成为可能。
经过2年多的开发和升级,以及近4年的运营和完善,上海股交中心数据统计系统已日趋完善,为准确及时报送监管数据、科学完整提供数据样本、快速提升服务能级、有力促进中小微企业融资发展、大力推动资本市场建设、有效助力决策机构科学决策发挥了重要作用。上海股交中心数据统计系统是行业的先行者,其设计思路、技术路线、应用实践在全国场外资本市场中具有较高的推广应用价值。
数据是资本市场的核心资源,用好了数据,就为资本市场注入了活力。当前,包括区域性股权市场在内的中国场外资本市场,普遍缺少活力,交易不活跃,融资能力不强,对企业缺乏吸引力,因此,场外资本市场充分挖掘、利用好市场的数据资源,是搞活场外资本市场、有效发挥市场功能的重要举措,意义重大,利在千秋。
本文讨论的数据统计系统,在上海股权托管交易中心已经得到运用,效果显著,值得推广。但是,该系统在技术应用上还不足够领先,导致在业务规划上还不足够完善。当前,信息技术进步一日千里,新的、先进的技术的应用,必然促动业务的革新升级。未来的数据统计系统必须要全面引入互联网、大数据、云计算、区块链等先进技术,让数据的挖掘和应用更加广泛、更加深入、更加智能化、更加精准化、更加具有实用价值,更好地促进资本市场发展乃至国家经济发展。作为中国场外资本市场最早的建设者和从业者、上海股权托管交易中心的建设者和从业者、信息技术和证券业务复合型人员,我愿意为先进技术的应用、证券业务的革新做出应有的贡献。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!