时间:2024-05-04
李致 徐彦婷
(国家计算机网络与信息安全管理中心上海分中心 上海市 201315)
随着互联网信息的爆炸式增长,对数据内容的存储和处理技术也取得了巨大的进步,以数据库为代表的存储技术和以人工智能应用为代表的处理技术在互联网各领域得到了充分应用。传统软件工程过程中,数据库设计偏重于考虑数据获取、存储,由系统架构人员负责,人工智能应用由专业算法人员负责,使用特定领域中模型可用的不同数据格式。在人工智能应用系统中,系统存储的数据还需经清洗、转换才可用于人工智能模型,导致实体关系多次建模、代码重复开发、数据多次进行存取和格式转换等问题。增加了系统的开发难度,降低了系统应用效率。本文提出一种人工智能和数据库技术结合的设计方法,通过贯穿数据价值链的需求预估、实现方案选择和实现经验总结,在实践中充分挖掘数据库技术潜力,形成了高效、可扩展的数据库存储形式 ,满足人工智能系统的应用需求。
人工智能(Artificial Intelligence),英文缩写为AI。人工智能是主要研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统。人工智能企图产出一种能以人类智能相似的方式做出反应的机器。当前,人工智能技术在自然语言处理、模式识别等多个领域取得了令人鼓舞的进步。给定规则及数据集下,人工智能模型可以从大规模的数据中高速获取可用知识并模仿人类思维处理更为广泛的数据。
知识是一种抽象和概念的信息,数据是代表实际存在事物的标志性信息。人们往往通过知识了解大范围的事物,通过数据更为准确的了解其所关心的事物内容。知识和数据统称为信息,二者结合后形成的信息数据集合即可视为数据库。数据模型是数据库的组织方式形式之一,其中主要囊括了数据的约束、数据的操作和数据的结构三方面的内容。数据主要代表着当下存在的事物的信息,通过对数据的分析来讲其进行细化,对比发现,知识具有概念和抽象的属性,人们在学习知识后能够掌握大部分的内容和信息,然而在看了具体的数据之后,则是了解了具体事物内容。一般情况下,知识和数据这两类都被人们定义为信息,但是在两者结束之后就会形成一个整体的信息系统,这也是计算机协同的根基。
数据库监管系统主要是基于对现有数据的管理,是一种专门系统,当数据库当中出现需要修改、删除或者增添、发送时的数据信息时,就需要在该系统允许之后才能对数据库进行维护。如果在这四个环节中出现了数据丢失,我们可以通过该系统进行二次组织。针对知识库设置的管理系统叫做知识库管理系统,旨在基于对数据知识库的保护上,可以进行维护和扩展,比如:重新对知识库进行定义。当吸收了新的知识后,需要对知识库进行更改,此时也务必需要得到该系统的允许。随着现代化技术手段的创新,在很多领域都使用了数据库技术,然而,在此过程中,虽然数据库信息具有极强的通用性,但是由于受到数据库系统的局限,在使用过程中,数据处理较为片面。进而导致人工智能系统运行时,所出现的结果并不具备充分的精确性。
数据库和知识库在多方面都存在着差异性,不管是处理对象、表达形式、结构等完全不同,在具体的操作行为上和管理上也存在着截然不同的形式,都具有自身的特点。相比较于知识库,数据库的主要特点是储存能力比较强,数据库的结构和知识库的结构也存在着不同,知识库的结构比较复杂,数据库的一般通过用户才能进行更新,然而知识库大部分由专业来定时更新的,相比较于知识库,数据库推算出的是具体的知识,知识库则可以输出新的知识。
在软件系统中,数据库本身的结构和内容就代表着系统需求方对该领域知识定义。人工智能模型应用中,处理对象的结构和表达形式定义同样蕴含着系统对该领域知识的理解掌握。数据库设计实现和人工智能模型应用中,均蕴含领域知识,通过融合人工智能与数据库技术,将两个原本未交叉领域中信息表示和信息模型融合贯通,系统效率将得到极大的提高。
真实网络世界中的数据存在海量、异构等特点,将数据库技术和人工智能结合并非轻而易举。传统数据库技术可以高效管理由键值对或表构成的逻辑结构数据,人工智能模型却长于处理标量张量数据,基于已有的样本的抽象判断未知样本。人工智能与数据库技术结合主要有两种形式:
(1)AI for DB通过人工智能为数据库赋能。
即以人工智能模型优化数据库的查询、命令执行、系统负载、数据生命周期、数据库运维和数据库安全。
(2)DB for AI 通过数据库技术提升人工智能效率。
通过数据库技术,在数据质量、模型选择、模型推理等方面提升效率。
参考上面两个方向的研究,本文提出AI with DB,即通过人工智能与数据库技术结合,在系统需求分析和设计实现阶段,通过贯穿数据价值链各阶段,从数据获取、数据存储、数据使用三个角度,实现满足数据获取能力、数据存取效率及数据使用需求的人工智能应用系统。人工智能专家系统理想结构图如图1所示。
图1:人工智能专家系统理想结构图
(1)在数据获取阶段,首先对需求用例的数据获取速率、总容量及多样性进行预估,结构明确的数据可以采用关系型数据库;网页文档等不再变更的数据,可采用NoSQL类文档数据库存储;实时存取需求较强的数据,可采用内存键值数据库;规模较大的数据可直接存入文件系统,并在数据库中记录其索引。
(2)在数据存储阶段,需考虑数据清洗、数据集成、冗余消除等需求,可采用直接内存载入处理或构建HashMap类结构予以解决,平衡时空消耗。
(3)在数据使用阶段,可视化和统计分析需考虑其数据规模及实时性需求,如实时性要求较高,可通过内存数据库读入;社区发现、社交网络分析等联系结构分析,需考虑其规模及调优算法,可通过图数据库加载;自然语言处理等基于内容的分析需求,如命名实体识别、主题建模、信息摘要、文本聚类等,实时性要求较低,可通过SQL数据库读取;多媒体预处理和图片分析的规模较大,通过文件系统获取是较为合适的做法。
三个阶段的需求预估范围及可能实现方案如表1所示。
表1:三个阶段的需求预估范围及可能实现方案
我们将人工智能和数据库技术结合的设计实践运用于某BitTorrent(以下简称BT)相关人工智能应用系统。BitTorrent是国际互联网上最为流行的对等网络(Peer to Peer, P2P)文件共享协议,系统需求如下:
(1)通过互联网爬虫,收集网页链接、网页文本,对网页链接进行核验;
(2)通过网页链接、网页文本、网页核验结果进行网页分类;
(3)通过分布式哈希表(Distributed Hash Table, DHT)网络爬虫,收集BT网络文件元数据(以下称种子文件);
(4)通过种子文件中文件列表、文件名、文件类型等字段进行分类;
(5)对特定类别种子文件,下载对应多媒体文件,进行视频抽帧及特定事件检测;
设计实践表如表2所示。
表2:设计实践表
经实践,系统在数据获取中可支持每日获取20万网址和10万种子,为预计需求的10倍;种子数据可在近2000万种子中进行实时去重;多媒体文件下载及视频抽帧检测效率达预估5倍。统计表如表3所示。
此外,本文还在设计实践中总结了如下的经验:
(1)SQL数据库在单表千万数据时会出现性能瓶颈,关系型数据库ID生成可采用雪花算法等分布式ID生成算法;
(2)在关系型数据库表主外键设置上,对数据量有限的知识库表、元数据表、配置表等,可根据实体关系全量关联,对数据量快速增长的表,应恰当关联,避免三级或以上的多级关联;
(3)爬虫类数据表中预留冗余字段,后期可结合面向对象方法满足一定程度的需求变更要求;
(4)对网页等不涉及修改的数据,可采用NoSQL文档数据库存储;
表3:设计实践效果统计表
(5)对文件等较大规模的异构数据,可采用文件系统分目录存储并在数据库中写入其路径等元数据的方法进行组织;
(6)涉实时处理、运算的数据可在系统启动时通过内存数据库读入;
(7)可采用基于Redis的布隆过滤器进行分布式去重。系统架构如图2所示。
图2:系统架构图
随着人工智能研究的不断深入,数据库的发展也凸显了较多问题。如:结构变化较大,信息储存能力要求高速增长等。近几年来看,数据库技术的不断发展,也遇到了人工智能关联问题,需要突破原定的局限性,增加语义信息的查询等功能。因此,人工智能和数据库技术的相互结合不仅是将人工智能技术和数据库技术中有效部分简单组合,还包括互相扩充知识范围,弥足各自不足。这其中以知识表示和模拟信息模型最为典型,由于相关领域知识具有极强的共享性和时效性,在技术处理过程中,必须集合数据库信息技术在和人工智能,以保证各子系统对特定内容的处理均在总体知识和信息模型的约束之下。
其次,当数据库信息技术在和人工智能完成结合之后,人工系统能够实现强化优势来进行取长补短,从客观条件来讲,人工智能当遇到以下两个问题时,比如:知识和数据的共享,故障恢复等一些具体的操作问题上,人工智能要比数据库处理信息能力偏差,在和数据库信息科学结合后,人工智能能够借助数据库技术的优势和特点,完善自身的管理经验,通过改良和革新人工知识库的设计和知识管理系统,进而来实现对人工智能的特性和功能方面的改善。
综上所述,科学技术的进步,是促进社会发展和改善人们生产、生活的关键因素,对促进我国社会的发展具有深远的意义。将人工智能和数据库进行科学有效地结合,可以助力人工智能应用系统。本文提出人工智能和数据库技术结合的设计方法,通过数据价值链分析,在数据获取、数据存储和数据使用三个阶段,进行六个方面的需求预估并选择合适的实现方案,实践证明,该设计方法充分挖掘数据库技术潜力,取得了良好的开发成果。当然,技术发展不会止步与此,当系统数据获取能力和人工智能模型数据需求再增加两个数量级时,当前应用良好的系统将面临挑战,将有必要在设计实现方法中纳入批量处理、分布式存储、流式处理、大规模图计算等更为高效的存储处理技术,以满足实践需要。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!