时间:2024-07-28
张芬
(上海市测绘院,上海 200063)
随着计算机网络、数据库等支撑技术的深入发展,GIS 技术应用也逐步拓展渗透到各行各业。地名地址匹配技术即地理编码,是GIS 融入到相关领域的核心技术,它将其他行业的非空间专题数据与实际的空间地理坐标挂接,实现各个行业专题数据的“落地”,在此基础上,通过在电子地图上叠合专题数据,实现直观的专题数据显示与查询、统计等GIS 功能。近年来,随着地名地址匹配技术的逐步完善与深入应用,如何实现地名地址的便捷输入、高效快速定位成为地名地址匹配应用的关键问题。
在消防系统案件处理中,接警员输入报案地址,借助地名地址匹配功能获得匹配坐标并在电子地图上显示报案地址。为保证案件接收处理的快速、便捷、准确,作为接警处警核心功能的地名地址匹配,必须能保证接警员能快速输入地名地址,快速进行地址定位且匹配结果准确无误。如何在特定的应用领域实现地名地址快速高效定位,笔者认为有两个方面的问题需要解决,一个是输入方式的革新,以保证接警人员的快速便捷输入;二是定位快速准确,以保证处理警情的迅速无误。
基于拼音音头输入的地名地址匹配技术,区别于一般的中文输入的地名地址匹配功能,它能接收地址的拼音音头输入,能正确解析输入的拼音音头,并智能进行地址定位,输出中文形式的实际地址以及与之匹配的地理坐标。
本文以应用在消防系统中的拼音音头地址匹配技术为例,详细介绍地名地址数据库优化、地名地址输入方式优化、快速检索等关键技术。
数据的完备与否决定着地址匹配率的高低。一个检索范围广,匹配率高的地名地址匹配功能后面,总有一个庞大的地址数据库作为后台支撑。尽管有Oracle等大型数据库高效检索机制的大力支持,庞大的地名地址数据同样影响着地址匹配的检索效率。管理好纷繁的地址数据,将这些数据进行有效分类,将数据库的庞大数据量“化大为小”,是解决地址匹配效率的有效途径。
在消防系统中,按照实际接处警的需要,地名地址匹配功能将地名地址数据分为道路门牌、居民区、乡镇、知名区域等类别,将整个庞大的地址库按地址分类,逻辑上划分成几个小地址库,在进行地址检索时,按照输入的地址类别标示,有针对性的检索小地址库,缩小检索范围,从而大大提高检索速度。
为支持地名地址拼音音头输入,同样需要后台拼音音头地址库的支撑,所以,进行地址拼音音头数据处理,建立地址音头数据库是首先必须完成的基础工作。
按照一定的数据处理标准,将分类地址数据库中的地址建立对应的拼音音头地址库,当用户输入拼音音头地址时,地名地址功能能很快检索到对应的中文地址。以居民区为例,建立居民区表与居民区拼音音头表之间的关系如图1所示。
图1 数据表关系
(1)建立汉字—拼音音头对照表
汉字—拼音音头对照表是建立地址音头数据库的基础,它是单个汉字与其拼音音头的对照关系表,比如“乐”对应音头“L”和“Y”,为保证覆盖所有的消防接警地址,本项目建立了基本汉字—拼音音头对照表(共计23 088个汉字),该表涵盖常用汉字和其读音音头。
地址音头数据库是以汉字—拼音音头对照表为基础进行的。按照对照表,以一定的音头数据处理标准,生产地名地址库相对应的地址音头数据库,同时,可根据实际地址情况对汉字—拼音音头对照表进行扩充,以保证基本汉字—拼音音头对照表的可持续扩充。
(2)音头数据处理标准
音头数据生成是将地址词条拆分为单字进行音头转换,对于属于多音字的单字,会转换出该字所有读音的音头,最后将该词条所有单字的所有音头进行排列组合,输出结果。
根据单字的不同,有以下几种处理标准:
①单音常用字:能在汉字—拼音头对照表中找到,能输出唯一的音头;
②多音常用字:能在汉字—拼音头对照表中找到,能输出其所有读音的音头;
③生僻字:不能在汉字—拼音头对照表中找到,需要人工生成音头,并扩充汉字—拼音头对照表;
④字符和数字:不能在汉字—拼音头对照表中找到,按源字输出。
(3)处理流程
音头数据的处理流程为:将词条拆分为单字,按照处理标准中的分类情况对单字进行处理,最后对各单字的音头排列组合输出结果。自动化处理结束之后,可根据处理过程中输出的标识筛选出汉字—拼音头表中不存在的汉字,然后将该字扩充至汉字—拼音头表,并用程序自动修改存在该字的词条音头。
一般来说,输入拼音音头要比输入汉字消耗的时间少,而且输入方便。特别对于有口音干扰的报警地址,输入拼音音头确实是一个不错的思路。同时,为了缩小地址检索范围,增加输入地址分类标示。
考虑消防系统接警员输入案发地址的实际场景,为提高地址的输入效率,地名地址输入由一般的中文地址输入优化为地址拼音音头输入,并且满足拼音头的模糊输入。消防接警员可以输入案发地址的拼音音头,比如“中兴路”,往往输入为“zxl”,甚至为了节省时间,输入为“z”。对于地址“中兴路靠近西藏北路”的检索,输入为:ZX[靠近]X。下图为封装调用拼音音头地名地址匹配功能后的实际接处警输入与输出界面。输入包括道路门牌、居民区、单位、乡镇、知名区域的分类标示以及地址拼音音头,如图2所示。
图2 接处警输入与输出界面
确定用户的输入方式,处理数据分类,建立音头数据库之后,拼音音头地址匹配逻辑基本上形成了。用户输入地址拼音头、地址分类标示;地名地址功能根据输入条件,首先进行输入解析,之后检索音头数据库,将输入的地址拼音头转换成中文地址,然后再根据输入的地址分类标示定位分类地址库,最后利用中文地址在分类地址库中进行小范围检索。利用音头输入法的便捷输入以及缩小地址检索范围的策略,有效提高地址检索效率。具体地址匹配逻辑如图3所示:
图3 拼音音头地址匹配逻辑图
本文阐述的基于拼音音头地名地址匹配功能在输入方式、数据库分类存储方面进行了创新,在提高地址输入速度,加快匹配速度上做出了探索性的研究。目前,上海市测绘院制作的基于拼音音头输入的地名地址定位功能已经成功运用在上海市消防系统中。基于拼音音头输入的地名地址快速定位方法在其他需要快速输入地址的地址匹配应用领域同样具有很大的应用价值,该技术的拓展应用,将为不同领域,不同系统间的数据共享提供强有力的技术支撑。
[1]夏兰芳,毛炜青,郭功举.上海城市地理编码系统应用与研究[J].测绘通报,2012(1):78 ~80.
[2]张林曼,吴升.地理编码系统中地址匹配引擎的设计与实现[J].测绘信息与工程,2008,33(6):12 ~16.
[3]陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50 ~52.
[4]江洲,李琦.地理编码(Geocoding)的应用研究[J].地理与地理信息科学,2003,19(3):22 ~25.
[5]赵东保,盛业华.全局寻优的矢量道路网自动匹配方法研究[J].测绘学报,2010,39(4)416 ~421.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!