会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 电脑编程 / 别名 / 一种支持四字节的典籍数据库与历史地理信息系统关联的方法

一种支持四字节的典籍数据库与历史地理信息系统关联的方法

阅读:1252发布:2020-12-17

IPRDB可以提供一种支持四字节的典籍数据库与历史地理信息系统关联的方法专利检索,专利查询,专利分析的服务。并且本发明公开了一种实现支持四字节的典籍数据与历史地理信息关联的方法。该方法使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对典籍数据与历史地理信息建立查询索引库,通过对包含统一码(Unicode)四字节编码东亚表意文字的繁简、中日韩、异体字的相互对应,以及使用转换对应表对包含统一码(Unicode)四字节编码东亚表意文字地名的古今俗称、别名的相互对应实现关键词的转换,并按照一定的查询逻辑进行查询检索,从而得到相关的记录内容。本发明很好的解决了当前典籍数据与历史地理信息之间因为存在统一码(Unicode)四字节编码东亚表意文字而无法关联匹配问题及当前历史地理信息系统中的统一码(Unicode)四字节显示、存储、检索及不同系统间的兼容性问题。,下面是一种支持四字节的典籍数据库与历史地理信息系统关联的方法专利的具体信息内容。

1.一种可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关 联的方法,包括将历史地理信息中的文本内容与典籍数据中的文本内容使用支持 含Unicode四字节编码东亚表意文字的搜索引擎分别建立相应的索引库。

2.一种可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关 联的方法,包括将典籍数据和历史地理信息两者中的地名、人名等专有名词信息 抽取出来,并建立同义词表性质的,含有Unicode四字节编码东亚表意文字的专 有名字转换对应表,对包含人名、地名等专有名词的古今俗称、别名的相互对应 实现关键词的转换。

3.如在权利要求1、2所述的可以实现支持四字节编码东亚表意文字的典籍数据库与 历史地理信息系统关联的方法,其特征在于:对转换后的地名等专有名词信息附 加上年代等信息在历史地理信息索引中检索,从而关联到历史地理信息系统。

4.如在权利要求1、2所述的可以实现支持四字节编码东亚表意文字的典籍数据库与 历史地理信息系统关联的方法,其特征在于:对转换后的地名等专有名词信息附 加上年代等信息在典籍数据索引中检索,从而关联到典籍数据库。

5.如在权利要求1、2、3、4所述的可以实现支持四字节编码东亚表意文字的典籍数 据库与历史地理信息系统关联的方法,其特征在于:在对典籍数据库和历史地理 信息系统进行检索时,或者调用转换对应表时,通过包含Unicode四字节编码东 亚表意文字的繁简、中日韩、异体字的相互对应来实现关键词的转换。

说明书全文

技术领域

本发明属于计算机技术领域,具体涉及一种实现支持四字节的典籍数据库 与历史地理信息系统关联的方法。

背景技术

统一码(Unicode)的学名是″Universal Multiple-Octet Coded Character Set″,简称为UCS。UCS规定了如何用多个字节表示各种文字的具体方法。目前 在UCS中已经被编码的东亚表意字符大约有7万多个,其中大部分是生僻汉字。 UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4 是用4个字节编码(实际上只用了31位,最高位必须为0)。这些编码的传输依 照UTF(UCS Transformation Format)设定的规范进行,常见的UTF规范包括 UTF-7、UTF-8以及UTF-16。
典籍数据库是将古籍文献和出土文献等内容加以整理并录入计算机的电子 资源数据库。目前北京时代瀚堂科技公司的古籍检索系统 (http://www.neohytung.com)及其在数据库中的应用“龙语瀚堂典籍数据库” (http://www.dragoninfo.cn)就是一个可以支持UCS-4标准的典籍数据库,目 前可以对于包括大量生僻汉字在内的七万多汉字实现查询、显示等各种功能。
地理信息系统(GIS,Geographic Informat ion System)是一种基于计算机 的工具,它可以对地球上存在的东西和发生的事件进行成图和分析。GIS技术可 以将具有独特视觉化效果和地理分析功能的地图与一般的数据库操作(例如查询 和统计分析等)集成在一起。随着科学技术的进步,GIS技术日渐成熟,将历史 数据输入GIS已经不存在技术上的障碍,通过因特网发布GIS的成果已经完全可 能。
历史地理信息系统(HGIS)是各个历史时期基础地理信息系统数据库,该系 统依据GIS技术,表达随着时间变迁而改变的基础地理信息空间分布,同时为用 户提供最简洁的数据查询、检索、编绘数据地图和连接用户数据的功能。如输入 历史年份、地名等关键词,就可以查询在特定时间,特定地点的历史地理信息。
目前与中国相关的历史地理信息系统,如“中华文明之时空基础架构”(台 湾中央研究院http://ccts.sinica.edu.tw),其采用遵循BIG5标准的格式存储 和传输这些编码;又如“中国历史地理信息系统”(复旦大学历史地理研究中心 http://yugong.fudan.edu.cn/Ichg/Chgis_Intr.asp),其采用遵循GB2312标准 的格式存储和传输这些编码。它们都只能处理双字节字符的查询和显示,对于符 合统一码(Unicode)标准的所有含有四字节的文本内容无法进行查询。这些系 统对于UCS-2以外的汉字采用图片替代或自行造字的方式进行显示,用自行设定 的编码进行存储。
历史地理信息和中文典籍数据之间有着紧密的联系。一方面,中文典籍数据 的整理和研究需要依靠历史地理信息,如:对于著名诗人李白生平经历的研究, 在历史地理信息系统的协助下会更为有效准确,可将时间、地点、人物同时呈现 给查询者;另一方面,历史地理信息需要中文典籍数据的丰富内容来补充,如: 对于黄河改道的研究中,将典籍数据中对黄河改道的描述与历史地理信息对应和 联系起来就可以更加便捷准确地得出结论,典籍数据库可为历史地理信息研究提 供史料支持。由于使用统一码(Unicode)编码的四字节生僻汉字主要出现在古 代地名、人名等专有名词中,因此在将历史地理信息系统和中文典籍数据库进行 结合的过程中,需要考虑生僻汉字的问题。
现有的历史信息系统对UCS-2以外的汉字通常使用自行造字或图片替代的 处理方法。图片替代的方法仅能解决非UCS-2汉字在系统中的显示问题;同时, 现有历史信息系统使用造字的方法虽可解决非UCS-2汉字的显示问题,却无法与 其他系统相互兼容。由于现有的使用图片或造字的方法不符合任何国际或者国内 标准,使得常规的历史地理信息系统的内容无法完全在系统外使用通用浏览器显 示和保存,也无法实现对包含四字节编码的东亚表意文字进行搜索和查询,所以 目前的系统无法实现典籍数据库与历史地理信息系统之间正常、全面的关联。

发明内容

鉴于上述原因,本发明的主要目的是提供一种实现支持四字节的中文典籍数 据库与支持四字节的历史地理信息系统相互之间关联的方法。
为了能对含有四字节文字的文本内容进行检索,需要将历史地理信息与典籍 数据中的文本内容建立相应的索引,并将它们中的所有的地名、人名等专有名词 信息抽取出来组成转换对应表。
两个系统的关联方式如下:
A、当从典籍数据库向历史地理信息系统关联时,将典籍数据库中该记录的 地名信息通过转换对应表进行转换,对转换后的地名信息附加上年代等 专有名词信息在历史地理信息索引中检索,从而关联到历史地理信息系 统。
B、当从历史地理信息系统向典籍数据库关联时,将历史地理信息系统中该 记录的地名信息通过转换对应表进行转换,对转换后的地名信息附加上 年代等信息在典籍数据索引中检索从而关联到典籍数据库。
本发明的优点与技术效果:
由于四字节生僻汉字在典籍数据库与历史地理信息系统中的客观存在,导致 在目前的典籍数据库与历史地理信息系统之间建立全面关联存在困难。本发明使 用了支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎和支持统一码 (Unicode)四字节编码东亚表意文字的繁简、中日韩、异体字的相互转换和包 含统一码(Unicode)四字节编码东亚表意文字地名、山脉、河流、湖泊、沙漠、 海岸线等主要自然地理要素的古今名称、俗称、别名的相互对应模块,极大地提 高了历史地理信息和典籍数据间关联的有效性和全面性;并将历史地理信息系统 和中文典籍数据库的功能进行了扩展,用户通过这种方法可以更为方便地使用这 两个系统,更为有效地获取索取信息,提高研究工作的效率。

附图说明

图1为本发明在典籍数据库与历史地理信息系统之间的关联方式示意图

具体实施方式

本发明对典籍数据与历史地理信息建立索引及结合对四字节文字的特殊处 理方法,具体实施步骤如下:
A.在典籍数据库中,记录与文档相关的地名、时间等信息。如:对某一首 诗歌的记录,补充诗歌的创作年代,写作地点;对甲骨文、金文、简帛、玺印等 出土文献、文物的记录补充出土地点,文物年代信息。这样有利于将典籍数据和 历史地理信息更准确、有效、全面的联系起来;
B.使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对典籍 数据库中的所有文档内容(包括A步骤记录的内容)建立查询索引。所谓建立索 引就是使用支持四字节编码文字的方式对含有四字节编码文字的文档内容进行 分析,从而建立倒排表的过程。通过这个过程,可以得到供查询检索时所使用的 倒排表。而含有四字节编码文字的文档的内容是指以某种格式保存的典籍数据内 容,包括在A步骤中额外补充的与历史地理信息相关的内容。
C.使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对历史 地理信息系统中的地名、时间以及相关的各种补充信息等建立查询索引。对包含 统一码(Unicode)四字节编码东亚表意文字的信息,尤其是四字节汉字图片和 造字字符需改成统一码(Unicode)编码格式。和B步骤类似,这里是对历史地 理信息系统中的文本内容建立倒排表索引。历史地理信息系统中的文本内容包括 地名,时间,相关事件,补充描述等,地名包括聚落、行政区域和疆域、自然地 理要素;时间包括公元纪年、年号纪年、干支纪年等多种时间信息的综合。
D.将历史地理信息和典籍数据中的所有地名、年代信息抽取出来组成转换 对应表,该表含有四字节编码的文字。例如历史地理信息系统的“永巷”对应典 籍数据库的“永衖”、“永”。
E.通过包含统一码(Unicode)四字节编码东亚表意文字的繁简、中日韩、 异体字的相互对应,以及使用转换对应表对包含统一码(Unicode)四字节编码 东亚表意文字地名的简体、繁体、今地所在、古今俗称、别名的相互对应,从而 实现针对历史地理信息的对应转换。
F.从典籍数据库向历史地理信息系统关联时,将典籍数据库中该记录的地 名等信息通过E中的方式进行转换,得到一系列查询关键词,并按照一定的查询 逻辑在C步骤建立的索引中进行查询检索,得到与典籍数据库该条记录相关的一 系列历史地理信息,从而关联到历史地理信息系统。
G.从历史地理信息系统向典籍数据库关联时,将历史地理信息系统中该记 录的地名等信息通过E中的方式进行转换,得到一系列查询关键词,并按照一定 的查询逻辑在在B步骤建立的索引中进行查询检索,得到与历史地理信息系统该 条记录相关的一系列典籍数据信息,从而关联到典籍数据库。
通过上述步骤可以实现在中文典籍数据库与历史地理信息系统在含有统一 码(Unicode)四字节编码文字的超大字符集之上的两者相互之间关联。为了理 解本发明的关联方法,我们在此公开了本发明的具体实施的步骤和附图,以期本 领域的技术人员可以理解。由于含有统一码(Unicode)四字节编码文字的自然 含有单字节和二字节字符,在不脱离本发明及所附的权利要求的精神和范围内, 各种相关的替换、变化和修改方案都是可能的,因此,本发明得不局限于实例和 附图所公开的内容。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用