一种支持四字节的典籍数据库与历史地理信息系统关联的方法专利检索-别名电脑编程专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

一种支持四字节的典籍数据库与历史地理信息系统关联的方法

阅读：1252发布：2020-12-17

IPRDB可以提供一种支持四字节的典籍数据库与历史地理信息系统关联的方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种实现支持四字节的典籍数据与历史地理信息关联的方法。该方法使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对典籍数据与历史地理信息建立查询索引库，通过对包含统一码(Unicode)四字节编码东亚表意文字的繁简、中日韩、异体字的相互对应，以及使用转换对应表对包含统一码(Unicode)四字节编码东亚表意文字地名的古今俗称、别名的相互对应实现关键词的转换，并按照一定的查询逻辑进行查询检索，从而得到相关的记录内容。本发明很好的解决了当前典籍数据与历史地理信息之间因为存在统一码(Unicode)四字节编码东亚表意文字而无法关联匹配问题及当前历史地理信息系统中的统一码(Unicode)四字节显示、存储、检索及不同系统间的兼容性问题。，下面是一种支持四字节的典籍数据库与历史地理信息系统关联的方法专利的具体信息内容。

权利要求

1.一种可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关联的方法，包括将历史地理信息中的文本内容与典籍数据中的文本内容使用支持含Unicode四字节编码东亚表意文字的搜索引擎分别建立相应的索引库。

2.一种可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关联的方法，包括将典籍数据和历史地理信息两者中的地名、人名等专有名词信息抽取出来，并建立同义词表性质的，含有Unicode四字节编码东亚表意文字的专有名字转换对应表，对包含人名、地名等专有名词的古今俗称、别名的相互对应实现关键词的转换。

3.如在权利要求1、2所述的可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关联的方法，其特征在于：对转换后的地名等专有名词信息附加上年代等信息在历史地理信息索引中检索，从而关联到历史地理信息系统。

4.如在权利要求1、2所述的可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关联的方法，其特征在于：对转换后的地名等专有名词信息附加上年代等信息在典籍数据索引中检索，从而关联到典籍数据库。

5.如在权利要求1、2、3、4所述的可以实现支持四字节编码东亚表意文字的典籍数据库与历史地理信息系统关联的方法，其特征在于：在对典籍数据库和历史地理信息系统进行检索时，或者调用转换对应表时，通过包含Unicode四字节编码东亚表意文字的繁简、中日韩、异体字的相互对应来实现关键词的转换。

说明书全文

技术领域

本发明属于计算机技术领域，具体涉及一种实现支持四字节的典籍数据库与历史地理信息系统关联的方法。

背景技术

统一码(Unicode)的学名是″Universal Multiple-Octet Coded Character Set″，简称为UCS。UCS规定了如何用多个字节表示各种文字的具体方法。目前在UCS中已经被编码的东亚表意字符大约有7万多个，其中大部分是生僻汉字。 UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4 是用4个字节编码(实际上只用了31位，最高位必须为0)。这些编码的传输依照UTF(UCS Transformation Format)设定的规范进行，常见的UTF规范包括 UTF-7、UTF-8以及UTF-16。
典籍数据库是将古籍文献和出土文献等内容加以整理并录入计算机的电子资源数据库。目前北京时代瀚堂科技公司的古籍检索系统 (http://www.neohytung.com)及其在数据库中的应用“龙语瀚堂典籍数据库” (http://www.dragoninfo.cn)就是一个可以支持UCS-4标准的典籍数据库，目前可以对于包括大量生僻汉字在内的七万多汉字实现查询、显示等各种功能。
地理信息系统(GIS，Geographic Informat ion System)是一种基于计算机的工具，它可以对地球上存在的东西和发生的事件进行成图和分析。GIS技术可以将具有独特视觉化效果和地理分析功能的地图与一般的数据库操作(例如查询和统计分析等)集成在一起。随着科学技术的进步，GIS技术日渐成熟，将历史数据输入GIS已经不存在技术上的障碍，通过因特网发布GIS的成果已经完全可能。
历史地理信息系统(HGIS)是各个历史时期基础地理信息系统数据库，该系统依据GIS技术，表达随着时间变迁而改变的基础地理信息空间分布，同时为用户提供最简洁的数据查询、检索、编绘数据地图和连接用户数据的功能。如输入历史年份、地名等关键词，就可以查询在特定时间，特定地点的历史地理信息。
目前与中国相关的历史地理信息系统，如“中华文明之时空基础架构”(台湾中央研究院http://ccts.sinica.edu.tw)，其采用遵循BIG5标准的格式存储和传输这些编码；又如“中国历史地理信息系统”(复旦大学历史地理研究中心 http://yugong.fudan.edu.cn/Ichg/Chgis_Intr.asp)，其采用遵循GB2312标准的格式存储和传输这些编码。它们都只能处理双字节字符的查询和显示，对于符合统一码(Unicode)标准的所有含有四字节的文本内容无法进行查询。这些系统对于UCS-2以外的汉字采用图片替代或自行造字的方式进行显示，用自行设定的编码进行存储。
历史地理信息和中文典籍数据之间有着紧密的联系。一方面，中文典籍数据的整理和研究需要依靠历史地理信息，如：对于著名诗人李白生平经历的研究，在历史地理信息系统的协助下会更为有效准确，可将时间、地点、人物同时呈现给查询者；另一方面，历史地理信息需要中文典籍数据的丰富内容来补充，如：对于黄河改道的研究中，将典籍数据中对黄河改道的描述与历史地理信息对应和联系起来就可以更加便捷准确地得出结论，典籍数据库可为历史地理信息研究提供史料支持。由于使用统一码(Unicode)编码的四字节生僻汉字主要出现在古代地名、人名等专有名词中，因此在将历史地理信息系统和中文典籍数据库进行结合的过程中，需要考虑生僻汉字的问题。
现有的历史信息系统对UCS-2以外的汉字通常使用自行造字或图片替代的处理方法。图片替代的方法仅能解决非UCS-2汉字在系统中的显示问题；同时，现有历史信息系统使用造字的方法虽可解决非UCS-2汉字的显示问题，却无法与其他系统相互兼容。由于现有的使用图片或造字的方法不符合任何国际或者国内标准，使得常规的历史地理信息系统的内容无法完全在系统外使用通用浏览器显示和保存，也无法实现对包含四字节编码的东亚表意文字进行搜索和查询，所以目前的系统无法实现典籍数据库与历史地理信息系统之间正常、全面的关联。

发明内容

鉴于上述原因，本发明的主要目的是提供一种实现支持四字节的中文典籍数据库与支持四字节的历史地理信息系统相互之间关联的方法。
为了能对含有四字节文字的文本内容进行检索，需要将历史地理信息与典籍数据中的文本内容建立相应的索引，并将它们中的所有的地名、人名等专有名词信息抽取出来组成转换对应表。
两个系统的关联方式如下：
A、当从典籍数据库向历史地理信息系统关联时，将典籍数据库中该记录的地名信息通过转换对应表进行转换，对转换后的地名信息附加上年代等专有名词信息在历史地理信息索引中检索，从而关联到历史地理信息系统。
B、当从历史地理信息系统向典籍数据库关联时，将历史地理信息系统中该记录的地名信息通过转换对应表进行转换，对转换后的地名信息附加上年代等信息在典籍数据索引中检索从而关联到典籍数据库。
本发明的优点与技术效果：
由于四字节生僻汉字在典籍数据库与历史地理信息系统中的客观存在，导致在目前的典籍数据库与历史地理信息系统之间建立全面关联存在困难。本发明使用了支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎和支持统一码 (Unicode)四字节编码东亚表意文字的繁简、中日韩、异体字的相互转换和包含统一码(Unicode)四字节编码东亚表意文字地名、山脉、河流、湖泊、沙漠、海岸线等主要自然地理要素的古今名称、俗称、别名的相互对应模块，极大地提高了历史地理信息和典籍数据间关联的有效性和全面性；并将历史地理信息系统和中文典籍数据库的功能进行了扩展，用户通过这种方法可以更为方便地使用这两个系统，更为有效地获取索取信息，提高研究工作的效率。

附图说明

图1为本发明在典籍数据库与历史地理信息系统之间的关联方式示意图

具体实施方式

本发明对典籍数据与历史地理信息建立索引及结合对四字节文字的特殊处理方法，具体实施步骤如下：
A.在典籍数据库中，记录与文档相关的地名、时间等信息。如：对某一首诗歌的记录，补充诗歌的创作年代，写作地点；对甲骨文、金文、简帛、玺印等出土文献、文物的记录补充出土地点，文物年代信息。这样有利于将典籍数据和历史地理信息更准确、有效、全面的联系起来；
B.使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对典籍数据库中的所有文档内容(包括A步骤记录的内容)建立查询索引。所谓建立索引就是使用支持四字节编码文字的方式对含有四字节编码文字的文档内容进行分析，从而建立倒排表的过程。通过这个过程，可以得到供查询检索时所使用的倒排表。而含有四字节编码文字的文档的内容是指以某种格式保存的典籍数据内容，包括在A步骤中额外补充的与历史地理信息相关的内容。
C.使用支持统一码(Unicode)四字节编码东亚表意文字的搜索引擎对历史地理信息系统中的地名、时间以及相关的各种补充信息等建立查询索引。对包含统一码(Unicode)四字节编码东亚表意文字的信息，尤其是四字节汉字图片和造字字符需改成统一码(Unicode)编码格式。和B步骤类似，这里是对历史地理信息系统中的文本内容建立倒排表索引。历史地理信息系统中的文本内容包括地名，时间，相关事件，补充描述等，地名包括聚落、行政区域和疆域、自然地理要素；时间包括公元纪年、年号纪年、干支纪年等多种时间信息的综合。
D.将历史地理信息和典籍数据中的所有地名、年代信息抽取出来组成转换对应表，该表含有四字节编码的文字。例如历史地理信息系统的“永巷”对应典籍数据库的“永衖”、“永”。
E.通过包含统一码(Unicode)四字节编码东亚表意文字的繁简、中日韩、异体字的相互对应，以及使用转换对应表对包含统一码(Unicode)四字节编码东亚表意文字地名的简体、繁体、今地所在、古今俗称、别名的相互对应，从而实现针对历史地理信息的对应转换。
F.从典籍数据库向历史地理信息系统关联时，将典籍数据库中该记录的地名等信息通过E中的方式进行转换，得到一系列查询关键词，并按照一定的查询逻辑在C步骤建立的索引中进行查询检索，得到与典籍数据库该条记录相关的一系列历史地理信息，从而关联到历史地理信息系统。
G.从历史地理信息系统向典籍数据库关联时，将历史地理信息系统中该记录的地名等信息通过E中的方式进行转换，得到一系列查询关键词，并按照一定的查询逻辑在在B步骤建立的索引中进行查询检索，得到与历史地理信息系统该条记录相关的一系列典籍数据信息，从而关联到典籍数据库。
通过上述步骤可以实现在中文典籍数据库与历史地理信息系统在含有统一码(Unicode)四字节编码文字的超大字符集之上的两者相互之间关联。为了理解本发明的关联方法，我们在此公开了本发明的具体实施的步骤和附图，以期本领域的技术人员可以理解。由于含有统一码(Unicode)四字节编码文字的自然含有单字节和二字节字符，在不脱离本发明及所附的权利要求的精神和范围内，各种相关的替换、变化和修改方案都是可能的，因此，本发明得不局限于实例和附图所公开的内容。

标题	发布/更新时间	阅读量
别名化缓冲区-专利编号CN103620554B	2020-05-11	399
一种IP别名实现方法-专利编号CN106357833A	2020-05-11	715
音频别名标签-专利编号CN101632316A	2020-05-12	1123
别名查询系统及其方法-专利编号CN104123293A	2020-05-13	1070
多别名动画中的别名选择-专利编号CN102937891A	2020-05-12	739
别名查询系统及其方法-专利编号CN104123293B	2020-05-13	396
别名化缓冲区-专利编号CN103620554A	2020-05-11	637
别名字符串-专利编号CN107534574A	2020-05-11	1055
多别名动画中的别名选择-专利编号CN102937891B	2020-05-12	1121
将别名用于日期输入-专利编号CN105359134A	2020-05-13	797

一种支持四字节的典籍数据库与历史地理信息系统关联的方法

技术领域

背景技术

发明内容

附图说明

具体实施方式

IPRDB

热门服务

关于我们

友情链接

联系方式