一种行业代码标准化方法、装置、电子设备和存储介质转让专利
申请号 : CN202110938055.7
文献号 : CN113392939B
文献日 : 2021-11-12
发明人 : 蒋晟 , 施志晖
申请人 : 江苏苏宁银行股份有限公司
摘要 :
权利要求 :
1.一种行业代码标准化方法,其特征在于,包括如下步骤:获取行业数据;
通过正则表达式对所述行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;
判断所述数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;
判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B,否则不做处理;
将所述中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;其中,所述将中文描述A或中文描述B与一标准版本中文描述进行相似度计算,包括:对需要计算相似度的两个中文描述进行拆分,列出待比较中文描述和标准版本中文描述的所有元素;将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述特征空间的元素进行位置编码;将待比较中文描述和标准版本中文描述中的每个元素转换为特征空间元素对应的位置编码,以进行数字化;对数字化后的待比较中文描述和标准版本中文描述进行独热编码,获得两个行业向量;应用余弦相似度算法,计算两个行业向量之间夹角的余弦值,余弦值越大相似度越高;
根据所述中文描述C,查找出对应的标准版本行业代码并输出。
2.根据权利要求1所述的行业代码标准化方法,其特征在于,所述通过正则表达式对行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A,具体包括:
根据正则表达式“^[A‑T]\\d{2,4}$”,表示形式“一位字母,二到四位数字”,对行业数据进行匹配,如果匹配,则略过字母,取数字代码,否则进入下一步;
根据正则表达式“^\\d{4}$”,表示形式“四位数字”,对行业数据进行匹配,如果匹配,则取四位数字代码,否则进入下一步;
根据正则表达式“^[A‑Z]\\d{4} [\\u4e00‑\\u9fa5]{2,20}$”,表示形式“一位字母四~
位数字 二到二十位中文行业描述”,对行业数据进行匹配,如果匹配,则取符号“ ”前面代~ ~
码的四位数字代码,否则进入下一步;
根据正则表达式“^[\\u4e00‑\\u9fa5]{2,20}$”,表示形式“二到二十位中文描述”,对行业数据进行匹配,如果匹配,则取全部中文描述A。
3.一种行业代码标准化装置,其特征在于,包括:获取模块,用于获取行业数据;
预处理模块,用于通过正则表达式对所述行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;
第一判断模块,用于判断所述数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;
第二判断模块,用于判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B,否则不做处理;
相似度计算模块,用于将所述中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;其中,所述相似度计算模块包括:拆分单元,用于对需要计算相似度的两个中文描述进行拆分,列出待比较中文描述和标准版本中文描述的所有元素;特征空间单元,用于将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述特征空间的元素进行位置编码;数字化单元,用于将待比较中文描述和标准版本中文描述中的每个元素转换为特征空间元素对应的位置编码,以进行数字化;独热编码单元,用于对数字化后的待比较中文描述和标准版本中文描述进行独热编码,获得两个行业向量;余弦值计算单元,用于应用余弦相似度算法,计算两个行业向量之间夹角的余弦值,余弦值越大相似度越高;
行业代码输出模块,用于根据所述中文描述C,查找出对应的标准版本行业代码并输出。
4.根据权利要求3所述的行业代码标准化装置,其特征在于,所述预处理模块包括:第一匹配单元,用于根据正则表达式“^[A‑T]\\d{2,4}$”,表示形式“一位字母,二到四位数字”,对行业数据进行匹配,如果匹配,则略过字母,取数字代码;
第二匹配单元,根据正则表达式“^\\d{4}$”,表示形式“四位数字”,对行业数据进行匹配,如果匹配,则取四位数字代码;
第三匹配单元,用于根据正则表达式“^[A‑Z]\\d{4} [\\u4e00‑\\u9fa5]~
{2,20}$”,表示形式“一位字母四位数字 二到二十位中文行业描述”,对行业数据进行~
匹配,如果匹配,则取符号“”前面代码的四位数字代码;
~
第四匹配单元,用于根据正则表达式“^[\\u4e00‑\\u9fa5]{2,20}$”,表示形式“二到二十位中文描述”,对行业数据进行匹配,如果匹配,则取全部中文描述A。
5.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1‑2任一项所述方法的步骤。
6.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑2任一项所述方法的步骤。
说明书 :
一种行业代码标准化方法、装置、电子设备和存储介质
技术领域
背景技术
包括所有银行及保险类的金融机构在2021年5月底前,落实监管数据质量专项治理方案,并
制定了详细的项目进度时间表。数据质量主要包括数据真实性、准确性、完整性、及时性。
者资金投向行业。行业分类按照中华人民共和国国家标准GB/T 4754‑2017“国民经济行业
分类”(以下简称为标准版本代码)的标准执行。行业代码是行业分类的具体代码,按照一定
的科学依据对从事国民经济生产和经营的单位或者个体的组织结构体系的详细划分,如林
业、汽车业、银行业等,按照单位的主要经济活动确定其行业性质。
有些只提供了四位数字而缺失表示行业门类的字母等,这些都是不符合监管要求的行业代
码,在报送的时候会被监管机构系统退回,无法正常报送。
值。但是对于行业代码,有上千个码值的情况,如果也采用手工添加映射的方式,则处理脚
本会过于冗余,而且效率太低。
发明内容
得数字代码和中文描述A;判断所述数字代码是否在标准版本中,如果在,则补齐行业门类
字母,生成行业代码,否则进行下一步;判断所述数字代码是否在历史版本中,如果在,则取
出历史版本中对应的中文描述B,否则不做处理;将所述中文描述A或中文描述B与一标准版
本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;根据所述中
文描述C,查找出对应的标准版本行业代码并输出。
4}$”,表示形式“一位字母,二到四位数字”,对行业数据进行匹配,如果匹配,则略过字母,
取数字代码,否则进入下一步;根据正则表达式“^\\d{4}$”,表示形式“四位数字”,对行业
数据进行匹配,如果匹配,则取四位数字代码,否则进入下一步;根据正则表达式“^[A‑Z]\\
d{4} [\\u4e00‑\\u9fa5]{2,20}$”,表示形式“一位字母四位数字 二到二十位中文行业描
~ ~
述”,对行业数据进行匹配,如果匹配,则取符号“ ”前面代码的四位数字代码,否则进入下
~
一步;根据正则表达式“^[\\u4e00‑\\u9fa5]{2,20}$”,表示形式“二到二十位中文描述”,
对行业数据进行匹配,如果匹配,则取全部中文描述A。
中文描述的所有元素;将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述
特征空间的元素进行位置编码;将待比较中文描述和标准版本中文描述中的每个元素转换
为特征空间元素对应的位置编码,以进行数字化;对数字化后的待比较中文描述和标准版
本中文描述进行独热编码,获得两个行业向量;应用余弦相似度算法,计算两个行业向量之
间夹角的余弦值,余弦值越大相似度越高。
类结果进行预处理,获得数字代码和中文描述A;第一判断模块,用于判断所述数字代码是
否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;第二判断
模块,用于判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描
述B,否则不做处理;相似度计算模块,用于将所述中文描述A或中文描述B与一标准版本中
文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;行业代码输出模
块,用于根据所述中文描述C,查找出对应的标准版本行业代码并输出。
过字母,取数字代码;第二匹配单元,根据正则表达式“^\\d{4}$”,表示形式“四位数字”,对
行业数据进行匹配,如果匹配,则取四位数字代码;第三匹配单元,用于根据正则表达式“^
[A‑Z]\\d{4} [\\u4e00‑\\u9fa5]{2,20}$”,表示形式“一位字母四位数字 二到二十位中
~ ~
文行业描述”,对行业数据进行匹配,如果匹配,则取符号“ ”前面代码的四位数字代码;第
~
四匹配单元,用于根据正则表达式“^[\\u4e00‑\\u9fa5]{2,20}$”,表示形式“二到二十位
中文描述”,对行业数据进行匹配,如果匹配,则取全部中文描述A。
元,用于将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述特征空间的元
素进行位置编码;数字化单元,用于将待比较中文描述和标准版本中文描述中的每个元素
转换为特征空间元素对应的位置编码,以进行数字化;独热编码单元,用于对数字化后的待
比较中文描述和标准版本中文描述进行独热编码,获得两个行业向量;余弦值计算单元,用
于应用余弦相似度算法,计算两个行业向量之间夹角的余弦值,余弦值越大相似度越高。
步骤。
律,创造性的通过中文描述相似度特征,自动进行码值转换,相对于人工进行码值映射大大
提高了工作效率。
附图说明
具体实施方式
附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发
明技术方案的限定或限制。
入行业为“A0111”,则取“0111”。
“8190”。
“一位字母四位数字 二到二十位中文行业描述”,对行业数据进行匹配,如果匹配,则取符
~
号“”前面代码的四位数字代码,否则进入下一步。例如,原始输入行业为“C3262 铝压延加
~ ~
工”,则取“3262”。
压延加工”,则取“铝压延加工”。
比如门类A包含的大类范围是01到05,门类B包含的大类范围是06到12,门类C包含的大类范
围是13到43,以此类推,标准版本和历史版本略有差别。
是字典数据结构,字典用于保存一组不重复的键值对,并且可以根据输入的键来获得对应
的值。键是历史行业代码,值是行业中文描述。
超过二十个字,且字间顺序影响也可以忽略。因此我们可以最细粒度拆分,上述行业拆分后
得到:
对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
OneHot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,
每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值。
90度,表明两个向量越不相似。
本中文描述时,计算得到“文体用品批发”和“文具用品批发”最相似。
20}$”,表示形式“一位字母四位数字 二到二十位中文行业描述”,对行业数据进行匹配,如
~
果匹配,则取符号“”前面代码的四位数字代码;
~
性的通过中文描述相似度特征,自动进行码值转换,相对于人工进行码值映射大大提高了
工作效率。
本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品
的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台
计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方
法的全部或部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(ROM,Read‑
Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以
存储程序代码的介质。
当属于本发明的保护范围内。