
基本信息:
- 专利标题: 输入法模型生成方法及装置
- 申请号:CN201811620636.0 申请日:2018-12-28
- 公开(公告)号:CN109710087B 公开(公告)日:2023-01-13
- 发明人: 许晏铭
- 申请人: 北京金山安全软件有限公司(CN)
- 申请人地址: 北京市海淀区小营西路33号二层东区
- 专利权人: 北京金山安全软件有限公司(CN)
- 当前专利权人: 北京金山安全软件有限公司(CN)
- 当前专利权人地址: 北京市海淀区小营西路33号二层东区
- 代理机构: 北京清亦华知识产权代理事务所
- 代理人: 宋合成
- 主分类号: G06F3/023
- IPC分类号: G06F3/023 ; G06F40/289
摘要:
本发明提出一种输入法模型生成方法及装置,其中方法包括:获取训练数据以及分词词库,分词词库中包括:与输入法场景相关的词语;针对分词词库中的每个词语,查询训练数据中的各个句子,获取词语的词频以及词语对应的二元关系词;根据分词词库中的各个词语以及对应的二元关系词,生成前缀树;针对训练数据中的每个句子,采用前缀树对句子进行切分,得到至少一个切分结果,进而生成句子对应的有向无环图;根据有向无环图中的最大概率路径,确定句子对应的分词结果;根据训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型,从而不需要采用HMM模型,不需要手动标注HMM模型的样本数据,降低了输入法模型的成本,提高了输入法模型的准确度。
公开/授权文献:
- CN109710087A 输入法模型生成方法及装置 公开/授权日:2019-05-03