会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 2. 发明授权
    • 一种面向开源情报的文本去重方法
    • CN116932526B
    • 2023-11-24
    • CN202311203184.7
    • 2023-09-19
    • 天泽智慧科技(成都)有限公司
    • 刘婷
    • G06F16/215G06F40/216G06F40/242G06F40/289G06F40/30G06F40/194G06F16/35
    • 本发明公开了一种面向开源情报的文本去重方法,包括以下方法:建立开源情报文本集;建立专业领域词库基础集;建立临时扩展集;建立专业领域词库;利用通用词典和专业领域词库对开源情报文本集中的文本进行分词;计算文档j中非停用词的TFIDF值;将TFIDF值作为词汇i在文档j中的信息权重 ;计算文档j的simhash特征向量、文本相似度以及文本信息量;对于任意文档,设定相似度阈值,与其相似度大于阈值的文档被认定为重复文档,对于这些重复文档,将元数据进行合并,选取文本信息量最大的文档保留,将合并后的元数据附加为保留文档的元数据。通过这种方式能够在去重时有效保留素材中(56)对比文件Sadhan Sood 等.Probabilistic near-duplicate detection using simhash《.CIKM '11: Proceedings of the 20th ACMinternational conference on Informationand knowledge management》.2011,1117–1126.程龙.基于改进TF-IDF算法的信息抽取系统设计与实现《.中国优秀硕士学位论文全文数据库 信息科技辑》.2019,(第08期),I138-1330.吴昊.基于概念信息量的文本语义相似度模型研究《.中国博士学位论文全文数据库 信息科技辑》.2021,(第06期),I138-77.周汝佳.基于语义指纹和Simhash的文本去重方法研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2021,(第09期),I138-780.张航 等.Simhash算法在文本去重中的应用《.计算机工程与应用》.2019,第56卷(第11期),246-251.郝忠翁.大规模Web文本快速分类关键技术研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2018,(第07期),I138-1936.