会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 9. 发明授权
    • 多源、异构流态大数据分布式在线实时处理方法及系统
    • CN109740037B
    • 2023-11-24
    • CN201910002779.3
    • 2019-01-02
    • 山东省科学院情报研究所
    • 于俊凤魏墨济杨子江李思思朱世伟郭建萍杨爱芹李晨刘翠芹
    • G06F16/951G06F16/953G06F16/9535G06F16/955G06F16/35G06F18/23213
    • 本公开提供了一种多源、异构流态大数据分布式在线实时处理方法及系统,利用分布式爬虫去重算法对各来源的网页数据进行爬取,对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;利用Hadoop分布式文件系统对数据流进行选(56)对比文件刘丽杰.垂直搜索引擎中聚焦爬虫技术的研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2013,(第03期),I138-1720.辛洁.Deep Web数据抽取及精炼方法研究.《中国博士学位论文全文数据库 信息科技辑》.2015,(第05期),I138-106.高蓟超.Hadoop平台存储策略的研究与优化《.中国优秀硕士学位论文全文数据库 信息科技辑》.2012,(第10期),I137-21.李抵非 等.基于分布式内存计算的深度学习方法《.吉林大学学报(工学版)》.2015,第45卷(第03期),921-925.蔡斌雷 等.面向大规模流数据的可扩展分布式实时处理方法《.青岛科技大学学报(自然科学版)》.2016,第37卷(第05期),584-590.孙杜靖.基于Storm的流关联挖掘算法实现及应用《.中国优秀硕士学位论文全文数据库信息科技辑》.2018,(02),I138-1196.李晨 等.基于Hadoop的网络舆情监控平台涉及与实现《.计算机技术与发展》.2016,第26卷(第02期),刘丽杰.垂直搜索引擎中聚焦爬虫技术的研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2013,(第03期),辛洁.Deep Web数据抽取及精炼方法研究.《中国博士学位论文全文数据库 信息科技辑》.2015,(第05期),高蓟超.Hadoop平台存储策略的研究与优化《.中国优秀硕士学位论文全文数据库 信息科技辑》.2012,(第10期),李抵非 等.基于分布式内存计算的深度学习方法《.吉林大学学报(工学版)》.2015,第45卷(第03期),蔡斌雷 等.面向大规模流数据的可扩展分布式实时处理方法《.青岛科技大学学报(自然科学版)》.2016,第37卷(第05期),