一种面向网络的多通道大数据采集系统及方法转让专利

申请号 : CN201710142262.5

文献号 : CN106844782B

文献日 : 2020-03-20

本发明公开了面向网络的多通道大数据采集系统及方法，其中，面向网络的多通道大数据采集系统由论坛数据采集单元、博客数据采集单元、新闻数据采集单元及关系型数据库中数据采集单元构成的分布式定向采集体系架构组成；论坛数据采集单元，用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；博客数据采集单元，用于负责广度遍历博客站点，目的是获取博客Feed地址；对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；新闻数据采集单元，用于采用基于行块分布函数的方法抽取新闻网页中的正文文本；关系型数据库中数据采集单元，用于采用数据转移工具来批量采集关系型数据库中数据。

1.一种面向网络的多通道大数据采集系统，其特征在于，所述面向网络的多通道大数据采集系统由论坛数据采集单元、博客数据采集单元、新闻数据采集单元及关系型数据库中数据采集单元构成的分布式定向采集体系架构组成；

所述论坛数据采集单元，用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

所述博客数据采集单元，用于负责广度遍历博客站点，目的是获取博客Feed地址；对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

所述新闻数据采集单元，用于采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

所述关系型数据库中数据采集单元，用于采用数据转移工具来批量采集关系型数据库中数据；

在所述论坛数据采集单元中，论坛内的网络数据以版块为基本单位进行采集，通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取这四个阶段，将网页采集与网页信息提取进行有结合而获取论坛内网络数据；

其中，版块网页抽取帖子的元信息；分为两个部分：①从版块页面中抽取出元数据；②将元数据集成入库：即识别出元数据的含义，使元数据成为真正的元信息，保存入库；

对于元数据的抽取，离线操作包括：用户提供一个版块页面作为样例页面，通过无监督学习方法，为与训练样例同类的版块页面生成一个模板；在线操作包括：根据模板，对新版块页面进行元数据抽取；元数据的抽取基于DOM进行操作，抽取过程充分利用版块页面中帖子记录、记录中的属性与DOM树中的结点之间的对应关系，以及这些结点在组织结构上的特性。

2.如权利要求1所述的一种面向网络的多通道大数据采集系统，其特征在于，所述博客数据采集单元由一个Feed发现器和多个信息采集器构成，所述Feed发现器用于获取博客的URL地址或者RSS地址并通过每个博客页面的链接关系去获取其他博客的URL地址或者RSS地址；所述采集器用于对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。

3.如权利要求1所述的一种面向网络的多通道大数据采集系统，其特征在于，所述新闻数据采集单元包括网页HTML源码预处理模块，其用于对网页HTML源码进行编码、去脚本及特殊字符进行处理；及格式标签去除模块，其用于对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；及正文提取模块，其用于利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

4.如权利要求1所述的一种面向网络的多通道大数据采集系统，其特征在于，在所述关系型数据库中数据采集单元中，所述数据转移工具为Sqoop。

5.一种面向网络的多通道大数据采集方法，其特征在于，其采用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集；

其中，分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

在博客数据的过程中，首先，获取博客Feed地址；然后，对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

采用数据转移工具来批量采集关系型数据库中数据；

在采集论坛数据采的过程中，论坛内的网络数据以版块为基本单位进行采集，通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取这四个阶段，将网页采集与网页信息提取进行有结合而获取论坛内网络数据；

6.如权利要求5所述的一种面向网络的多通道大数据采集方法，其特征在于，在采集论坛数据采的过程中，利用Feed发现器获取博客的URL地址或者RSS地址并通过每个博客页面的链接关系去获取其他博客的URL地址或者RSS地址；利用采集器对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。

7.如权利要求5所述的一种面向网络的多通道大数据采集方法，其特征在于，采集新闻数据的具体过程包括：对网页HTML源码进行编码、去脚本及特殊字符进行处理；

对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；

利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

8.如权利要求5所述的一种面向网络的多通道大数据采集方法，其特征在于，所述数据转移工具为Sqoop。

一种面向网络的多通道大数据采集系统及方法

技术领域

[0001] 本发明属于网络数据处理领域，尤其涉及一种面向网络的多通道大数据采集系统及方法。

背景技术

[0002] “大数据”已经成为为自然资源、人力资源同等重要的战略资源，其所隐含的巨大社会和经济价值已引起科技界和企业也的高度重视。如果有效地组织和使用这些大数据将对社会和经济的发展起到巨大的推动作用。这些急剧增长的数据主要来自于人们的日常生活，特别是互联网已经成为我国最大的公共信息集散地和社会群体平台。与报纸、无线广播和电视等传统的传播媒体相比，网络媒体具有进入门槛低、信息超大规模、信息发布与传播迅速、参与群体庞大、实时交互性强等综合性特点，已经成为社会政治、经济各领域最快速、广泛的信息渠道。而如何从大量的互联网数据中及时发现有用信息成为政府及各行业的关注热点。

[0003] 网络数据资源的特点是规模大，且来源于世界各地不同站点，分布分散，因此，面对海量的网络信息及其多样化的信息形式，如何准确地识别、提取不同来源和形式的信息，高效、全面地采集信息，及时地跟踪信息的更新，成为大数据获取的难点，以及成为后期大数据分析准确性的基础。

发明内容

[0004] 为了解决现有技术的不足，本发明的第一目的提供一种面向网络的多通道大数据采集系统。

[0005] 本发明的一种面向网络的多通道大数据采集系统，所述面向网络的多通道大数据采集系统由论坛数据采集单元、博客数据采集单元、新闻数据采集单元及关系型数据库中数据采集单元构成的分布式定向采集体系架构组成；

[0006] 所述论坛数据采集单元，用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

[0007] 所述博客数据采集单元，用于负责广度遍历博客站点，目的是获取博客Feed地址；对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

[0008] 所述新闻数据采集单元，用于采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

[0009] 所述关系型数据库中数据采集单元，用于采用数据转移工具来批量采集关系型数据库中数据。

[0010] 进一步的，在所述论坛数据采集单元中，论坛内的网络数据以版块为基本单位进行采集，通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取这四个阶段，将网页采集与网页信息提取进行有结合而获取论坛内网络数据。

[0011] 本发明通过动态网页高效采集技术和网页信息抽取技术的相互结合，实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。

[0012] 进一步的，所述博客数据采集单元由一个Feed发现器和多个信息采集器构成，所述Feed发现器用于获取博客的URL地址或者RSS地址并通过每个博客页面的链接关系去获取其他博客的URL地址或者RSS地址；所述采集器用于对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。

[0013] 本发明能够实时采集更新的博客数据，使得数据采集实时且准确。

[0014] 进一步的，所述新闻数据采集单元包括网页HTML源码预处理模块，其用于对网页HTML源码进行编码、去脚本及特殊字符进行处理；及

[0015] 格式标签去除模块，其用于对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；及

[0016] 正文提取模块，其用于利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

[0017] 本发明能够直观高效准确地获取新闻数据。

[0018] 进一步的，在所述关系型数据库中数据采集单元中，所述数据转移工具为Sqoop。

[0019] Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(如MySQL、Oracle、Postgres等任何支持JDBC规范的关系型数据库)中的数据导入Hadoop的HDFS中。对于某些NoSQL数据库它也提供了连接器。Sqoop类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。

[0020] 本发明的第二目的是提供一种面向网络的多通道大数据采集方法。

[0021] 本发明的一种面向网络的多通道大数据采集方法，其采用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集；

[0022] 其中，分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

[0023] 在博客数据的过程中，首先，获取博客Feed地址；然后，对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

[0024] 采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

[0025] 采用数据转移工具来批量采集关系型数据库中数据。

[0026] 进一步的，在采集论坛数据采的过程中，论坛内的网络数据以版块为基本单位进行采集，通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取这四个阶段，将网页采集与网页信息提取进行有结合而获取论坛内网络数据。

[0027] 进一步的，在采集论坛数据采的过程中，利用Feed发现器获取博客的URL地址或者RSS地址并通过每个博客页面的链接关系去获取其他博客的URL地址或者RSS地址；利用采集器对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。

[0028] 进一步的，采集新闻数据的具体过程包括：

[0029] 对网页HTML源码进行编码、去脚本及特殊字符进行处理；

[0030] 对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；

[0031] 利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

[0032] 进一步的，所述数据转移工具为Sqoop。

[0033] 与现有技术相比，本发明的有益效果是：

[0034] (1)面对海量的网络信息及其多样化的信息形式，本发明用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集，达到了准确地识别、提取不同来源和形式的信息，又高效、全面地采集信息，还能够及时地跟踪信息的更新，并且减少了人工维护大数据的工作量。

[0035] (2)本发明最大限度地保证了系统网络信息获取过程的高效性、全面性、及时性，为上层分析处理模块提供全面、稳定、安全的信息来源。

附图说明

[0036] 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

[0037] 图1是本发明的一种面向网络的多通道大数据采集系统结构示意图。

[0038] 图2是论坛信息获取过程图。

[0039] 图3是论坛的论坛的版块页面数据获取流程图。

[0040] 图4是博客数据采集单元的系统架构图。

[0041] 图5是博客数据采集单元的功能图。

[0042] 图6是基于行块分布函数方法的正文抽取框架。

[0043] 图7是HDFS的框架图。

具体实施方式

[0044] 应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

[0045] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0046] 图1是本发明的一种面向网络的多通道大数据采集系统结构示意图。

[0047] 如图1所示，本发明的一种面向网络的多通道大数据采集系统，由论坛数据采集单元、博客数据采集单元、新闻数据采集单元及关系型数据库中数据采集单元构成的分布式定向采集体系架构组成；

[0048] 所述论坛数据采集单元，用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

[0049] 所述博客数据采集单元，用于负责广度遍历博客站点，目的是获取博客Feed地址；对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

[0050] 所述新闻数据采集单元，用于采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

[0051] 所述关系型数据库中数据采集单元，用于采用数据转移工具来批量采集关系型数据库中数据。

[0052] 针对不同类型网络的特征，本发明采用定向采集的方法，以不同网络中的终端站点为信息采集的基本任务单位，每个采集任务都可以采用独立的采集规则和策略(如深度、采集更新频率、信息抽取模板等)。针对网络数据采集在规模和灵活性等方面的要求，采用“主从分布、自主协同”的分布式定向采集体系架构。

[0053] 面对海量的网络信息及其多样化的信息形式，既要准确地识别、提取不同来源和形式的信息，又要高效、全面地采集信息，还要能够及时地跟踪信息的更新，并且尽可能减少维护的工作量。因此，本发明采用最新的垂直搜索模板半自动生成技术、动态页面优化访问技术和智能化的抓取进程调度策略，最大限度保证系统网络信息获取过程的高效性、全面性、及时性，为上层分析处理模块提供全面、稳定、安全的信息来源。

[0054] 本发明通过动态网页高效采集技术和网页信息抽取技术的相互结合，实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。

[0055] 论坛信息获取的信息源头是以版块为基本单位的。给定某个版块，对该版块的信息获取主要包括四个阶段(实际运行中可能并行)：版块网页获取→版块网页抽取→帖子网页获取→帖子网页抽取。如图2所示。

[0056] 基于版块入口来采集，可以直接定位所需采集的版块，这与数据的定向获取需求正好是吻合的。通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取四个阶段，将网页采集与网页信息提取进行有机结合，有效地解决了传统信息采集技术存在的诸多问题。

[0057] 论坛的版块页面中有帖子的索引列表，列表中蕴含了丰富的帖子的元信息。列表中的每一行记录了一个帖子的一组元信息，包括帖子的主题、发帖人、发帖时间、点击数、回复数等。这些元信息对于论坛的数据分析是非常重要的。版块页面的组织结构通常比较有规律，基于版块页面可以有效地抽取帖子的元信息。该方法分为两个部分：①从版块页面中抽取出元数据，之所以称为元数据而不是元信息，是因为这些数据的含义(如标题、发帖人等)并不知道；②将元数据集成入库：即识别出元数据的含义(称为对元数据的解析)，使元数据成为真正的元信息，保存入库。整个方法的流程如图3所示。

[0058] 对于元数据的抽取，离线操作包括：用户提供一个版块页面作为样例页面，通过无监督学习方法，为与训练样例同类的版块页面生成一个模板。在线操作包括：根据模板，对新版块页面进行元数据抽取。元数据的抽取基于DOM进行操作。抽取过程充分利用版块页面中帖子记录、记录中的属性与DOM树中的结点之间的对应关系，以及这些结点在组织结构上的特性。上述抽取方法具有抽取效率高、定位准确、维护代价较低等优点。

[0059] 在具体实施过程中，基本任务单位还包括博客数据采集单元，其用于负责广度遍历博客站点，目的是获取博客Feed地址；对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息。

[0060] 采用如图4所示的系统架构，系统采用分布式设计，有一个Feed发现器和多个信息采集器。Feed发现模块的目标是旨在尽可能多地发现BSP下面博客的RSS或Atom地址。通过分析发现每个BSP博客的URL地址或者RSS地址，发现它们都是有一定规范的，可以通过这个策略来识别一个页面是否是博客页面，然后通过每个博客页面的链接关系去发现更多博客。

[0061] 采集器负责对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。功能如图5所示。本发明能够实时采集更新的博客数据，使得数据采集实时且准确。

[0062] 在获取新闻数据的过程中，采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据。

[0063] 新闻正文数据抽取的主要工作是从Web所包含的无结构或半结构化的信息中识别用户感兴趣的信息并将其转化为结构化强、语意清晰的数据。信息抽取系统的输入是原始文本，输出是固定格式的信息。最后，把抽取出的数据经过清洗和整理后存储到关系数据库中，以供进一步的数据精确查询和模式抽取。

[0064] 为方便有效的抓取新闻网页中的中文，采用基于行块分布函数的方法抽取网页中的正文文本，获取文档的核心内容。基于行块分布函数方法的正文抽取框架如图6所示。

[0065] 在HTML中，正文和标签总掺杂在一起。不可否认，标签对文字的修饰作用在词权确定和排序结果上有很大作用。但是，也正因为HTML标签和正文互相交织的复杂和不规范，使得通用的正文抽取变得难以实现，最终不得不针对不同网站定义不同规则，时空复杂度也大打折扣。

[0066] 基于此，本发明提出一种基于行块分布函数的通用方法，可以在线性时间O(N)内抽出正文。提出此方法核心依据有两点：1、正文区的密度，2、行块的长度。

[0067] 依据1：一个网页的正文区域肯定是文字信息分布最密集的区域之一，这个区域可能最大但不尽然，比如评论信息较长，或者网页正文新闻较短，而又出现大篇紧密导航信息时，也会出现正文的区域不是最大块的可能。

[0068] 依据2：行块的长度信息可以有效解决上述问题。

[0069] 依据1和依据2相结合，就能很好的实现正文提取。将依据1和2融合在行块分布函数里。具体如下：

[0070] 首先将网页HTML去净标签，只留所有正文，同时留下标签去除后的所有空白位置信息，留下的正文称为Ctext。

[0071] 定义1.行块：

[0072] 以Ctext中的行号为轴，取其周围K行(上下文均可，K<5，这里取K＝3，方向向下，K称为行块厚度)，合起来称为一个行块Cblock，行块i是以Ctext中行号i为轴的行块；

[0073] 定义2.行块长度：

[0074] 一个Cblock，去掉其中的所有空白符(\n,\r,\t等)后的字符总数称为该行块的长度；

[0075] 定义3.行块分布函数：

[0076] 以Ctext每行为轴，共有LinesNum(Ctext)-K个Cblock，做出以[1,LinesNum(Ctext)-K]为横轴，以其各自的行块长度为纵轴的分布函数；

[0077] 行块分布函数可以在O(N)时间求得，在行块分布函数图上可以直观的看出正文所在区域。由上述行块分布函数图可明显看出，正确的文本区域全都是分布函数图上含有最值且连续的一个区域，这个区域往往含有一个骤升点和一个骤降点。

[0078] 于是，网页正文抽取问题转化为了求行块分布函数上的骤升骤降两个边界点，这两个边界点所含的区域包含了当前网页的行块长度最大值并且是连续的。

[0079] 求正文区域所在的气势行块号Xstart和中指行块号Xend(X为行号，Y(X)是以X为轴的行块长度)，需要满足以下四个条件：

[0080] (1)Y(Xstart)>Y(Xt)(Y(Xt)是第一个骤升点，骤升点必须超过某一阈值)；

[0081] (2)Y(Xn)≠0(n∈[start+1,start+K]，K是行块厚度，紧随骤升点的行块长度不能为0，避免噪声)；

[0082] (3)Y(Xm)＝0(m∈[end,end+1]，骤降点击器尾随的行块长度为0，保证征文结束)；

[0083] (4)存在X，当取到max(Y(X))时，X∈[Xstart,Xend](保证此区域是渠道行块最大值的区域)。

[0084] 本发明能够直观高效准确地获取新闻数据。

[0085] 其中，本发明的新闻数据采集单元包括网页HTML源码预处理模块，其用于对网页HTML源码进行编码、去脚本及特殊字符进行处理；及

[0086] 格式标签去除模块，其用于对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；及

[0087] 正文提取模块，其用于利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

[0088] 本发明能够直观高效准确地获取新闻数据。

[0089] 在具体实施过程汇总，在所述关系型数据库中数据采集单元中，所述数据转移工具为Sqoop。

[0090] Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(如MySQL、Oracle、Postgres等任何支持JDBC规范的关系型数据库)中的数据导入Hadoop的HDFS中。对于某些NoSQL数据库它也提供了连接器。Sqoop类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。

[0091] Hadoop框架由分布式文件系统HDFS和MapReduce组成；HDFS是Hadoop的文件系统，用于存储超大文件；MapReduce是Hadoop的并行编程模型，用于对HDFS上存储的数据进行深度分析。

[0092] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

[0093] HDFS主要由Client、Datanode和Namenode组成，其框架如图7所示。一个使用Hadoop技术架构的集群中，一般有一到两台主机作为Namenode，若干台主机作为Datanode。Client代表使用HDFS的客户程序；Namenode是Hadoop集群中的一台主机，负责保存数据节点的信息、计算任务的分发以及最终规约等任务；Datanode负责数据存储与处理。为保证数据的安全性，HDFS适度增加了冗余数据。具体的做法是在不同的Datanode中保存同一数据的多份拷贝，一般为三份拷贝。

[0094] 本发明面对海量的网络信息及其多样化的信息形式，本发明用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集，达到了准确地识别、提取不同来源和形式的信息，又高效、全面地采集信息，还能够及时地跟踪信息的更新，并且减少了人工维护大数据的工作量。

[0095] 本发明最大限度地保证了系统网络信息获取过程的高效性、全面性、及时性，为上层分析处理模块提供全面、稳定、安全的信息来源。

[0096] 本发明的一种面向网络的多通道大数据采集方法，其采用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集；

[0097] 其中，分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集；

[0098] 在博客数据的过程中，首先，获取博客Feed地址；然后，对每个Feed地址对应的博客进行实时采集，跟踪更新的博客文章，以增量更新方式采集博客信息；

[0099] 采用基于行块分布函数的方法抽取新闻网页中的正文文本，进而获取新闻数据；

[0100] 采用数据转移工具来批量采集关系型数据库中数据。

[0101] 具体地，在采集论坛数据采的过程中，论坛内的网络数据以版块为基本单位进行采集，通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取这四个阶段，将网页采集与网页信息提取进行有结合而获取论坛内网络数据。

[0102] 本发明通过动态网页高效采集技术和网页信息抽取技术的相互结合，实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。

[0103] 具体地，在采集论坛数据采的过程中，利用Feed发现器获取博客的URL地址或者RSS地址并通过每个博客页面的链接关系去获取其他博客的URL地址或者RSS地址；利用采集器对博客进行增量的刷新采集，并抽取新发表的博文信息，生成相应的博文信息记录并入库。

[0104] 本发明能够实时采集更新的博客数据，使得数据采集实时且准确。

[0105] 具体地，采集新闻数据的具体过程包括：

[0106] 对网页HTML源码进行编码、去脚本及特殊字符进行处理；

[0107] 对预处理后的网页HTML源码进行去除格式标签，得到粗糙网页正文；

[0108] 利用预设的求行字数的分布函数提取粗糙网页正文中的待获取网页正文，进而得到新闻数据。

[0109] 其中所述数据转移工具为Sqoop。

[0110] Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(如MySQL、Oracle、Postgres等任何支持JDBC规范的关系型数据库)中的数据导入Hadoop的HDFS中。对于某些NoSQL数据库它也提供了连接器。Sqoop类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。

[0111] 本发明面对海量的网络信息及其多样化的信息形式，本发明用分布式定向采集体系架构对论坛数据、博客数据、新闻数据及关系型数据库中数据进行分布同时采集，达到了准确地识别、提取不同来源和形式的信息，又高效、全面地采集信息，还能够及时地跟踪信息的更新，并且减少了人工维护大数据的工作量。

[0112] 本发明最大限度地保证了系统网络信息获取过程的高效性、全面性、及时性，为上层分析处理模块提供全面、稳定、安全的信息来源。

[0113] 上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

一种面向网络的多通道大数据采集系统及方法转让专利

申请号 : CN201710142262.5

文献号 : CN106844782B

文献日 : 2020-03-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱世伟 , 杨子江 , 于俊凤 , 李源 , 冯海洲 , 魏墨济 , 王燕 , 李思思 , 张铭君 , 王彦

申请人 : 山东省科学院情报研究所

摘要 :

权利要求 :

说明书 :