一种新媒体账号删文监测方法、装置、终端及存储介质转让专利

申请号 : CN201910501949.2

文献号 : CN110276035A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘洋王欢闫刚楚国庆金竹孙瑛瑛

申请人 : 北京清博大数据科技有限公司

摘要 :

本发明公开了一种新媒体账号删文监测方法、装置、终端及存储介质,该方法包括:接收目标账号监测请求,所述请求包括目标账号ID;获取所述目标账号ID对应的文章信息,所述文章信息包括链接;打开所述链接进行访问,抓取访问页面内容;基于所述访问页面内容确定文章是否被删除以及删除原因。本发明提供的新媒体账号删文监测方法、装置、终端及存储介质,可以不需要人工的方式,比较准确地实现对于新媒体账号删文的监测。

权利要求 :

1.一种新媒体账号删文监测方法,其特征在于,包括:

接收目标账号监测请求,所述请求包括目标账号ID;

获取所述目标账号ID对应的文章信息,所述文章信息包括链接;

打开所述链接进行访问,抓取访问页面内容;

基于所述访问页面内容确定文章是否被删除以及删除原因。

2.根据权利要求1所述的新媒体账号删文监测方法,其特征在于,还包括步骤:在第一数据库中预先存储需监测的账号信息,所述账号信息包括账号ID,在第二数据库中预先存储所述账号ID对应的包括链接在内的文章信息。

3.根据权利要求2所述的新媒体账号删文监测方法,其特征在于,所述获取所述目标账号ID对应的文章信息,所述文章信息包括链接,具体为:若所述目标账号ID在所述第一数据库中匹配成功,则从所述第二数据库中获取所述目标账号ID对应的文章信息,否则,通过爬虫爬取所述目标账号ID对应的文章信息。

4.根据权利要求3所述的新媒体账号删文监测方法,其特征在于,在所述目标账号ID在所述第一数据库中匹配失败后,还包括步骤:将包括所述目标账号ID的目标账号信息存储在所述第一数据库中,将所述目标账号ID对应的文章信息存储在第二数据库中。

5.根据权利要求2-4任一项所述的新媒体账号删文监测方法,其特征在于,所述账号信息还包括:加入监测时间。

6.根据权利要求5所述的新媒体账号删文监测方法,其特征在于,所述文章信息还包括作者、发布时间、标题、摘要、内容、发布位置和删除时间。

7.根据权利要求6所述的新媒体账号删文监测方法,其特征在于,所述基于所述访问页面内容确定文章是否被删除以及删除原因后,还包括步骤:若当前文章的删除时间早于目标账号ID加入监测时间,则输出所述当前文章的标题及删除原因,否则,输出所述当前文章删文详情信息。

8.一种新媒体账号删文监测装置,其特征在于,包括:

接收模块,用于接收目标账号监测请求,所述请求包括目标账号ID;

获取模块,用于获取所述目标账号ID对应的文章信息,所述文章信息包括链接;

抓取模块,用于打开所述链接进行访问,抓取访问页面内容;

确定模块,用于基于所述访问页面内容确定文章是否被删除以及删除原因。

9.一种终端,其特征在于,包括:一个或多个处理器、一个或多个存储器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述终端执行如权利要求1-7任一项所述的新媒体账号删文监测方法。

10.一种计算机存储介质,其特征在于,其上存储计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如权利要求1-7任一项所述的新媒体账号删文监测方法。

说明书 :

一种新媒体账号删文监测方法、装置、终端及存储介质

技术领域

[0001] 本发明涉及新媒体账号删文监测技术领域,特别涉及一种新媒体账号删文监测方法、装置、终端及存储介质。

背景技术

[0002] 现今的新媒体账号经常会涉及到一些文章的删除,而一些平台需要了解删除的文章的信息及删除原因。
[0003] 然而,现有技术中,对于新媒体账号的删文分析方式通常为人工的手动检验,其过程繁琐复杂,需消耗大量的人工成本,并且由于通过人工手动检验已删除文章,通常看不见被删文章历史数据,所以会导致删文监测数据的准确性存在问题。

发明内容

[0004] 本发明提供一种新媒体账号删文监测方法、装置、终端及存储介质,可以不需要人工的方式,比较准确地实现对于新媒体账号删文的监测。
[0005] 第一方面,本发明实施例提供了一种新媒体账号删文监测方法,包括:
[0006] 接收目标账号监测请求,所述请求包括目标账号ID;
[0007] 获取所述目标账号ID对应的文章信息,所述文章信息包括链接;
[0008] 打开所述链接进行访问,抓取访问页面内容;
[0009] 基于所述访问页面内容确定文章是否被删除以及删除原因。
[0010] 优选地,还包括步骤:在第一数据库中预先存储需监测的账号信息,所述账号信息包括账号ID,在第二数据库中预先存储所述账号ID对应的包括链接在内的文章信息。
[0011] 优选地,所述获取所述目标账号ID对应的文章信息,所述文章信息包括链接,具体为:若所述目标账号ID在所述第一数据库中匹配成功,则从所述第二数据库中获取所述目标账号ID对应的文章信息,否则,通过爬虫爬取所述目标账号ID对应的文章信息。
[0012] 优选地,在所述目标账号ID在所述第一数据库中匹配失败后,还包括步骤:将包括所述目标账号ID的目标账号信息存储在所述第一数据库中,将所述目标账号ID对应的文章信息存储在第二数据库中。
[0013] 优选地,所述账号信息还包括:加入监测时间。
[0014] 优选地,所述文章信息还包括作者、发布时间、标题、摘要、内容、发布位置和删除时间。
[0015] 优选地,所述基于所述访问页面内容确定文章是否被删除以及删除原因后,还包括步骤:若当前文章的删除时间早于目标账号ID加入监测时间,则输出所述当前文章的标题及删除原因,否则,输出所述当前文章删文详情信息。
[0016] 第二方面,本发明实施例提供了一种新媒体账号删文监测装置,包括:
[0017] 接收模块,用于接收目标账号监测请求,所述请求包括目标账号ID;
[0018] 获取模块,用于获取所述目标账号ID对应的文章信息,所述文章信息包括链接;
[0019] 抓取模块,用于打开所述链接进行访问,抓取访问页面内容;
[0020] 确定模块,用于基于所述访问页面内容确定文章是否被删除以及删除原因。
[0021] 第三方面,本申请实施例提供了一种终端,包括:一个或多个处理器、一个或多个存储器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述终端执行上述的新媒体账号删文监测方法。
[0022] 第四方面,本申请实施例提供了计算机存储介质,其上存储计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行上述的新媒体账号删文监测方法。
[0023] 采用上述技术方案,由于在接收到目标账号ID的删文监测请求后,直接去获取目标账号ID对应的文章信息,根据文章信息中包括的链接重新打开进行访问,抓取访问内容,根据抓取内容来确定文章是否被删除以及删除原因,因此相比于人工的监测方式,数据更加客观公正,准确性更高,并且省去了人工耗费较多的时间和精力。

附图说明

[0024] 图1为本发明实施例提供的新媒体账号删文监测方法的流程图;
[0025] 图2为本发明实施例提供的新媒体账号删文监测装置的结构框图;
[0026] 图3为本发明实施例提供的新媒体账号删文监测装置的另一结构框图。

具体实施方式

[0027] 下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
[0028] 其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
[0029] 以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0030] 第一方面,如图1所示,本申请实施例提供了一种新媒体账号删文监测方法,包括:
[0031] 步骤S101、接收目标账号监测请求,该请求包括目标账号ID;
[0032] 其中,目标账号ID可以为新媒体账号的名称、昵称或用户名等。如微信名、微信号。
[0033] 步骤S102、获取该目标账号ID对应的文章信息,该文章信息包括链接;
[0034] 步骤S103、打开该链接进行访问,抓取访问页面内容;
[0035] 打开链接进入文章页面,可以通过爬虫工具进行页面内容的抓取。
[0036] 步骤S104、基于该访问页面内容确定文章是否被删除以及删除原因。
[0037] 如果抓取访问页面内容中包括删除相关信息,通过提取关键词以及语义分析的方式,可以确定该文章是否已经被删除,并且基于访问页面内容中含有基于什么原因进行的删除,对于这些信息进行提取和分析就能够确定删除原因,比如为作者删除或者其他原因被官方平台删除等。
[0038] 采用上述技术方案,由于在接收到目标账号ID的删文监测请求后,直接去获取目标账号ID对应的文章信息,根据文章信息中包括的链接重新打开进行访问,抓取访问内容,根据抓取内容来确定文章是否被删除以及删除原因,因此相比于人工的监测方式,数据更加客观公正,准确性更高,并且省去了人工耗费较多的时间和精力。
[0039] 优选地,还包括步骤:在第一数据库中预先存储需监测的账号信息,该账号信息包括账号ID,在第二数据库中预先存储该账号ID对应的包括链接在内的文章信息。
[0040] 优选地,步骤S102中:获取该目标账号ID对应的文章信息,该文章信息包括链接,具体为:若该目标账号ID在第一数据库中匹配成功,则从第二数据库中获取该目标账号ID对应的文章信息,否则,通过爬虫爬取该目标账号ID对应的文章信息。
[0041] 由于在第一数据库中预先存储有一些账号信息,当接收到目标账号监测请求后,首先将目标账号ID与第一数据库中预先存储的账号ID进行匹配,确定第一数据库中是否存储有该目标账号ID对应的账号信息,如果匹配成功,则说明第一数据库中存储有该目标账号ID对应的账号信息,如果匹配失败,则说明第一数据库中未存储有该目标账号ID对应的账号信息。当第一数据库中存储有该目标账号ID对应的账号信息时,就可以从第二数据库中获取该目标账号ID对应的文章信息,如果第一数据库中未存储有该目标账号ID对应的账号信息,则通过爬虫爬取该目标账号ID对应的文章信息。
[0042] 优选地,在目标账号ID在第一数据库中匹配失败后,还包括步骤:将包括该目标账号ID的目标账号信息存储在第一数据库中,将该目标账号ID对应的文章信息存储在第二数据库中。
[0043] 当第一数据库中未存储有该目标账号ID对应的账号信息时,通过爬虫爬取该目标账号ID对应的文章信息外,还需要爬取包括目标账号ID在内的目标账号信息。在爬取到目标账号信息和文章信息后,将目标账号信息存入第一数据库中,将目标账号ID对应的文章信息存入第二数据库中。
[0044] 优选地,该账号信息还包括:加入监测时间。
[0045] 若需要对账号删文进行监测时,账号信息中还需要添加加入监测时间。
[0046] 此外,账号信息还包括:认证信息和功能简介等信息。
[0047] 优选地,该文章信息还包括作者、发布时间、标题、摘要、内容、发布位置和删除时间。
[0048] 优选地,在步骤S104:基于该访问页面内容确定文章是否被删除以及删除原因后,还包括步骤:若当前文章的删除时间早于目标账号ID加入监测时间,则输出该当前文章的标题及删除原因,否则,输出该当前文章删文详情信息。
[0049] 获取到当前文章的删除时间后,对该删除时间和目标账号ID加入监测时间进行判断,若该删除时间早于目标账号ID加入监测时间,则直接输出当前文章的标题及删除原因,若晚于目标账号ID加入监测时间,则输出该当前文章删文详情信息,该删文详情信息包括:标题、摘要、作者、发布时间、文章详情、原文链接等信息。
[0050] 作为一种优选的实施方式,第二数据库中预先存储的账号ID对应的文章信息进行定期更新。
[0051] 基于第二数据库中储存的账号ID对应的文章信息,提取所有文章的链接,通过爬虫系统对所有链接重复进行访问抓取。根据抓取页面内容判断删文状态,及时进行相关信息的更新。
[0052] 其中,更新的频率根据需求进行设置。可以为几天,也可以为一两个月,本申请对此并不进行限定。
[0053] 第二方面,如图2所示,本申请实施例提供了一种新媒体账号删文监测装置,包括:
[0054] 接收模块21,用于接收目标账号监测请求,该请求包括目标账号ID;
[0055] 获取模块22,用于获取该目标账号ID对应的文章信息,该文章信息包括链接;
[0056] 抓取模块23,用于打开该链接进行访问,抓取访问页面内容;
[0057] 确定模块24,用于基于该访问页面内容确定文章是否被删除以及删除原因。
[0058] 优选地,如图3所示,还包括存储模块25,用于在第一数据库中预先存储需监测的账号信息,该账号信息包括账号ID,在第二数据库中预先存储该账号ID对应的包括链接在内的文章信息,还用于在目标账号ID在第一数据库中匹配失败后,将包括目标账号ID的目标账号信息存储在第一数据库中,将目标账号ID对应的文章信息存储在第二数据库中。
[0059] 优选地,如图3所示,还包括输出模块26,用于在当前文章的删除时间早于目标账号ID加入监测时间,则输出该当前文章的标题及删除原因,否则,输出该当前文章删文详情信息。
[0060] 第三方面,本申请实施例提供了一种终端,包括:一个或多个处理器、一个或多个存储器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述终端执行如上述的新媒体账号删文监测方法。
[0061] 上述存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
[0062] 其中,存储器用于存储执行本申请方案的应用程序代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,从而实现本专利方法中的功能。
[0063] 在具体实现中,作为一种实施例,处理器可以包括一个或多个CPU。
[0064] 在具体实现中,作为一种实施例,该终端可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
[0065] 第四方面,本申请实施例提供了计算机存储介质,其上存储计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如上述的新媒体账号删文监测方法。
[0066] 以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。