一种稿件查重的方法及系统转让专利

申请号 : CN200810239292.9

文献号 : CN101751423B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 沈晓峰

申请人 : 北大方正集团有限公司北京北大方正电子有限公司

摘要 :

本发明公开了一种稿件查重的方法及系统,为了解决现有技术中稿件发表时出现重稿的问题,本发明公开的方法包括:生产数据库中的稿件信息,因对版面上的稿件进行操作而被相应的修改后,事件触发器获取修改后的稿件信息,所述稿件信息包括稿件内容;查重服务器对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息,由于查重服务器对事件触发器获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,使得最终确定重稿信息。

权利要求 :

1.一种稿件查重的方法,其特征在于,包括:

生产数据库中的稿件信息,因对版面上的稿件进行签发操作、签发以后调版、修改稿签信息和签发以后撤签操作而被相应的修改后,事件触发器获取修改后的稿件信息以及修改后的稿件的状态信息,所述稿件信息包括稿件内容;

查重服务器对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息;

其中,查重服务器进行重复稿件内容比较具体为:

查重服务器将获取的稿件信息存储到查重数据库中,根据稿件的状态信息确定未进行重复稿件内容比较的稿件信息,对查重数据库中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,将确定的重稿信息保存在查重数据库。

2.如权利要求1所述的方法,其特征在于,查重服务器对于新签发的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,新签发的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较;

查重服务器对于签发以后撤签的稿件,如果已经进行重复稿件内容比较,则删除查重数据库中对应的稿件信息和重稿信息,并通知稿件生产数据库已经删除;如果没有查重,直接通知稿件生产数据库已经删除;

查重服务器对于签发以后调版或修改稿签信息的稿件,如果没有进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较,如果已进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知稿件生产数据库。

3.如权利要求1所述的方法,其特征在于,查重服务器向查重用户工作平台发送重稿信息,查重用户工作平台显示重稿信息。

4.一种稿件查重的系统,其特征在于,包括:

事件触发器:用于生产数据库中的稿件信息,因对版面上的稿件进行签发操作、签发以后调版、修改稿签信息和签发以后撤签操作而被相应的修改后,获取修改后的稿件信息以及修改后的稿件的状态信息,所述稿件信息包括稿件内容;

查重服务器:用于对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息;

其中,查重服务器:还用于将获取的稿件信息存储到查重数据库中,根据稿件的状态信息确定未进行重复稿件内容比较的稿件信息,对查重数据库中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,将确定的重稿信息保存在查重数据库。

5.如权利要求4所述的系统,其特征在于,查重服务器:还用于对于新签发的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,新签发的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较;

对于签发以后撤签的稿件,如果已经进行重复稿件内容比较,则删除查重数据库中对应的稿件信息和重稿信息,并通知稿件生产数据库已经删除;如果没有查重,直接通知稿件生产数据库已经删除;

对于签发以后调版或修改稿签信息的稿件,如果没有进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较,如果已进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知稿件生产数据库。

6.如权利要求4所述的系统,其特征在于,查重服务器:还用于向查重用户工作平台发送重稿信息;

所述系统还包括:

查重用户工作平台:用于显示重稿信息。

说明书 :

一种稿件查重的方法及系统

技术领域

[0001] 本发明属于信息处理领域,特别涉及一种稿件查重的方法及系统。

背景技术

[0002] 目前在报业生产时,将原始的文字稿件、图片稿件、音频稿件和视频稿件等稿件投送到稿件服务器,稿件服务器将投送的稿件存储到生产数据库中,以一个被投送的文字稿件为例,向稿件服务器投送时,需将文字稿件的标题、正文内容和作者名称等稿件信息发送到服务器,服务器将文字稿件的标题、正文内容和作者名称等原始的稿件信息存入生产数据库,发表前需要对这些存入数据库的稿件进行选用、签发、发布等一系列操作,选用后的稿件被称为版上的稿件,在现有技术中因为没有稿件查重处理,因此可能出现同一篇被投送的稿件被多次选用,造成审批后的稿件信息在网站上或报纸上发表时出现重稿的问题。

发明内容

[0003] 本发明实施例的目的在于提供了一种稿件查重的方法及系统,为了解决现有技术中稿件发表时出现重稿的问题。
[0004] 为了实现上述目的,本发明实施例提供了一种稿件查重的方法,包括:
[0005] 生产数据库中的稿件信息,因对版面上的稿件进行签发操作、签发以后调版、修改稿签信息和签发以后撤签操作而被相应的修改后,事件触发器获取修改后的稿件信息,所述稿件信息包括稿件内容;
[0006] 查重服务器对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息。
[0007] 同时本发明实施例还提供一种稿件查重的系统,包括:
[0008] 事件触发器:用于生产数据库中的稿件信息,因对版面上的稿件进行签发操作、签发以后调版、修改稿签信息和签发以后撤签操作而被相应的修改后,获取修改后的稿件信息,所述稿件信息包括稿件内容;
[0009] 查重服务器:用于对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息。
[0010] 由上述本发明提供的具体实施方案可以看出,正是由于查重服务器对事件触发器获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,使得最终确定重稿信息,稿件发表时减少重稿出现的次数。

附图说明

[0011] 图1为本发明提供的第一实施例方法流程图;
[0012] 图2为本发明提供的第二实施例系统结构图。

具体实施方式

[0013] 为了解决现有技术中稿件发表时出现重稿的问题,本发明实施例提供了一种稿件查重的方法及系统。下面以报社生产为例,进行说明,但不局限于报社生产,如网络新闻发布同样适用,当对版面上的稿件进行操作时,生产数据库稿件信息被修改,事件触发器从生产数据库中获取稿件信息,所述稿件信息包括稿件内容;查重服务器对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行查重,确定重稿信息。通过本发明实施例的方案可以实现,稿件发表时减少重稿出现的次数。
[0014] 本发明提供的第一实施例是一种稿件查重的方法,先以报社的生产系统的生产过程为例进行说明,方法流程如图1所示,包括:
[0015] 步骤101:当对版面上的稿件进行操作时,生产数据库稿件信息被修改,事件触发器从生产数据库中获取稿件信息。
[0016] 步骤102:事件触发器将获取的各稿件的稿件信息分类处理,并存储到查重服务器的查重数据库中。
[0017] 步骤103:查重服务器对查重数据库中未查重的稿件信息进行查重,确定重稿信息。
[0018] 步骤104:查重服务器整理查重数据库中的数据,同步报社生产数据库中的数据,并发送实时重稿信息提醒。
[0019] 步骤105:发送实时重稿信息提醒给稿件签发用户,通过查重用户工作平台查看重稿信息。
[0020] 实施签发的稿件信息,包括新签发的,签发以后调版或修改稿签信息的,签发以后撤签的(即签发以后又撤消签发的)。
[0021] 报社生产系统中,当对版面上的稿件进行操作时,报社生产数据库稿件信息表中存储的稿件信息会被相应修改,通过在稿件信息表上创建的事件触发器,当稿件签发、调版、修改稿签(稿签:除了稿件内容以外的稿件信息,例如稿件标题、作者等)或者撤签的时候,事件触发器实时获取到相应修改后的稿件信息,并将这些稿件信息同步(复制拷贝)到报社生产库的表1:签发稿件缓存表中。稿件信息包括表1中除modify_status和duple_id以外的字段信息。
[0022]
[0023] 表1
[0024] 当稿件签发的时候,事件触发器向表1中插入一条稿件状态信息modify_status,表1中除modify_status和duple_id以外的字段信息的值,均和报社生产数据库中的稿件信息一致,modify_status字段的值修改为1,duple_id的值为空值。
[0025] 当稿件撤签的时候,事件触发器将modify_status字段的值修改为2。
[0026] 当稿件调版或者修改稿签的时候,事件触发器同步调版或者修改稿签后的稿件信息,如果modify_status字段的值小于3,将modify_status字段的值修改为3,如果modify_status字段的值大于等于3,将modify_status字段的值加1。
[0027] 步骤101之前还可包括,把表一中当天刊期之前的所有稿件删除掉,因为历史刊期的稿件属于已见报数据,会通过入库代理作为历史稿件分发进入查重数据库,不再属于当天刊期需要实时查重的稿件。
[0028] 如果检查到表1中所有稿件都是已经查重的,即modify_status的值都为0,则表示所有稿件都已经查重完毕,没有新签发的稿件需要进行查重(进行重复稿件内容比较,即对稿件信息中的content字段的稿件内容进行比较),结束。
[0029] 如果检查到表1中所有稿件信息对应的modify_status的值不都为0,则开始获取表1中不同状态的稿件信息。
[0030] 先获取撤签的稿件信息,即对应标志位modify_status值为2的稿件信息,保存在撤签稿件列表(cancleDocumentList,即内存中)中,当然也可以是在硬盘或数据库中临时保存。
[0031] 再获取新签发的稿件,即对应标志位modify_status值为1的稿件信息,保存在新签发稿件列表(newDocumentList,即内存中)中。
[0032] 最后获取签发以后调版或修改稿签信息的稿件,即对应标志位modify_status值>=3的稿件,保存在修改稿件列表(modifiedDocumentList,即内存中)中。
[0033] 步骤102之前还可包括,把查重数据库中表2查重稿件信息缓冲表、表3查重结果信息缓冲表的内容全部清空。
[0034]
[0035]
[0036] 表2
[0037]
[0038]
[0039] 表3
[0040] 在步骤102中,首先,对于签发以后调版或修改稿签信息的稿件信息,如果没有查重,当作新签发稿件处理;如果已经查过重,只需要同步查重数据库中的稿件信息,并通知稿件生产数据库已经同步。
[0041] 循环稿件列表modifiedDocumentList,如果稿件信息对应有duple_id,证明稿件是已经查重的,则把modifiedDocumentList中的稿件信息与查重数据库中的表4查重稿件信息表中id等于duple_id的查重稿件信息进行同步,与表5查重结果信息表中this_id或者that_id等于duple_id的查重信息(duple_rate,稿件1和稿件2重稿相似度为80%)进行同步。
[0042]
[0043] 表4
[0044]
[0045]
[0046] 表5
[0047] 如果modifiedDocumentList中的稿件信息没有duple_id,证明稿件是还没有查重,则把稿件信息插入到表2中,同时为稿件生成duple_id。
[0048] 其次,对于新签发的稿件信息,将稿件信息保存到查重数据库中。
[0049] 循环稿件列表newDocumentList,将其中的稿件信息插入到表2中,同时为稿件生成duple_id。
[0050] 最后,对于签发以后撤签的稿件,删除其在查重数据库中的对应数据。
[0051] 循环稿件列表cancleDocumentList,如果稿件有duple_id,证明稿件是已经查重以后撤签的,则删除表四中id等于duple_id的稿件信息,删除表五中this_id或者that_id等于duple_id的查重结果信息。
[0052] 如果稿件没有duple_id,证明稿件没有经过查重就撤签了,此处不需要做其他处理。
[0053] 步骤103可通过第三方的查重软件进行查重,如利用第三方的插件海量消重基础件2.0版完成,首先将历史稿件的内容输入给插件,插件通过高效的中文分词技术会在内存中自动构建一个消重库,然后再把要查重的稿件内容和最低相似度数值输入给插件,插件利用准确的中文分词比较技术将要查重的稿件和消重库中所有的稿件内容信息进行比对,将所有高于最低相似度的比较结果返回。之前可包括,从查重数据库中获取各种查重设置参数,包括查重最低相似度,查重关键字等信息,这些参数的值将直接影响到最终确认的查重信息。从表2中获取所有需要查重的稿件,逐篇对稿件进行查重,每篇稿件的查重结果都保存在统一的一个查重结果列表(duplationList)中。其中稿件的查重,不仅包括同历史见报稿件(表4中的稿件)之间的查重,而且包括同其他实时签发稿件(表2中的稿件)之间的查重。
[0054] 查重结束以后,循环查重结果列表duplationList,将最终确认的查重信息插入到表3中。
[0055] 对于步骤104首先,将表2中的所有数据导入表4中,表3中的所有数据导入表5中,供查重用户工作平台检索查重结果时使用。整个导入操作一次性提交完成,保证用户工作平台检索出的结果的完整性和准确性。
[0056] 其次,删除报社生产数据库表1中与稿件列表cancleDocumentList对应的所有稿件。
[0057] 最 后,同 步 报 社 数 据 库 表 1中 与 稿 件 列 表 newDocumentList 和modifiedDocumentList对应的稿件信息。并修改字段modify_status的值为已经查重,即等于0,因为在查重的过程中,表1中的稿件有可能同时被报社的生产系统进行相关操作,字段modify_status的值可能被触发器修改,所以此处修改,只修改modify_status始终没有改变过的稿件;回填稿件在查重数据库中的标识,即给duple_id字段赋值,把之前(如步骤102中如果modifiedDocumentList中的稿件信息没有duple_id,证明稿件是还没有查重,则把稿件信息插入到表2中,同时为稿件生成duple_id)新生成duple_id的稿件的duple_id值同步到表1中对应稿件的duple_id字段。
[0058] 对于步骤105,从表2中查出满足发送实时提醒条件的重稿信息,逐一向查重用户工作平台发送,并通过实时通讯工具提供的接口发送重稿信息提醒给稿件的签发用户,用户通过查重用户工作平台,选择特定的条件,查看所有包括重稿信息的重稿记录列表。
[0059] 用户选择重稿记录列表上的某条纪录,点击查看,可以查看具体某个稿件的所有重稿信息。
[0060] 本发明提供的第二实施例是一种稿件查重的系统,其结构如图2所示,包括:
[0061] 事件触发器202:用于生产数据库中的稿件信息,因对版面上的稿件进行操作而被相应的修改后,获取修改后的稿件信息,所述稿件信息包括稿件内容;
[0062] 查重服务器204:用于对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定重稿信息。
[0063] 进一步,事件触发器202:还用于获取修改后的稿件的状态信息;
[0064] 查重服务器204:还用于将获取的稿件信息存储到查重数据库中,根据稿件的状态信息确定未进行重复稿件内容比较的稿件信息,对查重数据库中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,将确定的重稿信息保存在查重数据库。
[0065] 进一步,事件触发器202:还用于生产数据库中的稿件信息,因对版面上的稿件进行签发操作、签发以后调版、修改稿签信息和签发以后撤签,而被相应的修改后,获取修改后的稿件信息,所述稿件信息包括稿件内容;。
[0066] 查重服务器204:还用于对于新签发的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,新签发的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较;
[0067] 对于签发以后撤签的稿件,如果已经进行重复稿件内容比较,则删除查重数据库中对应的稿件信息和重稿信息,并通知稿件生产数据库已经删除;如果没有查重,直接通知稿件生产数据库已经删除;
[0068] 对于签发以后调版或修改稿签信息的稿件,如果没有进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件进行重复稿件内容比较,将确定的重稿信息保存在查重数据库,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知生产数据库稿件已进行重复稿件内容比较,如果已进行重复稿件内容比较,签发以后调版或修改稿签信息的稿件的稿件信息保存在查重数据库,并通知稿件生产数据库。
[0069] 进一步,查重服务器204:还用于向查重用户工作平台发送重稿信息;
[0070] 所述系统还包括:
[0071] 查重用户工作平台206:用于显示重稿信息。。
[0072] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。