一种新闻阅读文本可读性评价方法及系统转让专利

申请号 : CN202010930665.8

文献号 : CN112115701B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵文杰赵慧周

申请人 : 北京语言大学

摘要 :

本发明公开了一种新闻阅读文本可读性评价方法及系统,该方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计算出每一句子的句子配数;基于各句子的句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算该句子配数分形维数与上述分句列表的长度的比值,得到修正句子配数分形维数;基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价。本发明利用修正句子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1值。

权利要求 :

1.一种新闻阅读文本可读性评价方法,其特征在于,所述方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;

对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;

基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;

基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;

基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果;

基于所述句法结构信息计算出每一句子的句子配数,包括:根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;

提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点的词外,其它每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;

倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max;

所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;

然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最后一个不为

0的结果作为当前句子对应的句子配数分形维数;

所述融合法的公式如下:

Z(x)=α*gF(x)±β*gB(x)其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,为向下取整的符号;α、β和λ均为调整参数;α和β的取值均为(‑10,10),λ的取值范围为(0,

1);所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。

2.如权利要求1所述的新闻阅读文本可读性评价方法,其特征在于,对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。

3.一种新闻阅读文本可读性评价系统,其特征在于,所述系统包括:分句模块,用于对待评价的新闻阅读文本进行分句处理,形成分句列表;

句法结构信息提取模块,用于对所述分句模块得到的分句列表中的句子进行句法分析,获取每一句子的句法结构信息;

句子配数计算模块,用于基于所述句法结构信息提取模块所提取的句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;

修正句子配数分形维数计算模块,用于基于所述句子配数计算模块所计算出的句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;

可读性评价模块,用于基于所述修正句子配数分形维数计算模块所计算出的修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果;

基于所述句法结构信息计算出每一句子的句子配数,包括:根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;

提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点的词外,其他每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;

倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max;

所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;

然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最后一个不为

0的结果作为当前句子对应的句子配数分形维数;

所述融合法的公式如下:

Z(x)=α*gF(x)±β*gB(x)其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,为向下取整的符号;α、β和λ均为调整参数;α和β的取值均为(‑10,10),λ的取值范围为(0,

1);所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。

说明书 :

一种新闻阅读文本可读性评价方法及系统

技术领域

[0001] 本发明涉及新闻阅读文本的可读性评价技术领域,特别涉及一种新闻阅读文本可读性评价方法及系统。

背景技术

[0002] 新闻报刊阅读教学在国际中文教学中属于中、高级的教学内容,教学内容大部分来自于一些报刊原文或加以改编,张宁志(2000)指出中、高级教材语料因为原文所占比例
较大会导致对教材难度的控制比较弱,而想要提高教材编写的科学性,就需要能够对教材
的难度进行定量研究。
[0003] 对于教材难度的研究,可以看作是“易读性”研究的一种,关于影响教材难度的因素,前人也多有论述。张宁志(2000)对多种影响教材难度的因素进行了分析,认为主要包
括:生词量、高频词语的比例、语法项目的数量、句式的复杂程度、句子的长度、功能项目的
数量及编排顺序以及与学生实际交际的相关度、语域风格(即语言的正规度)、百科及文化
背景知识的数量等。之后,张宁志(2000)再次强调对汉语教材难度进行定量分析的重要性,
并且利用“平均句长”对初、中、高级教材语料难度进行了区分,加入对于“每百字非常用词”
的统计,对中、高级教材进行了区分。对于教材难度的影响因素,卢伟(2005)提出汉字、词
汇、语法结构、语篇等几个语言变量是影响国际中文教材语料(包括课文、语言项目释例、练
习等)难易程度的主要因素。当然除了这些语料的文本特征之外,像学习者的知识背景、文
化背景,语料中的专用词组等等都会产生影响,不过仅考虑文本的基本构成层面来说,这些
影响因素大致可分为字、词、句、篇几大类。目前研究较为充分的是词领域,相应的等级词表
为从词层面进行分级确定提供了便利,李娟(2013)对中级汉语精读教材的分析中,词层面
选取4个特征,而在句层面仅有2个,篇章层面1个(篇长)。对于句层面,选择了平均句长和每
百字语法项目,这也是目前对于句法难度的衡量办法,不过这并不是唯一的办法。
[0004] 关于国际中文教育文本可读性公式研究,张宁志(2000)首次对29部教材进行研究并提出一些可用来量化教材难易度的评价指标,但直到王蕾(2005)才算是第一个关于国际
中文教学文本的可读性公式,接着杨金宇(2008)、郭望皓(2009),左虹、朱勇(2014)都提出
了针对于国际中文教学文本的可读性公式,不过不同的公式使用的范围、面向的学习群体
有所不同。这些不同的可读性公式所选取的影响因素各不相同,但大都是浅层的语言因素,
即字、词、句,而篇章级别的因素考虑的很少,只有王蕾考虑了篇章中的标志词(关联词)数。
[0005] 综上,目前的可读性评价方法中,在篇章层面上的影响因素不多,现在的篇章级影响因素也较为简单,只是单纯地计算篇章长度和一些关联词的情况。绝大多数的影响因素
是词汇层面,而文本的可读性评价应该是基于篇章进行的,篇章级别的影响因素是十分重
要的;因此,现有评价方法的评价结果不够准确。

发明内容

[0006] 本发明提供了一种新闻阅读文本可读性评价方法及系统,以解决现有的可读性评价方法中,在篇章层面上的影响因素不多,绝大多数的影响因素是词汇层面,从而造成现有
的可读性评价方法的评价结果不够准确的技术问题。
[0007] 为解决上述技术问题,本发明提供了如下技术方案:
[0008] 一方面,本发明提供一种新闻阅读文本可读性评价方法,该方法包括:
[0009] 对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0010] 对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0011] 基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
[0012] 基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文
本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本
中所包含的句子配数序列的分形维数;
[0013] 基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果。
[0014] 其中,对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。
[0015] 其中,基于所述句法结构信息计算出每一句子的句子配数,包括:
[0016] 根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;
[0017] 提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长
度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点
的词外,其他每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;
[0018] 倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_
max。
[0019] 其中,所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最
后一个不为0的结果作为当前句子对应的句子配数分形维数。
[0020] 其中,所述融合法的公式如下:
[0021] Z(x)=α*gF(x)±β*gB(x)
[0022]
[0023] 其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的
长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,
为向下取整的符号;α、β和λ均为调整参数。
[0024] 其中,α和β的取值均为(‑10,10),λ的取值范围为(0,1)。
[0025] 其中,所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。
[0026] 另一方面,本发明还提供一种新闻阅读文本可读性评价系统,该系统包括:
[0027] 分句模块,用于对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0028] 句法结构信息提取模块,用于对所述分句模块得到的分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0029] 句子配数计算模块,用于基于所述句法结构信息提取模块所提取的句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句
法结构的数字化表示;
[0030] 修正句子配数分形维数计算模块,用于基于所述句子配数计算模块所计算出的句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分
形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分
形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数
序列的分形维数;
[0031] 可读性评价模块,用于基于所述修正句子配数分形维数计算模块所计算出的修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所
述待评价的新闻阅读文本的可读性评价结果。
[0032] 再一方面,本发明还提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
[0033] 又一方面,本发明还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
[0034] 本发明提供的技术方案带来的有益效果至少包括:
[0035] 本发明提出了一个篇章级别的可读性影响因素,并在此基础上建立一个新闻文本的可读性评价方法,通过对待评价的新闻阅读文本进行分句处理,形成分句列表;对分句列
表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计
算出每一句子的句子配数;基于各句子的句子配数,计算出新闻阅读文本的句子配数分形
维数,并将句子配数分形维数与分句列表的长度的比值作为修正句子配数分形维数;基于
修正句子配数分形维数,采用融合法对新闻阅读文本的可读性进行评价;从而利用修正句
子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1
值。

附图说明

[0036] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0037] 图1是本发明实施例提供的新闻阅读文本可读性评价方法的流程示意图。

具体实施方式

[0038] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0039] 第一实施例
[0040] 本实施例提供了一种新闻阅读文本可读性评价方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该新闻阅读文本可读性评价方法的执行流程如图1
所示,包括以下步骤:
[0041] S101,对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0042] S102,对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0043] S103,基于句法结构信息计算出每一句子的句子配数;其中,句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
[0044] S104,基于句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算句子配数分形维数与分句列表的长度的比值,得到待评价的新闻阅读文本的修正句子配数
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
[0045] S105,基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价,得到待评价的新闻阅读文本的可读性评价结果。
[0046] 其中,上述S101对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。上述S102对分句列表中的句子进行句法分析时是调用百度的句法分析API
对分句列表中的每一句子进行句法分析,获取原始句法信息,然后再对获取的原始句法信
息进行格式化并提取其中的有效信息。
[0047] 例如,输入文档为:“韩国的首尔、大田、大邱三个城市同时举行2003年度第三次汉语水平考试。至此,今年参加该项考试的韩国人已达到19000余人,已是连续第三年位居全
世界第一名。“汉语水平考试”,简称HSK,是中国为测试母语非汉语人士的汉语水平而设立
的国家级标准化考试,其成绩既可以作为进人中国学校接受教育时的汉语水平证明,也可
以作为在国际上申请职位时的证明,与美国的托福考试非常相似。汉语水平考试在1990第
一次举行时,仅在中国境内设有考点,参加人数不过2000人。到今年上半年,其考点已经遍
布于中国境外的33个国家和地区,有来自120多个国家和地区的近30万人次参加了考试。中
韩两国于1992年建交后,韩国一些热衷于汉语教学的大学教授主动来到中国,要求在韩国
举行汉语水平考试。不过,在1993年第一次举行考试的时候,韩国全国仅有487人参加。目
前,随着中韩两国在各个领域交流的不断发展,中国热在韩国逐年升温,到2001年,参加汉
语水平考试的韩国人已达7260人,比1993年增加了10多倍,占当年汉语水平考试海外考生
的61%。”
[0048] 分析后获取的原始句法结构信息选例如下:
[0049] {"log_id":9028800588092490863,"text":"韩国的首尔、大田、大邱三个城市同时举行2003年度第三次汉语水平考试。","items":[{"postag":"ns","head":2,"word":"
韩国","id":1,"deprel":"DE"},{"postag":"u","head":3,"word":"的","id":2,"
deprel":"DE"},{"postag":"ns","head":12,"word":"首尔","id":3,"deprel":"SBV"},
{"postag":"w","head":3,"word":"、","id":4,"deprel":"WP"},{"postag":"ns","
head":3,"word":"大田","id":5,"deprel":"COO"},{"postag":"w","head":5,"
word":"、","id":6,"deprel":"WP"},{"postag":"ns","head":3,"word":"大邱","id":
7,"deprel":"COO"},{"postag":"m","head":9,"word":"三","id":8,"deprel":"QUN"},
{"postag":"q","head":10,"word":"个","id":9,"deprel":"ATT"},{"postag":"n","
head":3,"word":"城市","id":10,"deprel":"APP"},{"postag":"d","head":12,"
word":"同时","id":11,"deprel":"ADV"},{"postag":"v","head":0,"word":"举行","
id":12,"deprel":"HED"},{"postag":"m","head":14,"word":"2003","id":13,"
deprel":"QUN"},{"postag":"n","head":18,"word":"年度","id":14,"deprel":"ATT"},
{"postag":"m","head":18,"word":"第三次","id":15,"deprel":"ATT"},{"postag":"
nz","head":17,"word":"汉语","id":16,"deprel":"ATT"},{"postag":"n","head":18,"
word":"水平","id":17,"deprel":"ATT"},{"postag":"vn","head":12,"word":"考试","
id":18,"deprel":"VOB"},{"postag":"w","head":12,"word":"。","id":19,"deprel":"
WP"}]}
[0050] 对原始句法信息进行格式化并提取有效信息,提取原始结果中每一个句子的items,得到每一句子的句法结构信息,选例如下:
[0051] 第1句话
[0052] {"postag":"ns","head":2,"word":"韩国","id":1,"deprel":"DE"}
[0053] {"postag":"u","head":3,"word":"的","id":2,"deprel":"DE"}
[0054] {"postag":"ns","head":12,"word":"首尔","id":3,"deprel":"SBV"}
[0055] {"postag":"w","head":3,"word":"、","id":4,"deprel":"WP"}
[0056] {"postag":"ns","head":3,"word":"大田","id":5,"deprel":"COO"}
[0057] {"postag":"w","head":5,"word":"、","id":6,"deprel":"WP"}
[0058] {"postag":"ns","head":3,"word":"大邱","id":7,"deprel":"COO"}
[0059] {"postag":"m","head":9,"word":"三","id":8,"deprel":"QUN"}
[0060] {"postag":"q","head":10,"word":"个","id":9,"deprel":"ATT"}
[0061] {"postag":"n","head":3,"word":"城市","id":10,"deprel":"APP"}
[0062] {"postag":"d","head":12,"word":"同时","id":11,"deprel":"ADV"}
[0063] {"postag":"v","head":0,"word":"举行","id":12,"deprel":"HED"}
[0064] {"postag":"m","head":14,"word":"2003","id":13,"deprel":"QUN"}
[0065] {"postag":"n","head":18,"word":"年度","id":14,"deprel":"ATT"}
[0066] {"postag":"m","head":18,"word":"第三次","id":15,"deprel":"ATT"}
[0067] {"postag":"nz","head":17,"word":"汉语","id":16,"deprel":"ATT"}
[0068] {"postag":"n","head":18,"word":"水平","id":17,"deprel":"ATT"}
[0069] {"postag":"vn","head":12,"word":"考试","id":18,"deprel":"VOB"}
[0070] {"postag":"w","head":12,"word":"。","id":19,"deprel":"WP"}
[0071] 基于上述分析结果,上述S103中计算每一句子的句子配数的方法可参考Ioan‑Iovitz Popescu(2010)第7章,104‑105的内容,计算过程包括:根据句子中的最大id_max
(最后一个词的id值)形成一个双重列表ll,其中列表长度等于id_max;提取出当前句子中
的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应
ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑
1][head‑id‑1]=1以外,其余各项均为0;倒序遍历列表ll的内容形成二进制数strt,将
strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最
后求出句子配数bc_rel=bc/bc_max。此处,需要说明的是,句子的句法结构是基于依存句
法形成的,其中词的id是句子中每一个词的自然序列值,除位于根节点的词外,其他每一个
词的head值均为其支配词的id值,对于位于根节点的词,其head值为0。如:句子“韩国的首
尔、大田、大邱三个城市同时举行2003年度第三次汉语水平考试。”中“韩国”的id值为1,其
head值为2(因为“韩国”的支配词为第二个词“的”)。
[0072] 例如,对于上述实例,句子配数的计算结果如下:
[0073] 第1句话:0.1447762251045788
[0074] 第2句话:0.15628364683652762
[0075] 第3句话:0.12603822350502017
[0076] 第4句话:0.6601867685531033
[0077] 第5句话:0.047882571816472874
[0078] 第6句话:0.14453268051894955
[0079] 第7句话:0.15237474441531162
[0080] 第8句话:0.14166307828054414
[0081] 进一步地,上述S104计算句子配数分形维数的过程可参考科勒:句法计量分析,119‑123页内容,具体地,在本实施例中,句子配数分形维数的计算使用盒子法:首先定义
(0,1)之间的盒子范围收缩函数;然后利用不断收缩的盒子进行预设次数的迭代计算(本实
施例中设定的迭代次数为17次);在迭代计算终止后选取最后一个不为0的结果作为当前句
子对应的句子配数分形维数。
[0082] 句子配数分形维数与上述分句列表的长度的比值即为修正句子配数分形维数;例如,对于上述实例,修正句子配数分形维数的计算结果为:0.024125。
[0083] 进一步地,上述S105中所采用的融合法的公式如下:
[0084] Z(x)=α*gF(x)±β*gB(x)
[0085]
[0086] 其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为修正句子配数分形维数,L(x)为分句列表的长度,
level(x)为映射函数,用于将可读性分数映射为0或1两个整数,分别对应两个难度等级,
为向下取整的符号;α、β和λ均为调整参数,经训练得到,α和β的取值范围为(‑10,10),λ
的取值范围为(0,1)。
[0087] g为归一化的标志,归一化函数为:
[0088]
[0089] 此处需要说明的是,归一化使用简单缩放的方法,这种算法是对原始数据的线性变换,可以使结果落到[0,1]区间中。归一化函数中的fmax(x)和fmin(x)分别对应样本数据的
最大值和最小值。
[0090] 上述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。
[0091] 下面,选取王蕾(2005)的可读性公式作为待融合模型F(x)来构建最终的可读性分数模型。因为王蕾的公式中分数越高,文章的难度等级越低,与B(x)对结果的影响是一致
的,所以最终模型公式中采用+号。
[0092] 王蕾(2005)的公式如下:
[0093]
[0094] 其中,F(x)是可读性分数, 是总词数, 是简单词数, 是虚词数, 是分句数。
[0095] 最终在训练集上得到最优的参数为:α=5.853,β=‑0.581,λ=0.3。
[0096] 融合前的模型和融合后的模型对应的准确率和F1值如表1所示:
[0097] 表1融合前的模型和融合后的模型对应的准确率和F1值
[0098]  准确率 F1值
融合前 0.757 0.754
融合后 0.81 0.79
[0099] 可见,对于融合前的模型,融合后的模型在准确率和F1值上都取得了提升。
[0100] 综上,本实施例提出了一个篇章级别的可读性影响因素,并在此基础上建立一个新闻文本的可读性评价方法,通过对新闻阅读文本进行分句处理,形成分句列表;对分句列
表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计
算出每一句子的句子配数;基于各句子的句子配数,计算出新闻阅读文本的句子配数分形
维数,并将句子配数分形维数与分句列表的长度的比值作为修正句子配数分形维数;基于
修正句子配数分形维数,采用融合法对新闻阅读文本的可读性进行评价;从而利用修正句
子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1
值。
[0101] 第二实施例
[0102] 本实施例提供了一种新闻阅读文本可读性评价系统,该系统包括以下模块:
[0103] 分句模块,用于对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0104] 句法结构信息提取模块,用于对所述分句模块得到的分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0105] 句子配数计算模块,用于基于所述句法结构信息提取模块所提取的句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句
法结构的数字化表示;
[0106] 修正句子配数分形维数计算模块,用于基于所述句子配数计算模块所计算出的句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分
形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分
形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数
序列的分形维数;
[0107] 可读性评价模块,用于基于所述修正句子配数分形维数计算模块所计算出的修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所
述待评价的新闻阅读文本的可读性评价结果。
[0108] 本实施例的新闻阅读文本可读性评价系统与上述第一实施例的新闻阅读文本可读性评价方法相对应;其中,本实施例的新闻阅读文本可读性评价系统中的各功能模块所
实现的功能与上述第一实施例的新闻阅读文本可读性评价方法中的各流程步骤一一对应;
故,在此不再赘述。
[0109] 第三实施例
[0110] 本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
[0111] 该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存
储有至少一条指令,所述指令由处理器加载并执行以下步骤:
[0112] S101,对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0113] S102,对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0114] S103,基于句法结构信息计算出每一句子的句子配数;其中,句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
[0115] S104,基于句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算句子配数分形维数与分句列表的长度的比值,得到待评价的新闻阅读文本的修正句子配数
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
[0116] S105,基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价,得到待评价的新闻阅读文本的可读性评价结果。
[0117] 第四实施例
[0118] 本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随
机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中
的处理器加载并执行以下步骤:
[0119] S101,对待评价的新闻阅读文本进行分句处理,形成分句列表;
[0120] S102,对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
[0121] S103,基于句法结构信息计算出每一句子的句子配数;其中,句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
[0122] S104,基于句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算句子配数分形维数与分句列表的长度的比值,得到待评价的新闻阅读文本的修正句子配数
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
[0123] S105,基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价,得到待评价的新闻阅读文本的可读性评价结果。
[0124] 此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质上实施的计算机程序产品的形式。
[0125] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图
中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些
计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以
产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生
用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的
装置。
[0126] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包
括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处
理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机
实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一
个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0127] 还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间
存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非
排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0128] 最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概
念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明
实施例范围的所有变更和修改。