一种新闻阅读文本可读性评价方法及系统转让专利
申请号 : CN202010930665.8
文献号 : CN112115701B
文献日 : 2021-07-09
发明人 : 赵文杰 , 赵慧周
申请人 : 北京语言大学
摘要 :
权利要求 :
1.一种新闻阅读文本可读性评价方法,其特征在于,所述方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;
对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;
基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果;
基于所述句法结构信息计算出每一句子的句子配数,包括:根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;
提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点的词外,其它每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;
倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max;
所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;
然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最后一个不为
0的结果作为当前句子对应的句子配数分形维数;
所述融合法的公式如下:
Z(x)=α*gF(x)±β*gB(x)其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,为向下取整的符号;α、β和λ均为调整参数;α和β的取值均为(‑10,10),λ的取值范围为(0,
1);所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。
2.如权利要求1所述的新闻阅读文本可读性评价方法,其特征在于,对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。
3.一种新闻阅读文本可读性评价系统,其特征在于,所述系统包括:分句模块,用于对待评价的新闻阅读文本进行分句处理,形成分句列表;
句法结构信息提取模块,用于对所述分句模块得到的分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
句子配数计算模块,用于基于所述句法结构信息提取模块所提取的句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
修正句子配数分形维数计算模块,用于基于所述句子配数计算模块所计算出的句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;
可读性评价模块,用于基于所述修正句子配数分形维数计算模块所计算出的修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果;
基于所述句法结构信息计算出每一句子的句子配数,包括:根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;
提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点的词外,其他每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;
倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max;
所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;
然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最后一个不为
0的结果作为当前句子对应的句子配数分形维数;
所述融合法的公式如下:
Z(x)=α*gF(x)±β*gB(x)其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数, Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,为向下取整的符号;α、β和λ均为调整参数;α和β的取值均为(‑10,10),λ的取值范围为(0,
1);所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“‑”号。
说明书 :
一种新闻阅读文本可读性评价方法及系统
技术领域
背景技术
较大会导致对教材难度的控制比较弱,而想要提高教材编写的科学性,就需要能够对教材
的难度进行定量研究。
括:生词量、高频词语的比例、语法项目的数量、句式的复杂程度、句子的长度、功能项目的
数量及编排顺序以及与学生实际交际的相关度、语域风格(即语言的正规度)、百科及文化
背景知识的数量等。之后,张宁志(2000)再次强调对汉语教材难度进行定量分析的重要性,
并且利用“平均句长”对初、中、高级教材语料难度进行了区分,加入对于“每百字非常用词”
的统计,对中、高级教材进行了区分。对于教材难度的影响因素,卢伟(2005)提出汉字、词
汇、语法结构、语篇等几个语言变量是影响国际中文教材语料(包括课文、语言项目释例、练
习等)难易程度的主要因素。当然除了这些语料的文本特征之外,像学习者的知识背景、文
化背景,语料中的专用词组等等都会产生影响,不过仅考虑文本的基本构成层面来说,这些
影响因素大致可分为字、词、句、篇几大类。目前研究较为充分的是词领域,相应的等级词表
为从词层面进行分级确定提供了便利,李娟(2013)对中级汉语精读教材的分析中,词层面
选取4个特征,而在句层面仅有2个,篇章层面1个(篇长)。对于句层面,选择了平均句长和每
百字语法项目,这也是目前对于句法难度的衡量办法,不过这并不是唯一的办法。
中文教学文本的可读性公式,接着杨金宇(2008)、郭望皓(2009),左虹、朱勇(2014)都提出
了针对于国际中文教学文本的可读性公式,不过不同的公式使用的范围、面向的学习群体
有所不同。这些不同的可读性公式所选取的影响因素各不相同,但大都是浅层的语言因素,
即字、词、句,而篇章级别的因素考虑的很少,只有王蕾考虑了篇章中的标志词(关联词)数。
是词汇层面,而文本的可读性评价应该是基于篇章进行的,篇章级别的影响因素是十分重
要的;因此,现有评价方法的评价结果不够准确。
发明内容
的可读性评价方法的评价结果不够准确的技术问题。
本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本
中所包含的句子配数序列的分形维数;
度,其中ll[id‑1]中除ll[id‑1][head‑id‑1]=1以外,其余各项均为0;其中,除位于根节点
的词外,其他每一个词的head值均为其支配词的id值,对于位于根节点的词,其head值为0;
max。
后一个不为0的结果作为当前句子对应的句子配数分形维数。
长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,
为向下取整的符号;α、β和λ均为调整参数。
法结构的数字化表示;
形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分
形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数
序列的分形维数;
述待评价的新闻阅读文本的可读性评价结果。
表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计
算出每一句子的句子配数;基于各句子的句子配数,计算出新闻阅读文本的句子配数分形
维数,并将句子配数分形维数与分句列表的长度的比值作为修正句子配数分形维数;基于
修正句子配数分形维数,采用融合法对新闻阅读文本的可读性进行评价;从而利用修正句
子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1
值。
附图说明
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
具体实施方式
所示,包括以下步骤:
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
对分句列表中的每一句子进行句法分析,获取原始句法信息,然后再对获取的原始句法信
息进行格式化并提取其中的有效信息。
世界第一名。“汉语水平考试”,简称HSK,是中国为测试母语非汉语人士的汉语水平而设立
的国家级标准化考试,其成绩既可以作为进人中国学校接受教育时的汉语水平证明,也可
以作为在国际上申请职位时的证明,与美国的托福考试非常相似。汉语水平考试在1990第
一次举行时,仅在中国境内设有考点,参加人数不过2000人。到今年上半年,其考点已经遍
布于中国境外的33个国家和地区,有来自120多个国家和地区的近30万人次参加了考试。中
韩两国于1992年建交后,韩国一些热衷于汉语教学的大学教授主动来到中国,要求在韩国
举行汉语水平考试。不过,在1993年第一次举行考试的时候,韩国全国仅有487人参加。目
前,随着中韩两国在各个领域交流的不断发展,中国热在韩国逐年升温,到2001年,参加汉
语水平考试的韩国人已达7260人,比1993年增加了10多倍,占当年汉语水平考试海外考生
的61%。”
韩国","id":1,"deprel":"DE"},{"postag":"u","head":3,"word":"的","id":2,"
deprel":"DE"},{"postag":"ns","head":12,"word":"首尔","id":3,"deprel":"SBV"},
{"postag":"w","head":3,"word":"、","id":4,"deprel":"WP"},{"postag":"ns","
head":3,"word":"大田","id":5,"deprel":"COO"},{"postag":"w","head":5,"
word":"、","id":6,"deprel":"WP"},{"postag":"ns","head":3,"word":"大邱","id":
7,"deprel":"COO"},{"postag":"m","head":9,"word":"三","id":8,"deprel":"QUN"},
{"postag":"q","head":10,"word":"个","id":9,"deprel":"ATT"},{"postag":"n","
head":3,"word":"城市","id":10,"deprel":"APP"},{"postag":"d","head":12,"
word":"同时","id":11,"deprel":"ADV"},{"postag":"v","head":0,"word":"举行","
id":12,"deprel":"HED"},{"postag":"m","head":14,"word":"2003","id":13,"
deprel":"QUN"},{"postag":"n","head":18,"word":"年度","id":14,"deprel":"ATT"},
{"postag":"m","head":18,"word":"第三次","id":15,"deprel":"ATT"},{"postag":"
nz","head":17,"word":"汉语","id":16,"deprel":"ATT"},{"postag":"n","head":18,"
word":"水平","id":17,"deprel":"ATT"},{"postag":"vn","head":12,"word":"考试","
id":18,"deprel":"VOB"},{"postag":"w","head":12,"word":"。","id":19,"deprel":"
WP"}]}
(最后一个词的id值)形成一个双重列表ll,其中列表长度等于id_max;提取出当前句子中
的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应
ll中内层列表索引,id_max与当前id的差值为ll[id‑1]的长度,其中ll[id‑1]中除ll[id‑
1][head‑id‑1]=1以外,其余各项均为0;倒序遍历列表ll的内容形成二进制数strt,将
strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最
后求出句子配数bc_rel=bc/bc_max。此处,需要说明的是,句子的句法结构是基于依存句
法形成的,其中词的id是句子中每一个词的自然序列值,除位于根节点的词外,其他每一个
词的head值均为其支配词的id值,对于位于根节点的词,其head值为0。如:句子“韩国的首
尔、大田、大邱三个城市同时举行2003年度第三次汉语水平考试。”中“韩国”的id值为1,其
head值为2(因为“韩国”的支配词为第二个词“的”)。
(0,1)之间的盒子范围收缩函数;然后利用不断收缩的盒子进行预设次数的迭代计算(本实
施例中设定的迭代次数为17次);在迭代计算终止后选取最后一个不为0的结果作为当前句
子对应的句子配数分形维数。
level(x)为映射函数,用于将可读性分数映射为0或1两个整数,分别对应两个难度等级,
为向下取整的符号;α、β和λ均为调整参数,经训练得到,α和β的取值范围为(‑10,10),λ
的取值范围为(0,1)。
最大值和最小值。
的,所以最终模型公式中采用+号。
融合前 0.757 0.754
融合后 0.81 0.79
表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计
算出每一句子的句子配数;基于各句子的句子配数,计算出新闻阅读文本的句子配数分形
维数,并将句子配数分形维数与分句列表的长度的比值作为修正句子配数分形维数;基于
修正句子配数分形维数,采用融合法对新闻阅读文本的可读性进行评价;从而利用修正句
子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1
值。
法结构的数字化表示;
形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分
形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数
序列的分形维数;
述待评价的新闻阅读文本的可读性评价结果。
实现的功能与上述第一实施例的新闻阅读文本可读性评价方法中的各流程步骤一一对应;
故,在此不再赘述。
储有至少一条指令,所述指令由处理器加载并执行以下步骤:
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中
的处理器加载并执行以下步骤:
分形维数;其中,句子配数分形维数为待评价的新闻阅读文本中所包含的句子配数序列的
分形维数;
而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质上实施的计算机程序产品的形式。
中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些
计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以
产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生
用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的
装置。
括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处
理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机
实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一
个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非
排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明
实施例范围的所有变更和修改。