一种呼叫中心大数据文本挖掘系统转让专利

申请号 : CN202311119951.6

文献号 : CN117076612B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 金笑关旭马菁马小兰乔妮秦瀚文谢亮

申请人 : 宁夏恒信创达数据科技有限公司

摘要 :

本发明公开了一种呼叫中心大数据文本挖掘系统,涉及呼叫中心领域,包括数据写入端,数据储存端,检索识别端,客户移动端,数据写入端包括分辨数据类型的数据识别模块,选定储存方向的储存选定模块,数据储存端包括分类不同数据的区分储存模块,提取符合搜索要求数据的数据提取模块,进一步提取可能符合数据检索要求或对检索要求有助力的数据挖掘模块,剔除无效提取数据的数据检查模块,检索识别端包括能够支撑语音转化为文本的语音识别模块,支持各语言转换的文本翻译模块,客户移动端包括分析客户数据喜好偏向的风格识别模块,用于推送喜好数据的数据推送模块,本发明是一种检索速度快,充分利用算力的呼叫中心大数据文本挖掘系统。

权利要求 :

1.一种呼叫中心大数据文本挖掘系统,包括数据写入端(10),数据储存端(20),检索识别端(30),客户移动端(40),其特征在于,所述数据写入端(10)包括采用C4.5算法对数据进行基本的定性,判断其属于那种类型的数据的数据识别模块(11),根据所述数据识别模块(11)判断出的数据类型,将数据发送给相应大类的的储存选定模块(12);

所述数据储存端(20)为呼叫中心的数个存储硬件(25),所述存储硬件(25)内根据数据不同类型特征划分一定数量的特征存储空间(251),包括使用TF‑IDF算法提取新输入的数据文本中的特征,细化数据的类别,将其储存在硬件服务器内对应细化特征的所述特征存储空间(251)内的区分储存模块(21),使用决策树算法与K‑Mean算法相结合的模式,提取储存于相应所述特征存储空间(251)中符合搜索要求数据的数据提取模块(22),使用Apriori关联算法,挖掘在同一所述存储硬件(25)一整个大类中可能存在需求特征的关联数据并可通过提取的关联数据在其他存储硬件(25)继续提取二次关联数据的数据挖掘模块(23),采用Bloom‑filter算法判断一次关联和二次关联的数据与所述数据提取模块(22)首先提取数据的相似度,剔除其中相似度较低的数据检查模块(24);

检索识别端(30)包括能够支撑语音转化为文本的语音识别模块(31),能够支持各语言转换的文本翻译模块(32);

所述客户移动端(40)包括用于分析客户对于数据喜好偏向的风格识别模块(41),用于推送适宜其喜好数据的数据推送模块(42)。

2.根据权利要求1所述的一种呼叫中心大数据文本挖掘系统,其特征在于,所述语音识别模块(31)采用市面上成熟的语音识别软件,用于识别在呼叫过程中的谈话信息并转换为文本信息,所述文本翻译模块(32)使用成熟的翻译软件,适用于服务境外客户。

3.根据权利要求1所述的一种呼叫中心大数据文本挖掘系统,其特征在于,所述风格识别模块(41)通过客户的搜索统计其偏好的信息类型。

4.根据权利要求1所述的一种呼叫中心大数据文本挖掘系统,其特征在于,所述数据推送模块(42)通过客户的数据偏好,为其推送适合的数据。

说明书 :

一种呼叫中心大数据文本挖掘系统

技术领域

[0001] 本发明主要涉及呼叫中心的技术领域,具体为一种呼叫中心大数据文本挖掘系统。

背景技术

[0002] 呼叫中心是现在许多线上企业常用的一种服务模式,用于加强企业与客户之间的联系,为客户提供信息化服务,帮助客户线上解决部分产品问题,是推销和售后的重要组成部分,能够提高客户对企业的依附程度,保留客户留存度。在市场竞争日益激烈的大环境下,提升呼叫中心的业务能力成为了吸引顾客的重要环节,但是,往日传统的呼叫中心想要提高业务能力需要工作人员对于客户的需求十分了解,员工培养成本高,周期长,如今很多企业采用数据搜索甚至AI来提高业务能力,随着客户的数量增多以及企业自身的发展,企业数据库变得越来越庞大,在庞大的数据库中寻找符合客户要求甚至于给与有效建议的数据变得愈发困难,因此,需要一种呼叫中心大数据文本挖掘系统来支持呼叫中心服务。
[0003] 根据申请号为201610937056.9所提供的一种呼叫中心大数据文本挖掘系统,以数据挖掘算法为核心技术,建立出独立功能的商业模型,在商业模型和数据挖掘算法之间建立映射关系,从而构件的数据挖掘系统的体系结构;用数据挖掘算法,集成现有的成功的商业模型,针对具体商业应用,研制和开发新的商业模型,增加了系统和应用结合的灵活性。
[0004] 上述专利文件通过建立企业自身的商业模型,选定适合的大数据库,通过各种大数据挖掘算法辅助,能够调取适宜且大量的数据,但是存在数据调用模式复杂导致调用速度慢的问题。

发明内容

[0005] 基于此,本发明的目的是提供一种呼叫中心大数据文本挖掘系统,以解决上述背景技术中提出的技术问题。
[0006] 一种呼叫中心大数据文本挖掘系统,包括数据写入端,数据储存端,检索识别端,客户移动端,所述数据写入端包括采用C.算法对数据进行基本的定性,判断其属于那种类型的数据的数据识别模块,根据所述数据识别模块判断出的数据类型,将数据发送给相应大类的的储存选定模块;所述数据储存端为呼叫中心的数个存储硬件,所述存储硬件内根据数据不同类型特征划分一定数量的特征存储空间,包括使用TF‑IDF算法提取新输入的数据文本中的特征,细化数据的类别,将其储存在硬件服务器内对应细化特征的所述特征存储空间内的区分储存模块,使用决策树算法与K‑Mean算法相结合的模式,提取储存于相应所述特征存储空间中符合搜索要求数据的数据提取模块,使用Apriori关联算法,挖掘在同一所述存储硬件一整个大类中可能存在需求特征的关联数据并可通过提取的关联数据在其他存储硬件继续提取二次关联数据的数据挖掘模块,采用Bloom‑filter算法判断一次关联和二次关联的数据与所述数据提取模块首先提取数据的相似度,剔除其中相似度较低的数据检查模块;所述检索识别端包括能够支撑语音转化为文本的语音识别模块,能够支持各语言转换的文本翻译模块;所述客户移动端包括用于分析客户对于数据喜好偏向的风格识别模块,用于推送适宜其喜好数据的数据推送模块,在本优选的实施例中,通过对数据进行简单的概括定性,将其进行最基本的分类,通过储存选定模块将划分好类型的数据储存至相应大类对的硬件盘中,方便提取时选定提取区域,通过TF‑IDF算法,将大类内的数据细化为具有某一特征的数据,根据特征选定储存区域,在数据提取时,即可通过特征提取,快速得到具有相同特征的大量数据,通过分析呼叫中心需求的特征信息,用聚类算法提取已分类特征的数据,此过程中提取的数据基本符合需求,通过关联算法,将某些未列入相应特征区域但是存在相似属性或意义的数据深度挖掘出来,提供更多跟全面的信息,通过相似度算法,剔除大量不符合需求特征的数据,防止无用数据过多掩盖了有效数据。
[0007] 优选的,所述语音识别模块采用市面上成熟的语音识别软件,用于识别在呼叫过程中的谈话信息并转换为文本信息,所述文本翻译模块使用成熟的翻译软件,适用于服务境外客户,在本优选的实施例中,通过语音识别记录呼叫服务中的音频,将其转化为适用于搜索引擎工作的文本信息,提高搜索效率。
[0008] 优选的,所述风格识别模块通过客户的搜索统计其偏好的信息类型,在本优选的实施例中,通过风格识别模块分析客户的数据偏好,为其提供相应的数据特征模块,大概率能够在客户需求呼叫服务时为其快速提供大数据挖掘服务,能够提高客户的满意度。
[0009] 优选的,所述数据推送模块通过客户的数据偏好,为其推送适合的数据,在本优选的实施例中,通过数据推送模块为客户提供在其他搜索过程中提取出的符合客户数据偏好的数据,能够在满足客户数据需求的同时节约算力。
[0010] 综上所述,本发明主要具有以下有益效果:
[0011] 通过对输入数据进行基本的大类区分以及必要的特征分区,在数据挖掘之前就剔除了其他绝大多数无用数据,极大的缩小了数据挖掘的范围,极大的提升了检索速度,由于增加了输入数据的特征细化,使得根据特征提取的数据大概率是符合需求的有效数据。
[0012] 通过关联式的数据挖掘算法以及相似度剔除算法,能够在提供更多需求数据的同时,防止无效信息的掺杂导致的数据失真的缺点,能够提供更多更全面的需求数据。
[0013] 通过分析客户的数据喜好,在其他搜索场景中,通过挖掘算法挖掘出的各种数据可以对比客户的数据喜好将其中符合偏好的数据推送给相应客户,在为客户提供附加服务的同时最大化利用了挖掘算力,避免了不必要的算力浪费。

附图说明

[0014] 图1为本发明的整体系统流程图;
[0015] 图2为本发明的数据写入端模块示意图;
[0016] 图3为本发明的数据储存端模块示意图;
[0017] 图4为本发明的检索识别端模块示意图;
[0018] 图5为本发明的客户移动端模块示意图;
[0019] 图6为本发明的算法支持示意图。
[0020] 附图说明:10、数据写入端;20、数据储存端;30、检索识别端;40、客户移动端;11、数据识别模块;12、储存选定模块;21、区分储存模块;22、数据提取模块;23、数据挖掘模块;24、数据检查模块;25、存储硬件;251、特征存储空间;31、语音识别模块;32、文本翻译模块;
41、风格识别模块;42、数据推送模块。

具体实施方式

[0021] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0022] 实施例
[0023] 请着重参照附图1、2、3、4、6所示,一种呼叫中心大数据文本挖掘系统,包括数据写入端10,数据储存端20,检索识别端30,客户移动端40,数据写入端10包括采用C4.5算法对数据进行基本的定性,判断其属于那种类型的数据的数据识别模块11,根据数据识别模块11判断出的数据类型,将数据发送给相应大类的的储存选定模块12;数据储存端20为呼叫中心的数个存储硬件25,存储硬件25内根据数据不同类型特征划分一定数量的特征存储空间251,包括使用TF‑IDF算法提取新输入的数据文本中的特征,细化数据的类别,将其储存在硬件服务器内对应细化特征的特征存储空间251内的区分储存模块21,使用决策树算法与K‑Mean算法相结合的模式,提取储存于相应特征存储空间251中符合搜索要求数据的数据提取模块22,使用Apriori关联算法,挖掘在同一存储硬件25一整个大类中可能存在需求特征的关联数据并可通过提取的关联数据在其他存储硬件25继续提取二次关联数据的数据挖掘模块23,采用Bloom‑filter算法判断一次关联和二次关联的数据与数据提取模块22首先提取数据的相似度,剔除其中相似度较低的数据检查模块24;检索识别端30包括能够支撑语音转化为文本的语音识别模块31,能够支持各语言转换的文本翻译模块32;语音识别模块31采用市面上成熟的语音识别软件,用于识别在呼叫过程中的谈话信息并转换为文本信息,文本翻译模块32使用成熟的翻译软件,适用于服务境外客户。
[0024] 需要说明的是,数据写入端10用于呼叫中心原始数据的积累,C4.5算法能够根据特征将数据整理为相应的大类,区分各个大类的依据可根据呼叫中心的需求而决定,不同大类后数据的数据因秉持着相互关联性极小的原则,若是面对同时兼具两个及以上属性的数据,应当复制在所有相关大类的存储硬件25内,由于一次关联的数据特征与初始提取数据在同一个大类内,一般关联性较强,挖掘速度快,适用于浅度数据需求,由于不同大类的数据关联性较低,通过初始提取数据进行关联算法挖掘数据有限,因此采用一次关联的数据在其他大类服务器中深度提取有效数据,但以此种方法提取的数据失真概率高,因此,需要数据检查模块24剔除失真程度高的数据;
[0025] 进一步的,根据需要输入的数据,通过数据识别模块11采用C4.5算法对数据进行基本的定性,判断其属于那种类型的数据,
[0026] 进一步的,所述储存选定模块12根据C4.5算法判断出的数据类型,将数据发送给相应大类的存储硬件25,
[0027] 进一步的,区分储存模块21用TF‑IDF算法提取新输入的数据文本中的特征,细化数据的类别,将其储存在硬件服务器内对应细化特征的特征存储空间251。
[0028] 进一步的,在客户使用呼叫中心的呼叫服务时,语音识别模块31实时将客户声音转化为文本信息,此过程中文本翻译模块32将文本翻译成适宜语言并根据需求输入进搜索栏搜索;
[0029] 进一步的,数据提取模块22采用决策树算法与K‑Mean算法相结合,提取储存于相应特征存储空间251中符合需求特征的数据;
[0030] 进一步的,数据挖掘模块23通过Apriori关联算法,挖掘在同一存储硬件25一整个大类中符合需求特征的关联数据;
[0031] 进一步的,其他大类服务器通过其自身的数据挖掘模块23利用一次提取的关联数据继续提取二次关联数据;
[0032] 进一步的,数据检查模块24采用Bloom‑filter算法识别一次关联和二次关联的数据与数据提取模块22首先提取数据的相似度,剔除其中相似度较低的数据,将其余数据输出。
[0033] 请着重参照附图1、5所示,客户移动端40包括用于分析客户对于数据喜好偏向的风格识别模块41,用于推送适宜其喜好数据的数据推送模块42,风格识别模块41通过客户的搜索统计其偏好的信息类型,数据推送模块42通过客户的数据偏好,为其推送适合的数据。
[0034] 需要说明的是,风格识别模块41记录的客户数据偏好程度数据会提供给数据推送模块42进行分析,数据推送模块42与用于在进行数据挖掘时同时检测挖掘出的数据,当挖掘出的数据符合客户喜好时,会选择性的进行推送;
[0035] 进一步的,风格识别模块41根据客户在呼叫中心的查询服务以及平时的数据搜寻分析客户的数据喜好,并将其喜好数据发送给数据推送模块42;
[0036] 进一步的,当数据挖掘模块23挖掘数据是,数据推送模块42会将挖掘出的数据进行喜好对比,将挖掘出的此次呼叫服务中被列为的无用数据发送给偏好此类数据的客户,充分利用挖掘算力。
[0037] 本发明的工作原理为:
[0038] 当呼叫服务需要调取数据时,根据需要输入的数据,通过数据识别模块11采用C4.5算法对数据进行基本的定性,判断其属于那种类型的数据,所述储存选定模块12根据C4.5算法判断出的数据类型,将数据发送给相应大类的存储硬件25,区分储存模块21用TF‑IDF算法提取新输入的数据文本中的特征,细化数据的类别,将其储存在硬件服务器内对应细化特征的特征存储空间251,在客户使用呼叫中心的呼叫服务时,语音识别模块31实时将客户声音转化为文本信息,此过程中文本翻译模块32将文本翻译成适宜语言并根据需求输入进搜索栏搜索,数据提取模块22采用决策树算法与K‑Mean算法相结合,提取储存于相应特征存储空间251中符合需求特征的数据,数据挖掘模块23通过Apriori关联算法,挖掘在同一存储硬件25一整个大类中符合需求特征的关联数据,其他大类服务器通过其自身的数据挖掘模块23利用一次提取的关联数据继续提取二次关联数据,数据检查模块24采用Bloom‑filter算法识别一次关联和二次关联的数据与数据提取模块22首先提取数据的相似度,剔除其中相似度较低的数据,将其余数据输出,风格识别模块41根据客户在呼叫中心的查询服务以及平时的数据搜寻分析客户的数据喜好,并将其喜好数据发送给数据推送模块42,当数据挖掘模块23挖掘数据是,数据推送模块42会将挖掘出的数据进行喜好对比,将挖掘出的此次呼叫服务中被列为的无用数据发送给偏好此类数据的客户,充分利用挖掘算力。
[0039] 以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。