RPA组件智能推荐方法及系统转让专利
申请号 : CN202111578706.2
文献号 : CN113961187B
文献日 : 2022-04-22
发明人 : 郭洪锋 , 孙跃刚 , 周婷
申请人 : 杭州实在智能科技有限公司
摘要 :
权利要求 :
1.RPA组件智能推荐方法,其特征在于,包括如下步骤;
S1,在接受到用户在RPA产品界面创建组件情况下,提取组件的目标信息;
S2,根据提取组件的目标信息,通过K‑means聚类方法对用户进行聚类处理,获得相似用户组;
S3,根据相似用户组,确定待添加组件用户属于的用户族,并依据确定的用户族的具体信息计算候选组件列表;
S4,依据候选组件列表,计算各个候选组件的后验概率值,设定阈值,并按后验概率值从高到低的顺序,从候选组件列表确定预设数量的候选推荐组件,再返回候选组件列表;
S5,将所述候选推荐组件在RPA界面进行展示,供用户依据实际需求进行组件选择;
步骤S4包括如下步骤:
当各个候选组件的后验概率值均低于阈值或者后验概率值不存在时,采用预设的组件逻辑规则,进行组件推荐,按照被推荐组件的概率从高到低的顺序,然后从候选组件列表确定预设数量的候选推荐组件,确定候选组件列表,再返回候选组件列表;
步骤S4还包括如下步骤:
设定I={I1,I2,I3,...,Im}为一个组件项集,m表示组件的个数,其中Im表示第m个项,对应于单个组件;流程tn对应于单个流程,每个流程都包含若干个组件;流程组成的集合记做D={t1,t2,t3,...,tn},称为流程事物库;支持度P(XY)=(同时包含组件X和Y的组件流程/所有流程数量);置信度P(Y|X)=P(XY)/P(X),其中支持度P(XY)表示组件X和组件Y关联的数据在数据集中出现的次数占总数据集的比重,置信度P(Y|X)表示组件X出现后组件Y出现的概率,P(X)表示组件X出现的概率;
S41,对流程事物库进行一次扫描,聚类k个类别,分别统计k个类别总每个组件出现的次数,形成候选1‑项集;
S42,根据预设的最小支持度阈值筛选出频繁1‑项集;
S43,根据候选1‑项集查找流程事物库,寻找候选组件,形成候选2‑项集,为每个候选2‑项集进行计数,同样依据预设的最小支持度阈值筛选频繁2‑项集;
S44,计算各个项集的置信度,然后依据置信度概率大小从高到低的顺序排列各个项集,并返回候选组件列表。
2.根据权利要求1所述的RPA组件智能推荐方法,其特征在于,步骤S1中所述组件的目标信息包括组件名称、项目属性、用户id、用户行业、用户职业、用户年龄、用户注册时间、用户使用时间和用户是否精通一门编程语言。
3.根据权利要求1所述的RPA组件智能推荐方法,其特征在于,步骤S2包括如下步骤:S21,对提取的组件的目标信息进行向量化处理;
S22,对向量化处理后的组件的目标信息,进行数据归一化处理,消除数据量纲因素,生成数据集;
S23,在归一化后的数据集中,初始化生成k个作为聚类中心a=a1,a2,a3,…,ak;
S24,针对数据集中每个样本,计算各个样本到k个聚类中心的距离D(xi)=arg min||2
xi‑ar|| ,r=1,2,3,…,k,并将各个样本分到距离最小的聚类中心所对应的类中;其中xi表示样本经过归一化生成的特征向量,ar表示类别的聚类中心点;
S25,针对每个类别aj,重新计算aj的聚类中心 其中Ci表示聚类类别包含的样本数据,x表示聚类类别中的样本,|Ci|表示类别的数量;
S26,重复步骤S24和步骤S25,直至预设的中止条件达成。
4.根据权利要求3所述的RPA组件智能推荐方法,其特征在于,所述预设的中止条件包括迭代次数达到预设最大值或达到误差变化达到预设最小值。
5.根据权利要求3所述的RPA组件智能推荐方法,其特征在于,步骤S21中所述向量化处理采用One‑hot离散化处理方式。
6.根据权利要求1所述的RPA组件智能推荐方法,其特征在于,步骤S5包括如下步骤:进行设置埋点,用于判断用户是否选择候选推荐组件,并记录用户选择候选推荐组件的次数。
说明书 :
RPA组件智能推荐方法及系统
技术领域
背景技术
转型提供组织基础,为企业发展提供有效支撑。而作为一种新兴的数字工具,机器人流程自
动化(Robotic Process Automation, RPA),一种预先配置的软件,它能使用业务规则和预
定义的活动设计,来自动执行完成一个或多个不相关软件系统中的流程、活动、事务和任务
的组合,打破各系统信息孤岛,具有高效、简单、智能、灵活等特点,成为了不少企业实现智
能化转型升级的重要途径之一。
面提供很多原子组件,如流程控制、数据处理、浏览器等,开发者可以根据自己的业务需求
对这些组件进行拼装,来完成流程的设计和开发。但随着组件越来越多,组件之间的连接方
式也日趋复杂,用户在流程开发过程中需要熟悉了解各个组件及之间的连接关系,增加开
发人员的学习成本,并且也导致开发低效开发。
够熟悉,组件名称不够了解的时候,组件连接关系不够清楚,就会存在如下一些不足点:
搜索框及菜单栏的方式,搜索框是大部分基于精准模糊匹配方式实现,需要开发者知道组
件的名称或者名称的关键字符串,当字符串涵盖某个异常字符时候,导致搜索结果为空;菜
单栏是基于用户从几百个组件选择自己需要的,筛选过程非常耗时,一旦用户不了解组件,
往往达不到想要的效果。因此,这两种方式都需要开发者熟悉RPA产品,增加开发者的学习
成本。
之间的内在作用也需要较深的了解,无疑也增加RPA产品的使用门槛。
轻松的上手RPA产品就变得非常重要。
关系,得到每个功能组件到其他组件的转移概率;以转移概率为依据为每一步RPA流程创建
推荐组件,并通过高频组件的类别分布,推荐组件类别;虽然提到的组件及类别推荐基于转
移概率模型实现,模型训练数据量越大,模型准确率越高;为避免过拟合应当选择当前业务
场景中多个业务人员的操作数据为输入,以防止个人的不规范操作习惯影响模型整体的准
确率;另外,可以帮助创建者快速找到适用组件,加速流程构建,但是其缺点在于,并没有解
决当现有用户对组件名称不熟悉及组件逻辑不了解时,如何提高用户创建组件效率的问
题。
发明内容
发效率和提高用户组件获取效率的RPA组件智能推荐方法及系统。
表;
||xi‑ar|| ,r=1,2,3,…,k,并将各个样本分到距离最小的聚类中心所对应的类中;其中xi
表示样本经过归一化生成的特征向量,ar表示类别的聚类中心点;
表确定预设数量的候选推荐组件,确定候选组件列表,再返回候选组件列表。
合记做D={t1,t2,t3,...,tn},称为流程事物库;支持度P(XY)=(同时包含组件X和Y的组件流
程/所有流程数量);置信度P(Y|X)=P(XY)/P(X),其中支持度P(XY)表示组件X和组件Y关联
的数据在数据集中出现的次数占总数据集的比重,置信度P(Y|X)表示组件X出现后组件Y出
现的概率,P(X)表示组件X出现的概率;
确定的用户族的具体信息计算候选组件列表;
回候选组件列表;
且随着用户的行为数据的不断积累,推荐系统也会在一定程度上不断提升准确度;(2)本发
明引入了预设组件规则,当算法推荐列表返回结果为空或推荐组件的概率明显低于预设阈
值,将自动切换到预设规则中,能解决常用推荐系统的冷启动以及数据量不够的问题;(3)
本发明是具有因素更多样,考虑更全面,设计更合理,效率更优化且通用性强的特点。
附图说明
具体实施方式
讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实
施方式。
表;
存储和离线存储,实时存储的数据进行实时分析,离线存储的数据传输给埋点管理系统的
同时并离线分析。
门编程语言等用户属性需要通过数据库表连接方式进行获取。组件逻辑关系数据包含在流
程执行事件中,上下游关系以组件列表形式展示,数据处理需进行拆分。单个事件组件列表
长度为n,此时需拆分成n‑1行记录,然后根据用户属性,采用聚类方法进行用户分组聚类,
本发明采用K‑means聚类方法,是一种迭代求解的聚类分析算法,包括如下步骤:
||xi‑ar|| ,r=1,2,3,…,k,并将各个样本分到距离最小的聚类中心所对应的类中;其中xi
表示样本经过归一化生成的特征向量,ar表示类别的聚类中心点;
*
一化,X=(x’‑μ)/σ,其中μ表示用户每个特征的均值,σ表示该特征方差,x’表示用户每个特
征。
合记做D={t1,t2,t3,...,tn},称为流程事物库;支持度P(XY)=(同时包含组件X和Y的组件流
程/所有流程数量);置信度P(Y|X)=P(XY)/P(X),其中支持度P(XY)表示组件X和组件Y关联
的数据在数据集中出现的次数占总数据集的比重,置信度P(Y|X)表示组件X出现后组件Y出
现的概率,P(X)表示组件X出现的概率;
根据置信度进行降序排列,最后依据业务需要,返回Top N候选组件列表。
序,然后从候选组件列表确定预设数量的候选推荐组件,确定候选组件列表,再返回候选组
件列表。
辑关系依据RPA实施人员给出,每个组件给出1到5个候选组件列表,相对有效的解决组件推
荐冷启动的问题以及此前用户没有用过组件的情况,增加系统的推荐准确度。
择组件列表,辨别推荐模型的优劣,并且,也可以根据次数据进行进一步的推荐优化,完善
推荐模型,提高模型的准确率,案例上线效果图,如图3所示。
要将用户聚类k组,a1 =(a,b, ……,);a2 =(c,d, ……,);……;ak=(e,f, ……)建立用户
画像模型。
b ****X 教育 企业 会计 是 ****
c ****Y 物流 企业 会计 否 ****
d ****Z 零售 社区 经理 是 ****
息,每条行为数据包含:事件,用户id,项目id,时间,组件列表等,其中创建组件顺序相对比
较复杂,为了更直观展示用户的行为数据,本实例给出下表埋点数据,根据运行流程事件获
取组件的逻辑关系,组件列表为流程的组件顺序列表,如表2所示:
运行流程 b X7e4aRFI3p 2021/8/3 12:31 打开新网页,元素判断,……,退出浏览器
运行流程 c nnEDzEg6qj 2021/8/10 17:49 打开excel,读取行数……,关闭excel
运行流程 a 9haaaLp4nn 2021/8/11 9:21 插入代码,设置变量,……,打印日志
b 1 元素点击 打印日志 80
a 1 元素点击 获取文本 60
c 2 元素点击 设置变量 40
g k 元素点击 输入文本 ……
件,然后返回组件列表,推荐组件列表如下表4所示,每个组件列表包含用户族,前置组件名
称,下游组件名称,以及对应的概率:
a1 元素点击 元素判断是否存在 0.25
a1 元素点击 打印日志 0.2
a1 元素点击 获取文本 0.15
a2 元素点击 设置变量 0.1
ak 元素点击 输入文本 ……
进行RPA流程开发过程中,A用户在创建M组件过程后,添加了组件B,以及其它XXX组件,B和C
用户可能也在创建M组件后添加了一些其它的组件。具体数据我们可以通过后台埋点的行
为数据进行获取。在模型计算中,我们首先根据用户的相关属性对用户进行K‑means聚类,
可以根据业务需要聚k个类别,当接受用户创建了X组件后,我们识别其所在的用户簇,然后
进行逻辑组件概率计算,如上述A用户和B用户具有相似的用户属性,此时经算法聚类为同
一组。A用户创建M组件后,添加下游组件分别为N、O、P等,B用户创建M组件后添加下游组件
为P、Q等,相似其他的用户组也填加了若干的下游组件,通过概率计算,N、O、P、Q概率为0.3,
0.2,0.2、0.1等。当相似用户组内用户在请求M组件后,就可以根据概率大小返回N、O、P、Q等
组件。当模型缺失对应的组件关系,可以自动切换到预设规则中,同样返回相对有效的结
果。并且,在实际中,随着用户创建组件次数的增加,本实例构建的模型覆盖面也会随之变
大,准确率也会进一步提高。
系统也会在一定程度上不断提升准确度;本发明引入了预设组件规则,当算法推荐列表返
回结果为空或推荐组件的概率明显低于预设阈值,将自动切换到预设规则中,能解决常用
推荐系统的冷启动以及数据量不够的问题;本发明是具有因素更多样,考虑更全面,设计更
合理,效率更优化且通用性强的特点。
为本发明的保护范围。