等领域。一种面向Twitter的社交广告可投放性分析方法转让专利

申请号 : CN201410494291.4

文献号 : CN104268130B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张莹赵雪俞力苏丽丽袁晓洁

申请人 : 南开大学

摘要 :

一种面向Twitter的社交广告可投放性分析方法。包括:创新地结合Twitter用户多种不同来源的语料信息,构建多源Twitter语料库,有效扩充Twitter短文本,便于推断用户发布内容的潜在广告价值,以实现精准广告受众定位;借鉴LDA模型思想,提出多源Twitter语料主题分析模型,对用户发布内容进行隐含语义分析;基于语义分析结果,设计特征选择、过滤和表示算法,构建逻辑回归分类器,关于广告可投放性进行分类,作为广告推荐的决策依据。本发明充分利用用户发布信息特点,能够准确推断其潜在广告价值。通过本发明可得到符合用户真实意图的推断结果。本发明可用于Twitter等社交网络下的广告推荐

权利要求 :

1.一种面向Twitter的社交广告可投放性分析方法,其特征在于该方法包括如下步骤:第1、构建多源Twitter语料库;

定义1:社交网络Twitter用户发布的每一条内容为一条tweet;

定义2:当前tweet为实时获得的每一条tweet,用符号C表示;

定义3:最近tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前一星期内发布的tweet的集合,用符号R表示;

定义4:历史tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前两星期至前一星期内发布的tweet的集合,用符号H表示;

定义5:好友评论tweet为Twitter用户好友对当前tweet发布的评论tweet的集合,用符号F表示;

定义6:多源Twitter语料库中tweet的四种不同来源,包括:当前tweet、最近tweet、历史tweet和好友评论tweet,构成语料源,用符号s表示,其中s=(C,R,H,F);

定义7:多源Twitter语料库中的每一条语料,用m表示;

定义8:多源Twitter语料库中的所有语料的个数,用M表示;

第2、多源Twitter语料主题分析

定义9:一条tweet中的词,用w表示;

定义10:关于一条tweet的隐含语义,称为主题,用符号z表示;

定义11:对于多源Twitter语料库,不同的语料来源对应的主题的构成有所不同,在每种语料源下,对应的所有可能的主题构成一个主题集合T,用4元组T=(TC,TR,TH,TF)表示,其中:①TC表示当前tweet对应的主题集合;

②TR表示最近tweet对应的主题集合;

③TH表示历史tweet对应的主题集合;

④TF表示好友评论tweet对应的主题集合;

每一条tweet关于各个主题的出现概率,都构成一个概率分布;

定义12:每种语料源的所有tweet,关于对应主题集合中各个主题的概率构成tweet~主题概率分布,用符号θ表示;四种语料源下的所有tweet~主题概率分布θ,用4元组θ=(θC,θR,θH,θF)表示,其中:①θC表示当前tweet关于主题集合TC中各个主题的概率分布;

②θR表示最近tweet关于主题集合TR中各个主题的概率分布;

③θH表示历史tweet关于主题集合TH中各个主题的概率分布;

④θF表示好友评论tweet关于主题集合TF中各个主题的概率分布;

定义13:对于每种语料源和主题集合中的所有主题,关于对应词典中的所有词,构成主题~词概率分布 用4元组 表示;其中:① 表示当前TC中各个主题关于词典VC中的各个词的概率分布;

② 表示当前TR中各个主题关于词典VR中的各个词的概率分布;

③ 表示当前TH中各个主题关于词典VH中的各个词的概率分布;

④ 表示当前TF中各个主题关于词典VF中的各个词的概率分布;

第3、社交广告可投放性分类预处理

定义14:有社交广告可投放性是根据Twitter用户发布的tweet,分析用户消费意图;如果该条tweet具备消费意图,则该条tweet成为具有社交广告可投放性,反之为不具有社交广告可投放性;

第3.1、分类特征选择

第3.1.1、对于多源Twitter语料库下的每一条语料m,获取主题概率分布4元组θs[m]=(θC[m],θR[m],θH[m],θF[m]);

第3.1.2、对语料m的tweet~主题概率分布θs[m]按照概率值从大到小排序,得到排序后的4元组θs[m];

定义15:在特征选择过程中,保留的主题称为目标主题,用K表示目标主题数;

第3.1.3、对于排序后的4元组θs[m]中的每一个主题概率分布,只保留关于前K主题的概率值;

定义16:经过特征选择后,多源Twitter语料库的所有语料关于各个目标主题的概率分布,称为目标主题分布,表示为4元组Θs=(ΘC,ΘR,ΘH,ΘF),其中:①ΘC表示当前tweet关于对应目标主题的概率分布;

②ΘR表示最近tweet关于对应目标主题的概率分布;

③ΘH表示历史tweet关于对应目标主题的概率分布;

④ΘF表示好友评论tweet关于对应目标主题的概率分布;

第3.1.4、对于主题集合中的每一个主题t,获取关于对应词典的词的概率分布4元组第3.1.5、对主题t的主题~词概率分布 按照概率值从大到小排序,得到排序后的4元组定义17:在特征选择过程中,保留的词称为目标词,用N表示目标词数;

第3.1.6、对于排序后的4元组 中的每一个词概率分布,只保留前N个词的概率值;

定义18:经过特征选择后,所有主题关于各个目标词的概率分布,称为目标词分布,表示为4元组Ψs=(ΨC,ΨR,ΨH,ΨF),其中:①ΨC表示主题集合TC关于对应目标词的概率分布;

②ΨR表示主题集合TR关于对应目标词的概率分布;

③ΨH表示主题集合TH关于对应目标词的概率分布;

④ΨF表示主题集合TF关于对应目标词的概率分布;

第3.2、特征提取

第3.2.1、对于每种语料源s=(C,R,H,F)下的每条语料m,建立哈希表Ω,初始为空;

第3.2.2、对于每条语料m:

①遍历目标主题分布Θs[m]中的每一项,记下该项对应的目标主题及目标主题概率,记为(t,p);

②再根据遍历到的每一个主题t,获取该主题对应的目标词及目标词概率,记为(w,q);

③计算概率值的乘积:p*q;

④在对应哈希表Ω中查找词w,若查找失败,则将词w与概率值乘积p*q一并插入到Ω;

若w已存在于Ω中,则将对应位置处的概率值增加p*q;

第3.3、特征表示

扫描哈希表Ω中的每一个词w,建立词典υ,表示为4元组υ=(υC,υR,υH,υF);其中:①υC表示当前tweet对应的高语义关联词构成的词典,词典中词的个数记为|υC|;

②υR表示最近tweet对应的高语义关联词构成的词典,词典中词的个数记为|υR|;

③υH表示历史tweet对应的高语义关联词构成的词典,词典中词的个数记为|υH|;

④υF表示好友评论tweet对应的高语义关联词构成的词典,词典中词的个数记为|υF|;

定义19:语料m对应的tweet~词概率向量,称为社交广告可投放性分类特征向量;

第4、构建社交广告可投放性分类器

第4.1、根据社交广告可投放性分类特征向量,构造线性回归函数如下:hπ(x)=π0X0+π1X1+…+πnXn定义20:社交广告可投放性分类特征向量[X0,X1,…,Xn]的系数[π0,π1,…,πn]称为特征权重参数;

定义21:将线性回归函数hπ(x)代入逻辑方程,逻辑方程的定义为:g(x)=exp(x)/(1+exp(x));

第4.2、将线性回归函数hπ(x)代入逻辑方程g(x)以进行归一化,替换其中的变量x得到:g(hπ(x))=exp(hπ(x))/(1+exp(hπ(x)))=exp(π0X0+π1X1+…+πnXn)/(1+exp(π0X0+π1X1+…+πnXn));

第4.3、利用牛顿迭代法获得特征权重参数的训练值[π0,π1,…,πn];

第4.4、设置社交广告可投放性分类阈值,由于逻辑方程g(x)的阈值为[0,1],因此,根据实验经验,将社交广告可投放性分类阈值设置为g(x)的中间值0.5;

第4.5、对于多源Twitter语料库中的每一条语料m,利用特征权重参数的训练值[π0,π1,…,πn]计算归一化后的线性回归函数g(hπ(x)),与阈值进行比较:如果大于阈值,则判定为具有社交广告可投放性;否则判定为不具有社交广告可投放性。

说明书 :

一种面向Twitter的社交广告可投放性分析方法

技术领域

[0001] 本发明属于计算广告学领域,具体涉及一种新型的关于社交广告可投放性分析,对知名社交网络Twitter下用户发布的内容背后潜在的广告价值进行推断的方案。该方案也可适用于其他社交网络如国外的Facebook、LinkedIn,以及国内的新浪微博、人人网等平台。

背景技术

[0002] 社交网络,是一种近年来迅速崛起的互联网主流信息传播媒体,代表平台有国外的Twitter、Facebook、LinkedIn,以及国内的人人网、新浪微博等。它允许用户以PC或移动终端作为入口,利用不超过特定字数限制的字符组织语言,发布感兴趣的内容,或通过评论或留言,发表个人观点,与好友进行线上互动。
[0003] 互联网的普及,尤其是移动终端应用App的流行,带动了社交网络规模的膨胀。迅速兴起的社交网络,不仅引起了互联网广告商的关注,而且给社交网络的运营商带来了新的商机。互联网广告界随之诞生出一种新的广告形式——社交广告。社交广告,以社交网络为广告投放的目标平台,广告商和社交网络运营商将用户作为广告受众,根据其线上活动和社交行为,定制并且投放契合用户需求的广告,实现“投其所好”的目的,以提升广告点击率和转化率。
[0004] 社交网络作为海量用户共享的信息发布平台,信息覆盖内容和涉及话题广泛。与此同时,社交网络又是一个高度用户粘性的个性化环境,不同用户的使用目的迥异。用户在社交网络上的活动(即信息发布行为),常反映出用户现实生活中的具体需求,包括情感、政治、商业或者其他方面。因而,在社交网络下投放广告,并非必然导致广告点击和转化量。社交网络运营商,以及广告商,对用户发布的情感、政治类等非商业性内容投放广告,不仅不会带来预期的广告营销效果,反而会导致负面用户反馈。为了提高广告商的营销效益,尽可能地增加广告点击率和转化率,以增加社交网络运营利润,广告商和运营商力求快速、准确地推断社交广告可投放性,定位那些具有消费需求的用户,为其推荐满足消费意图的广告,同时提升用户体验。
[0005] 关于广告可投放性,以赞助搜索广告和上下文广告为代表的互联网广告形式,已形成既有的较为成熟的理论和实践。作为新型的互联网广告形式,社交广告对广告可投放性的分析方法,无论是在学术研究,还是在商业实践方面,都尚处于萌芽。此外,在社交网络平台,根据用户发布内容推断其潜在的消费需求并非易事。社交用户的消费需求,不像赞助搜索广告那样直观,来自用户的主动搜索行为,也不像上下文广告那样简便,可以根据Web页面访问历史进行文本匹配。多数情况下,社交用户发布内容的社交广告可投放性,是由用户特定时间段内的线上活动中隐式反映的,难以直观、精准地推断。
[0006] 如何分析和获知社交广告可投放性,是社交广告领域亟待解决的一项关键问题。关于社交广告可投放性分析技术的研究,对于实现社交广告的精准定位和投放,具有非常重要的学术和实践意义。

发明内容

[0007] 本发明的目的是解决如何分析和获知社交广告可投放性的问题,针对现有的互联网广告可投放性分析技术在直接应用到社交网络上时凸显的极大不足,以知名社交网络Twitter为代表性研究对象,提供一种专门面向社交网络的,关于社交广告可投放性进行分析的方法。
[0008] 本发明根据Twitter用户活动特点,在充分观察用户行为的基础上,针对Twitter用户在线发布的每一条内容(通称tweet),综合考察该用户的历史性发布tweet以及其好友发布的评论tweet,提出多源Twitter主题分析语料库的设计思想。并提出关于多源Twitter语料库的主题分析方法,克服了短小浓缩的tweet文本数据对语义分析造成的障碍。本发明最后以主题分析结果作为依据,又提出一系列特征处理相关算法,针对每一条tweet的潜在社交广告可投放性进行分析和判别。
[0009] 本发明提供的面向Twitter的社交广告可投放性分析方法,包括如下步骤:
[0010] 1、一种面向Twitter的社交广告可投放性分析方法,其特征在于该方法包括如下步骤:
[0011] 第1、构建多源Twitter语料库;
[0012] 定义1:社交网络Twitter用户发布的每一条内容为一条tweet;
[0013] 定义2:当前tweet为实时获得的每一条tweet,用符号C表示;
[0014] 定义3:最近tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前一星期内发布的tweet的集合,用符号R表示;
[0015] 定义4:历史tweet以当前tweet的发布时间为基准,获得的由该用户于基准时间前两星期至前一星期内发布的tweet的集合,用符号H表示;
[0016] 定义5:好友评论tweet为Twitter用户好友对当前tweet发布的评论tweet的集合,用符号F表示;
[0017] 定义6:多源Twitter语料库中tweet的四种不同来源,包括:当前tweet、最近tweet、历史tweet和好友评论tweet,构成语料源,用符号s表示,其中s=(C,R,H,F);
[0018] 定义7:多源Twitter语料库中的每一条语料,用m表示;
[0019] 定义8:多源Twitter语料库中的所有语料的个数,用M表示;
[0020] 第2、多源Twitter语料主题分析
[0021] 定义9:一条tweet中的词,用w表示;
[0022] 定义10:关于一条tweet的隐含语义,称为主题,用符号z表示;
[0023] 定义11:对于多源Twitter语料库,不同的语料来源对应的主题的构成有所不同,在每种语料源下,对应的所有可能的主题构成一个主题集合T,用4元组T=(TC,TR,TH,TF)表示,其中:
[0024] ①TC表示当前tweet对应的主题集合;
[0025] ②TR表示最近tweet对应的主题集合;
[0026] ③TH表示历史tweet对应的主题集合;
[0027] ④TF表示好友评论tweet对应的主题集合;
[0028] 每一条tweet关于各个主题的出现概率,都构成一个概率分布;
[0029] 定义12:每种语料源的所有tweet,关于对应主题集合中各个主题的概率构成tweet~主题概率分布,用符号θ表示;四种语料源下的所有tweet~主题概率分布θ,可以用4元组θ=(θC,θR,θH,θF)表示,其中:
[0030] ①θC表示当前tweet关于主题集合TC中各个主题的概率分布;
[0031] ②θR表示最近tweet关于主题集合TR中各个主题的概率分布;
[0032] ③θH表示历史tweet关于主题集合TH中各个主题的概率分布;
[0033] ④θF表示好友评论tweet关于主题集合TF中各个主题的概率分布;
[0034] 定义13:对于每种语料源和主题集合中的所有主题,关于对应词典中的所有词,构成主题~词概率分布 用4元组 表示;其中:
[0035] ① 表示当前TC中各个主题关于词典VC中的各个词的概率分布;
[0036] ② 表示当前TR中各个主题关于词典VR中的各个词的概率分布;
[0037] ③ 表示当前TH中各个主题关于词典VH中的各个词的概率分布;
[0038] ④ 表示当前TF中各个主题关于词典VF中的各个词的概率分布;
[0039] 第3、社交广告可投放性分类预处理
[0040] 定义14:有社交广告可投放性是根据Twitter用户发布的tweet,分析用户消费意图;如果该条tweet具备消费意图,则该条tweet成为具有社交广告可投放性,反之为不具有社交广告可投放性;
[0041] 第3.1、分类特征选择
[0042] 第3.1.1、对于多源Twitter语料库下的每一条语料m,获取主题概率分布4元组θs[m]=(θC[m],θR[m],θH[m],θF[m]);
[0043] 第3.1.2、对语料m的tweet~主题概率分布θs[m]按照概率值从大到小排序,得到排序后的4元组θs[m];
[0044] 定义15:在特征选择过程中,保留的主题称为目标主题,用K表示目标主题数;
[0045] 第3.1.3、对于排序后的4元组θs[m]中的每一个主题概率分布,只保留关于前K主题的概率值;
[0046] 定义16:经过特征选择后,多源Twitter语料库的所有语料关于各个目标主题的概率分布,称为目标主题分布,表示为4元组Θs=(ΘC,ΘR,ΘH,ΘF),其中:
[0047] ①ΘC表示当前tweet关于对应目标主题的概率分布;
[0048] ②ΘR表示最近tweet关于对应目标主题的概率分布;
[0049] ③ΘH表示历史tweet关于对应目标主题的概率分布;
[0050] ④ΘF表示好友评论tweet关于对应目标主题的概率分布;
[0051] 第3.1.4、对于主题集合中的每一个主题t,获取关于对应词典的词的概率分布4元组
[0052] 第3.1.5、对主题t的主题~词概率分布 按照概率值从大到小排序,得到排序后的4元组
[0053] 定义17:在特征选择过程中,保留的词称为目标词,用N表示目标词数;
[0054] 第3.1.6、对于排序后的4元组 中的每一个词概率分布,只保留前N个词的概率值;
[0055] 定义18:经过特征选择后,所有主题关于各个目标词的概率分布,称为目标词分布,表示为4元组Ψs=(ΨC,ΨR,ΨH,ΨF),其中:
[0056] ①ΨC表示主题集合TC关于对应目标词的概率分布;
[0057] ②ΨR表示主题集合TR关于对应目标词的概率分布;
[0058] ③ΨH表示主题集合TH关于对应目标词的概率分布;
[0059] ④ΨF表示主题集合TF关于对应目标词的概率分布;
[0060] 第3.2、特征提取
[0061] 第3.2.1、对于每种语料源s=(C,R,H,F)下的每条语料m,建立哈希表Ω,初始为空;
[0062] 第3.2.2、对于每条语料m:
[0063] ①遍历目标主题分布Θs[m]中的每一项,记下该项对应的目标主题及目标主题概率,记为(t,p);
[0064] ②再根据遍历到的每一个主题t,获取该主题对应的目标词及目标词概率,记为(w,q);
[0065] ③计算概率值的乘积:p*q;
[0066] ④在对应哈希表Ω中查找词w,若查找失败,则将词w并概率值乘积p*q一并插入到Ω;
[0067] 若w已存在于Ω中,则将对应位置处的概率值增加p*q;
[0068] 第3.3、特征表示
[0069] 扫描哈希表Ω中的每一个词w,建立词典υ,表示为4元组υ=(υC,υR,υH,υF);其中:
[0070] ①υC表示当前tweet对应的高语义关联词构成的词典,词典中词的个数记为|υC|;
[0071] ②υR表示最近tweet对应的高语义关联词构成的词典,词典中词的个数记为|υR|;
[0072] ③υH表示历史tweet对应的高语义关联词构成的词典,词典中词的个数记为|υH|;
[0073] ④υF表示好友评论tweet对应的高语义关联词构成的词典,词典中词的个数记为|υF|;
[0074] 定义19:语料m对应的tweet~词概率向量,称为社交广告可投放性分类特征向量;
[0075] 第4、构建社交广告可投放性分类器
[0076] 第4.1、根据社交广告可投放性分类特征向量,构造线性回归函数如下:
[0077] hπ(x)=π0X0+π1X1+…+πnXn
[0078] 定义20:社交广告可投放性分类特征向量[X0,X1,…,Xn]的系数[π0,π1,…,πn]称为特征权重参数;
[0079] 定义21:将线性回归函数hπ(x)代入逻辑方程,逻辑方程的定义为:
[0080] g(x)=exp(x)/(1+exp(x));
[0081] 第4.2、将线性回归函数hπ(x)代入逻辑方程g(x)以进行归一化,替换其中的变量x得到:
[0082] g(hπ(x))=exp(hπ(x))/(1+exp(hπ(x)))
[0083] =exp(π0X0+π1X1+…+πnXn)/(1+exp(π0X0+π1X1+…+πnXn));
[0084] 第4.3、利用牛顿迭代法获得特征权重参数的训练值[π0,π1,…,πn];
[0085] 第4.4、设置社交广告可投放性分类阈值,由于逻辑方程g(x)的阈值为[0,1],因此,根据实验经验,可以将社交广告可投放性分类阈值设置为g(x)的中间值0.5;
[0086] 第4.5、对于多源Twitter语料库中的每一条语料m,利用特征权重参数的训练值[π0,π1,…,πn]计算归一化后的线性回归函数g(hπ(x)),与阈值进行比较:如果大于阈值,则判定为具有社交广告可投放性;否则判定为不具有社交广告可投放性。
[0087] 本发明的优点和积极效果:
[0088] 本发明提出的面向Twitter的社交广告可投放性分析方法,能够有效地解决传统互联网广告关于广告可投放性的分析技术在直接适用于社交网络平台时遭遇的瓶颈问题;综合Twitter用户活动特点,扩展单一来源的tweet语料,形成当前tweet、最近tweet、历史tweet与好友评论tweet结构的多语料来源的Twitter语料库,通过分析不同来源语料在潜在语义上的关联关系,克服了稀疏和浓缩的tweet文本对语义分析带来的障碍,在此基础上提出了适应多源Twitter语料库的主题分析方法。该思想,不仅适用于Twitter,而且对于其他对文本长度做出限制的社交网络也具有可借鉴性;此外,本发明针对社交广告可投放性的判定问题,提出了一系列关于特征处理的算法,将主题分析结果,处理成适合构建分类模型的分类特征,并构建关于社交广告可投放性的分类器,对待分析的tweet进行广告可投放性判别。

附图说明

[0089] 图1为本发明面向Twitter的社交广告可投放性分析方法整体流程。
[0090] 图2为由示例用户发布的示例tweet文本。
[0091] 图3为公开停用词表Default English Stopword List。
[0092] 图4为示例用户的当前、最近、历史和好友评论tweet。
[0093] 图5为预处理后的当前、最近、历史和好友评论tweet。
[0094] 图6为示例用户的当前、最近、历史和好友评论tweet生成的tweet词典。
[0095] 图7为示例用户的多源Twitter语料库对应的tweet~主题概率分布。
[0096] 图8为示例用户的多源Twitter语料库对应的主题~词概率分布。
[0097] 图9为示例用户的目标主题概率分布。
[0098] 图10为示例用户的目标词概率分布。
[0099] 图11为示例用户的经过特征提取之后的tweet~词概率分布。
[0100] 图12为示例用户的特征提取步骤经合并计算后的tweet~词概率分布。
[0101] 图13为示例用户的高语义关联词典。
[0102] 图14为示例用户的特征概率向量。
[0103] 图15为示例特征参数的训练值。

具体实施方式

[0104] 本发明提出了一种面向Twitter的社交广告可投放性分析方法,方法整体流程如图1所示,下面以图2所示示例用户发布的示例tweet文本”go to buy a bicycle today never ride with 50 or more cyclist but I experience ride with 20 or more amaha banshee on holiday”为例,对本发明方法核心内容加以解释。
[0105] 第1、对Twitter数据进行预处理;
[0106] 第1.1、切分tweet
[0107] Twitter数据采集器采集到的每一条tweet都视作一篇独立的文档。
[0108] 第1.2、分词和词干提取
[0109] 本方案采用Porter Stemming算法对采集到的每一条tweet进行分词和词干提取。该算法是一种常用的英文分词和标准化处理算法。
[0110] Porter Stemming算法词干提取步骤如下:
[0111] ①.处理名词复数(删除词缀或对复数重新编码),处理动词“ed”或“ing”结尾的单词,并对词干重新编码;
[0112] ②.词干包含元音,并以“y”结尾时,将“y”改为“i”;
[0113] ③.双词缀结尾的词,将双词缀映射为单词缀,如将“ization”映射为“ize”等;
[0114] ④.处理“ic”、“full”、“ness”等词缀;
[0115] ⑤.对形如[C]VCVC[V]结构的单词,处理“ant”、“ence”等后缀;
[0116] ⑥.删除最后的“e”。
[0117] 第1.3、过滤停用词
[0118] 本发明采用停用词表Default English Stopword List,词表见附图3。在读取tweet的过程中,在停用词表中出现的词则过滤。
[0119] 第1.4、词频统计
[0120] 设置频率阈值,对出现频率低于阈值的词进行过滤。该算法的伪代码如下:
[0121] 算法1:Hash词频统计算法
[0122] 输入:tweet包含的所有单词words[],
[0123] 哈希表Hashtable[]
[0124] 输出:词频统计哈希表FreqTable[]
[0125]
[0126]
[0127] 示例用户的当前、最近、历史和好友评论tweet如图4所示。经过第1.1~第1.4的预处理步骤后的示例用户的当前、最近、历史和好友评论tweet如图5所示。
[0128] 第1.5、生成tweet词典
[0129] 分别读取示例用户的当前tweet、最近tweet、历史tweet和好友评论tweet,构建tweet词典V=(VC,VR,VH,VF)如图6所示。
[0130] 第2、构建多源Twitter语料库
[0131] 经过第1.1~1.2步骤的处理之后,示例用户发布的当前tweet、最近tweet、历史tweet和好友评论tweet,作为多源Twitter语料库的四类不同来源的语料,共同构成多源Twitter语料库D,用D=(C,H,R,F)表示。其中,C、R、H和F分别表示四类不同语料源tweet的词向量构成的语料集合。
[0132] 第3、多源Twitter语料主题分析
[0133] 对于多源Twitter语料库D,不同的语料来源对应的主题的构成有所不同。在每种语料源下,对应的所有可能的主题构成一个主题集合T,用4元组T=(TC,TR,TH,TF)表示,其中:
[0134] ①.TC表示当前tweet对应的主题集合;
[0135] ②.TR表示最近tweet对应的主题集合;
[0136] ③.TH表示历史tweet对应的主题集合;
[0137] ④.TF表示好友评论tweet对应的主题集合。
[0138] 根据实验经验,设定各个主题集合中的主题数均为5,即|TC|=|TR|=|TH|=|TF|=5,通过调整主题数进行实验,从而提高社交广告可投放性分类的性能。
[0139] 每种语料源的所有tweet,关于对应主题集合中各个主题的概率构成tweet~主题概率分布,用符号θ表示。假设示例用户对应多源Twitter语料库的四种语料源下的所有tweet~主题概率分布θ=(θC,θR,θH,θF)如图7所示。
[0140] 当前tweet主题集合、最近tweet主题集合、历史tweet主题集合,以及好友评论tweet主题集合,关于词典VC、VR、VH和VF中各个词的概率分布分别为 和
[0141] 根据实验经验,设定每条tweet的词数N=10,示例用户对应多源Twitter语料库各个主题~词分布如图8所示。
[0142] 第4、社交广告可投放性分类
[0143] 第4.1、分类预处理
[0144] 第4.1.1、特征选择
[0145] 第4.1.1.1、对于多源Twitter语料库下的每一条语料m,获取其主题概率分布4元组θs[m]=(θC[m],θR[m],θH[m],θF[m])。
[0146] 第4.1.1.2、对语料m的tweet~主题概率分布θs[m]按照概率值从大到小排序,得到排序后的4元组θs[m]。
[0147] 第4.1.1.3、对于θs[m]中的每一个主题概率分布,过滤掉概率值相对低的主题,只保留其关于前K(目标主题数)主题的概率值,下面根据实验经验,设定K=3。
[0148] 算法2:主题特征选择算法
[0149] 输入:tweet~主题概率分布theta[][][]
[0150] 目标主题数K
[0151] 输出:目标主题概率分布theta2[][][]
[0152]
[0153]
[0154] 经过主题特征选择算法,多源Twitter语料库的所有语料关于各个目标主题的概率分布,称为目标主题分布,表示为4元组Θs=(ΘC,ΘR,ΘH,ΘF),以示例用户为例,如前所述,设定目标主题数K为3,经过主题特征选择算法之后,获得到目标主题概率分布如图9。
[0155] 第4.1.1.4、对于主题集合中的每一个主题t,获取其关于对应词典的词的概率分布4元组
[0156] 第4.1.1.5、对主题t的主题~词概率分布 按照概率值从大到小排序,得到排序后的4元组
[0157] 第4.1.1.6、对于 中的每一个词概率分布,过滤掉概率值相对低的词,只保留其关于前N(目标词数)词的概率值,根据实验经验,可以设定N值为5。
[0158] 算法3:词特征选择算法
[0159] 输入:主题~词概率分布phi[][][]
[0160] 目标词数N
[0161] 输出:目标词概率分布phi2[][][]
[0162]
[0163] 经过特征选择后,所有主题关于各个目标词的概率分布,为目标词分布,表示为4元组Ψs=(ΨC,ΨR,ΨH,ΨF),以示例用户为例,根据实验经验设定目标词数N为5,经过词特征选择算法之后,获得各语料源下的主题集合关于对应目标词的概率分布,如图10。
[0164] 第4.1.2、特征提取
[0165] 第4.1.2.1、对于每种语料源s=(C,R,H,F)下的每条语料m,建立哈希表Ω,初始为空;
[0166] 第4.1.2.2、对于每条语料m:
[0167] ①.遍历其目标主题分布Θs[m]中的每一项,记下该项对应的目标主题及目标主题概率,记为(t,p);
[0168] ②.再根据遍历到的每一个主题t,获取该主题对应的目标词及目标词概率,记为(w,q);
[0169] ③.计算概率值的乘积:p*q;
[0170] ④.在对应哈希表Ω中查找词w:若查找失败,则将词w与概率值乘积p*q一并插入到Ω;若w已存在于Ω中,则将对应位置处的概率值增加p*q。
[0171] 算法4:特征提取算法
[0172] 输入:目标主题概率分布theta2[][][]
[0173] 目标词概率分布phi2[][][]
[0174] 输出:tweet~词概率分布omega[][][]
[0175]
[0176] 以示例用户为例,经过特征提取算法,获得到示例用户的经过特征提取之后的tweet~词概率分布如图11。针对每一种语料源,对相同的词按照tweet~词概率进行合并,得到合并计算后的tweet~词概率分布如图12。
[0177] 第4.1.3、特征表示
[0178] 第4.1.3.1、扫描哈希表Ω中的每一个词w,建立词典υs,表示为4元组υs=(υC,υR,υH,υF)。
[0179] 算法5:高语义关联词词典构建算法
[0180] 输入:tweet~词概率分布omega[][][]
[0181] 输出:高语义关联词典V[][]
[0182]
[0183] 以示例用户为例,建立其各个不同语料来源对应的高语义关联词词典如图13所示。
[0184] 第4.1.3.2、对于多源Twitter语料库中的每一条语料m,按照词典υs的顺序扫描每一个高语义关联词,以及对应的tweet~词概率,记为(w,pw)。将tweet~词概率值表示为维度为|υs|的向量[p1,p2,…,p|υs|]。
[0185] 算法6:特征表示算法
[0186] 输入:tweet~词概率分布omega[][][]
[0187] 高语义关联词典V[][]
[0188] 输出:tweet~词特征向量X[]
[0189]
[0190]
[0191] 以示例用户为例,经过特征表示算法,得到该用户对应的特征概率向量X如图14所示。
[0192] 第4.2、构建社交广告可投放性分类器
[0193] 第4.2.1、根据社交广告可投放性分类特征向量,构造线性回归函数如下:
[0194] hπ(x)=π0X0+π1X1+…+πnXn
[0195] 将线性回归函数hπ(x)代入逻辑方程:
[0196] g(x)=exp(x)/(1+exp(x))
[0197] 进行归一化,替换其中的变量x得到:
[0198] g(hπ(x))=exp(hπ(x))/(1+exp(hπ(x)))
[0199] =exp(π0X0+π1X1+…+πnXn)/(1+exp(π0X0+π1X1+…+πnXn))
[0200] 公式中的特征权重参数[π0,π1,…,πn]通过下面训练过程获取。
[0201] 第4.2.2、利用牛顿-迭代法获得特征权重参数的训练值[π0,π1,…,πn]。
[0202] 以示例用户为例,经过训练过程,获得特征权重参数的训练值如图15所示。线性回归函数hπ(x)的值为特征概率向量X和特征权重参数的训练值向量,逐个分量相乘的乘积之和。在示例中,得到的hπ(x)值为:0.131。
[0203] 第4.2.3、根据实验经验,设置社交广告可投放性分类阈值为0.5;
[0204] 第4.2.4、计算归一化后的线性回归函数g(hπ(x)),与阈值进行比较:如果大于阈值,则判定为具有社交广告可投放性;否则判定为不具有社交广告可投放性。
[0205] 在示例中,计算归一化后的线性回归函数g(hπ(x))值为:0.509。由于该值大于阈值0.5,因此判定示例用户发布的tweet内容具有潜在的广告价值,即具有广告可投放性。