社交网络用户画像技术与方法任务书

 2021-08-20 01:21:58

1. 毕业设计(论文)主要目标:

用户画像(persona) 的概念最早由交互设计之父Alan Cooper 提出: “Personas are a concrete representation of target users. ” 是指真实用户的虚拟代表, 是建立在一系列属性数据之上的目标用户模型。随着互联网的发展,现在我们说的用户画像又包含了新的内容和意义,通常用户画像是根据用户人口学特征、网络浏览内容、网络社交活动和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作,主要是利用大量数据进行分析和挖掘,给用户贴“标签”,而“标签”是能表示用户某一维度特征的标识。具体的标签形式可以是性别,年龄,生日,消费习惯,爱好等,社交网络中存在着大量用户,但是用户的画像不完全的情况。

针对这一空缺,本文准备基于现有基础,从社交网络如微博等,用户的博文等数据中,抽取出用户的极大可能的对应标签。完成一个可以进行自动的用户画像的模型,模型可以从规则性的文本解析,文本的主题提取,深度学习的语义挖掘三个方面出发,分别用于抽取用户的典型标签,爱好之类的主题偏向标签,和潜在语义的标签。

针对上述目标,进行如下时间的工作安排:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要内容:

目前社交网络的用户群里非常巨大,如何分析每一个用户的特点特征,无论对于商业,还是舆情都有着非常大的意义,所以本文将从事社交网络的用户画像建立方面的工作,整个工作的具体内容大致如下:

  1. 数据获取,社交网络的数据集如Facebook,微博等有着一些公开的数据集,我们需要在这些数据集中挑选出用户信息和文本信息最丰富的作为用户的画像的实验数据集。
  2. 对于社交网络数据,最大的问题就是弱标签,在海量的数据中,标签的数量是非常有限的,针对标签稀少的问题,我们可以采用聚类,标签传播的方案进行标签的自动生成;
  3. 用户画像的标签标准的确定也是一个需要进行分析的工作,从用户的文本信息中可以分析出哪些用户的特征信息作为我们的画像标签,这个需要进行进一步的数据挖掘,比如使用LDA主题模型,TF-IDF等进行文本中重要词的抽取。
  4. 在标签确立的前提下,用户画像的进一步是进行分类算法的选取和深度学习分类算法的尝试建立,首先对经典分类算法进行对比测试,挑选基线方法作为深度学习模型的对比评测标准,在此基础上,尝试建立有效的深度学习用户画像自动生成标签的算法,可以预计到的有词或者句子级别的embedding技术,CNN,或RNN进行特征抽取的基础,以及模型最终的解码生成有效标签的部分。

具体方法的选择,有待进一步的文献搜集,实验过程中的调整。

3. 主要参考文献

[1]马超. 基于主题模型的社交网络用户画像分析方法[D].中国科学技术大学,2017.

[2]徐英楠. 基于文本挖掘的社交网络用户画像建模与应用[D].北京邮电大学,2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付