易观用户画像实践
随着当今互联网进入到存量发展阶段,企业进入到精细化运营阶段,如何识别自己的客户和潜在客户就显得尤为重要。这也是今天所要谈论的主题——用户画像。所谓用户画像,其实就是给客户打上不同的数据标签,形成个人画像,以便了解客户的行为特征和偏好,然后根据业务需要,挑选出目标客户群。
一、什么是用户画像
用户画像是根据用户的一系列行为和意识过程建立起来的多维度标签。
通常的标签分类如下:
1.人口学属性:性别、年龄、学历、收入等。
2.兴趣偏好:爱玩篮球、德扑、打电竞等。
3.消费偏好:线上/线下的一些消费行为等。
4.位置信息:WiFi定位、常住城市、商圈等。
5.设备属性:品牌、机型、操作系统等
二、用户画像的应用分类
1.风险控制风险控制包括个人及企业级信用评分、欺诈识别,芝麻信用就是一个对个人信用评分的典型案例。
2.个性化推荐根据每个人的不同喜好推荐与之相关的内容,今日头条、天天快报是个性化推荐的典型。
3.精细化运营精细化运营包括产品优化、市场和渠道分析、漏斗分析等。提升用户体验还有广告投放、数据交易、行为预测等。
三、做好用户画像的前提
1.优质数据源有数据是能做好用户画像的基础条件,而本身拥有的数据源质量则在一定程序上决定了画像的质量。举个稍浅显的例子,运营商的数据源质量和靠爬虫抓取的数据源质量明显不同。
2.统一设备ID当前每个用户往往同时使用电脑、Pad、手机等终端设备,识别多个设备上的同一用户,做好统一ID识别是第一步,易观目前已经建立以易观ID为核心的一套IDmapping结构,用于识别用户跨设备ID的打通。
3.技术积累用户画像本身需要对用户身份预测,比如性别、年龄、兴趣、商业偏好等,这里面涉及分类、聚类,现在还会使用到神经网络等算法,以及算法模型的构建和优化,需要相当技术积累和时间验证。
4.数据源补充每个企业拥有的数据是很有限的,这就需要跟各数据伙伴合作,进行数据补充,解决数据孤岛问题。
5.标签体系业务需求决定用户画像的成败,根据业务需求建立的用户标签体系是否合理极其重要。
6.计算能力数据挖掘需要大量的矩阵和迭代计算,周知GPU通常是CPU计算能力的20倍以上,尤其是在深度学习逐渐成为主流的今天,没有计算能力也不太容易做好挖掘。
四、用户画像的标签体系
构建考虑到易观现有的数据,易观有以上维度的标签。
利用以上维度的标签,我们可以建立用户标签体系,大体如上图。
拿兴趣偏好来说,目前又会细分成3级,示例如下图。
五、用户画像的技术架构
易观用户画像架构图见下页。
六、用户画像的实施流程
用户画像实施是根据用户的历史行为去反推用户的基本属性及偏好的过程,实施流程如下页所示。
以易观用户基本属性预测为例,需要以用户的APP安装列表、APP埋点事件以及爬虫数据为基础,推测用户的性别、年龄、学历等人口学属性。除数据获取流程外,画像过程通常还包括特征工程和数据建模等。
1.特征工程
所谓特征工程,就是提取APP特征、事件特征、浏览内容特征等。对非结构化数据来说,通常要经历“分词”、“过滤”和“特征提取”三个步骤。
目前易观使用比较流行的Jieba分词器,并结合易观内部不断沉淀得到的自定义分词库、标签词库等,得到了比较好的分词效果。
对于无用词的过滤,除了利用词性进行简单过滤外,易观同样沉淀了大量的通用停用词,并结合业务,建立行业专有停用词库,同样得到了比较好的过滤效果。
对于文本类内容的特征提取,易观采用业内流行的LDA算法,并结合业务,对LDA算法进行改进。将无监督的LDA算法,改进为半监督算法,在分类准确性上提高20%左右。除此之外,我们还尝试利用TF-IDF、等对分类结果进行校验、优化。
2.数据建模
目前易观尝试使用的算法模型有很多,常见模型比如朴素贝叶斯,逻辑回归,SVM,神经网络等。易观内部通常会根据画像目的、数据量大小等情况,分别选择不同的模型,同时不断总结各种模型的适用情况,尝试将多种模型混合使用,以达到一个更好的效果。
在模型的优化过程中,调参优化是非常重要的一步,在调参优化过程中我们通常会遇到过拟合,样本不均等情况,我们也会单列一下在使用CNN方面的一些经验。
七、CNN训练心得—调参经验
1.样本要随机化,防止大数据淹没小数据。
2.样本要做归一化。
3.激活函数要视样本输入选择。(多层神经网络一般使用很重要,几百是比较合适的。(很大数据量的情况下)
4.Mi batch 很重要,几百是比较合适的。( 很大数据量的情况下)
5.学习速率(learningrate)很重要,比如一开始可以lr设置为0.01,然后运行到loss不怎么降的时候,学习速率除以10,接着训练。
6.权重初始化,可用高斯分布乘上一个很小的数,这个可以看:权值初始化。
7.Adam收敛速度的确要快一些,可结果往往没有sgd+momentum的解好。(如果模型比较复杂的话,sgd是比较难训练的,这时候adam的威力就体现出来了)
8.Dropout的放置位置以及大小非常重要。
9.Early Stop,发现val_loss没更新,就尽早停止。
深度学习真是一门实验科学,很多地方解释不了为什么好,为什么不好。网络层数、卷积核大小、滑动步长,学习速率这些参数的设置大多是通过已有的架构来做一些调整。
八、用户画像总结
本文概括介绍了用户画像的定义、作用以及如何构建用户画像,在这个实践过程中,我们深刻体会到算法不是万能的,除了需要掌握那些挖掘算法的原理外,仍应以业务为中心做展开,一定要对自己的业务数据做分析。模型只是其中的一部分,即便在深度学习发展趋势迅猛的今天,我们也能看到很多传统的数据挖掘算法效果仍然优于深度学习。现在业界的整体模型也差不太多,能拉开差距的基本还是对数据的理解和数据处理上。
作者简介代立冬,现任易观大数据架构师,曾担任多家公司数据平台架构师,从事数据领域开发与架构9年,对传统行业、互联网行业的数据分析及数据处理有丰富经验,对多个开源社区项目源码熟悉,偶尔研究下神经网络。
相关文章推荐:
热门阅读推荐:
图文精选:
-
如何学习淘宝从0到1建立会员体系
会员和积分是用户体系中密不可分的两兄弟,建立会员权益时也可考虑和积分打...
-
用户生命周期模型在用户成长体系中的应用
用户生命周期模型,如下图所示,是从企业与客户建立业务关系到完全终止关系...
-
如何通过用户分层,快速驱动用户增长?
用户分层的意义在于帮助运营人员,更好地梳理用户所处的流程状态,进而可以...
-
为什么你做的用户画像模型不精准?
用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似...
-
携程是如何做用户画像的
用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的...