绿色排版工具|热门专题|网站地图|移动官网
您的当前位置:网站首页 > 网站分析 > 数据可视化 > 正文

搭建一套完整的推荐系统的流程

来源:未知 编辑:小蚂蚁 时间:2019-08-21 02:12:14 阅读:

  企业推荐系统实践与思考:推荐系统,应该自建还是选择第三方。

  (1)适合自建的企业及自建风险对于同时符台大型公司、技术积累谅厚、战略纵深类因素的公司适合自建。相比中小型公司,大型公司拥有足够资源、时间.人力储备来满足自建需求。大型公司有深厚的技术积累,且有足够的现金牛业务,不迫切丽要增长,则可以自建。但是自建会面临较高的招聘成本·时间风险、效果风险。

  (2)引用第三方厂商的好处及风险引入第三方产品相比自建的确是投资低、见效快,但是会面临企业推荐系统能力沉淀,以及系统能否与业务相融合的风险。

  企业是自建还是选择第三方,需要综合衡量后做决定。如果企业综合衡量后,选择让专业的厂商做专业的事,那么应该选择最符合自身业务需求的厂商,而非最便宜的价格,从而将主要精力聚焦在自身核心业务上。

  推荐系统目的之一是要建立人与物以及物物之间的关系。通常,推荐系统的搭建流程分为几步。

  (1)第一步:确定业务场景。

  企业要根据产品形态·现有数据、业务目标、产品运营方向来确定你做推荐所需差的数据源。这些数据源包括:

  A、要推荐物品或内容的元数据,例如ID、关键宇、描述等:

  B、系统用户的基本信息,傍0如I队性别、年龄等:

  用户稍要唯一识别的ID,推荐系统有一个难点是Web端的统一用户识别,因为在手机端可以相对容易的来确定用户l阢但在Web端,由于存在浏览嚣等各种差异,会导致用户ID差异。在此基础上,如果有性别、年龄等信息,那么用户画像会更加清晰,更方便做个性化推荐。

  C.用户对物品或者信息的偏好,包括显式的用户反馈、隐式的用户反馈、负反馈。显式的用户反馈例如用户对物品的评分,或者对物品的评论;隐式的用户反馈,例如用户购买了某物品,用户查看了菜物品的信息等。负反馈,例如用户点击“不喜欢”,或展现了物品信息但是用户没有点击。

  负反馈是大家容易忽略aj,在机器学习系统里面如果只有正例,没有负倒是不能工作的。那应该如何采集负例?比如用户点击了一个叫“我不喜欢“的按钮,这是用户的负反馈。这种负反馈的缺点往往是量级不够大,所以为了保证负反馈的足够量级,神策通常采集负反馈的方式之一是,当展示十个物品时,用户点了第三个,可能因为不太喜欢第一、第二个物品,因而没有点击,那么前两个物品就是用户的负反馈,第三个商品就是用户的正反馈。

  D、访问时的上下文信息,例如时间、请求页面的其他信息等。

  比如,用户在公交车上与躺床上看的视频可6&是不—样的,导致差异的因素可能是时间,也可能是网络琦:境等:家里的电视,虽然是同一个ID,但是爸爸、妈妈、核子观看的内容差异很大,如何在这种情况下做推荐?神策会尝试引入时间维度,因为小朋友看电视的时间比较固定,妈妈看连续剧的时间也相对固定,引入时间维度在一定程度上能缓解这件事情。

  (2)第二步:建立评价体系。

  建立推荐系统之前,耍想好如何进行评估。评价体系的方法包括离线评估和在线评估两种方式,做详细介绍,这里不再敖述。

  耍进行科学的评估,企业应该重点注意以下几个问翘:

  第一,通过A/B Test进行评估;值得强调的是,A/B Test分组的用户应该是正交的,如果分组是安卓渠道和ios渠道,那这两组用户本身的行为就会存在偏差,因为两个渠道是有各自的特点的,这样做并不是科学的方式。

  第二,使用对比指标而不是绝对值指标;如果你关注CTR指标,追求的目标并非将目标达到5%就OK,我们关注的指标应该是相对值,也就是对比基线策略提升了多少。因为绝对值会被产品形态和具体业务场景影响,比如产品首页上只有这一个按钮则能够产生较高的点击率。也就是说,在所有因子不变的情况下,只修改策略和方法后的对比指标才有意义。

  第三,不管是机器学习还是推荐系统,追求的都是整体效果提升,而无法具体到优化个体效果。对个人优化时,我们通常一般只会处理那些Bad Case。

  (3)第三步:数据采集和模型。

  这个过程包括特征选取、数据清洗、特征工程、正倒与负例。

  (4)第四步:模型训练和工程化。

  这个过程包括数据流建立、训练和优化模型、推荐眼务(5)第五步:实验与迭代综上所述,推荐系统是一个流程:海量item-候选集合一排序列表—推荐结果。

搭建一套完整的推荐系统的流程

  在推荐系统中,海置物品组成的可推荐池子中,对所有的数据进行一定的处理,才能保证在百毫秒内召回需耍推荐的物品,并对物品进行排序,按照排序列表进行推荐,这个还需耍配合非常多的工程上的方法。

图文精选:

Copyright©2012-2019 小蚂蚁信息网版权所有 粤ICP备14061018号-1


郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

Top