点击上方蓝字·关注我们

温馨提示:
本文干货满满,篇幅稍长,大家可以添加到浮窗进行阅读,或者点击“听全文”进行收听,更欢迎你的留言和分享,让我们共同进步,探索无限可能。

我们遇到的所有问题,都有人经历过。
学习别人的经验,就能实现自我超越的最短路径。
今天要跟大家分享的这本书——
《用户画像:方法论与工程化解决方案》,恰如其分地回应了我过去五年最核心的焦虑:如何系统性地实现数据驱动的营销增长。

我曾尝试过埋头啃书、请教专家、寻找高手和平台合作,最终都没能实现数据驱动营销增长的系统设计。
但每一步都算数,这本书让我有了更清晰的认知,和更具体可落地的工程化实践路径。
合上书,我知道,下一段实践旅程即将开始。
这本书开篇说到:
在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可-追溯-分析的。
企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业给予更大数据量背景的问题所在。
随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。
今天,我们都在商城、自媒体平台深刻体验到基于用户画像的算法推荐。
那些“猜你喜欢”的内容,正在满足我们的渴望,引导着我们沉浸其中,欲罢不能。
这背后,就是算法推荐的作用。

图源图虫,下同
在用户进入平台的不同阶段,对应增长黑客理论“激活-注册-留存-下单-传播”,针对用户来源和基本信息的获取,通过设计用户模型实现每个阶段的个性化推荐。
在使用过程中,通过页面埋点获取用户的行为标签,通过标签组合和算法推演进行用户画像分析,实现更精准的内容推送。
自2012年移动互联网爆发,智能手机上重塑了我们的生活和商业模式——在工具、社交、购物、学习、娱乐、商务……方方面面,一个平行世界的数字世界就此诞生,数据成为新的生产要素。
各大平台依赖对用户数据的获取、加工与应用,实现用户粘性和商业增长。
对数据的加工能力即是先进的生产力。谁拥有这种生产力,谁就能释放业务数据价值,提高效率,实现增长。

回看网上商城的演化过程:
从实体商品的“线上黄页”、线上排名投放内容生产和用户留存激励、到线上“千人千面“内容推送,逐渐实现了用户从找商品、对比商品的效率提升,到逛商品、对推送商品上瘾的习惯依赖。
平台交互越丰富,用户画像越精准,使人不禁好奇它怎么比我还懂我想要什么。
当用户进入“引入期-成长期-成熟期-衰退期-流失期”的生命周期后,平台能实时洞察用户阶段变化,从而设计差异化的触达策略,结合数字营销工具和跨平台联动,让用户再次被召回、激活、复购、裂变,推动持续增长。
展会的场景特征,和线上商城、社交平台何其相似。
展会期间,一边是展商带着商品和服务展示营销,一边是买家带着交流交易来现场洽谈——放到线上,这不就是一个垂直领域的线上商业平台么!
将展会周期拉长:一边是对展品服务的咨询、评价,同时是行业题材的观点、评论交流,随着每个人内容创作流通的增长,行业内的社交形态(陌生人/六度关系熟人+开放内容+即时沟通+交流交易连接)就具备了孵化空间。

而这,就是一个垂直领域的社交平台。
它可以从展会开始,延续至更长的社交周期,为用户提供更持续精准的行业内容服务。
然而,展会行业从PC时代到移动时代,大多仍将线上渠道视为宣传入口与登记工具,少数探索者止步于线上展示与互动,始终未能建立起真正平行、活跃的商业与社交平台。
线上展会,更多仍停留于设想。或许AI带来的未知想象,展会的新模式必然随着时代演变进化出现。
进入2020年后,展会出现了两个“十倍速”变化:
一是线上登记用户十倍速增长;二是线上展示内容发布十倍速增长。
当时,四个大厂都纷纷下场做线上展会,场景、用户、数据、连接都能推演出技术驱动的商业模式,遗憾的是都无果而终。
究其原因,或许是展会操盘者尚未看到传统模式的衰退,而新模型的增长红利又不够清晰可见。

相信是最难的,只有相信才能去创造。
线上展会要创造新的服务模式,必然跨越三座大山:
内容用户生产量、用户相互信任度、算法推荐准确度。
跨越的动力,对展商是获取精准客户;对观众是提升对接和服务的效率。
而对于主办方,这意味着对过去平衡展商和观众需求的方式,从现场展位到线上平台的扩展,面临团队和技术掌控的双风险,同时行业内还没有一个成熟的技术服务的模式验证。
在这之下,只有基于相信开始的信任合作,或许才能实现技术落地、持续探索,才能解放数据价值这一新生产力。
2021年,在展会不确定举办的特殊时期,随着四个互联网大厂进入展会行业打造线上展会,很快就被这个新模式的迭代验证过程劝退了三家。
阿里在上海和当地展览公司各自出资五千万,打造线上展会服务能力,技术落地探索经历了两年,还是没能迎来展会的规模化应用增长,最终放弃。
这一年,我们的数字展会公司,创新设计了“数字展会+展商云展厅+观众工作室“的三边模式,用SaaS应用、VR看展、短视频直播等技术,通过用户标签系统的个性化内容推荐,实现了线上数字展会的商业和社交架构。
只可惜在客户合作落地迭代产品过程中,熬不过研发投入到商业盈利的周期,无奈放弃。
这是挫败,亦是宝贵的创新体验与经验积累。
如今,技术驱动的展会数据价值释放,正以更务实的步伐融入展会。
它体现在应对十倍速登记的线上工具,以及承载内容增长的“小程序展会”黄页中。

今天,展会的处境正面临新挑战。
首先,社交化互动营销分散了企业展会场景营销的注意力;
其次,行业市场的增长需求放缓减少了企业的参展营销投入。同时展会沉淀的题材和服务缺少活力创新,降低了企业参展营销的期望值。
展会正在面临招展难,面积和收费下滑;邀请观众难,老观众召回和新观众转化的成本高;
展会对增长的渴求,越来越需要新的生产力方式——高效率、低成本地实现观众增长与转化,跑通“用户召回-观众裂变-展商扩约-公域转化”的新路径。
展会的目标也逐渐清晰:提高重复到场率、观众裂变率、超级用户转化率与展商重复展率。
其实现路径也越来越清晰,用数据驱动实现营销增长。
技术实现路径:数字展会平台内容-展会用户模型设计-标签系统建立-用户画像实现数据挖掘,实现BI分析、精准营销、个性化推荐,为用户创造新价值,实现用户新增长。
今天,有AI的助力,理想更接近实现;技术迭代速度前所未有;展会数字化转型更加迫切;数据驱动营销增长的服务,正在到来。



画像简介:
用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。

大数据已经兴起多年,其对于互联网公司的应用来说已经如水、电、空气对于人们的生活一样,成为不可或缺的重要组成部分。从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。
而用户画像可以帮助大数据 “走出” 数据仓库,针对用户进行个性化推荐、精准营销、个性化服务等多样化服务,是大数据落地应用的一个重要方向。
1.1.2 标签类型
用户画像建模其实就是对用户 “打标签”,从对用户打标签的方式来看,一般分为 3 种类型(如图 1-3 所示):①统计类标签;②规则类标签;③机器学习挖掘类标签。
1.2 数据架构
在整个工程化方案中,系统依赖的基础设施包括 Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外,系统主体还包括 Spark Streaming、ETL、产品端 3 个重要组成部分。
Hive:存储用户标签计算结果、用户人群计算结果、用户特征库计算结果。 MySQL:存储标签元数据,监控相关数据,导出到业务系统的数据。 HBase:存储线上接口实时调用类数据。 Elasticsearch:支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的 SQL 语句多条件嵌套较为复杂,使用 Impala 执行也需花费大量时间)。

用户标签数据在 Hive 中加工完成后,部分标签通过 Sqoop 同步到 MySQL 数据库,提供用于 BI 报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到 HBase 数据库用于产品的线上个性化推荐。
1.3 主要覆盖模块
搭建一套用户画像方案整体来说需要考虑 8 个模块的建设,如下图所示。

本章主要介绍了用户画像的一些基础知识,包括画像的简介、标签类型、整个画像系统的数据架构,开发画像系统主要覆盖的8个模块,以及开发过程中的各阶段关键产出。
初步介绍了画像系统的轮廓概貌,帮助读者对于如何设计画像系统、开发周期、画像的应用方式等有宏观的初步的了解。
数据指标体系是建立用户画像的关键环节,也是在标签开发前要进行的工作,具体来说就是需要结合企业的业务情况设定相关的指标。
从建立的标签维度来看,可以将其分为用户属性类、用户行为类、用户消费类和风险控制类常见类型。

2.1 用户属性维度-常见用户属性:
用户属性是刻画用户的基础。常见用户属性指标包括:用户的年龄、性别、安装时间、注册状态、城市、省份、活跃登录地、历史购买状态、历史购买金额等。
2.2 用户行为维度
用户行为是另一种刻画用户的常见维度,通过用户行为可以挖掘其偏好和特征。常见用户行为维度指标。包括:用户订单相关行为、下单 / 访问行为、用户近 30 天行为类型指标、用户高频活跃时间段、用户购买品类、点击偏好、营销敏感度等相关行为。
2.3 用户消费维度
对于用户消费维度指标体系的建设,可从用户浏览、加购、下单、收藏、搜索商品对应的品类入手,品类越细越精确,给用户推荐或营销商品的准确性越高。
根据用户相关行为对应商品品类建设指标体系,本案例精确到商品三级品类。
2.4 风险控制维度
互联网企业的用户可能会遇到薅羊毛、恶意刷单、借贷欺诈等行为的用户,为了防止这类用户给平台带来损失和风险,互联网公司需要在风险控制维度构建起相关的指标体系,有效监控平台的不良用户。
结合公司业务方向,例如可从账号风险、设备风险、借贷风险等维度入手构建风控维度标签体系。
2.5 社交属性维度
社交属性用于了解用户的家庭成员、社交关系、社交偏好、社交活跃程度等方面,通过这些信息可以更好地为用户提供个性化服务。
2.6 其他常见标签划分方式
前面从用户属性、用户行为、用户消费、风险控制、社交属性共五大维度划分归类了用户标签指标体系。但对用户标签体系的归类并不局限于此,通过应用场景对标签进行归类也是常见的标签划分方式。
2.7 标签命名方式
为了便于对诸多标签进行集中管理,需要对每个标签对应的标签 id 进行命名。对于一个标签,可以从标签主题、刻画维度、标签类型、一级归类等多角度入手来确定每个标签的唯一名称,如下图所示。

标签主题:用于刻画属于哪种类型的标签,如人口属性、行为属性、用户消、费、风险控制等多种类型,可分别用 ATTRITUBE、ACTION、CONSUME、RISKMANAGE 等单词表示各标签主题。
用户维度:用于刻画该标签是打在用户唯一标识(userid)上,还是打在用户使用的设备(cookieid)上。可用 U、C 等字母分别标识 userid 和 cookieid 维度。
标签类型:类型可划分为统计型、规则型和算法型。其中统计型开发可直接从数据仓库中各主题表建模加工而成,规则型需要结合公司业务和数据情况,算法型开发需要对数据做机器学习的算法处理得到相应的标签。
一级维度:在每个标签主题大类下面,进一步细分维度来刻画用户。
本章主要介绍了如何结合业务场景去搭建刻画用户的数据指标体系。
其中 2.1 节到 2.5 节介绍了一种从用户属性、用户行为、用户消费、风险控制和社交属性5个维度建立用户标签体系的思路,2.6 节提供了一种基于应用场景搭建指标体系的思路,2.7 节介绍了一种规范化命名标签的解决方案,可保证对每一个业务标签打上唯一的标签 id。
对于互联网企业来说,其存储的海量用户访问日志数据便于分析用户操作的行为特性;而对于传统企业来说则可以更多地从用户属性维度去丰富指标体系。

3.1 标签数据存储
在画像系统搭建的过程中,数据存储的技术选型是非常重要的一项内容,不同的存储方式适用于不同的应用场景。这里主要介绍使用 Hive、MySQL、HBase、Elasticsearch 存储画像相关数据的应用场景及对应的解决方案。
3.1.1 Hive 数据仓库
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。
Hive 是基于 Hadoop 的数据仓库工具,依赖于 HDFS 存储数据,提供的 SQL 语言可以查询存储在 HDFS 中的数据。
开发时一般使用 Hive 作为数据仓库,存储标签和用户特征库等相关数据。“数据仓库之父” W.H.Inmon 在《Building the Data Warehouse》一书中定义数据仓库是 “一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合”。
面向主题:业务数据库中的数据主要针对事务处理,各个业务系统之间是相互分离的,而数据仓库中的数据是按照一定主题进行组织的。
集成:数据仓库中存储的数据是从业务数据库中提取出来的,但并不是对原有数据的简单复制,而是经过了抽取、清理、转换(ETL)等工作。业务数据库记录的是每一项业务处理的流水账。这些数据不适合进行分析处理,进入数据仓库之前需要经过一系列计算,同时抛弃一些无关分析处理的数据。
非易失:业务数据库中一般只存储短期数据,因此其数据是不稳定的,记录的是系统中数据变化的瞬态。数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库一样经常修改,一般数据仓库构建完成后主要用于访问,不进行修改和删除。
随时间变化:数据仓库关注的历史数据,按时间顺序定期从业务库和日志库里面载入新的数据进行追加,带有时间属性。
数据抽取到数据仓库的流程如下图所示。


3.1.2 分区存储
如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类型标签,那么每天该画像宽表的 ETL 作业将会花费很长时间,而且不便于向这张宽表中新增标签类型。
要解决这种 ETL 花费时间较长的问题,可以从以下几个方面着手:
将数据分区存储,分别执行作业; 标签脚本性能调优; 基于一些标签共同的数据来源开发中间表。

3.1.3 标签汇聚
用户的每个标签都插入到相应的分区下面,但是对一个用户来说,打在他身上的全部标签存储在不同的分区下面。为了方便分析和查询,需要将用户身上的标签做聚合处理。

3.1.4 ID-MAP
开发用户标签的时候,有项非常重要的内容 ——ID-Mapping,即把用户不同来源的身份标识通过数据手段识别为同一个主体。
用户的属性、行为相关数据分散在不同的数据源中,通过 ID-Mapping 能够把用户在不同场景下的行为串联起来,消除数据孤岛。
3.2 MySQL 存储
MySQL 作为关系型数据库,在用户画像中可用于元数据管理、监控预警数据、结果集存储等应用中。下面详细介绍这 3 个应用场景。
3.2.1 元数据管理
Hive 适合于大数据量的批处理作业,对于量级较小的数据,MySQL 具有更快的读写速度。
平台标签视图中的标签元数据可以维护在 MySQL 关系数据库中,便于标签的编辑、查询和管理。
Web 端产品读写 MySQL 数据库会有更快的速度,方便标签的定义、管理。
3.2 监控预警数据
MySQL 还可用于存储每天对 ETL 结果的监控信息。从整个画像调度流的关键节点来看,需要监控的环节主要包括对每天标签的产出量、服务层数据同步情况的监控等主要场景。
3.2.3 结果集存储
结果集可以用来存储多维透视分析用的标签、圈人服务用的用户标签、当日记录各标签数量,用于校验标签数据是否出现异常。Sqoop 是一个用来将 Hadoop 和关系型数据库中的数据相互迁移的工具。它可以将一个关系型数据库(如 MySQL、Oracle、PostgreSQL 等)中的数据导入 Hadoop 的 HDFS 中,也可以将 HDFS 中的数据导入关系型数据库中。
3.3 HBase 存储
HBase 是一个高性能、列存储、可伸缩、实时读写的分布式存储系统,同样运行在 HDFS 之上。
与 Hive 不同的是,HBase 能够在数据库上实时运行,而不是跑 MapReduce 任务,适合进行大数据的实时查询。
画像系统中每天在 Hive 里跑出的结果集数据可同步到 HBase 数据库,用于线上实时应用的场景。
3.4 Elasticsearch 存储
Elasticsearch 是一个开源的分布式全文检索引擎,可以近乎实时地存储、检索数据。而且可扩展性很好,可以扩展到上百台服务器,处理 PB 级别的数据。
对于用户标签查询、用户人群计算、用户群多维透视分析这类对响应时间要求较高的场景,也可以考虑选用 Elasticsearch 进行存储。
Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档,用 json 作为文档格式。为了更清晰地理解 Elasticsearch 查询的一些概念,将其和关系数据库的类型进行对照。
在关系型数据库中查询数据时可通过选中数据库、表、行、列来定位所查找的内容,在 Elasticsearch 中通过索引(index)、类型(type)、文档(document)、字段来定位查找内容。
一个 Elasticsearch 集群可以包括多个索引(数据库),也就是说,其中包含了很多类型(表),这些类型中包含了很多的文档(行),然后每个文档中又包含了很多的字段(列)。
Elasticsearch 的交互可以使用 Java API,也可以使用 HTTP 的 RESTful API 方式。

本章讲解了使用 Hive、MySQL、HBase 和 Elasticsearch 存储标签数据的解决方案,包括:Hive 存储数据相关标签表、人群计算表的表结构设计以及 ID-Mapping 的一种实现方式;
MySQL 存储标签元数据、监控数据及结果集数据;HBase 存储线上接口实时调用的数据;Elasticsearch 存储标签用于人群计算和人群多维透视分析。
存储过程中涉及如下相关表。
dw.userprofile_attribute_all:存储人口属性维度的标签表; dw.userprofile_action_all:存储行为属性维度的标签表; dw.userprofile_consume_all:存储用户消费维度的标签表; dw.userprofile_riskmanage_all:存储风险控制维度的标签表; dw.userprofile_social_all:存储社交属性维度的标签表; dw.userprofile_userlabel_map_all:汇聚用户各维度标签的表; dw.userprofile_usergroup_labels_all:存储计算后人群数据的表。
面向不同的工程场景使用不同的存储方案,本章通过 “工程场景 + 案例” 的形式介绍了一种可实现的用户标签存储解决方案。

标签数据开发是用户画像体系搭建中最主要的环节:
主要包括离线标签开发、实时类标签开发、用户特征库开发、人群计算、打通数据服务层等开发内容。
离线标签开发主要围绕数据指标体系开发统计类标签、规则类标签、挖掘类标签等展开;
实时类标签主要针对给用户展现实时性较强的场景开发相关数据,如首页新人弹窗、新人红包等场景;
用户特征库围绕用户的每次行为明细记录相关数据,如用户浏览、搜索、收藏、下单等行为明细,一般该特征库按日做时间分区;
人群计算应用在数据服务层之前,业务方需要组合用户的标签来筛选出对应人群,通过人群计算功能组合标签划分出对应的人群;
打通数据服务层将业务方根据业务规则圈定出来的用户人群推送到不同的业务系统中去。
4.4.1 流式标签建模框架
Spark Streaming 是 Spark Core API 的扩展,支持实时数据流的处理,并且有可扩展、高吞吐量、容错的特点。
数据可以从 Kafka、Flume 等多个来源获取,可以使用 map、reduce、window 等多个高级函数对业务逻辑进行处理。
最后,处理后的数据被推送到文件系统、数据库等。
在内部 Spark Streaming 接收实时数据流并将数据分成多个 batch 批次,然后由 Spark 引擎进行处理,批量生成结果流。
Spark Streaming 提供了一个高层抽象,称为Discretized Stream 或 Dstream,它表示连续的数据流。
Dstream 可以通过 Kafka、Flume 等来源的数据流创建,也可以通过在其他 Dstream 上应用高级操作来创建。

4.4.2 Kafka 简介
Kafka 的核心功能是作为分布式消息中间件。
Kafka 集群由多个 Broker server 组成,其中,消息的发送者称为 Producer;消息的消费者称为 Cousumer;
Broker 是消息处理的节点,多个 Broker 组成 Kafka 集群;
Topic 是数据主题,用来区分不同的业务系统,消费者通过订阅不同的 Topic 来消费不同主题的数据,每个 Topic 又被分为多个 Partition,Partition 是 topic 的分组,每个 Partition 都是一个有序队列;
offset 用于定位消费者在每个 Partition 中消费的位置。

4.5 用户特征库开发
为进一步从多个维度丰富用户特征,挖掘用户的相关行为,除了开发用户标签体系外,一般还会开发用户的特征库。
一方面为个性化推荐、精准营销、商业分析等应用提供中间层数据,另一方面也可以削减不同算法在特征构建时的冗余加工。
简单来说,用户特征库就是对用户每一次的不同行为(如浏览、收藏、搜索、购买等)及该行为对应的标签(或商品品类)进行详细的记录,以便从用户的行为特征中挖掘用户的偏好。

与开发用户标签相比,用户特征库可以对数据进行汇总统计,从多个维度分析用户特征,而用户标签则 “相对静态” 地记录了用户当前的状态。
4.5.1 特征库规划
用户与商品相关行为的日志数据包含了用户对商品行为的明细。下面通过一个用户特征库的构建案例进行说明。
4.6 标签权重计算
用户在平台上的不同行为具体到用户标签层面有着不同的行为权重。
4.6.1 TF-IDF 词空间向量
TF-IDF 是一种统计方法,用以评估一个字或词相对于一个文件集或一个语料库中的其他词语的重要程度。
4.6.3 标签权重配置
用户标签的权重最终还是需要进一步结合标签所处的业务场景、距离当前时间、用户行为产生该标签的行为次数等因素,最终得到用户标签权重的综合打分公式:
用户标签权重 = 行为类型权重 × 时间衰减 × 用户行为次数× TF-IDF计算标签权重。
公式中各参数的释义如下:
行为类型权重:用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性。一般而言,操作复杂度越高的行为权重越大。该权重值一般由运营人员或数据分析人员主观给出。
时间衰减:用户某些行为受时间影响不断减弱,行为时间距现在越远,该行为用户画像:方法论与工程化解决方案,对用户当前行为来说意义越小。
行为次数:用户标签权重按天统计,用户某天与该标签产生的行为次数越多,该标签对用户的影响越大。
TF-IDF 计算标签权重:由每个标签对用户的重要性与该标签在全体标签中的重要性的乘积得出每个标签的客观权重值。
结合标签权重的计算公式,可以对用户特征库(dw.cookie_feature_event_append)的行为数据计算标签权重,筛选出与用户行为相关性最大的标签。
4.8 组合标签计算
组合标签计算是画像开发中的一个重要模块。前面几个小节讲的都是如何开发用户身上的一个个标签,当业务方根据业务规则应用标签时,是需要组合多个标签来创建对应的用户群体的,此时需要应用到组合标签计算。
组合标签计算的实现逻辑,总结来说分为 3 个过程:

4.9 数据服务层开发
数据最终的目的是走出数据仓库,应用到业务系统和营销场景中。
一般在开发完画像后,还需要打通标签数据和各业务系统之间的通路,通过产品化的方式将标签数据应用到业务中去。
这里需要打通的服务层包括离线服务层和在线服务层,其中离线服务层将 ETL 后的用户群数据推送到对应业务系统,在线服务层以 RESTful API 方式提供接口服务,可支持个性化推荐、营销推送、在线特征库等场景。
几个典型的应用场景包括:
1)短信营销:可以基于用户画像的自定义圈人服务,进行重点用户的广告 / 消息推送 / 短信 / 邮件营销。
2)邮件营销:可以基于不同用户群体,进行个性化有效的会员营销,同时在服务上也可以基于已经打通的用户数据,提供会员差异化的客服 / 物流 / 活动等服务。
3)风控系统:可以根据用户级别,作为风控系统规则引擎或模型的输入。
4)数据分析:可以分析不同群体的行为特征,提供分析和决策。
5)BI 数据:可以监控核心用户群体的变化,为上层决策提供数据基础支持。
4.9.2 接口调用服务
服务层数据一般通过接口调用的方式为上层应用提供支持,通常是在使用第三方平台提供的服务时采用这种方式。
例如使用第三方平台提供的发送短信、邮件等服务时,通过接口方式调用或传输数据。
接口调用时需要定义好接口的请求地址、请求参数、返回参数等关键信息。
如果说在数据开发日常工作中什么最重要,那一定就是维护调度流的稳定性了。
数据稳定性有了保障,提供到服务层的数据的质量才有保障。
本章介绍了如何使用开源 ETL 工具 Airflow 进行画像相关任务的调度工作及出现问题时的排查方法,通过数据预警机制保障每天的数据产出、提供的服务的可靠性。

开发画像后的标签数据,如果只是 “躺在” 数据仓库中,并不能发挥更大的业务价值。
只有将画像数据产品化后才能更便于业务方使用。
Web 端展示的数据都读取自 MySQL 这类的关系型数据库,MySQL 中存储的数据源自 Hive 加工后,通过 Sqoop 同步的结果集。
7.1 即时查询
即时查询功能主要面向数据分析师。
将用户画像相关的标签表、用户特征库相关的表开放出来供数据分析师查询。
回顾之前 Hive 存储的相关标签表,包括 userid 和 cookieid 两个维度。
dw.userprofile_attribute_all:存储用户人口属性维度的标签。 dw.userprofile_action_all:存储用户行为属性维度的标签。 dw.userprofile_consume_all:存储用户消费商品维度的标签。
7.2 标签视图与标签查询
标签视图与标签查询功能主要是面向业务人员使用,如下同所示。

在标签视图板块中,层级化地展示了目前已经上线使用的全部用户标签。

用户可以层级化地通过点击标签,查看每个标签的详细介绍。

7.3 元数据管理
标签编辑管理功能主要是面向数据开发人员。
数据开发人员在开发完标签后,需要将标签录入元数据进行管理。
标签的编辑管理也即对标签做元数据管理,将在 Web 端编辑表单中填写的数据存储到 MySQL 等关系型数据库中。
用户在该板块中点击 “添加标签” 按钮或对已添加的标签进行编辑操作,可设置该标签的元数据相关信息。
可在该页面中编辑标签相关的元数据,包括标签 id、名称、开发人员、标签类型、标签描述、数据源等,方便业务人员在应用时理解该标签的业务意义以及其负责人员。
对应的元数据信息维护在关系型数据库中,需要创建一些关键字段,通过 Navicat 等图形化操作界面可查看录入的元数据信息。
7.4 用户分群功能
用户分群功能主要是面向业务人员使用。
产品经理、运营、客服等业务人员在应用标签时,可能不仅仅只查看某一个标签对应的人群情况,更多地可能需要组合多个标签来满足其在业务上对人群的定义。
7.5 人群分析功能
通过单人群透视与多人群对比,实现了用户群特征的深度分析,为精细化运营决策提供数据支撑。


总的来说,本章介绍了用户画像产品化主要涵盖的功能模块以及这些模块的应用场景。
用户画像产品化是把数据应用到业务服务中的一个重要出口,业务人员熟知业务,但对数据不了解。
通过这种产品可视化的方式,方便业务人员分析用户群特征,将分析后的用户群推送到对应业务系统中触达用户,更方便、快捷地将数据赋能到业务场景中去。
通过对产品功能和形态的详细剖析,为数据产品、运营、客服等业务人员提供一种产品规划和标签应用于服务的解决方案。
用户画像产品化后就成为业务人员分析用户、触达用户的有效工具,本章从经营分析、精准营销、个性化推荐等方面介绍用户画像的应用场景。

8.1 经营分析
画像系统可帮助业务人员从多个方面进行经营分析。
8.1.1 商品分析
借助用户画像,可以对商品的销量进行分析,比如说可以快速定位到爆款品类,进一步分析购买爆款品类的用户在各个维度上的特征。
8.1.2 用户分析
借助画像产品可以了解平台用户的性别、年龄、职业等各维度特征的用户量分布特征。
8.1.3 渠道分析
根据增长黑客理论(AARRR)模型,将产品的营收路径拆分为激活-注册-留存-下单-传播。
其中激活主要是流量运营在负责;用户运营会贯穿接下来的流程;内容运营主要负责生产优质的内容来提高用户的黏性,从而提高留存;主线运营主要负责主营业务的产品路径,优化转化节点,提高转化率。

下面对 AARRR 模型中各渠道的定义及运营方式进行详细讲解:
1)激活:这是流量来源的必经动作,只有有足够多的用户进入平台,才能对这些用户进行转化。
而我们都知道,互联网新客的获客成本是比较高的,如果不清楚渠道的流量质量,很有可能既花了钱又没有获取到质量较好的用户。
对于这一块,用户触达的基本分析就是对用户来源渠道进行分析。不依靠自然流量的情况下,哪些合作、投放渠道对我们的 App、Web 产品更合适。
2)注册:流量激活之后,如果用户只是点进来就走了,这个流量对产品并没有什么作用。
只有通过高质量的内容、合适的产品功能契合用户的需求,用户才会有进一步了解产品的欲望,才会有转化的下一步操作-注册。
因此通过渠道将用户引入平台还是远远不够的,需要进一步关注用户是否进一步注册转化,从注册流程上看是否存在需要优化的细节点。
3)留存:前面我们提过,新用户的获客成本是比较高的,因此不可能一味地花钱去获取新的流量,同时也需要维系老用户,让进来的用户能对产品形成依赖,产品能契合用户需求,让用户持续不断地来用我们的产品。
因此提升留存一方面需要满足用户需求,另一方面需要优化用户体验。
在优化过程中可通过用户分群、精细化运营、将精准内容推送给有特定需求的用户等手段来提高用户对产品的满意度。
数据可以通过追踪用户行为来分析哪些行为可以促使用户持续访问产品、如何激发这些行为发生。
通过用户生命周期的研究,对沉默用户进行识别,让运营通过运营手段对这批用户进行唤醒;对流失用户进行标记,让运营通过推送、发放优惠等方式进行用户召回。
4)营收:用户是收入的前提。用户运营的基础是对用户足够了解、足够熟悉,数据能做的是帮助运营了解用户的所有属性,让用户不断向营收进行转化。
5)传播:只有用户对产品高度认可及对产品功能高度依赖,才会愿意将产品分享或推荐给其他人。将用户往营收用户进行转化,从而达到价值翻倍的目的。
8.1.4 漏斗分析
漏斗分析用于分析产品流程或关键节点的转化效果,常借助漏斗图展现转化效果。
漏斗图是一种外形类似漏斗的可视化图表,使用该方法可以直观地追踪产品的整体流程、追踪业务的转化路径、追踪不同生命周期阶段下的用户群体表现。
通过一系列转化率的分析,可以迅速定位问题,方便运营人员及时调整运营策略。
8.1.5 客服话术
用户标签在客服系统中也有广泛的应用。生活中经常遇到这样的场景:
当我们在向某平台的客服部门投诉、咨询或反馈意见时,客服人员可以准确地说出我们在该平台的历史购买情况、上一次咨询的问题和处理结果等信息,这也是画像标签应用的场景之一。

客服人员可以根据来电用户的画像针对性地提出解决办法,以及对于高价值用户提供 VIP 客服通道等专项服务。
8.1.6 人群特征分析
前面介绍的都是从单一维度分析用户特征,而用户人群特征分析可以通过组合标签来自定义人群,然后对自定义人群从各个维度进行透视分析或建立对照组人群做人群对比分析。
8.2 精准营销
8.2.1 短信 / 邮件营销
日常生活中我们经常会从许多渠道接收到营销来的信息。
一条关于红包到账的短信消息推送可能会促使用户打开已经很久没访问的 App,一条关于心愿单里面图书降价的邮件消息推送可能会刺激用户打开推送链接直接下单购买。
8.2.2 效果分析
精准营销是数据价值的一个重要出口,但如何评估效果好坏,不同业务线的人员有不同的关注重点。
总体来看,可分为流量提升导向和 GMV 提升导向两种情况。
8.3 个性化推荐与服务
在用户画像的开发过程中不仅会开发用户标签维度的数据,同时也会开发用户行为特征库、商品特征库、商家特征库等相关数据。
为算法开发人员做用户相关商品、内容的个性化推荐提供底层数据支持。
另外,基于画像标签系统可以为用户的个性化服务提供支持。
例如,针对高质量用户提供 VIP 专人客服,可以让该部分头部用户享受到高质量服务,有效提升用户体验。
总的来说,本章介绍了用户画像的应用方式。
对于业务人员从经营分析的多个维度分析了解用户特征,可进一步通过消息推送、短信、邮件等多渠道触达、运营用户,有效帮助流量增长和 GMV 转化,提升用户体验。
同时画像标签数据、用户行为特征库的构建为个性化推荐相关人员进行数据挖掘提供了底层支持。

用户画像的落地应用场景有很多,本章通过一些实践案例来场景化复现用户画像的应用点和应用方式。
基于画像系统去做多方面的数据分析、触达用户的运营方案,可以快速地将数据应用到服务层(T+1 甚至实时即可上线应用),得到用户使用反馈后通过效果分析,迭代营销策略或产品设计。
相比基于传统的项目制,通过项目经理提需求、上线版本,然后进行效果分析、迭代再优化的时间周期将大大缩短。
9.1 风控反欺诈预警
风控反欺诈预警在游戏、电商、金融、家政、社交等众领域中有着广泛的应用场景,例如家政领域中识别失信风险、借贷风险的用户,提高从业人员素质和准入门槛;
金融领域中识别存在失信风险、多头借贷的问题用户,对其拒绝放贷;电商领域中识别出薅羊毛、下单签收等行为存在异常的用户,对其进行隔离处理。
这些应用场景都可以基于用户画像来实现。


9.2 A/B 人群效果测试
本着数据驱动的理念,在正式切换到使用某种规则运营用户前,需要经过 A/B 测试来看 AB 哪个组可以带来更高的转化增量,带来的转化增量是多少。
借助画像系统可以很方便地实现对两组人群运营效果的对照测试。

9.3 用户生命周期划分与营销
生命周期指的是一个生命个体从出生到死亡的发展过程,用户的生命周期指的是用户从接触产品(网站)到离开产品(网站)的发展过程,用户的生命周期价值 LTV(Life Time Value)/CLV(Customer Life Value)指的是这个发展过程中用户为产品(网站)所带来的价值总和。
针对用户生命周期的划分、分析用户在不同生命周期阶段的行为特征,以及切入运营,分析运营效果,从而有效提升用户的转化、复购、留存,在各公司中有广泛的应用场景。
本节主要介绍如何划分生命周期、分析用户在不同阶段的行为特征、运营策略,以及将用户画像如何切入到整个流程中,提升分析用户、触达用户的效率。
9.3.1 生命周期划分
用户生命周期主要分为:引入期、成长期、成熟期、衰退期和流失期 5 个阶段。

用户进入产品后,不一定会走完一个完整的周期,在每个阶段都有可能离开,每个阶段都会为产品(网站)带来不同的价值。
引入期:此时用户刚来,用户会试探性地来试用产品,偶尔用一下,此时用户的价值相对来说比较低。 成长期:用户会不定期地来使用产品,并开始进一步体验产品功能,此时用户的价值有所提升。 成熟期:用户会经常使用产品,并会以分享的形式来宣传产品,此时用户的价值比较高。 衰退期:用户因某些原因(如产品迭代后用户不喜欢等)不再经常使用产品,此时用户的价值呈衰减模式。 流失期:用户对产品非常不满意或者找到了替代的同类型的产品,不再使用该产品。


用户生命周期在业务中主要有以下几个应用场景。
应用一:根据拆解指标为提升 LTV 制定不同的运营策略;
应用二:评估用户运营活动是否盈利;
应用三:追踪投资回报率(Return On Investment,ROI);
根据 LTV 的公式及用户毛利的计算公式,递推得到投资回报率的计算公式:
ROI=转化率 X ARPU / (CAC+COC)
从 ROI 的计算公式来看,要想提高 ROI,需要从以下 3 个方面着手:
(1)提高转化率;
(2)提高 ARPU;
(3)降低成本;
根据上面的维度,对某平台用户的生命周期从购买金额、购买次数、购买品类、购买时间等维度去分析用户当前处于生命周期的哪个阶段,进一步对该平台用户相关数据进行调研,最终做出如下划分。

9.3.2 不同阶段的用户触达策略
从用户使用产品的阶段来看,包括从安装、注册、购买、复购、成为忠诚用户或离开等多个阶段。
这里截取某平台一段时间内的用户数据,分析用户在不同生命周期阶段的行为特征。

9.3.3 画像在生命周期中的应用
用户画像产品端可帮助业务人员快速分析生命周期不同阶段中用户的特征、选择合适的渠道快速触达用户。
1. 分析用户特征;
2. 选择触达用户渠道;
3. 分析营销效果;
根据前面所讲,在生命周期不同阶段中可通过不同渠道(消息推送、站内信、短信、邮件等)来触达用户。画像系统的用户分群功能支持通过组合标签筛选好用户群,然后以多种方式触达到用户,如下图示。

9.4 高价值用户实时营销
平台运营人员为促进高价值新用户的留存,制定了运营规则 ——“首日注册的新用户,如果其注册当日消费满 100 元则对其进行短信营销,短信中附有平台赠送红包的链接”。
9.5 短信营销用户
平台上某快消品牌商家在日常销售和运营客户过程中发现,目前快消商品同质化严重,品牌之间竞争激烈,虽然用户复购率较高但是忠诚度较低,用户普遍对优惠活动的敏感度较大。
因此,可针对快消品牌的易耗性,定期通过短信渠道精准触达目标用户,引导其进行复购。
9.6 Session 行为分析应用
用户行为分析是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
埋点日志几乎记录了用户的所有行为,其中有些指标是通用的,比如用户的访问频率、平均停留时长等,有些指标是特定场景适用的,比如盈利平台的下单行为、社区的内容发布行为等。
用户行为的相关指标可分为黏性指标、参与度指标、转化类指标,下面详细进行介绍。
9.8 基于用户特征库筛选目标人群
在前面章节中的案例是基于电商业务数据构建的用户特征库,这里介绍另一种基于医疗业务场景下构建的用户特征库及其应用方案。
某互联网医疗产品上入驻了行业内几十万名专家和医生,用户在该产品 Web 端、App 端或 H5 页面上挑选与要咨询疾病相关的专家,并预约付款后,可以以图片 + 文字、语音通话、视频等方式向专家咨询相关疾病。
专家作出解答后,用户确认付款并填写评价。根据用户在该产品上的业务订单与行为数据,可充分挖掘用户疾病特征,以便精准营销合适的医疗服务与产品。
目前该平台的数据仓库中积累了大量订单数据及用户行为数据,为更好地支持运营人员将相关活动精准推送给有需求的用户,数据开发人员将根据用户的订单、行为相关数据进行建模,构建用户行为特征库。
以上通过10个用户画像在业务场景中实际应用的案例,讲解了用户画像在消息推送营销、A/B 人群效果测试、用户生命周期营销、用户 VIP 专属客服等场景中的应用。
同时,也讲解了如何搭建报表追踪画像系统推送各业务线的人群数据在业务上的应用效果。
从上线前后的数据分析效果来看,通过对人群的精细化运营,对流量、GMV、用户体验等有显著的促进作用。

让我们回到最初的问题:展会服务,能否像商城那样“越来越懂你”?
答案是肯定的,但路径独特。
展会的魅力在于线下汇聚的“场”,其数字化并非简单照搬线上模式,而在于利用数据工具,将瞬间的相遇沉淀为长期的、可运营的连接。
用户画像系统提供的,正是将线下“模糊的印象”转化为线上“精确的认知”的工程化蓝图。
正如书中所揭示的,从数据架构到标签体系,从静态刻画到实时响应,每一个环节都需精心设计。过往的探索,无论成败,都是宝贵的路基。
展望未来,AI的进化将加速这一进程。
对于敢于相信并率先实践的展会人而言,一个更懂客户、更高效连接、更能释放数据价值的智慧会展新时代,已在地平线上显露曙光。
