数据运营-数据管理平台_数据运营平台-程序员宅基地

技术标签: 数据运营  架构  基础知识  大数据  

目录

一、ID maping

二、用户标签管理

三、数据规范

四、运营分析

五、人群操作

六、数据脱敏

七、营销应用系统对接


一、ID maping

通过不同数据源,在技术上实现数据数据打通后,基于应用层技术为大数据平台后端服务提供可视化的交互能力,通过页面为用户实现可执行ID关联查询、多ID关联校验、有效服务实例元信息查询等功能,实现基于页面的ID-Mapping相关操作,为平台可操作性、可控性、定制化提供有效支撑。

二、用户标签管理

标签管理建设,可以按照以下8个模块进行:

1、用户标签基础:了解、明确用户标签是什么,包含哪些模块,数据仓库架构设计,开发流程,表结构设计,ETL设计等。通过大方向的规划,明确每个阶段重要指标和关键产出。

2、数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

3、标签数据存储:标签相关数据可存储在Hive、MySQL、HBase、Elasticsearch等数据库中,不同存储方式适用于不同的应用场景。

4、标签数据开发:用户标签工程化的重点模块,包含统计类、规则类、挖掘类、流式计算类标签的开发,以及人群计算功能的开发,打通标签数据和各业务系统之间的通路,提供接口服务等开发内容。

5、开发性能调优:标签加工、人群计算等脚本上线调度后,为了缩短调度时间、保障数据的稳定性等,需要对开发的脚本进行迭代重构、调优。

6、作业流程调度:标签加工、人群计算、同步数据到业务系统、数据监控预警等脚本开发完成后,需要调度工具把整套流程调度起来。

7、用户标签产品化:为了能让用户数据更好地服务于业务方,需要以产品化的形态应用在业务上。产品化的模块主要包括标签视图、用户标签查询、用户分群、透视分析等。

8、用户标签应用:标签的应用场景包括用户特征分析、短信、邮件、站内信、Push消息的精准推送、客服针对用户的不同话术、针对高价值用户的极速退货退款等VIP服务应用。

通过实现用户标签管理页面,以可视化形式为用户提供标签管理后台功能,功能主要包括:

概览页主要提供展示、查询、统计分析功能,通过明确的标签分类方便查询每个定义出标签的详细信息、历史详情、标签属性相关的统计及分析功能。

2、创建标签
可通过多种方式创建标签,选择方式后,创建标签的步骤有2步:基础信息和标签规则,根据不同的方式的标签规则有差别。
标签基础信息包括:标签显示名、标签名称、分类、更新方式、备注等内容。
标签创建包括:
1)自定义标签值
自定义每个标签值的名称以及计算规则,将人群分为多个层级。
自定义标签的规则可包含:分层的管理、用户属性满足管理、用户行为满足管理、行为序列管理等。
2)基础指标值
将用户完成事件次数等指标计算结果作为标签值。
3)首次末次特征
将用户首次或末次完成事件的时间、距离今日的天数或事件的属性作为标签值。
4)事件偏好熟悉
将用户完成事件按照某个属性进行分组排序,使用排名前几个的分组作为标签值。
5)行为分布结果
将用户完成事件在指定时间段内分布的天数或小时数作为标签值。
6)SQL计算结果
使用返回SQL计算结果作为标签值,为用户进行标记。 

三、数据规范

1)建设概述
基于数据治理方法论,将数据治理行为可视化,打通数据基础层到汇总层、集市层的数据处理链路,落地数据标准和数据资产,通过关系建模、维度建模实现数据标准化,通过统一指标平台建设,实现规范化指标体系,消除歧义、统一口径、统一计算逻辑,提供主题式数据查询与挖掘服务。

数据规范设计

主要包括以下三个部分:

·主题设计

构建统一的数据分类体系,用于目录化管理所有业务数据,便于数据的归类,查找,评价,使用。通过分层架构对数据的分类和定义,可帮助用户厘清数据资产,明确业务领域和业务对象的关联关系。

·数据标准

构建统一的数据标准体系,数据标准流程化、系统化。用户可基于国家标准或行业标准,对每一行数据、每一个字段的具体取值进行标准化,从而提升数据质量和易用性。

·数据建模

构建统一的数据模型体系,通过规范定义和数据建模,自顶向下构建企业数据分层体系,沉淀企业数据公共层和主题库,便于数据的流通、共享、创造、创新,提升数据使用效率,极大的减少数据冗余,混乱,隔离,不一致以及谬误等。

2)建设明细

规范设计以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导用户实践落地数据治理方法论。实现流程如下:

添加审核人->配置模型设计->主题设计->码表发布->数据标准->关系建模->维度建模->技术指标->维度建模汇总->审核执行

添加审核人:为流程标准化,提供发布审核步骤,发布审核之前需自行定义审核人,方便平台管理。

配置模型设计:通过配置模型,为建模整体提供模板及步骤的功能

主题设计:为数据建模提供基础数据主体,以可视化方式可自定义主体信息

码表设计:在主题确定基础上,提供数据建模体系的技术数据参数

数据标准:为建模提供发布的校验标准

数据建模可基于以下构建详细功能,通过对数据仓库分层设计:SDI(原始数据)->DWI(基础数据)->DWR(维度数据)->DM(数据集市)。

①关系建模

分别新建SDI层和DWI层两个关系模型,并通过逆向数据库导入原始数据表到SDI层的关系模型中,在DWI层模型中新建一个“标准出行数据”的标准化的业务表。

SDI创建后

通过在DWI步骤创建关系模型,配置数据库表的基本配置、表字段、关系、映射的信息来完成标准化业务表的创建,如下图:

基础配置

表字段

新建映射

字段映射

依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应保存后,业务数据表配置完成!

配置完成的表,提供导出功能;如果发布模型会进入审核状态,如下图:

②维度建模

在DWR层建立并发布维度,主要构件码表维度(供应商、费率代码和付款方式)和层级维度(日期维度)为事实表提供基础支撑。

码表维度创建,如下图:

层级维度创建,如下图:

维度表选择发布后,可在同步状态中查看维度表的发布情况

③DWR事实表

在维度建模完成后,形成整体逻辑块后,开始构建事实表,通过维度表的各种信息,沉淀出事实表的可度量数值。

事实表创建后发布流程与以上建模一致。

技术指标:

DWR层级的建模完成后,向DM层迈进之前,提供技术指标的基础支持,为DM层的汇总表的数据层面统计分析等形成条件或基础信息基础。

指标包括原子指标和衍生指标,每一个指标的发布需要审核人员审核。

DM层的汇总表:

当DMR层级一切准备完成后,会在上层的数据集市形成对各种数据建模的信息实现汇总信息,从而对外定制化展示所需信息。

四、运营分析

运营分析模块,提供运营分析展示和运营分析配置两大部分,配置部分为用户提供画面自定义分析模板,当定义完成分析模型后,在数据看板页可查看根据运营模板定义得数据分析内容。

1、事件分析
以事件为单位的分析模型,据某一事件发生前后的资料统计,采用特定技术测量该事件影响性的一种定量分析方法。
提供功能:可进行分组、筛选、聚合的灵活多维度的事件分析。
事件分析配置模板示例,提供列标签、筛选条件及展现方式等的模板配置2、漏斗分析
漏斗分析本质是分解和量化,营销漏斗模型指的是营销过程中,将非潜在客户逐步变为客户的转化量化模型。营销漏斗模型的价值在于量化营销过程各个环节的效率,找到薄弱环节。
提供功能:分析多步骤行为之间转化与流失情况
漏斗分析配置模板示例,提供漏斗主题定制,流程配置等信息配置。

3、留存分析
用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。
提供功能:分析用户参与情况和活跃程度。
留存分析配置模板示例,提供留存主题及分析参数信息等的配置。

4、分布分析
分析一段时间内的频次和指标的分布情况
分布分析配置模板示例,对用户行为、事件等筛选条件定制的用户分布分析模式。

5、用户路径
分析用户的实际行为的的流向转化
用户路径配置模板示例,提供参与分析事件、用户符合等设置。

6、热图分析
分析元素点击分布占比与用户浏览深度
热图分析配置模板示例,提供显示内容、事件筛选、符合用户等分析条件。

7、间隔分析
分析用户两个事件之间的间隔时长
间隔分析配置模板示例,提供事件选择、查看条件、用户指定多种条件对事件时长的统计分析。

8、属性分析
基于用户属性快捷分析用户行为
属性分析配置模板示例,提供属性选择、筛选条件等信息的统计分析。

9、渠道分析
通过提供平台、分析维度、基础指标、转化目标、用户群等多种条件组合得到的分析结果。

10、归因分析
分析运营位与目标转化的贡献关系。

11、运营分析看板
以基础指标监控、市场推广、商品概览、客户生命周期、产品评估等角度展示运营情况。
基础指标监控:实时统计、整体趋势、用户生命周期
用户分析:新增用户、活跃用户、用户留存、用户参与度,包括新增用户、活跃用户、市场推广、商品概览等模块功能。

五、人群操作

划分用户群,首先需要找到特征变量,然后通过若干方法根据特征变量将用户分为若干个具备业务意义的用户群体。
1、定义特征变量:选取合适的特征变量是用户分群的关键。变量是人的抽象,是真实世界的用户在系统中的编码。编码的不同,描述了用户的不同。一般来说,变量分为可观测变量和不可观测变量。
2、划分用户群体:划分标准可通过两种方式,一是划分的用户群体具备实际的业务意义,能够指导业务进行迭代或者为企业的战略决策提供参考;二是处于同一个用户群的用户尽可能趋同,而处于不同的用户群的用户尽可能具备很大的区分度。
分群的创建可通过用户行为和属性实现创建:使用用户属性及行为数据,筛选出符合条件的用户群。如:将“过去 7 天有登录行为”的用户,划分为“近期登录用户”用户群。

六、数据脱敏

1)敏感数据定义
敏感数据主要指未经个人或集团授权被他人使用,有可能给个人或集团带来严重损害的数据。
以《GBT 35273-2017 信息安全技术个人信息安全规范》为例,个人敏感数据有:
·个人财产信息 (存款、信贷、消费流水)
·个人健康生理信息(体检信息、医疗记录)
·个人身份信息(身份证、社保卡、驾驶证)
2)敏感数据保护方式
·敏感数据识别与添加标签
从海量数据中将数据进行分类分级,方便进行不同粒度和级别的安全管理。
·数据泄露检测与防护
如果出现频繁访问敏感数据的异常行为,可以及时进行风险告警。
·数据静态脱敏、数据水印
对于已标记特定安全级别的敏感数据,可在对外提供数据时进行脱敏或者加水印。
·个人信息合规
精准区分和保护个人数据,避免产生合规问题。
·满足GDPR要求
满足GDPR关于在海量数据中找到和保护敏感数据的要求,可对敏感数据的使用进行审计。
·数据安全合规检查
通过对敏感数据的分析,制定数据安全合规管理制度,帮助企业建设以及改善信息安全合规管理体系。

3)敏感数据识别流程

①定义数据密级
在对数据进行操作前,为数据定义密级,用以明确涉密的范围。
包括创建密级、调整密级、编辑密级、删除密级等功能。
②定义识别规则
定义敏感数据识别标准。识别规则前提是数据密级已定义完毕。
识别规则除了增删改查功能外,提供开启、禁用识别规则的功能。
③定义识别规则组
通过定义敏感数据识别规则及规则组,来有效识别数据库内的敏感数据。
为创建出的规则进行分组。
④发现敏感数据
A.创建并运行敏感数据识别任务,并周期调度配置参数等功能。
B.调度运行敏感数据发现任务
可以通过调度周期区分该任务时单次调度还是周期调度任务。单次调度任务不显示周期。任务调度状态机制图:

C.查看运行示例日志
运行失败可通过日志排查失败原因,问题修正后尝试重新运行。
⑤查看敏感数据分布
查看敏感数据识别任务识别出的敏感数据。

七、营销应用系统对接

提供数据服务API服务,以支持对接其它系统。
为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务提供快速将数据表生成数据API的能力,同时支持现有的API快速注册到数据服务平台以统一管理和发布。
数据服务API提供以下定制流程:
添加审核人->创建发布API->审核API->添加授权->调用API
1、添加审核人
数据服务模块如果当前还未添加审核人,先添加审核人,以便在审核API时候指定审核人。
2、创建发布API
创建API之前,首先创建API目录,目录创建后再进行以下操作。
创建API功能提供基本配置、取数逻辑、测试功能。
①基本配置,如图

②取数逻辑

配置数据连接、数据库、表和队列,通过添加进入参数设置页面,此页面会提供添加参数与绑定参数等功能。

③测试

为创建后的API提供测试功能,如果测试成功,返还相应信息。

3、审核API
API测试通过后,可对API执行发布,发布后进入审核环节。

4、添加授权
通过用户手动建立应用,为该应用授权创建的API,为调用API步骤做基础准备;添加授权,完成授权后,可以进行API调试,并在测试页面输入参数的测试值,验证API是否正确。
5、调用API
数据服务提供APP认证方式,API调用者通过APP认证方式调用API,使用APP认证时,需要通过SDK访问。数据服务提供了基于Java、Python等多种语言的SDK包,以Java为例按照:下载SDK->导入工程->填写APPkey&APPSecret->运行流程进行。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_36632174/article/details/109858441

智能推荐

远程桌面服务器连接失败,Windows服务器远程桌面连接失败是什么原因-程序员宅基地

文章浏览阅读6.1k次。1、先通过显示器直接连接的方式连接到那台连接出错的服务器上。登陆以后,在桌面上的此电脑图标上面点右键,选择属性。2、然后在属性页面中我们可以看到对应的系统版本是Windows Server 2016。CPU是intel xeon型号,内存是16g。这个时候我们点击它左上角的远程设置。3、在远程设置界面,我们可以看到,它默认的设置是允许远程到这台服务器上,但是它下面勾选了”仅允许运行使用网络级别身份..._远程桌面服务无法加入服务器 win-th0hfpjn9vr 上的连接代理。 错误: 当前异步消息

ApacheCN 翻译活动进度公告 2019.6.15-程序员宅基地

文章浏览阅读109次。Special Sponsors我们组织了一个开源互助平台,方便开源组织和大 V 互相认识,互相帮助,整合资源。请回复这个帖子并注明组织/个人信息来申请加入。请回复这个帖子来推荐希望翻译的内容。如果大家遇到了做得不错的教程或翻译项目,也可以推荐给我们。我们会联系项目的维护者,一起把...

Python培训课程深圳,群年轻人正在追捧Python-程序员宅基地

文章浏览阅读182次。记者 | 伍洋宇 袁伟腾编辑 | 文姝琪1李楠打算年底换份新工作,Python方向的、纯软件岗位,发挥空间更大的全栈开发工程师就很不错,目标月薪一万二。这使得他在今年下半年开始系统学习Python。因为本科是计算机专业,期间也自学过Python这门语言,李楠选择了继续自学。学Python真的有用吗?“当然有用啦,没用谁去学它啊。”今年24岁、刚刚毕业一年的李楠这么说。目前他在一家智能硬件公司做嵌入式开发软件工程师,月薪一万,工作是“往硬件里面写软件”,他觉得太枯燥了。“代码都是写好的,基..

Ubuntu下安装R,升级R版本,安装Rstudio,安装Rstudio Server以及安装Shiny Server_marutter-ubuntu-rrutter-focal.list-程序员宅基地

文章浏览阅读2.9k次。一、安装R只需要一步命令:sudo apt-get install r-base二、升级R版本第一步给Ubuntu指定PPA:sudo add-apt-repository ppa:marutter/rrutter第二步:sudo apt-get update第三步:sudo apt-get upgrade三、安装Rstudio直接去Rstudio官网下载最新版的Rst..._marutter-ubuntu-rrutter-focal.list

Redis5.0集群搭建(Redis Cluster)_rediscluster搭建 5.0-程序员宅基地

文章浏览阅读9.1k次。Redis5.0集群搭建RedisCluster_rediscluster搭建 5.0

题目-java基础_面向过程的程序设计是把计算机程序视为一系列的命令集合-程序员宅基地

文章浏览阅读405次。多线程和单线程线程不是越多越好,假如你的业务逻辑全部是计算型的(CPU密集型),不涉及到IO,并且只有一个核心。那肯定一个线程最好,多一个线程就多一点线程切换的计算,CPU不能完完全全的把计算能力放在业务计算上面,线程越多就会造成CPU利用率(用在业务计算的时间/总的时间)下降。但是在WEB场景下,业务并不是CPU密集型任务,而是IO密集型的任务,一个线程是不合适,如果一个线程在等待数据时,把CPU的计算能力交给其他线程,这样也能充分的利用CPU资源。但是线程数量也要有个限度,一般线程数有一个公式:最佳启_面向过程的程序设计是把计算机程序视为一系列的命令集合

随便推点

储能8串电池用140W DCDC电路2 USB_A 2个 TYPE-C 2A2C_pl56002-程序员宅基地

文章浏览阅读78次。储能8串电池,输出是2个C口,2个USBA口,功率是C1:140W,C2:100W,A1:18W,A2:18W.A1,A2不降功率,使用IP2736,IP2723T,IP2163,_pl56002

python3.8.1手机版下载-Python官方下载|Python最新版 V3.8.1 -推背图下载站-程序员宅基地

文章浏览阅读2k次。Python最新版是一款功能强大脚本编程软件。Python最新版它可以帮助编程人员更加便捷的进行代码编写,适合完成各种高层任务,兼容所有的操作系统中使用,因为它的便捷性,在程序员中得到广泛的应用,新入门的编程学习者可以使用它快速学习,欢迎前来下载!功能特点1、简单易学Python极其容易上手,因为Python有极其简单的说明文档 。2、免费开源Python是FLOSS(自由/开放源码软件)之一。3..._手机版python官网下载

Unity3D学习之(坦克大战解析)-程序员宅基地

文章浏览阅读3.9k次。欢迎大家光临我的博客!对坦克大战项目的解析:一、游戏模块主要是:注册模块、登录模块、我方模块、和敌方模块。①注册模块:可以跳转到登录界面!②登录模块:可以跳转到游戏界面!③我方模块:可以前后左右移动,可以发射子弹,可以死亡销毁。④敌方模块:可以可以发射子弹,追踪我方的位置,也可以随机出现,可以死亡销毁。 二、所用到的技术①键盘事件 //敌我双方通过键盘上下左右键的移动②位移 ...

【linux】进程和线程的几种状态及状态切换_linux线程状态-程序员宅基地

文章浏览阅读3.6k次,点赞46次,收藏54次。进程和线程的状态_linux线程状态

Java/Mysql数据库+SSM+学生信息管理系统 11578(免费领源码)计算机毕业设计项目推荐上万套实战教程JAVA、PHP,node.js,C++、python、大屏可视化等-程序员宅基地

文章浏览阅读1.1k次,点赞22次,收藏20次。免费领取项目源码,请关注●点赞●收藏并私信博主,谢谢~本系统以实际运用为开发背景,通过系统管理员可以对所有的学生和教师等人员以及学生相关联的一些学生管理、分配任务、完成任务、打卡签到、师生交流等数据信息进行统一的管理,方便资料的保留。教师和学生可以通过注册,然后登录到系统当中,对分配任务、完成任务、打卡签到以及师生交流这些信息进行查询管理。总的来说,系统的前台是通过Java页面展示,后台使用SSM这个框架,数据库采用目前流行的开源关系型数据库MYSQL。

如何在群辉NAS系统下安装cpolar套件,并使用cpolar内网穿透?_在群晖nas安装cpolar套件-程序员宅基地

文章浏览阅读1.2k次,点赞39次,收藏34次。群晖作为大容量存储系统,既可以作为个人的私有存储设备,也可以放在小型企业中作为数据中心使用。其强大的数据存储和管理功能,让其还能够胜任更多任务。但由于群晖的应用场景所限,这些功能通常只能在局域网内实现,想要让群晖NAS存储的数据能在公网访问到,我们可以借助cpolar的辅助,轻松实现在公共互联网访问内网群晖NAS上的数据。在这之前,我们还是需要了解下cpolar的基本操作方式。_在群晖nas安装cpolar套件