2023-06-21 15:01:54 来源:DataFunTalk
导读 我们深知,企业需要一套完善的数据技术与工具,实现数据合规采集、存储、计算、建 设和管理,利用数据思维对业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形成企业特有的数据资产体系。
(资料图片仅供参考)
基于阿里巴巴内部的实践经验和成果,面向不同行业的实际业务场景Dataphin 应运而生,作为阿里巴巴统一方法论的工具化沉淀,Dataphin 希望能帮助企业探索更加复杂与多样的数据建设之路。
本次内容将以阿里巴巴数据治理的实践和统一数据治理方法论工具化沉淀的Dataphin为核心内容为大家详细介绍。
全文目录:
1. 数据建设的三个阶段
2. 大数据建设,不仅仅是研发效能的问题
3. 阿里巴巴数据治理关键举措
4. Dataphin智能数据建设与治理
分享嘉宾|梁超 瓴羊 高级产品专家
编辑整理|阿东同学 中国科学院大学
出品社区|DataFun
01
数据建设的三个阶段:从在线开发到平台构建到数据综合治理
从阿里自身的发展历程来看,数据建设可以分为以下三个阶段。
第一个阶段:在线开发。
在这个阶段更多是把所有数据搬上来,通过数据研发来满足基本业务需求和开发需求。数据规模相对不大,这一阶段的目标主要还是以响应需求为主。
第二阶段:数据平台构建与管理。
随着淘宝业务不断增长,对数据价值的诉求逐步加强,数据服务业务的场景也不断扩大。数据的多样性、数据处理的复杂度带来数据处理的作业呈现较大规模或较高水平的要求。这个时候就需要有一个数据平台来支撑数据仓库的开发。所以这一阶段的目标就是做数据平台的构建与管理,它对应的顶层和核心是要支持类似于生意参谋这样的面向于大量商家的应用。
第三阶段:数据综合治理。
随着阿里集团的业务版图越来越大,我们的业务数据也越来越多,只做一个数据平台管一类数据,已经完全不能满足需求了。数据服务业务输出持续增多,业务数据化运营意识逐渐成熟,对数据价值的期待也越来越高,这个阶段就需要数据综合治理 ,以数据资产为中心开展所有的数据工作,以业务可理解、便捷可消费及服务业务的资产化组织和管理方向。所以这个阶段需要有更匹配的产品,有更好的体系,以数据资产为核心来做数据中台的建设。
02
大数据建设,不仅仅是研发效能的问题
从阿里巴巴的业务角度来看,大数据的建设不单是研发效率的问题,不是只要有一个工具就能够提高研发的效率,而是需要有一套体系化、理论化的东西来支撑整个数据中台的建设,我们把它分成四个维度:
数据标准: 由于多形态业务发展迅猛,烟囱式开发及局部业务服务支撑,导致同名指标不同口径的问题频发;历史不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出。只有知道要做什么,明确每一种数据的口径表示,再着手业务和产品。 数据质量: 需要有一种工具能保障最终输出的数据是符合这个口径的。重复业务建设导致任务链冗长、任务数繁多,计算资源紧张,数据时效性不好;另外,口径梳理定义的文档与开发代码脱节,数据准确性保障风险高,所以要保证数据质量就是要纠正数据,如果数据口径不对,需要有处理机制来做纠偏。 需求响应: 烟囱式开发的开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满且技术无沉淀;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通。因为我们的数据工作还是要为业务服务,从业务的角度来看,没人不在意你使用什么工具,但是如果产品能够辅助提高需求响应的速度,那么将是一个非常有价值的事情。 成本资源: 在做数据建设的时候还需要考量成本。烟囱式开发容易造成资源重复性浪费;上线难下线更难,源系统或业务变更不能及时反映到数据上,而且由于数据不标准,研发维护难上加难,大量无用计算和存储造成资源浪费。不能为了把需求、标准、质量做得更全更快更好,就无限量地投入资源。在成本上也是需要去考量的,所以在数据治理的时候,需要综合这 4 个角度的指标来考察数据建设的成效。
03
阿里巴巴数据治理关键举措
将分散的数据集中管理,制定一套统一的管理标准,通过统一数据平台输出数据产品服务各个业务,整体从资源到资产进行转变。
1.工具+规范打造标准化采集
为支撑整个数据平台的建设,第一要务是打造标准。流量采集中,建立相应的日志埋点标准,将数据上传到日志采集中心,并通过各种采集工具、查看工具以及整套工具来管理和提升数据采集效率。同时,在埋点过程中,还需要制定相应规范并将其交予业务部门,这样业务同学才能看到相应埋点,并最终转换成实际数据。
2.闭环治理
在数据标准制定后,我们需要搭建整个数据治理的架构。这个架构分为多个部分,第一部分是内容治理。在这一方面,需要明确数据健康标准和数据治理对象,确定数据治理范围和相应的治理方案。而我们已经不再采取运动式或单点式的方案,转而采用产品化、体系化的方案,并出现了一些评估体系来帮助我们进行数据治理。
在阿里内部,我们根据每个人使用数据的情况给予健康分,当健康分低于标准时,就需要采取问责机制,让使用者推进自己的数据治理工作。而在存储、计算和价值产出方面,也需要建立完整的机制进行数据治理。
3.实战沉淀数据产品
经过多年实践,阿里巴巴提出的One Model数据模型已被行业广泛应用,该标准将整个数据中台分为三层,基础层又被称为ODS层,公共层或中间层则整合业务系统数据,并以主题方式组织,为顶层应用层提供数据服务。在应用层角度,数据会按照不同的业务方和应用场景组织。
经过多年的实践,我们总结出以下需要注意的要点:
首先,数据需要有系统化的组织。在数据建设初期,需要建立顶层框架,明确整个组织需要哪些数据,以及它们在哪些业务领域发挥作用。只有这样,我们才能精确地划分数据体系,进行合规采集、清洗和关联等工作。
其次,我们需要工具来有效地生产数据,高效的生产意味着避免重复生产并确保数据的质量。在这个过程中,技术人员需要积累经验并进行沉淀,技术本身应有沉淀。
第三,我们拥有完善的数据体系后,要向各个业务和应用场景提供便利的数据服务。目前已经形成了独具特色的大数据产品能力。也就是说,今天我们不仅要谈论平台和方法,我们需要将这些东西集成到一个产品中,集中于一个平台上,以承载整个实践过的最佳方法论,我们把它称为“One Data”。
现在One Data方法论已产品化,即智能数据建设与治理Dataphin。
04
Dataphin智能数据建设与治理
Dataphin平台的数据架构分为四个方面,包括数据采集、数据构建、数据管理和数据使用。
首先,Dataphin的数据集成能力,将各个业务系统数据收集到统一数据平台,并提供数据构建能力,包括数据组织规划、定义、开发和标签提取。此过程中,还有很多辅助工具,如任务调度、运维和发布管理。
完成数据构建后,就需要数据管理能力,包括数据标准、质量、安全和资源消耗管理。为了确保数据能够被消费者使用,Dataphin还提供数据资产运营能力,如数据资产目录服务、数据资产上架服务、服务监控以及在线查询服务和API服务。
最后是数据消费能力,Dataphin可以与各个业务系统交互,同时也可以提供给Quick BI等报表展示工具和CDP引擎等广告投放和营销服务。
1.Dataphin 的核心的能力
Dataphin 的核心的能力主要是分成以下几块:
(1)数据引入:全域数据可集成
Dataphin支持像Oracle、SAP等的HandleFTP,包括许多API方式来接入这些数据。同时,在数据导入过程中,我们可以轻松清洗和转换数据,并将其输出到数据中心,同时还能够将处理好的数据提供给外部用户以更好地服务。
(2)数据规范定义:100% 消除二义性
数据规范定义是One Model最核心的规范之一。规范由阿里巴巴首创,很多数据平台也在使用。规范会将数据在宏观层面上分为数据板块、主题域、业务实体、业务活动和业务对象。首先对数据板块进行划分,然后在板块下进行主题域的划分,再对主题域下的业务实体进行分析。
业务实体分为两种类型。完成概念模型后,我们就会得到逻辑模型,在这个模型中,我们会识别每一个实体的属性,并将其形成概念模型。
举个例子,我们业务对象中的“客户”,客户会有姓名、年龄等属性。当我们列出实体的所有属性时,这些内容就构成了我们的逻辑模型,或者是逻辑表。在逻辑表上,我们可以定义原子指标业务限定。
原子指标指的是最小的、无法拆分的统计算子,例如销售金额、支付金额等。业务限定是为了确定范围,例如男性销售金额、大额销售金额等。这两者都是定义在逻辑模型之上的。派生指标是指我们分析指标时所使用的,具有业务意义的指标。所有指标都可以拆分成四个基本部分,第一个是时间周期,例如最近30天的买家在无线端的预付金额就是一个有业务意义的指标。
Dataphin能够判断每个原子指标和业务线的定义是否与现有的定义重复,确保消除二义性。通过将所有内容拆分成最小的粒度,可以帮助用户更好地理解和组织其数据建设体系,以及规范模型的建设。
(3)设计即开发:保障数据模型与代码的一致性
① 分钟级自动化代码生成
当用户定义完成原子指标和业务限定后,需在界面上选择统计周期、统计粒度和原子指标,并确认业务限定。系统会自动为用户生成该指标的计算代码,用户无需干预,只需站在业务角度选择所需指标。系统即可完成所有后台代码生成,实现设计即开发。
② 标签萃取更需要快速简单融入业务经验
除了进行模型和标准建设,我们还面向业务开发标签等服务。目前,以 RTC 为例,主要应用场景是在营销领域。为了为客户提供更完整的营销方案,我们会将 Dataphin 和Quick Audience两个产品进行整合。
Dataphin将行为偏好标签、行为统计标签和静态属性标签整合在一个标签平台中进行管理。同时,我们也与外部CDP平台进行打通,包括我们内部的Quick Audience平台,以便将这些数据推送给CDP平台,从而进行广告投放和其他营销活动。
2.数据资产管理:标准、质量、安全、资源
然后除了这个模型的建设以及标签的建设之外, Dataphin还提供了一个叫做资产的管理,我们资产的管理是叫做 360°全链路的数据洞察和管理。
首先,Dataphin提供的能力之一是数据标准化。我们可以接入国家标准、行业标准以及企业自定义的标准,并提供标准管理、类目维护、码表和词根等通用标准的能力。
第二,根据标准或用户自定义来定义一些质量规则。对于数据表,我们可以设置字段空值校验、唯一值校验、波动性监测和字段比对等多种质量规则。
同时,Dataphin还具备数据安全能力,包括数据分类分级、脱敏和加密,并可提供可信的数据交换和交易。
最后,数据治理功能可以控制计算、存储资源消耗和成本,帮助用户更好地管理和治理数据资产。
3.主题式服务
除了数据采集和管理工具之外,我们还提供面向数据消费者的主题化服务。这项服务不仅支持通过搜索方式进行查询,还提供API及与其他工具的集成支持,让用户可以更加方便地利用我们的数据资源。由于我们并非完全基于物理表,而是拥有自己的数据模型,因此用户不再需要直接查询物理表、了解其表结构以及表与表之间的关联,仅需在逻辑模型上使用数据即可。
如某知名零售品牌企业,通过Dataphin进行系统化建设、规划数据方案,设计包括会员、商品交易和营销相关的零售板块用户主题,集成企业的营销、财务、CRM和ERP数据系统,通过提取,处理接近200TB数据,建立企业统一的用户数据平台,支持采购、供应链、运营和营销优化。
除了零售行业,Dataphin在工业制造、金融、传媒、地产、互联网等各领域都有深度应用。
更多Dataphin能力介绍及企业应用实践可查看白皮书《构建企业级“好数据”,Dataphin智能数据建设与治理》
产品了解 :
标签:
- 电信诈骗致2万余人受骗 26名涉案被告人在长春受审
- 内蒙古扎赉诺尔区除提供主副食品商店和药店外 其余暂时停业
- 黄埔海关破获案值5.2亿元走私进口木材案
- 四川省纪委监委曝光6起工程招投标领域突出问题系统治理典型案例
- 内蒙古满洲里新增本土确诊病例8例
知识
- 他把银行卡卖给骗子,“黑吃黑”“截胡”十万元
- “老司机”4S店试驾豪车 结果油门当刹车撞了
- 新开工改造城镇老旧小区5.34万个
- 发动巡河志愿者2万余名 “用心护好每一条河”
- 假客服的套路:伪装成大平台客服,层层布局引人上钩
人物
- 从阿里巴巴数据治理到瓴羊Dataphin
- 全球新资讯:矫正牙齿价格大概多少_矫正牙齿的价格一般是多少
- 广西壮族自治区来宾市2023-06-16 15:21发布雷电黄色预警
- 花旗坚定站在空头阵营 警告标普500指数突破4400后已无上涨空间
- 女足vs赞比亚直播(女足vs赞比亚直播赢了吗|全球聚焦
- 这是阿斯顿·马丁首款SUV面世的时候
- 双手铐在背后(反拧双手戴背铐女犯)_当前关注
- we_clg.eu第三场什么时候相关介绍简介
- 全国铁路7月1日起实行新的列车运行图
- 前沿热点:三和管桩(003037):6月20日北向资金减持10.59万股
- 小企业oa系统_中小企业oa管理软件|世界新消息
- 年销目标20万台,1-5月累计销量仅3.2万余辆,深蓝S7不容有失-世界聚焦
- 智光电气:与广州公共交通集团签署战略合作框架协议
- 通城县金山村这支驻村工作队,用陪伴温暖留守儿童上学路
- 环球信息:网络贷款常见的套路有哪些呢?主要有这些套路!
- 雄安干渠工程今天正式开工建设 将作为雄安新区主要供水水源
- 【环球播资讯】《闪电侠》:认命也没关系
- 通灵股份涨14.47%
- 一生所爱普通话版歌词_歌曲一生所爱歌词
- 【全球时快讯】盖茨基金会承诺未来五年向GHDDI提供5000万美元捐赠
- 中原按揭:香港年内按息将维持在3.5%左右
- 今日要闻!上海:支持科技型企业上市
- 追星成功!苏醒晒与梅西合影 表情乖巧似小迷弟
- 异动快报:钧达股份(002865)6月15日13点9分触及涨停板|播报
- 06月14日芝加哥商业交易所(CME)WTI原油、布伦特原油、天然气成交量及未平仓数据
- 太原地铁1号线学府街东口站至中心街东站盾构区间全面贯通
- 环球快报:2023年熊猫金币5枚套装价目表(2023年06月15日)
- 热文:新辽篮迎来小考,哈德森回归首秀PK汤杰,他能给年轻人上一课吗?
- 羽绒服长霉斑怎么处理_羽绒长霉斑怎么洗掉 羽绒长霉斑如何洗掉
- 祝虎(关于祝虎介绍)
- 最新消息:赛伍技术:6月14日融券卖出2900股,融资融券余额2.68亿元
- 穆帅爱将让位,24岁前锋救火!意甲洗牌,国米3喜临门,尤文悲剧|世界信息
- 校园 女扮男装 现代校园女扮男装小说大全 世界焦点
- 市场重现万亿成交,TMT行业贡献近四成,多只基金净值涨超5%_天天简讯
- 杭州亚运会火种采集地,为什么选这里?_全球今亮点
- 【世界时快讯】今后2年,四大生肖好运不断,越努力越幸运,心里最善良
- 第一个登上月球的人是谁_登月时间是什么-环球速看
- 棉花的特点和作用是什么_棉花的特点和作用介绍
- 苏醒回击身高质疑:合影时弯腰屈膝!能见梅西说我1米55都不介意
- 关爱残疾儿童 用心点亮未来|报道
- 天天热推荐:招商网银大众版_招行网银大众版
- 激素6项结果怎么看_性激素六项正常值
- 搭建企业互动交流平台 优化提升磨憨营商环境
- 热推荐:浙江男子中5976万彩票大奖,领奖时手一直哆嗦
- 地板漆品牌_地板漆种类
- 头狼:黄金凌晨1942开始多,一路加仓多,全部抵达1953 天天快消息
- 热点!新团宠!《变形金刚7》曝片段 社牛幻影妙语连珠
- 加油能在车里玩手机吗(加油站不能使用手机的原因)
- 一面锦旗、一份肯定,他们用心用情托起幸福“夕阳红”
- 高三学生晚餐吃什么补脑抗疲劳?|世界信息
精彩阅读
- 硅业分会:本周硅料市场继续扩大跌幅 基本跌至成本线附近
- 焦点速读:风电紧固件细分市场龙头,首批“小巨人”飞沃科技登陆创业板
- mj是谁指的什么_mj是谁
- 刚刚,央行突然降息,是救楼市信号吗?高盛再次预测中国房地产 天天热点
- 环球快报:广州博士人才入户什么时候申请?
- 广州博士学历入户社保需要多久? 热点评
- 全球速讯:自制手机壁纸软件_自制手机壁纸
- 为了鹰潭林业的可持续发展 ——记全国林草系统先进工作者胡斌
- 为数字创新插上智慧翅膀中国电信北海分公司罗世钦劳模创新工作室探访记
- 世界新资讯:山东:构建工业“云”体系 实现数实深度融合
- 前5月水利建设完成投资同比增长32.1%(新数据 新看点)-每日热闻
- 华洋赛车过会:今年IPO过关第146家 光大证券过3单 最新资讯
- 世界简讯:明天,北方高温范围将达到近期最大
- 长春以工业发展带动经济全面振兴
- 营销梅西 遥望科技“消化”困局 全球最新
- 全球时讯:手机软件:酷狗音乐app如何设置在通知栏显示歌词?
- 当前关注:csol控制台重置_csol控制台
- 中级职称评定论文要求是什么
- 网络摄像头安装图解(网络摄像头安装)
- 前列腺治疗仪哪款好 最好的前列腺治疗仪-消息
- 全球微头条丨游戏掌机新标杆 ROG掌机国行4999元现货发售
- 梅西对话体坛:原则上不会参加下一次世界杯
- 当严重违规行为扣分达到什么样的程度时可以申诉-当严重违规行为扣分达到什么样的程度时 全球今日讯
- 四部门部署2023年降成本重点工作
- 每日关注!游民专访巧舟:《幽灵诡计》的复活离不开粉丝支持
- 教育思想的经典语录_教育思想
- “珍爱生命,远离毒品”党建联建凝聚力量 打赢禁毒人民战争
- 莫斯科郊外的晚上歌词俄语谐音_莫斯科郊外的晚上歌词 世界最新
- 春兴精工:2023年一季度净利同比减142.44% 公司新能源汽车项目正处开发、投入阶段导致相关成本增加
- 【瞰全球】得不偿失、失道寡助!美国对华“科技战”只会最终伤及自身|百事通
- 国家能源局开展分布式光伏接入电网承载力及提升措施评估试点工作
- 矿场直发,一手坑口价,35吨起发!全网唯一煤炭直播?超1500人在线观看,网友:“包邮吗?”
- 最新:发动机缺机油会损坏哪里(发动机缺机油后果是什么)
- 当前视点!成都大运会火炬塔什么时候点燃?
- IPO研究丨我国生物质发电装机连续三年位居全球首位
- 焦点速看:恭喜!掘金总冠军!夺冠后,约老师终于说出了这句话…
- 回浦中学男篮背后的杭大故事-世界视讯
- 誓死不退!我们该如何评价2022-23赛季的热火? 天天观点
- 全球资讯:文化和旅游部开展文旅市场信用经济发展试点工作
- 焦点短讯!秘鲁精品文物在陕历博展出
- 世界滚动:吴京杰森斯坦森探珍馐 地道餐桌共话巨齿鲨
- 官方回应97年女生拟提名副镇长 基本信息讲解
- 信达证券(601059):信达证券股份有限公司2023年面向专业投资者公开发行短期公司债券(第二期)上市|观速讯
- 用“工业锅”炒好预制大菜
- 多井隆晴 《多井热》 第十二章
- 多方反对日本核污染水排海 数千名韩国渔民举行集会 全球快资讯
- 环球实时:郑州出台措施促科技成果加速“变现” 最高奖励千万元
- 做个牌匾多少钱_价钱牌
- 全球短讯!火法炼铜的原理_火法炼铜
- 神符图_神符_播报
