【提綱】
一、初識(shí)數(shù)據(jù)產(chǎn)品經(jīng)理? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 二、數(shù)據(jù)產(chǎn)品經(jīng)理基礎(chǔ)知識(shí)
三泪姨、數(shù)據(jù)分析思維? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 四、數(shù)據(jù)倉(cāng)庫(kù)理論與應(yīng)用
五饰抒、大數(shù)據(jù)分析平臺(tái)實(shí)戰(zhàn)? ? ? ? ? ? ? ? ? ? ? ? ? 六肮砾、用戶(hù)行為分析平臺(tái)實(shí)戰(zhàn)
七、ABTest平臺(tái)構(gòu)建? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 八袋坑、各領(lǐng)域中應(yīng)用
【第一章】初識(shí)數(shù)據(jù)產(chǎn)品經(jīng)理
一仗处、Why?行業(yè)現(xiàn)狀
二枣宫、日常工作:從業(yè)務(wù)出發(fā)婆誓;產(chǎn)品原型與需求文檔;與研發(fā)工程師做朋友也颤;多喝用戶(hù)聊聊
三洋幻、思維方式:歸納與演繹思維;數(shù)據(jù)思維歇拆;用戶(hù)思維鞋屈;產(chǎn)品思維;工程思維故觅;5W2H厂庇,SMART,TodoList
【第二章】數(shù)據(jù)產(chǎn)品經(jīng)理基礎(chǔ)知識(shí)
一输吏、常用工具:Excel权旷、SQL、R贯溅、Axure拄氯、Visio
二、產(chǎn)品需求管理:需求來(lái)源與需求判斷它浅、需求池管理译柏、需求跟進(jìn)與需求落地
三、軟實(shí)力:快速成長(zhǎng)能力姐霍、溝通表達(dá)能力鄙麦、推動(dòng)項(xiàng)目能力、數(shù)據(jù)感知能力
【第三章】數(shù)據(jù)分析思維與實(shí)戰(zhàn)
一镊折、數(shù)據(jù)產(chǎn)品VS數(shù)據(jù)分析:崗位職責(zé)胯府、具備素質(zhì)
1、數(shù)據(jù)產(chǎn)品:規(guī)劃并定義適合公司業(yè)務(wù)發(fā)展的數(shù)據(jù)產(chǎn)品恨胚;產(chǎn)品經(jīng)理通用能力骂因;數(shù)據(jù)分析能力
2、數(shù)據(jù)分析:數(shù)據(jù)敏感與數(shù)據(jù)分析方法赃泡;常用分析工具寒波;對(duì)業(yè)務(wù)和產(chǎn)品要有深刻理解
二、常用分析方法:常規(guī)分析升熊、統(tǒng)計(jì)模型分析影所、自建模型分析
【第四章】數(shù)據(jù)倉(cāng)庫(kù)理論與應(yīng)用
一、Hadoop
1僚碎、三駕馬車(chē):HDFS(解決存儲(chǔ)問(wèn)題)猴娩、MapReduce(高效處理數(shù)據(jù))、HBase
(1)流行的兩大數(shù)據(jù)處理框架:Hadoop勺阐、Spark卷中。兩者關(guān)系:既合作補(bǔ)充,又存在競(jìng)
(2)幾個(gè)基礎(chǔ)工具了解:
? ? ? ? A:Spark:開(kāi)源的集群計(jì)算環(huán)境渊抽。啟用了內(nèi)存分布數(shù)據(jù)集蟆豫,在處理某些工作負(fù)載方面表現(xiàn)更優(yōu)越,交互更友好
? ? ? ? B:Kafka:高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)懒闷,可處理各大網(wǎng)站十减、APP中用戶(hù)的動(dòng)作流數(shù)據(jù)栈幸。Kafka集群上的消息是有時(shí)效性的,可以對(duì)發(fā)布上來(lái)的消息設(shè)置一個(gè)過(guò)期時(shí)間帮辟,不管有沒(méi)有被消費(fèi)速址,超過(guò)過(guò)期時(shí)間的消息都會(huì)被清空。
? ? ? ? C:Storm:主要應(yīng)用于分布式數(shù)據(jù)處理由驹,包括實(shí)時(shí)分析芍锚、在線(xiàn)機(jī)器學(xué)習(xí)、信息流處理蔓榄、連續(xù)性計(jì)算并炮、ETL。Storm還可應(yīng)用于實(shí)時(shí)處理甥郑,被稱(chēng)為實(shí)時(shí)版的Hadoop
? ? ? ? D:HBase:是一個(gè)構(gòu)建于HDFS上的分布式逃魄、面向列的存儲(chǔ)系統(tǒng)。以key-value對(duì)的方式存儲(chǔ)數(shù)據(jù)并對(duì)存取操作做優(yōu)化澜搅,能飛快根據(jù)key獲取綁定的數(shù)據(jù)
? ? ? ? E:HUE:是Cloudera的大數(shù)據(jù)web可視化工具嗅钻,主要用來(lái)簡(jiǎn)化用戶(hù)和hadoop集群的交互〉暾梗可在web頁(yè)面把數(shù)據(jù)從HDFS等系統(tǒng)導(dǎo)入hive中养篓,可直接通過(guò)HUE以HiveSQL的方式對(duì)數(shù)據(jù)查詢(xún)展現(xiàn)
? ? ? ? F:Oozie:工作流調(diào)度系統(tǒng),統(tǒng)一管理工作流的調(diào)度順序赂蕴、安排任務(wù)的執(zhí)行時(shí)間等柳弄,用來(lái)管理Hadoop任務(wù)。Oozie集成了Hadoop的MapReduce概说、Pig碧注、Hive等協(xié)議以及Java、Shell腳本等任務(wù)糖赔,底層仍然是一個(gè)MapReduce程序
? ? ? G:ZooKeeper:是Hadoop和HBase的重要組件萍丐,是一個(gè)分布式開(kāi)放的應(yīng)用程序協(xié)調(diào)服務(wù),主要為應(yīng)用提供配置維護(hù)放典、域名服務(wù)逝变、分布式同步、組服務(wù)等一致性服務(wù)
? ? ? H:YARN:保證工具有序地運(yùn)行在同一個(gè)集群上奋构,需要一個(gè)調(diào)度系統(tǒng)進(jìn)行協(xié)調(diào)指揮
二壳影、大數(shù)據(jù)平臺(tái)層級(jí)結(jié)構(gòu)
1、原始數(shù)據(jù)層(ODS層):當(dāng)前的弥臼、不斷變化的數(shù)據(jù)宴咧。ODS層按分鐘級(jí)別捕捉 生產(chǎn)系統(tǒng)的數(shù)據(jù)變化,然后每天將歸檔后的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中径缅,歸檔的標(biāo)記為這條記錄是否已完成掺栅。ODS層的作用:
? (1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間形成一個(gè)隔離層
? (2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢(xún)的功能
? (3)完成數(shù)據(jù)倉(cāng)庫(kù)中不能完成的一些功能
2烙肺、數(shù)據(jù)倉(cāng)庫(kù)層:保留歷史的、不再變化的數(shù)據(jù)氧卧,所以一半會(huì)落后ODS層一天活一天以上的數(shù)據(jù)桃笙。DW本身不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何數(shù)據(jù)假抄,數(shù)據(jù)來(lái)源于外部、并開(kāi)放給外部應(yīng)用丽猬。
? (1)特點(diǎn):面向主題的宿饱;集成的;不可更新的
? (2)滿(mǎn)足要求:效率足夠高脚祟;數(shù)據(jù)質(zhì)量谬以;可擴(kuò)展性
? (3)主要分層:基礎(chǔ)層、主題層由桌、數(shù)據(jù)集市層
? ? ? ? ? ? A:基礎(chǔ)層:輕度匯總为黎,產(chǎn)出輕度匯總明細(xì)、維度表行您、碼表铭乾、事實(shí)集等
? ? ? ? ? ? ? ? ? 建模層次劃分:業(yè)務(wù)模型 -> 領(lǐng)域模型 -> 邏輯模型 -> 物理模型
? ? ? ? ? ? B:主題層:高度聚合層(按照一定維度和業(yè)務(wù)邏輯),不存在明細(xì)數(shù)據(jù)了
? ? ? ? ? ? C:數(shù)據(jù)集市層:將基礎(chǔ)層娃循、主題層的數(shù)據(jù) 按各業(yè)務(wù)需求進(jìn)行聚合炕檩,生成寬表和Cube,直接推送給數(shù)據(jù)分析師和業(yè)務(wù)部門(mén)使用捌斧。結(jié)構(gòu):星型笛质、雪花。
三捞蚂、數(shù)據(jù)埋點(diǎn)
1妇押、埋點(diǎn)方式
? ? (1)有代碼埋點(diǎn)、可視化埋點(diǎn)姓迅、無(wú)埋點(diǎn)
? ? (2)客戶(hù)端前端埋點(diǎn)(全面敲霍、記錄不需要請(qǐng)求服務(wù)器的操作行為)、服務(wù)器后端埋點(diǎn)(實(shí)時(shí)丁存、準(zhǔn)確色冀,用戶(hù)需要請(qǐng)求服務(wù)器關(guān)鍵業(yè)務(wù)最好使用該方式。eg:在線(xiàn)播放柱嫌、游戲安裝etc)
2锋恬、埋點(diǎn)事件
? ? (1)類(lèi)型:點(diǎn)擊事件、曝光事件编丘、頁(yè)面停留時(shí)長(zhǎng)
四与学、指標(biāo)字典
1彤悔、概念
2、指標(biāo)定義的規(guī)范
五索守、數(shù)據(jù)管理系統(tǒng)
1晕窑、數(shù)據(jù)質(zhì)量的重要性
2、數(shù)據(jù)管理系統(tǒng)的質(zhì)量檢測(cè)
(1)失效性檢查
? ? ? ? ? A:當(dāng)天MySQL表和Hive表中的核心指標(biāo)是何時(shí)生成的卵佛?
? ? ? ? ? B:有哪些表的產(chǎn)出時(shí)間比預(yù)期時(shí)間延遲了杨赤?
? ? ? ? ? C:任務(wù)延遲的原因是由哪幾張表造成的?
? ? ? ? ? D:瓶頸在哪里截汪??jī)?yōu)化哪幾層疾牲?哪幾張表可以提高核心指標(biāo)等的生成時(shí)間?
(2)一致性檢查
? ? ? ? ? Step1:建立數(shù)據(jù)依賴(lài)引擎衙解,實(shí)現(xiàn)依賴(lài)圖譜
? ? ? ? ? Step2:計(jì)算數(shù)據(jù)準(zhǔn)備情況
? ? ? ? ? Step3:建立數(shù)據(jù)計(jì)算引擎
? ? ? ? ? Step4:建立數(shù)據(jù)比較引擎
3阳柔、數(shù)據(jù)管理系統(tǒng)的功能:數(shù)據(jù)流管理、任務(wù)管理蚓峦、數(shù)據(jù)管理