電商數(shù)據(jù)分析與可視化
電商離線數(shù)據(jù)倉(cāng)庫(kù)
基于ODPS離線數(shù)據(jù)倉(cāng)庫(kù)
云學(xué)習(xí)平臺(tái)用戶畫像(三選一)
電商平臺(tái)自研項(xiàng)目(三選一)
問(wèn)答大數(shù)據(jù)平臺(tái)
企業(yè)級(jí)工程推薦系統(tǒng)
電商數(shù)據(jù)分析與可視化
數(shù)據(jù)BI與可視化項(xiàng)目是大數(shù)據(jù)典型的應(yīng)用之一,也是大數(shù)據(jù)中非常重要的項(xiàng)目,本項(xiàng)目主要使用:Kettle、MySQL和FineBI等相關(guān)技術(shù)構(gòu)建,對(duì)數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)加工好的數(shù)據(jù)進(jìn)行報(bào)表展示、趨勢(shì)研判和數(shù)據(jù)大屏展示等,為企業(yè)高層決策提供支持。
技術(shù)架構(gòu)
Kettle+MySQL+FineBI+FineReport
項(xiàng)目職責(zé)
1.商數(shù)據(jù)報(bào)表和看板需求分析
2.電商數(shù)據(jù)庫(kù)連接,使用Kettle進(jìn)行數(shù)據(jù)ETL加工處理
3.對(duì)用戶和訂單等主題域的數(shù)據(jù)進(jìn)行報(bào)表和看板制作
4. 全國(guó)地圖圖表數(shù)據(jù)加工和數(shù)據(jù)綁定
5.電商的復(fù)購(gòu)分析、RFM和留存等常見(jiàn)模型分析開發(fā)
6.可視化看板域報(bào)表的權(quán)限配置、分享和發(fā)布
電商離線數(shù)據(jù)倉(cāng)庫(kù)
離線數(shù)據(jù)倉(cāng)庫(kù)是大數(shù)據(jù)中的一個(gè)基礎(chǔ)性項(xiàng)目,幾乎有數(shù)據(jù)的企業(yè)都需要的一個(gè)項(xiàng)目。離線數(shù)倉(cāng)有很多實(shí)現(xiàn)方式,項(xiàng)目主要基于:DataX、Hadoop、Flume、Hive、Spark、DolphinScheudler、Python、Shell等技術(shù)搭建。整個(gè)項(xiàng)目包括商城數(shù)據(jù)同步、數(shù)倉(cāng)分層、數(shù)據(jù)清洗、數(shù)據(jù)ETL和數(shù)據(jù)可視化應(yīng)用等。
技術(shù)架構(gòu)
MySQL+Hadoop+DataX+Flume+Hive+Spark+DolphinScheudler+Python+Shell+Superset等
項(xiàng)目職責(zé)
1.基于電商的業(yè)務(wù)數(shù)據(jù)需求分析和指標(biāo)體系建立
2.原始數(shù)據(jù)(業(yè)務(wù)數(shù)據(jù)和日志數(shù)據(jù))探索
3.用戶、商品、訂單、訂單詳情、訂單支付、收獲地址、供應(yīng)商、時(shí)間維度、地區(qū)維度等相關(guān)業(yè)務(wù)數(shù)據(jù)全量和增量同步
4.業(yè)務(wù)數(shù)據(jù)同步任務(wù)開發(fā)、上線、測(cè)試及數(shù)據(jù)同步問(wèn)題的數(shù)據(jù)補(bǔ)跑
5.用戶瀏覽、點(diǎn)擊、交互、啟動(dòng)、安裝、滑動(dòng)、輸入和搜索等相關(guān)行為數(shù)據(jù)采集和任務(wù)上線運(yùn)行
6.廣告投放外部數(shù)據(jù)采集和任務(wù)上線運(yùn)行
7.用戶、訂單、交易、營(yíng)銷等主題的DWD、DWS和ADS層開發(fā)
8.維度層數(shù)據(jù)加工與開發(fā)處理
9.ADS層數(shù)據(jù)導(dǎo)出到MySQL,配置相關(guān)任務(wù),上線運(yùn)行
10.使用Superset BI可視化工具實(shí)現(xiàn)各個(gè)主題報(bào)表配置、看板配置與看板發(fā)布
基于ODPS離線數(shù)據(jù)倉(cāng)庫(kù)
當(dāng)前,一站式商業(yè)大數(shù)據(jù)服務(wù)繁多,ODPS采用抽象的作業(yè)處理框架將不同場(chǎng)景的各種計(jì)算任務(wù)統(tǒng)一在同一個(gè)平臺(tái)之上,共享安全、存儲(chǔ)、數(shù)據(jù)管理和資源調(diào)度,將不同用戶需求的各種數(shù)據(jù)處理任務(wù)提供統(tǒng)一的編程接口和界面;贠DPS的電商大數(shù)據(jù)是將電商相關(guān)用戶、訂單、交易、營(yíng)銷、商品、店鋪和活動(dòng)等業(yè)務(wù)數(shù)據(jù)和用戶行為數(shù)據(jù)進(jìn)行集成、轉(zhuǎn)換和分析等處理,最終使用QuickBI進(jìn)行BI報(bào)表展示和挖掘其它價(jià)值,輔助運(yùn)營(yíng),實(shí)現(xiàn)商城健康發(fā)展。
技術(shù)架構(gòu)
ECS、RDS、DataHub、MaxCompute、DataWorks、QuickBI
項(xiàng)目職責(zé)
1 部署一站式ODPS大數(shù)據(jù)環(huán)境
2 探索商城多種C端、B端和物流端等業(yè)務(wù)與數(shù)據(jù),梳理相關(guān)業(yè)務(wù)指標(biāo)體系
3 ODS層建立對(duì)應(yīng)模型,應(yīng)用ODPS的數(shù)據(jù)集成模塊,將業(yè)務(wù)數(shù)據(jù)同步至ODS層
4 DWD和DIM層數(shù)據(jù)建模,將ODS層數(shù)據(jù)加工處理到DWD和DIM層
5 構(gòu)建DWS層用戶行為、商品、購(gòu)物車和訂單等寬表模型,并將DWD層數(shù)據(jù)加工到對(duì)應(yīng)的寬表
6 ADS面向應(yīng)用構(gòu)建需求模型,將DWS層的數(shù)據(jù)再次加工到ADS層各個(gè)表中
7 使用QuickBI制作數(shù)據(jù)報(bào)表與可視化看板操作
8 數(shù)據(jù)質(zhì)量監(jiān)控開發(fā)和數(shù)據(jù)權(quán)限控制設(shè)置
云學(xué)習(xí)平臺(tái)用戶畫像(三選一)
學(xué)習(xí)平臺(tái)用戶畫像是基于學(xué)習(xí)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)之上的項(xiàng)目,即需要先搭建學(xué)習(xí)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù),然后基于數(shù)據(jù)倉(cāng)庫(kù),再擴(kuò)展用戶、課程等畫像標(biāo)簽體系。本項(xiàng)目使用
Hadoop、Hive、Spark、DolphinScheudler、Hue 等技術(shù)構(gòu)建,主要解決畫像標(biāo)簽計(jì)算,實(shí)現(xiàn)標(biāo)簽設(shè)計(jì)、人群定位和用戶精細(xì)化運(yùn)營(yíng)等。
技術(shù)架構(gòu)
Hadoop、Hive、Spark、DolphinScheudler、Hue、Shell
項(xiàng)目職責(zé)
1 用戶和課程標(biāo)簽體系建設(shè)
2 ID-Mapping打通
3 用戶基礎(chǔ)標(biāo)簽與聚合標(biāo)簽?zāi)P蜆?gòu)建與加工
4 物品基礎(chǔ)標(biāo)簽與聚合標(biāo)簽的模型構(gòu)建與加工等
5 畫像標(biāo)簽落盤與維護(hù)
6 畫像標(biāo)簽的應(yīng)用與服務(wù)
電商平臺(tái)自研項(xiàng)目(三選一)
隨著互聯(lián)網(wǎng)發(fā)展,電商累積了訂單、用戶、流量等各類數(shù)據(jù),但數(shù)據(jù)分散在各個(gè)業(yè)務(wù)系統(tǒng)中,隨著業(yè)務(wù)發(fā)展,新主題模型不斷產(chǎn)生,數(shù)據(jù)量不斷增加,如何管理各類主題模型以及海量數(shù)據(jù),需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行科學(xué)架構(gòu)。另外,數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵和基礎(chǔ),良好的數(shù)倉(cāng)結(jié)構(gòu)能夠幫助用戶快速理解現(xiàn)有數(shù)據(jù)能力,并且在當(dāng)前信息基礎(chǔ)上,對(duì)未來(lái)企業(yè)狀況做出預(yù)測(cè)。
技術(shù)架構(gòu)
MySQL、Kafka、Hadoop、Hive、Spark、ClickHouse、Superset、Hue、DolphinScheduler 或采用阿里云大數(shù)據(jù)服務(wù)
項(xiàng)目職責(zé)
1 電商業(yè)務(wù)需求討論與評(píng)審
2 業(yè)務(wù)評(píng)審、架構(gòu)評(píng)審和技術(shù)評(píng)審
3 電商相關(guān)指標(biāo)體系,用戶、訂單、交易和商品等主題劃分
4 相關(guān)類別、地域和品牌等維度層數(shù)據(jù)加工,數(shù)據(jù)倉(cāng)庫(kù)各層模型構(gòu)建
5 電商業(yè)務(wù)數(shù)據(jù)同步和指標(biāo)計(jì)算的任務(wù)排期、任務(wù)測(cè)試與上線部署
6 使用BI工具進(jìn)行主題數(shù)據(jù)報(bào)表和看板制作與發(fā)布
7 企業(yè)級(jí)大屏數(shù)據(jù)抽取、加工、推送、露出全流程數(shù)據(jù)加工流轉(zhuǎn)方式
問(wèn)答大數(shù)據(jù)平臺(tái)
問(wèn)答系統(tǒng)近些年發(fā)展迅猛,尤其最近ChatGPT類及似產(chǎn)品流行,這將會(huì)積累海量問(wèn)、答和互動(dòng)數(shù)據(jù),需要運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)加工、處理和分析,從而回饋用戶更佳的答案,保持問(wèn)和答等核心模塊健康良好發(fā)展。
技術(shù)架構(gòu)
MySQL、Kafka、Hadoop、Hive、Spark、ClickHouse、SuperSet、Hue、DolphinScheduler 等
項(xiàng)目職責(zé)
1 問(wèn)答系統(tǒng)業(yè)務(wù)需求討論與評(píng)審
2 問(wèn)答系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)構(gòu)建
3 問(wèn)答系統(tǒng)相關(guān)指標(biāo)體系,用戶、問(wèn)答和互動(dòng)等主題劃分及各層模型建設(shè)
4 業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù)的同步與采集
5 用戶、問(wèn)答、互動(dòng)和行為相關(guān)指標(biāo)的計(jì)算
6 使用可視化工具對(duì)相關(guān)指標(biāo)和數(shù)據(jù)進(jìn)行展示
7 相關(guān)任務(wù)調(diào)度與上線配置
推薦系統(tǒng)企業(yè)工程實(shí)戰(zhàn)項(xiàng)目作為大數(shù)據(jù)基礎(chǔ)應(yīng)用的延伸,構(gòu)建于用戶畫像項(xiàng)目之上,旨在讓學(xué)員學(xué)習(xí)企業(yè)級(jí)推薦系統(tǒng)構(gòu)建的基本思路,深入講解推薦系統(tǒng)中的兩個(gè)最重要的環(huán)節(jié)召回和排序
,各環(huán)節(jié)基于Spark-Mllib引入相關(guān)算法,比如召回層ItemCF,ALS兩路召回算法,融合排序?qū)右隚BDT+LR,在理解算法的同時(shí)更偏重工程實(shí)戰(zhàn),我們會(huì)從原始數(shù)據(jù)的特征抽取,轉(zhuǎn)換,算法模型設(shè)計(jì)到編程實(shí)現(xiàn)做深入的講解,同時(shí)也會(huì)對(duì)算法模型的跨平臺(tái)部署方案做實(shí)際的案例,讓學(xué)員學(xué)習(xí)到算法模型是如何在實(shí)際工程中部署運(yùn)用的。