第一部分、梳理數據分析步驟及實操工具學習
數據分析的5個關鍵步驟:
明確問題→理解數據→數據清洗→數據分析或者構建模型→數據可視化
1、明確問題
2、理解數據
3、數據清洗
數據重復-刪除重復項
數據抽取-left/right/mid
數據計算-average/sum/max/min/date/if/or/countif
清洗步驟
選擇子集→列名重命名→刪除重復值→缺失值處理→一致化處理→數據排序→異常值處理
函數3個功能:功能、輸入、輸出
比如:平均值average
截取字符串函數:
①left-字符串所在單元格位置,從左開始到XX位置進行截取
②right-字符串所在單元格位置,從右開始到XX位置進行截圖
③mid-字符串所在單元格位置,開始位置,截取長度
④find(要查找的字符串,字符串所在的單元格位置)
薪水 (7k-9k)
位置 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
字符串 | 7 | k | - | 9 | k |
最低薪水=left(A2.2)
最高薪水=mid(A2.起始位置,截取長度)
起始位置=find(“-”,A2)+1
截取長度
①find(“-”,A2)
②len(A2)-find(“-”,A2)
③len(A2)-find(“-”,A2)-1
最高薪水=mid(A2.find("-",A2)+1.len(A2)-find("-",A2)-1)
異常值處理常用工具excel透視表
數據透視表的原理:數據分組(split)→應用函數(apply)→組合結果
對數據進行分類,如大學專業的分組
每組函數進行計算
對幾組數據進行組合
異常值處理
①find({“數據運營”,”數據分析“,“分析師”},L2)
②count(find({“數據運營”,”數據分析“,“分析師”},L2))
③IF(COUNT(FIND({"數據運營","數據分析","分析師"},L3)),"是","否")
4、數據分析或者構建模型(解決某一類問題的辦法都可以叫模型)
分組匯總-數據透視表
描述統計分析-分析工具庫
多表關聯查詢-vlookup
vlookup(找什么,在哪找,第幾列,是準確找還是近似找)
三種引用方式及快捷操作
絕對引用、$A$1-按一次F4
混合引用、A$1-按二次F4、$A1-按三次F4
相對引用、A1+A2.按四次F4
第二部分、淘寶天貓數據數據分析
1、明確問題
本次數據分析主要關注以下幾個問題:
①用戶群的分布情況?
②用戶對于商品的使用習慣是什么樣?
③用戶對于商品購買習慣是什么樣?
2、理解數據
從購買商品的數據表里可知主要包含以下信息:誰買的-用戶ID、什么樣的商品-商品編號/商品二級分類/商品一級分類/商品屬性、購買的數量與時間。
從嬰兒信息的數據表里可知主要包含以下信息:用戶ID、出生日期、性別
3、數據清洗
選擇子集→列名重命名→刪除重復值→缺失值處理→一致化處理→數據排序→異常值處理
第一步:對表1和表2數據進行初步關聯,表1共2萬于條數據,表2共952條數據;
第二步:將表2中數據通過vlookup關聯至表1中;
第三步:根據用戶ID將重復項進行刪除;
第四步:針對缺失值、異常值進行補充,做一致化與排序處理;
4、數據分析或者構建模型
第一步:借助數據透視表進行多維度分析
根據以上分析可知:2萬余名用戶中使用該商品的群體主要以2013年出生的女生居多。
第二步:2萬余名的用戶中使用商品最多的是“12310741985”號商品,一類商品中“50008168”用戶使用最多,二類商品中“50013636”用戶使用最多
第三步:用戶在14年第四季度的購買力是最大的,其中主要是雙十一期間的購買量很多
以上是對本次數據的初步,煩請指正!灰常感謝!
樂發網超市批發網提供超市貨源信息,超市采購進貨渠道。超市進貨網提供成都食品批發,日用百貨批發信息、微信淘寶網店超市采購信息和超市加盟信息.打造國內超市采購商與批發市場供應廠商搭建網上批發市場平臺,是全國批發市場行業中電子商務權威性網站。
本文來源: 淘寶天貓相關數據分析