• 1. 基于機器學習方法對銷售 預測的研究
  • 2. (本頁無文本內容)
  • 3. 銷售預測現狀與痛點CONTENTS0102 銷售預測四大步驟 03 銷售預測基本方法 04 銷售預測效果評估方法與指標 05 某電商網站銷售預測案例分享
  • 4. 銷售預測全景圖 供貨鏈條 送貨時間、送貨 地點、是否包郵 等 物流 市場營銷 促銷方案 商品減價、商品促 銷、組合銷售等 生成和采購 合理安排生成和 采購的時間節 點,優化庫存 庫存 財務 管理 財務和會計 實時反饋公司財務報 表,監控公司資金流 動管理 銷售預測的現狀與痛點 銷售預測是完善客戶需求管理、指導運營、以提高企業利潤為最終目的商業問題。 而預測的精確性是銷售預測的核心痛點。銷售預測的痛點 商業環境因素眾多,變 化極快,難以及時把握 和分析 供應鏈整體水平低,導 致貨物積壓嚴重 產品定價、商品服務的 單一性,導致企業競爭 力小
  • 5. 變化模式 預測的基本思想 預測是通過歷史數據或其他外部因素構建模型、學習其變化“模式”,利用該“模式”對未來事 物進行預測的一個過程。 特點:短期預測的精度要遠遠高于長期預測。 業務理論數據量 假 設 銷售預測體系框架
  • 6. 銷售預測現狀與痛點CONTENTS0102 銷售預測四大步驟 03 銷售預測基本方法 04 銷售預測效果評估方法與指標 05 某電商網站銷售預測案例分享
  • 7. 收集數據? ? ?確定預測對象、預測目標 和需求; 預測周期:短、中和長期 需求與預測精度的權衡準確性與可解釋性的權衡 預測目標? ? ?收集數據、整理指標體系 數據描述與數據探索 數據預處理評價指標?算法的選擇? ?模型的訓練與預測 過擬合問題的處理 建立建模? ?RMSE、MAPE等定量評價指標 AIC、BIC等模型評價指標需求探索開發完善預測的基本步驟
  • 8. 預測目標 預測對象:性質、結構、業務場景等 預測時間:短期預測、中期預測和長期預測等精確性可解釋性時間數 據 量少于5天大于4周 或1個月短期預測長期預測中期預測介于兩者之間業務目標:準確性和模型可解釋性的匹配度
  • 9. 數據探索 對數據檢查和理解:比 如庫存量為負值、星期 數大于8等 對結果變量的分析:包 括分布、趨勢性、周期 性等 對預測變量的分析:包 括變量篩選、多重共線 性、相關性數據預處 理 中心化和標準化 缺失值處理:鄰近插補、 多重插補、線性插補等 數據轉換:取對數、 Box-Cox變換 離群點處理 數據降維和特征選擇: PCA、AIC/BIC等收集數據或理解數據 數據搜集 目標數據(內部數據、 外部數據) 額外數據:天氣、經緯 度、節假日、CPI指數等
  • 10. 時期變量2015-05-2310.02015-05-2410.0…2016-05-099.82016-05-109.8時期變量2015-05-23NA2015-05-2410.0…2016-05-099.82016-05-10NA處理之前處理之后收集數據或理解數據 數據預處理的缺失值部分 處理缺失值的兩大類方法: (1) 直接刪除缺失的預測變量 (2) 利用不同的方法對預測變量的缺失值進行插補,插補方法有:均值插補、多重插 補、隨機插補、K近鄰插補、線性插補等。 注意:一般對于帶有時間戳的時序變量,考慮到變量的時效性和經濟因素,通常采用 鄰近插補法或者線性插補。
  • 11. 一個需要進行數據變換的原因是去除分布的偏度。一個無偏分布是大致對稱的分布,這意 味著隨機變量落入分布均值兩側的概率大體一致。 數據變換一般有兩種方法:(1) 對數據做變換,如取對數、平方根或倒數 (2) Box-Cox變換收集數據或理解數據數據預處理的數據變換部分
  • 12. 銷售預測現狀與痛點CONTENTS0102 銷售預測四大步驟 03 銷售預測基本方法 04 銷售預測效果評估方法與指標 05 某電商網站銷售預測案例分享
  • 13. 主觀預測 專家法 時間序列 指數平滑法 自回歸移動模型銷售預測的基本方法 機器學習 線性回歸 決策樹 隨機森林 xgboost 神經網絡 支持向量回歸
  • 14. 時間銷量銷量時間 根據過 去經驗專家法 專家預測法: 由專家根據他們的經驗和判斷能力對待定產品的未來銷售進行 判斷和預測,通常有三種不同的形式: (1)個別專家意見匯集法 (2)專家小組法 (3)德爾菲法 優點: 簡單、快速 缺點: 準確率低、受人的主觀影響大
  • 15. 指數平滑遵循“重近輕遠”原則,對全 部歷史數據采用逐步衰減的不等加權辦法 進行數據處理的一種預測方法。 基本公式: ????+1 = ?? ? ???? + (1 ? ??)?????1 其中,????是時間??的時間值; ??是平滑常數,其取值范圍為[0, 1]。 優點:簡單、適合趨勢預測、模糊預測 缺點: 準確率不高、需要趨勢性較好的數據指數平滑法
  • 16. ARIMA模型是指將非平穩時間序列轉化為平穩時間序列,然后將結果變量做自回歸(AR) 和自平移(MA)。自回歸移動模型(ARIMA)
  • 17. 訓練集 測試集機器學習算法 模型參數 模型評估特征篩選 預測Y’值 真實Y值Y X樣本數據 銷售量 影響銷售量 的因素機器學習的實現流程 使用機器學習的有監督學習對進行銷量變化進行建模, 依據建模結果來預測未來銷量值。其實現流程如下: (X,Y)
  • 18. (4) 模型選擇,如隨機森林、LASSO等[模型輸出]x3x4x2 · · · ·x4x1 x6x5x3x1x6x5特征篩選 特征篩選是一類預測變量變換的方法,通過這種方式,能夠用更具有信息量的變量來構建 模型,排除無信息量的變量的噪聲干擾,提高模型穩健性。 常用的特征篩選方法: (1) 相關性等統計 [閾值過濾] (2) 信息增益、信息增益率、基尼系數等 [閾值過濾] (3) 向前、向后和逐步選擇法,如AIC/BIC準則 [最小值]
  • 19. 原理簡介:? ?通過結果變量與預測變量直接建立線性 關系 數值型回歸優點:?模型可解釋性強線性回歸模型:廣義線性模型 線性模型隨機分布>指數分布、泊松分布等 線性回歸 >?? = ??0 + ??1 ? ??1 + ??2 ? ??2 + ?+ ???? ? ???? Y為銷量值,X為預測變量,N為預測變量個數,θ為參數 激活函數 >激活函數:sigmod, log函數等 缺點: ? 只適用于線性規律 邏輯回歸
  • 20. 原理簡介:? ?通過訓練數據,形成if-then規則集合 由根節點到葉節點的每一條路徑構成規?則 對結果變量有主要解釋作用的特征會先?分裂形成規則 回歸樹用平方誤差最小化準則,節結點 為單元內數值的平均值 優點:? 可擬合非線性規律,計算復雜度較低 缺點: 容易出現過擬合 ?決策樹(回歸樹) 妹紙評分:[0,10] 五官端正是否身材好是否有錢是9否53不好7
  • 21. 隨機森林原理簡介: ? 是包含多個回歸樹的組合器 ? 輸出的數值是由個別樹輸出的數值的平 均而定 優點: ? 準確度高 ? 訓練速度快 ? 容易做出并行算法 ? 可處理大量變量并評估變量重要性 缺點: ? 在噪聲較大的數據上會有過擬合問題
  • 22. xgboost
  • 23. xgboost
  • 24. ?????? ?? ???? + ????? ??2 ????xgboost 目標函數去掉常數項:??????(??) = ?? ??=11 2+ ??(?? ??)找到那顆樹?? ??,使得目標函數達到最優即可。原理簡介:? 是基于傳統的GBDT上做了一些優化的開 源工具包,目前有python,R,Java版。 優點:? 高速準確 ? 可移植,可以自己定義假設函數 ? 可容錯
  • 25. 神經網絡 ?? = f(X)(非線性映射) 原理簡介: ? 是利用一系列非線性回歸,將預測變量 映射到結果變量的一種方法。 優點: ? 準確度高 ? 訓練速度快 ? 并行處理能力強 缺點: ? 需要大量的參數 ? 不能觀察學習的過程,對結果難以解釋
  • 26. 支持向量回歸(SVR) 原理簡介: ? 是通過尋求結構化風險最小來提高學習 泛化能力,實現經驗風險和置信范圍最 小化,從而達到獲得良好統計規律的目 的 優點: ? 可以解決小樣本情況下的機器學習問題 ? 可以解決高維、非線性問題 缺點: ? 對非線性問題沒有通用解決方案,對核函 數的選擇非常敏感 SVR最本質與SVM類似,都有一個margin,只不過SVM的margin是把兩種類型分 開,而SVR的margin是指里面的數據不會對回歸有任何幫助。
  • 27. 銷售預測現狀與痛點CONTENTS0102 銷售預測四大步驟 03 銷售預測基本方法 04 銷售預測效果評估方法與指標 05 某電商網站銷售預測案例分享
  • 28. 模型評估方法: k 折交叉驗證法 K折交叉驗證法 – 在k-折交叉驗證中,初試數據被劃分成k個互不相交的子集或“折”,每個折的大小大致相等。 訓練和測試k次。在第i次迭代中,第i折用作測試集,其余的子集都用于訓練分類法。 – 準確率估計是k次迭代正確分類數除以初始數據中的樣本總數。數據S1 S2…… Sk測試集訓練集 導出 回歸法評估 精度
  • 29. 模型評估方法: k 折交叉驗證法 K折交叉驗證法 – 在k-折交叉驗證中,初試數據被劃分成k個互不相交的子集或“折”,每個折的大小大致相等。 訓練和測試k次。在第i次迭代中,第i折用作測試集,其余的子集都用于訓練分類法。 – 準確率估計是k次迭代正確分類數除以初始數據中的樣本總數。數據S1 S2…… Sk測試集訓練集 導出 回歸法評估 精度
  • 30. 模型評估方法: k 折交叉驗證法 K折交叉驗證法 – 在k-折交叉驗證中,初試數據被劃分成k個互不相交的子集或“折”,每個折的大小大致相等。 訓練和測試k次。在第i次迭代中,第i折用作測試集,其余的子集都用于訓練分類法。 – 準確率估計是k次迭代正確分類數除以初始數據中的樣本總數。數據S1 S2…… Sk測試集訓練集 導出 回歸法評估 精度
  • 31. ??=1(?????????)??=1(?????????)???????? =?? 2??– 其中,????為第i個樣本的真實值,????為第i個樣本的預測值,n為樣本量。– 有時也用?????? =??2??來評估回歸模型的準確率,與RMSE效果相同。模型評估指標: RMSE(均方根誤差) –RMSE – 與分類模型不同,回歸模型是對連續的因變量進行預測,因此判斷回歸模型的準確率需要考 慮的是預測值與真實值之間差異的大小。
  • 32. 模型評估指標: AIC & BIC AIC準則是評估統計模型的復雜度和衡量統計 模型擬合優度的一種標準:–?????? = ?2ln ?? + 2??– 其中L是在相應模型下的最大似然估計值,p 是模型的變量個數。 – 增加變量的數目提高了擬合的優良性,但可 能造成過度擬合的情況。AIC鼓勵數據擬合 的優良性但是盡量避免出現過度擬合 (overfitting)的情況。 – AIC值越小,模型越好。AIC準則是尋找可以 最好地解釋數據但包含最少自由參數的模型。– BIC準則是依貝葉斯理論提出的一種模型選擇 準則。–?????? = ?2ln ?? + ln(??)??– 其中L是在相應模型下的最大似然估計值,n 是樣本量,p是模型的變量個數。 – BIC值越小,模型越好。 – AIC準則傾向于過擬合,BIC準則傾向于欠擬 合,BIC選出的模型相對于AIC的更為精簡。
  • 33. 銷售預測現狀與痛點CONTENTS0102 銷售預測四大步驟 03 銷售預測基本方法 04 銷售預測效果評估方法與指標 05 某電商網站銷售預測案例分享
  • 34. 銷售預測的企業案例分析 項目背景 某電商平臺主營海外代購業務,由于海外代購物流時間長、發貨時間慢等因素導致 該電 商平臺存在大量庫存積壓情況,想通過銷售預測模型改善安排進貨、提高發貨速度以及優化 庫存。預測某類銷量 排行Top20某單 品未來7天的銷 量情況預測目標1.收集數據: ~18個月數據,樣本 513,指標722.數據探索: 與銷量的變量分析 3.數據預處理: 缺失值、Box-Cox變 換、stepBIC等收集數據時間序列方法 機器學習算法應用模型評估指標 可視化展示評價指標
  • 35. 收集數據:采集影響商品銷量指標維度 6維度 72指標商品銷量指標體系季節特征(1個) 營銷推廣(14個) 商品優惠 商品搶購 商品促銷 首頁廣告 商品分銷商品換貨 商品退款商品退貨商品復購 用戶評價商品稅率 商品庫存商品銷量 商品物流商品產地 商品供貨節假日消費等級零售價格 交易價格交易稅率用戶行為(21個) 瀏覽行為 購物車行為 咨詢行為 下單行為 收藏行為 支付行為321 商品信息(10個)4價格變化(13個) 56 商品品牌 商品質量(13個)
  • 36. 數據探索:節假日與銷量關系節假日變量對銷量的影響明顯
  • 37. 數據探索:預測變量之間的多重共線性結論:訂單數、訂單金額和訂單用戶數之間相關性較高!需要過濾多重共線性!
  • 38. 模型效果:真實值與預測值對比圖xgboost和隨機森林的預測效果較佳,線性回歸和ARIMA效果較差
  • 39. 應用模型:xgboost紅色點線:某商品的真實銷量 綠色點線: 某商品的預測銷量 RMSE(均方根誤差):3.68837
  • 40. 算法名稱RMSE性能ARIMA5.32速度較慢,2.5min線性回歸4.28速度快,<1min決策樹5.02速度快,<1min隨機森林2.85速度快,<1minxgboost3.68速度適中,1.5min神經網絡4.99速度快,<1min支持向量回歸3.27速度快,<1min模型評估:RMSE◇隨機森林:采取的是重抽樣,具有自動選擇重要特征的功能,無需做特征篩選,在一定程度 上避免了過擬合◇ xgboost: kaggle比賽上表現卓越的算法之一,從本質上分析是一個集成的決策樹,但是可 以讓弱回歸樹集成成強回歸樹因此,它們可以在本案例中能夠取得的好預測效果而其他算法: 處于數據的局限性或模型的參數未達到最優,會存在一定的過擬合,導致預測效果相對較差
  • 41. 算法名稱預處理變量選擇可解釋性準確性ARIMA缺失值/變量篩選stepBIC低低線性回歸缺失值/標準化/變量篩 選stepBIC高低決策樹缺失值/標準化信息增益率高低隨機森林缺失值/標準化模型選擇高高xgboost缺失值/標準化/變量篩 選stepBIC低高神經網絡缺失值/標準化/變量篩 選stepBIC低低支持向量回歸缺失值/標準化/變量篩 選stepBIC低高模型總結
  • 42. 基于機器學習的銷售預測總結 是場景局限性,機器學習不是萬能的; 研究的是相關關系,而不是因果關系。 是核心,無數據或數據質量低,會影響模型預測效果; 是模型選擇的先決條件,先數據,后模型。 評估需要參考業務對接、預測精度、模型可解釋性和產業鏈整體能力等因素綜合考慮; 不能簡單作為企業利潤增加的唯一標準。 對建模提供業務理論基??; 算法問題要回歸到業務問題?;?學習 數據 效果 業務
  • 43. 基于機器學習的銷售預測展望– 可以嘗試使用更復雜的模型來做銷售預測,如HMM,深度學習(Long Short-Term Memory網絡)等,同時,也需要考慮到模型的可解釋性、模型的可落地性和可擴展 性、避免“黑箱”預測;– 可以嘗試采用混合的機器學習模型,比如GLM+SVR,ARIMA + NNET等; – 銷售預測幾乎是商業智能研究的終極問題,要解決終極問題還有一段路要走。

梦幻诛仙手游丹青阁天书 www.rasug.icu 下載文檔到電腦,查找使用更方便

需要 10 金幣 [ 分享文檔獲得金幣 ] 0 人已下載

下載文檔