1. OAC簡(jiǎn)介
Oracle Analytics Cloud empowers business analysts and consumers with modern, AI-powered, self-service analytics capabilities for data preparation, visualization, enterprise reporting, augmented analysis, and natural language processing/generation.
OAC(Oracle analytic Cloud,甲骨文分析云)胸哥,就是甲骨文最新云版數(shù)據(jù)可視化和數(shù)據(jù)分析工具稀拐。
更多OAC知識(shí)請(qǐng)移步OAC文檔。
2. 文檔描述
此技術(shù)文檔主要描述了在OAC中如何使用機(jī)器學(xué)習(xí)袖订,使用回歸算法訓(xùn)練一個(gè)模型,根據(jù)優(yōu)惠編碼和日期預(yù)測(cè)銷售數(shù)量嗅虏,包括建立模型和應(yīng)用模型洛姑。主要面對(duì)的是OAC工具的使用,機(jī)器學(xué)習(xí)算法明細(xì)不在此文檔范圍內(nèi)皮服。
3. 創(chuàng)建和訓(xùn)練模型
3.1 創(chuàng)建數(shù)據(jù)流
我們選擇Oracle ADW自帶的銷售數(shù)據(jù)(sh.sales表)作為數(shù)據(jù)集楞艾。
我們需要用time_id, promo_id來(lái)預(yù)測(cè)quantity字段,為了后面篩選數(shù)據(jù)龄广,添加product_id字段硫眯,所以需要取數(shù)據(jù)集這四個(gè)字段:
- Product_id
- Time_id
- Promo_id
-
quantity
創(chuàng)建數(shù)據(jù)流
3.2 添加篩選器
因OAC中ML一次只能運(yùn)行不超過(guò)12500數(shù)據(jù),我們做一個(gè)篩選择同,只選取product_id為30的數(shù)據(jù)两入。
3.3. 添加訓(xùn)練數(shù)字預(yù)測(cè)步驟
這里我們選擇線性回歸作為此次預(yù)測(cè)算法。
3.4 配置線性回歸模型參數(shù)
在Target中選擇QUANTITY列作為預(yù)測(cè)目標(biāo)列敲才;
回歸方法選擇OLS裹纳,即最小二乘法;
其它參數(shù)請(qǐng)參見線性回歸相關(guān)機(jī)器學(xué)習(xí)知識(shí)紧武。
3.5 保存模型
添加保存模型步驟剃氧,取模型名稱為regr_test,注意阻星,名稱最好為英文朋鞍。
3.6. 運(yùn)行數(shù)據(jù)流訓(xùn)練模型
點(diǎn)擊右上角運(yùn)行數(shù)據(jù)流按鈕,運(yùn)行時(shí)會(huì)提示需要先保存數(shù)據(jù)流妥箕。
4. 查看生成的模型
主菜單 > 機(jī)器學(xué)習(xí) 可查看創(chuàng)建的模型滥酥。
鼠標(biāo)指針?lè)胖迷谀P土猩希c(diǎn)擊右邊圖標(biāo)按鈕矾踱,點(diǎn)擊檢查菜單可查看模型信息恨狈。
5. 應(yīng)用模型預(yù)測(cè)數(shù)據(jù)
準(zhǔn)備測(cè)試數(shù)據(jù),可以手工創(chuàng)建呛讲,我們需要的是指定promo_id和time_id禾怠,然后應(yīng)用建立的regr_test模型返奉,預(yù)測(cè)quantity值。
5.1. 準(zhǔn)備數(shù)據(jù)
需要準(zhǔn)備測(cè)試集數(shù)據(jù)吗氏,用于驗(yàn)證模型芽偏。這里從sh.sales中隨機(jī)抽取了一定量數(shù)據(jù)用于演示。
5.2. 添加應(yīng)用模型步驟
這里我們選擇開始建立的regr_test模型弦讽。
指定輸出列名稱污尉,這里我們保持系統(tǒng)自動(dòng)生成的名稱。
在輸入欄里指定列的映射往产。
5.3. 添加保存數(shù)據(jù)步驟
該步驟會(huì)生成一個(gè)新的數(shù)據(jù)集被碗,這里我們指定名稱為Test Data Set。
5.4. 運(yùn)行數(shù)據(jù)流生成包含預(yù)測(cè)列的數(shù)據(jù)集
運(yùn)行前會(huì)要求保存數(shù)據(jù)流仿村。
運(yùn)行成功后我們能在數(shù)據(jù)集中查看建立的數(shù)據(jù)集锐朴。
6. 建立項(xiàng)目查看預(yù)測(cè)值和原值匹配程度
因本次訓(xùn)練集和測(cè)試集為同一表,故按時(shí)間求和后數(shù)據(jù)完全一致蔼囊。如測(cè)試數(shù)據(jù)為新建數(shù)據(jù)焚志,更能驗(yàn)證預(yù)測(cè)準(zhǔn)確率。
其中數(shù)量列為實(shí)際值畏鼓,PredictedValue列為預(yù)測(cè)值酱酬。
7. 結(jié)語(yǔ)
原創(chuàng)文章,需轉(zhuǎn)載請(qǐng)留言和私信聯(lián)系云矫。如有疑問(wèn)膳沽,歡迎留言或私信共同探討。