原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-11-17 16:12:03.000|閱讀 4335 次
概述:在之前的文章《Bagging 或Boosting讓你的模型更加優(yōu)化》中,我們介紹了可以通過Bagging或Boosting技術(shù),使得模型更加穩(wěn)定和準(zhǔn)確率更高,那么今天要介紹的隨機(jī)森林算法,本身的算法邏輯已經(jīng)使用了Bagging技術(shù),來構(gòu)建多棵樹,最終實(shí)現(xiàn)構(gòu)建“森林”的目的。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
在之前的文章《Bagging 或Boosting讓你的模型更加優(yōu)化》中,我們介紹了可以通過Bagging或Boosting技術(shù),使得模型更加穩(wěn)定和準(zhǔn)確率更高,那么今天要介紹的隨機(jī)森林算法,本身的算法邏輯已經(jīng)使用了Bagging技術(shù),來構(gòu)建多棵樹,最終實(shí)現(xiàn)構(gòu)建“森林”的目的。
首先我們先來了解下這個(gè)算法,記住幾個(gè)要點(diǎn)就可以:
1.在中,隨機(jī)森林構(gòu)建的每棵樹,使用的算法是C&RT,關(guān)于C&RT算法的介紹可以參考之前的文章《》;
2.使用Bagging,每構(gòu)建一棵樹,都是通過隨機(jī)選擇樣本數(shù)據(jù)來構(gòu)建(有放回的);
3.除了使用Bagging技術(shù),對(duì)使用的輸入指標(biāo),也隨機(jī)選擇。比如說一共有20個(gè)輸入指標(biāo),每選完一次樣本數(shù)據(jù)后,會(huì)再隨機(jī)選擇其中的10個(gè)指標(biāo)來構(gòu)建樹。
4.最終的預(yù)測(cè)結(jié)果,會(huì)綜合前面構(gòu)建的決策樹通過投票的方式得到最終的預(yù)測(cè)結(jié)果,如果是數(shù)值型的預(yù)測(cè),則是取平均值做為最終的預(yù)測(cè)結(jié)果。
5.在中,隨機(jī)森林算法不僅支持傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,比如DB2、Oracle、SQL Server等通過ODBC可連接的數(shù)據(jù)庫,也支持Haoop分布式架構(gòu)的數(shù)據(jù),它可以生成MapReduce或者Spark,放到Hadoop平臺(tái)上去執(zhí)行,從而提升整個(gè)計(jì)算效率。
那么接下來,我們來看下在IBM SPSS Modeler的隨機(jī)森林算法實(shí)現(xiàn)客戶的流失預(yù)測(cè),能給我們呈現(xiàn)出什么樣的結(jié)果。
首先,我們創(chuàng)建數(shù)據(jù)流文件 ,如下圖:
Step1:連接數(shù)據(jù)源Excel文件,文件內(nèi)容如下:
Step2:類型節(jié)點(diǎn)設(shè)置影響因素及目標(biāo),如下圖:
Step3:選擇隨機(jī)森林算法,并使用默認(rèn)參數(shù)設(shè)置生成模型。
該面板主要涉及到模型構(gòu)建和樹增長(zhǎng)兩方面的參數(shù),包括以下內(nèi)容:
在高級(jí)面板中,考慮到對(duì)樣本數(shù)據(jù)選擇的質(zhì)量要求,該算法也涵蓋了數(shù)據(jù)準(zhǔn)備的內(nèi)容。
數(shù)據(jù)準(zhǔn)備可設(shè)置的參數(shù)包括:
Step4:生成客戶流失分析模型。
在生成的模型結(jié)果里面,會(huì)包括對(duì)輸入指標(biāo)的重要性排序,如下圖:
模型結(jié)果中,也會(huì)包含在生成的這些樹中,最頻繁出現(xiàn)的規(guī)則集,包括決策規(guī)則內(nèi)容、類別、準(zhǔn)確性等內(nèi)容。這些規(guī)則集可以協(xié)助我們做一些業(yè)務(wù)解讀。
Step5:可以通過表格查看預(yù)測(cè)結(jié)果。
Step6:通過分析節(jié)點(diǎn)查看模型準(zhǔn)確率。
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn