轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-07-04 10:41:46.000|閱讀 191 次
概述:社交網(wǎng)絡(luò)分析(Social Network Analysis) 是指基于信息學(xué)、數(shù)學(xué)、社會(huì)學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的融合理論和方法,為理解人類各種社交關(guān)系的形成、行為特點(diǎn)分析以及信息傳播的規(guī)律提供的一種可計(jì)算的分析方法。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
背景知識(shí):社交網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、
社交網(wǎng)絡(luò)分析(Social Network Analysis) 是指基于信息學(xué)、數(shù)學(xué)、社會(huì)學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的融合理論和方法,為理解人類各種社交關(guān)系的形成、行為特點(diǎn)分析以及信息傳播的規(guī)律提供的一種可計(jì)算的分析方法。
圖 1 是社交網(wǎng)絡(luò)的一個(gè)示意圖,其中的節(jié)點(diǎn)可以是組織、個(gè)人、網(wǎng)絡(luò)ID 等不同含義的實(shí)體或虛擬個(gè)體;連線表示節(jié)點(diǎn)之間的關(guān)系或信息流動(dòng)。信息流動(dòng)的方式有很多,比如郵件,電話,短信,博客,等等。假設(shè) A 經(jīng)常與 B 和 C 通電話,通過(guò)分析 A 的電話 ID 記錄,可以構(gòu)筑出圖 1 中的簡(jiǎn)單社交網(wǎng)絡(luò)。從此圖中我們可以看出 A, B, C, 三人中,A 具有較強(qiáng)的影響力。如果 A 獲得了正面或者負(fù)面的消息,這消息會(huì)很快傳遞給 B 和 C。而 B 與 C 之間的影響力是間接的,只能通過(guò) A 來(lái)傳播。
圖 1. 社交網(wǎng)絡(luò)示意圖
隨著節(jié)點(diǎn)和連線的增加,社交網(wǎng)絡(luò)的復(fù)雜程度迅速提升。圖 2 展示了一個(gè)較為典型的社交網(wǎng)絡(luò)。大型和超大型的社交網(wǎng)絡(luò)的處理是手工分析方式無(wú)法完成的。在過(guò)去的二十年中,社交網(wǎng)絡(luò)分析領(lǐng)域的快速發(fā)展,很大程度得益于計(jì)算機(jī)計(jì)算能力的提升和各種數(shù)據(jù)挖掘方法的發(fā)展。
圖 2. 一個(gè)典型的社交網(wǎng)絡(luò)
數(shù)據(jù)挖掘 (Data Mining) 是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。從商業(yè)角度去定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
圖 3. 數(shù)據(jù)挖掘
被譽(yù)為第一數(shù)據(jù)挖掘工具的( 原名 Clementine) 是 IBM SPSS 的核心挖掘產(chǎn)品,它擁有直觀的操作界面,自動(dòng)化的數(shù)據(jù)準(zhǔn)備,和成熟的預(yù)測(cè)分析模型。使用它,企業(yè)可以將數(shù)據(jù)分析和建模技術(shù)與特定的商業(yè)問(wèn)題結(jié)合起來(lái),找出其他傳統(tǒng)數(shù)據(jù)挖掘工具可能找不出的答案。
圖 4. 的操作界面
IBM 兩種社交網(wǎng)絡(luò)分析的算法原理
社交網(wǎng)絡(luò)分析(SNA)是IBM SPSS Modeler 的常用功能,目前有兩種算法支持這個(gè)功能,分別稱作 GA 和 DA。GA 全稱 Group Analysis, 是一種基于群體的分析方法。DA 全稱 Diffusion Analysis,著眼于計(jì)算一些人的行為對(duì)網(wǎng)絡(luò)中其他人的沖擊強(qiáng)度。在 Modeler 中這兩個(gè)算法以兩個(gè)源節(jié)點(diǎn)的形式出現(xiàn),如圖 5 所示。
1. 根據(jù)共有鄰接節(jié)點(diǎn)的數(shù)量,量化各個(gè)節(jié)點(diǎn)(也就是張三、李四、王五。。。)之間聯(lián)系的強(qiáng)度;
圖 5. GA 和 DA 在 Modeler 15 中以兩個(gè)源節(jié)點(diǎn)的形式出現(xiàn)
下面我們簡(jiǎn)單介紹一下兩者的算法原理。假設(shè)我們有過(guò)去半年里某地區(qū)的電話清單,數(shù)據(jù)量在百萬(wàn)到千萬(wàn)條左右。數(shù)據(jù)記錄了打電話的人和接收的人,如圖 6 所示。
圖 6. GA 和 DA 的輸入數(shù)據(jù) -- 電話清單舉例
GA 收到這些數(shù)據(jù)后,會(huì)進(jìn)行如下的分析:
2. 保留高強(qiáng)度的聯(lián)系,去除低強(qiáng)度的聯(lián)系。進(jìn)行此步驟后,社交網(wǎng)絡(luò)會(huì)退化成幾個(gè)內(nèi)部聯(lián)系多、外部聯(lián)系少的次網(wǎng)絡(luò),以及很多孤立的節(jié)點(diǎn)。每個(gè)次網(wǎng)絡(luò)對(duì)應(yīng)一個(gè)群體(group),稱為這個(gè)群體的核 (kernel);
3. 把那些孤立的節(jié)點(diǎn)連到距離他們最近的群體去。上一步里暫時(shí)去除的低強(qiáng)度的聯(lián)系,在這一步發(fā)揮了主要作用;
4. 對(duì)各個(gè)群體以及群體里的個(gè)體進(jìn)行分析畫像,例如評(píng)估群體內(nèi)每個(gè)個(gè)體的地位,找出“領(lǐng)袖”,計(jì)算群體密度,等等。這些特性將用于后繼應(yīng)用中,下一節(jié)的實(shí)例中會(huì)進(jìn)一步展示。
相比之下,DA 的算法原理要更簡(jiǎn)單一些。DA 不會(huì)將網(wǎng)絡(luò)分成群體,而是在原網(wǎng)絡(luò)上進(jìn)行計(jì)算。DA 著眼于計(jì)算一些人的行為對(duì)網(wǎng)絡(luò)中其他人的沖擊強(qiáng)度。
收到如圖 6 的數(shù)據(jù)后,DA 會(huì)構(gòu)筑一個(gè)有向加權(quán)網(wǎng)絡(luò),如圖 7 所示。網(wǎng)絡(luò)中的節(jié)點(diǎn)代表人、組織、計(jì)算機(jī)或者其他信息或知識(shí)處理實(shí)體;連線表示節(jié)點(diǎn)之間的關(guān)系或信息流動(dòng);連線的方向表示了關(guān)系的主動(dòng)被動(dòng)方,或者信息流動(dòng)的方向(通常為雙向,圖 7 省略了此內(nèi)容)。
DA 還需要有行為發(fā)生的人的名單。這里的行為可以是從公司辭職,更換手機(jī)服務(wù)商,試用了某種產(chǎn)品,等等。這些人被稱作“初始擴(kuò)散點(diǎn)”(Initial diffusing seeds),由圖 7 中的紅色節(jié)點(diǎn)表示。接下來(lái),設(shè)定初始擴(kuò)散點(diǎn)的沖擊強(qiáng)度,然后采用衰敗擴(kuò)散過(guò)程就可以估計(jì)出其他節(jié)點(diǎn)所受到的沖擊大小。
圖 7. DA 算法解析
社交網(wǎng)絡(luò)分析實(shí)例:客戶流失預(yù)警和病毒式營(yíng)銷
1.客戶流失預(yù)警
最近二十年中,移動(dòng)通信成為占主導(dǎo)地位的通信介質(zhì)。在許多國(guó)家,特別是發(fā)達(dá)國(guó)家,市場(chǎng)規(guī)模已達(dá)到飽和的程度,新客戶的獲得主要靠從競(jìng)爭(zhēng)對(duì)手那里贏得。同時(shí),公共法規(guī)和移動(dòng)通信的標(biāo)準(zhǔn)化,讓客戶可以輕松地從一個(gè)運(yùn)營(yíng)商換到另一個(gè),令市場(chǎng)極不穩(wěn)定。由于贏得一個(gè)新客戶的成本遠(yuǎn)遠(yuǎn)高于維護(hù)一個(gè)現(xiàn)有客戶的成本,移動(dòng)運(yùn)營(yíng)商更加重視客戶保留的問(wèn)題。因此,客戶流失預(yù)警已成為一個(gè)關(guān)鍵的移動(dòng)商務(wù)智能(BI)應(yīng)用程序。
傳統(tǒng)的客戶流失預(yù)警解決方案直接采用數(shù)據(jù)挖掘技術(shù),根據(jù)客戶的呼叫模式(通常由數(shù)百個(gè)變量描述)構(gòu)建客戶檔案,然后基于某些代表性屬性預(yù)測(cè)客戶的流失概率。可用于建模的數(shù)據(jù)源有很多,包括使用歷史,結(jié)算,付款,客戶服務(wù),應(yīng)用程序,和信用卡資料。
社會(huì)網(wǎng)絡(luò)分析可以補(bǔ)充和加強(qiáng)傳統(tǒng)的解決方案,使運(yùn)營(yíng)商能更根據(jù)“早期預(yù)警”,更有效地找出潛在的流失客戶,提高保留率。例如,一個(gè)客戶的親密朋友流失,社會(huì)網(wǎng)絡(luò)分析會(huì)及時(shí)推斷出這個(gè)客戶很可能是潛在的流失目標(biāo)。而傳統(tǒng)的解決方案尋找潛在流失目標(biāo)時(shí),需要等到這個(gè)客戶有顯著的變化(例如減少支出,預(yù)付費(fèi)卡,不充電等)- 這種時(shí)候,她的流失很可能已經(jīng)無(wú)法挽回了。
(1)使用 GA 進(jìn)行客戶流失預(yù)警實(shí)例分析
圖 8 至圖 10 演示了一個(gè)用 GA 進(jìn)行客戶流失預(yù)警的實(shí)例。在圖 8 中,GA 源節(jié)點(diǎn)接收到一個(gè)如圖 6 所示的 CDR 源文件。為方便起見(jiàn),我們將 GA 源節(jié)點(diǎn)的名字直接顯示為 CDR 源文件的名稱 Demo_CDR. GA 源節(jié)點(diǎn)使用 GA 算法進(jìn)行群體的劃分,并計(jì)算出基于群體的各種特性值。完成對(duì)源文件的分析計(jì)算后,計(jì)算結(jié)果以數(shù)據(jù)文件的形式被保留在 Demo_GA_KPI。
圖 8. Modeler 流:用 GA 源節(jié)點(diǎn)生成特性數(shù)據(jù)
圖 9 展示了圖 8 中 GA 源節(jié)點(diǎn)對(duì)其接收到的 CDR 源文件的分析結(jié)果。圖的左側(cè)是關(guān)于群體和個(gè)體特征的簡(jiǎn)單統(tǒng)計(jì)信息,而右圖給出了對(duì)應(yīng)特征更加詳細(xì)的統(tǒng)計(jì)描述。用戶可以據(jù)此了解群體分析的結(jié)果,從而修改相關(guān)參數(shù)以實(shí)現(xiàn)最理想的群體劃分和畫像。
圖 9. 用 GA 源節(jié)點(diǎn)生成的特性數(shù)據(jù)
在圖 10 中,我們將利用 GA 分析結(jié)果進(jìn)行建模,用于預(yù)測(cè)每個(gè)客戶所在群體的流失風(fēng)險(xiǎn)。我們用之前由 GA 源節(jié)點(diǎn)所產(chǎn)生的數(shù)據(jù)文件 Demo_GA_KPI 作為源節(jié)點(diǎn)。另外,我們還需要一份已流失客戶名單Demo_GA_churner。如果一個(gè)組里已流失客戶占總客戶的比例達(dá)到一定程度,我們就認(rèn)為這個(gè)群體為流失高危群體,否則為低危群體。圖 10 中左下側(cè)的模型以流失高 / 低危群體作為目標(biāo)變量,用 Demo_GA_KPI 里所包含的群體特征值,以及通過(guò)對(duì)個(gè)體特征值的處理得到的輔助群體特征為預(yù)測(cè)變量,采用 CHAID 算法進(jìn)行建模。
圖 10. 流:用 GA 源節(jié)點(diǎn)生成特性數(shù)據(jù)和已流失客戶名單建模,量化預(yù)測(cè)各個(gè)群體的流失風(fēng)險(xiǎn)
群體的流失風(fēng)險(xiǎn)對(duì)于群體中個(gè)體的流失與否是一個(gè)非常重要的參考因素。另外,個(gè)體在群體里的角色,地位,等等因素也在一定程度上影響著個(gè)體的流失風(fēng)險(xiǎn)。鑒于此,我們將所有這些因素作為預(yù)測(cè)個(gè)體流失的變量,從而得到預(yù)測(cè)個(gè)體流失的模型,如圖 10 右側(cè)的流所示。
需要注意的是,在上述建模過(guò)程中我們僅僅使用了用戶通話記錄和客戶流失記錄就可以預(yù)測(cè)群體以及個(gè)體的流失風(fēng)險(xiǎn)。然而通常情況下,我們可以有更多的關(guān)于用戶人口統(tǒng)計(jì)學(xué)和消費(fèi)行為的數(shù)據(jù),而這些數(shù)據(jù)將極大的提升客戶流失預(yù)測(cè)的精度。
(2)使用DA進(jìn)行客戶流失預(yù)警實(shí)例分析
與 GA 不同,DA 源節(jié)點(diǎn)不僅需要一個(gè)如圖 6 所示的 CDR 源文件,還需要一個(gè)“初始擴(kuò)散點(diǎn)”(Initial diffusing seeds) 的文件,也就是流失客戶的名單。
DA 源節(jié)點(diǎn)使用 DA 算法進(jìn)行擴(kuò)散分析,從而計(jì)算出網(wǎng)絡(luò)中個(gè)體受到初始擴(kuò)散點(diǎn)的沖擊強(qiáng)度。沖擊強(qiáng)度的大小將直接影響著個(gè)體的流失風(fēng)險(xiǎn)。DA 輸出的特征以數(shù)據(jù)文件的形式保存下來(lái),并可在隨后應(yīng)用于生成圖表或建立模型。圖 12 集中展示了使用 DA 源節(jié)點(diǎn)產(chǎn)生的特性文件生成分析圖表的一個(gè)典型數(shù)據(jù)流。
圖 11. Modeler 流:用 DA 源節(jié)點(diǎn)生成的特性數(shù)據(jù)量化預(yù)測(cè)客戶流失風(fēng)險(xiǎn)
2.病毒式營(yíng)銷
病毒營(yíng)銷是營(yíng)銷技術(shù)的一種。它利用社交網(wǎng)絡(luò)提升品牌知名度或?qū)崿F(xiàn)其他目標(biāo)(如產(chǎn)品銷售)。具體的方式是發(fā)起人給一些用戶發(fā)出產(chǎn)品的最初信息,再依靠用戶自發(fā)的口碑宣傳,“讓大家告訴大家”,使其廣泛傳播。因?yàn)樗膫鬏敳呗允抢每焖購(gòu)?fù)制的方式將信息傳向數(shù)以千計(jì)、數(shù)以百萬(wàn)計(jì)的受眾,類似于自然病毒和電腦病毒,所以被經(jīng)濟(jì)學(xué)家稱為病毒營(yíng)銷。
采用群體分析和擴(kuò)散分析技術(shù),我們可以設(shè)計(jì)出一個(gè)更為精致的病毒性營(yíng)銷策略。我們會(huì)識(shí)別出群體中的“領(lǐng)袖人物”:那些對(duì)周圍人影響力大的人,將產(chǎn)品信息發(fā)布給他們。借助這些人的影響力,產(chǎn)品的信息可以更為有效的在社交網(wǎng)絡(luò)中傳播。我們還可以通過(guò)擴(kuò)散分析技術(shù)去量化評(píng)估信息傳播的效果。比如,takingtaking 推出新產(chǎn)品,我們可以做如下的工作:
1. 通過(guò) GA 進(jìn)行網(wǎng)絡(luò)分析,發(fā)現(xiàn)領(lǐng)袖人物。
2. 針對(duì)網(wǎng)絡(luò)中的領(lǐng)袖人物發(fā)布產(chǎn)品信息,促使他們支持和推薦新產(chǎn)品。
3. 選擇網(wǎng)絡(luò)中的領(lǐng)袖人物作為初始傳播種子,通過(guò) DA 進(jìn)行擴(kuò)散分析,估算網(wǎng)絡(luò)中其他個(gè)體購(gòu)買新產(chǎn)品的可能性。
4. 針對(duì)擴(kuò)散分析預(yù)測(cè)出的最有可能購(gòu)買新產(chǎn)品的客戶,營(yíng)銷人員進(jìn)行進(jìn)一步的推銷工作,使得新產(chǎn)品市場(chǎng)導(dǎo)入成功率明顯改善。
總結(jié)
本文介紹了 Modeler中兩種 SNA 模塊 GA 和 DA 的算法原理 , 并講解了它們?cè)诳蛻袅魇ьA(yù)警和病毒式營(yíng)銷兩種典型應(yīng)用。
應(yīng)用于客戶流失預(yù)警時(shí),GA 以海量的通話記錄為輸入,構(gòu)建出社交網(wǎng),然后將其分解為群體,計(jì)算出包括群體領(lǐng)袖在內(nèi)的一系列特征值,用于后續(xù)建模。DA 則根據(jù)海量通話記錄和流失客戶名單直接在社交網(wǎng)絡(luò)上對(duì)其他客戶所收沖擊進(jìn)行分析。
GA 和 DA 可以結(jié)合起來(lái)應(yīng)用于病毒式營(yíng)銷的籌劃和分析。其中 GA 用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中具有強(qiáng)大影響力的個(gè)體,而 DA 用于評(píng)估出最有可能購(gòu)買新產(chǎn)品的客戶。
值得一提的是,GA 和 DA 提供的一系列特征可以和傳統(tǒng)的特征無(wú)縫鏈接。新特征的引入有助于提高基于傳統(tǒng)特征的模型的性能。這一點(diǎn)在我們做過(guò)的很多試點(diǎn)項(xiàng)目中得到驗(yàn)證。另外,我們也期待隨著社交網(wǎng)絡(luò)這一新興事物的發(fā)展,GA 和 DA 能夠在更多的領(lǐng)域得到應(yīng)用。
試用版下載地址:
via:華南IBM大數(shù)據(jù)支持團(tuán)隊(duì)
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn