數(shù)據(jù)挖掘:用大數(shù)據(jù)的刀切小數(shù)據(jù)的蛋糕

?智能總結(jié)者|李彤編 輯|胡曉棟 上海國家會(huì)計(jì)學(xué)院 snai69768000
本文根據(jù)北京元年科技股份有限公司高級(jí)副總裁李彤在“信息技術(shù)與財(cái)務(wù)的未來”高峰論壇演講內(nèi)容整理
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,或者企業(yè)按既定目標(biāo),對(duì)大量企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的方法,即Data Mining ——從數(shù)據(jù)中獲取“知識(shí)”。
一
數(shù)據(jù)挖掘是如何產(chǎn)生的?數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理技術(shù)已經(jīng)有60年的歷史,60年代伴隨著計(jì)算機(jī)的普及,數(shù)據(jù)庫技術(shù)興起,實(shí)現(xiàn)了流程效率標(biāo)準(zhǔn)化,但也產(chǎn)生了大量數(shù)據(jù),如何運(yùn)用這些數(shù)據(jù)對(duì)管理進(jìn)行決策成為下一個(gè)等待解決的問題。
時(shí)間轉(zhuǎn)到80年代,這時(shí)出現(xiàn)了專門的OLAP技術(shù)(數(shù)據(jù)分析服務(wù)),它對(duì)所有數(shù)據(jù)進(jìn)行加工利用,把ERP中的關(guān)系數(shù)據(jù)和分析數(shù)據(jù)分離,目的是解決數(shù)據(jù)量比較大的情況下,在分析計(jì)算的時(shí)候不影響正常業(yè)務(wù)的發(fā)生。
但是,運(yùn)用OLAP做分析時(shí)仍然主要依靠于人,比如我們發(fā)現(xiàn)整個(gè)集團(tuán)的利潤或銷售收入有問題,我們可以按產(chǎn)品、客戶一級(jí)一級(jí)找,最終發(fā)現(xiàn)是某一個(gè)區(qū)域的某一個(gè)市場上的某一個(gè)產(chǎn)品出現(xiàn)了問題。但想具體分析是什么因素影響了銷售和利潤的達(dá)成,那我們就沒有辦法了。
進(jìn)入20世紀(jì),商業(yè)社會(huì)飛速發(fā)展,數(shù)據(jù)量越來越大,沒有辦法依靠個(gè)人的經(jīng)驗(yàn)總結(jié),必須要依靠算法,數(shù)據(jù)挖掘的構(gòu)想由此產(chǎn)生。
二
凡是對(duì)數(shù)據(jù)挖掘有一點(diǎn)基礎(chǔ)概念的人都知道沃爾瑪在數(shù)據(jù)挖掘中有一個(gè)經(jīng)典的案例,他們通過對(duì)海量消費(fèi)者購物小票購買商品的關(guān)聯(lián)分析,發(fā)現(xiàn)有30%購買尿布的消費(fèi)者會(huì)同時(shí)購買啤酒。利用這個(gè)規(guī)律可以幫助他們在陳列貨架的時(shí)候,把尿布和啤酒放在相近的位置,事實(shí)證明能夠非常有效地促進(jìn)啤酒的銷售。
這個(gè)規(guī)律實(shí)際上就是數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)了知識(shí),其實(shí)背后是有一定邏輯支持,因?yàn)楹芏嗄贻p的父親肩負(fù)著給孩子買尿布的工作,到超市的時(shí)候自然就順手給自己買了啤酒。試想沒有數(shù)據(jù)挖掘的方法,依靠個(gè)人肯定很難得出這樣的結(jié)論。這就告訴我們,其實(shí)數(shù)據(jù)挖掘的核心是數(shù)據(jù)加算法。
在數(shù)據(jù)挖掘的領(lǐng)域中算法非常多,大概可以分成兩大類,第一描述類,包括聚類分析、尋找管理、異常檢測等,是對(duì)現(xiàn)有數(shù)據(jù)的處理;第二預(yù)測類,包括分類、回歸分析、序列分析等,主要通過建立數(shù)學(xué)模型,利用歷史數(shù)據(jù)搭建出來的數(shù)據(jù)模型,對(duì)一些新的數(shù)據(jù)進(jìn)行判斷。
不過,光有算法是不夠的,數(shù)據(jù)挖掘的方法沒有特定的一招可以打遍天下的方法,而一定是在理解業(yè)務(wù)的基礎(chǔ)上吃透手里的數(shù)據(jù)。通過直覺判斷設(shè)計(jì)模型,由輸出的數(shù)據(jù)來驗(yàn)證直覺是否正確,如果不正確再增加調(diào)整分析模型。數(shù)據(jù)挖掘需要反復(fù)迭代,而且是針對(duì)每一個(gè)應(yīng)用場景非常個(gè)性化的分析過程。一直到模型可以應(yīng)用的時(shí)候,才會(huì)把它投入到解決實(shí)際問題的應(yīng)用當(dāng)中。
對(duì)于企業(yè)來講,真正應(yīng)用數(shù)據(jù)挖掘需要構(gòu)建完整的從數(shù)據(jù)獲取、數(shù)據(jù)清洗、治理到建立數(shù)據(jù)倉庫,抽象出多維模型的流程,然后才能提供給數(shù)據(jù)挖掘的算法進(jìn)行數(shù)據(jù)加工和處理,它需要企業(yè)有一整套數(shù)據(jù)架構(gòu)的支撐,才能做好數(shù)據(jù)挖掘的工作。
三
數(shù)據(jù)挖掘的效果似乎很炫酷,實(shí)際上過程非常曲折。在數(shù)據(jù)獲取、算法設(shè)計(jì)的過程中會(huì)不斷遇到各種各樣的挑戰(zhàn),才能最終取得一點(diǎn)點(diǎn)對(duì)于業(yè)務(wù)有幫助、有價(jià)值的知識(shí)和信息??偨Y(jié)一下制約著數(shù)據(jù)挖掘應(yīng)用的因素:
1、數(shù)據(jù)質(zhì)量,如果數(shù)據(jù)都是垃圾,那肯定挖不到金子。
2、算法基礎(chǔ),參與數(shù)據(jù)挖掘工作從業(yè)人員需要掌握統(tǒng)計(jì)學(xué)和數(shù)學(xué)的知識(shí)。
3、計(jì)算性能,如果數(shù)據(jù)量大,算法復(fù)雜,那么對(duì)計(jì)算性能就會(huì)有非常高的要求。
數(shù)據(jù)挖掘是大數(shù)據(jù)核心的應(yīng)用,對(duì)于在企業(yè)中數(shù)據(jù)挖掘技術(shù)的落地,我們建議企業(yè)從基礎(chǔ)開始,建立一套經(jīng)營分析預(yù)測的基礎(chǔ)網(wǎng)狀模型體系,建立多變量、多因素、復(fù)雜的決策網(wǎng)絡(luò)預(yù)算、經(jīng)營預(yù)測,尤其是能夠深入到某一個(gè)業(yè)務(wù)環(huán)節(jié),例如銷售預(yù)測、供應(yīng)鏈預(yù)測等一些深入的模型。
在整體網(wǎng)狀模型的基礎(chǔ)上,再利用大數(shù)據(jù)和數(shù)據(jù)挖掘在例如價(jià)格預(yù)測、銷量預(yù)測等點(diǎn)上的進(jìn)行應(yīng)用。在在這些點(diǎn)的應(yīng)用中讓數(shù)據(jù)的分析和預(yù)測更精細(xì),更科學(xué)。之后通過這些點(diǎn)狀應(yīng)用與收入、成本、費(fèi)用、利潤、現(xiàn)金流等完整的企業(yè)分析決策模型整合,在整體上發(fā)揮更大的決策支持價(jià)值。數(shù)據(jù)挖掘是一種科學(xué)決策的思維,即便在缺乏“海量”數(shù)據(jù)支撐的企業(yè),利用這種思維和方法,還是能夠帶來數(shù)據(jù)價(jià)值的創(chuàng)造和提升。
長按識(shí)別二維碼,下載PPT全文
相關(guān)閱讀作 者| 李彤
編輯| 胡曉棟
(本文轉(zhuǎn)載自 ,如有侵權(quán)請電話聯(lián)系13810995524)
* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流
- 【MBAChina 官方社群矩陣】
- 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請 · 中外合辦學(xué) 四大板塊。
- ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
- ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
- ??博士項(xiàng)目交流群
- ??中外合作辦學(xué)項(xiàng)目群
- ?? 添加微信:MBAChina001
- 備注【報(bào)考項(xiàng)目】,邀請您加入專屬交流群

掃碼關(guān)注我們
- 獲取報(bào)考資訊
- 了解院?;顒?dòng)
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動(dòng)態(tài)
活動(dòng)日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 06/01 6月1日直播預(yù)告:香港理工大學(xué)SPEED學(xué)院_全新碩士課程專場!26fall入學(xué)!
- 06/03 6月3日活動(dòng)報(bào)名 | 北大光華-凱洛格國際EMBA項(xiàng)目Coffee Chat@上海
- 06/03 【活動(dòng)報(bào)名】中國科學(xué)技術(shù)大學(xué)科技商學(xué)院專題講座重磅開啟!
- 06/04 6月4日 席位鎖定中 | 香港中文大學(xué)(深圳)MBM2027級(jí)招生說明會(huì)
- 06/06 長春理工大學(xué)2027級(jí)工商管理碩士(MBA)考生見面會(huì)
- 06/06 重磅!上財(cái)?shù)嗡呓?027級(jí)全日制金融碩士“新興金融探索日”活動(dòng)通知
- 06/06 深圳場 | 清華-康奈爾雙學(xué)位金融MBA公開課暨2027級(jí)招生說明會(huì)報(bào)名中!
- 06/06 上海 | 紫荊課堂暨2027級(jí)清華MBA招生咨詢會(huì)報(bào)名開啟!
- 06/06 浪潮已至|南科大科創(chuàng)MBA 2027級(jí)招生啟動(dòng)大會(huì)來了
- 06/06 活動(dòng)報(bào)名 | “迅策科技”校友企業(yè)參訪暨清華五道口金融EMBA深圳招生說明會(huì)
熱門資訊
掃碼關(guān)注 MBAChina
掃碼關(guān)注
EMBA








