數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。
與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘與統(tǒng)計分析的區(qū)別
抽取業(yè)務數(shù)據(jù),輔助商業(yè)決策——企業(yè)福音
“大數(shù)據(jù)”、“數(shù)據(jù)挖掘”襲來,無論是政府、還是企業(yè),都渴望在這大數(shù)據(jù)時代占得先機。大數(shù)據(jù)中心、數(shù)據(jù)研究中心爭相建立,如果說現(xiàn)在是互聯(lián)網(wǎng)的天下,未來將是大數(shù)據(jù)的天下。如果說大數(shù)據(jù)服務平臺類似于互聯(lián)網(wǎng),則數(shù)據(jù)挖掘等同于互聯(lián)網(wǎng)平臺下的技術開發(fā),數(shù)據(jù)挖掘的產(chǎn)品將遍及人們生活方方面面。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。
簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數(shù)據(jù)量進行分析的復雜數(shù)據(jù)分析方法受到很大限制。現(xiàn)在,由于各行業(yè)業(yè)務自動化的實現(xiàn),商業(yè)領域產(chǎn)生了大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰,更主要是為商業(yè)決策提供真正有價值的信息,進而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少。因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
根據(jù)已知,預測未知——HR福音
“招聘難”、“離職率高”、“崗位配置多少人”、“這么高薪水員工都不滿意”等問題困擾著絕大多數(shù)的HR,最大的心酸是長期奔波于招聘與離職管理,仍然不受各部門待見。
這是為什么呢?
因為我們的工作存在滯后性,作為業(yè)務支持部門,無論是招聘還是其他,都是先由業(yè)務部門提出需求,我們人力資源部進行協(xié)助;這中間就存在滯后,常常導致任務重,時間緊。于是出現(xiàn)了HR很累,業(yè)務部門還不滿意的情況。所以要做好人力資源工作,無論是簡單的人事管理,還是HRBP,都需要有前瞻性。
目前HR們也都想到了這一點,可是無奈人力資源事項多,數(shù)據(jù)類型格式不統(tǒng)一,更多的是非量化數(shù)據(jù),心有余而力不足,基本是根據(jù)自己多年的經(jīng)驗,作出預測估計。預測結果準確性難以保證。
而數(shù)據(jù)挖掘的核心功能就在于“根據(jù)已知,預測未知”。
數(shù)據(jù)挖掘的三種預測技術:
第一種,根據(jù)過去,預測未來;
第二種,根據(jù)事物關聯(lián)性預測;
第三種,根據(jù)一般情況判斷異常情況。
第一種技術應用的特別多,相信每個HR都用過,只是沒有留意到。
例如做人工成本預算,根據(jù)過去的人工成本,每年的平均漲薪幅度以及人員人數(shù)變動情況;
崗位編制,根據(jù)去年的編制以及每年的人員變動需要。
需要注意的是,應用第一種技術的條件是:需要預測的對象在較長時期內(nèi)性質(zhì)保持穩(wěn)定。如人工成本在薪酬設計后需要注意,崗位編制在組織重構后需要注意。
根據(jù)事物關聯(lián)性,應用起來相對復雜,需要多方面、多維度權衡。A與B有關聯(lián),簡單理解是A發(fā)生了,B在某種概率上也會發(fā)生。目前HR用的最多的是直接的因果聯(lián)系,很少有“啤酒尿布一起賣”這種關聯(lián)性。
關聯(lián)性將是未來HR最常用的技術,如何把不同類型的數(shù)據(jù)聯(lián)系起來從而得出結論是關鍵。
特別要注意的一點是:關聯(lián)性技術的應用面廣,產(chǎn)品的應用面窄;通俗點說,哪里都能用關聯(lián)性,但是每個關聯(lián)性得到的結果只能應用在特定的條件下。
根據(jù)一般情況判斷異常情況,這個技術在工業(yè)生產(chǎn)、科學實驗中用得最多。產(chǎn)品故障與未知粒子的發(fā)現(xiàn)都是在一次次“異常”情況中分析得到的。適用于數(shù)據(jù)積累量大、機理相對成熟的事物預測。