- 相關(guān)推薦
大數(shù)據(jù)建模技術(shù)在人身保險(xiǎn)反欺詐領(lǐng)域的應(yīng)用路徑解析論文
一、引言
隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,尤其是“Alpha Go”戰(zhàn)勝李世石后,又以“Master”的身份橫掃圍棋界,使基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)建模成為了最新的技術(shù)熱點(diǎn)。通過(guò)模型訓(xùn)練讓機(jī)器智能化,代替人工,降低成本,提高效率和準(zhǔn)確率,其眾多的優(yōu)勢(shì)和巨大的商業(yè)價(jià)值吸引了各行各業(yè)的商業(yè)巨頭紛紛開始打造屬于自己的人工智能體系,尤以騰訊、阿里、百度等擁有明顯大數(shù)據(jù)資源優(yōu)勢(shì)的互聯(lián)網(wǎng)企業(yè)為代表。目前,人臉識(shí)別、語(yǔ)義識(shí)別、無(wú)人駕駛、智能風(fēng)險(xiǎn)識(shí)別、精準(zhǔn)預(yù)測(cè)模型等基于大數(shù)據(jù)的新技術(shù)在商業(yè)上的應(yīng)用已經(jīng)日趨成熟,并通過(guò)“互聯(lián)網(wǎng)+”迅速輻射到金融領(lǐng)域,開始重塑甚至顛覆傳統(tǒng)的商業(yè)及運(yùn)營(yíng)管理模式。這種變革帶來(lái)的競(jìng)爭(zhēng)壓力迫使銀行、保險(xiǎn)等金融機(jī)構(gòu)必須快速轉(zhuǎn)型升級(jí),積極尋求自身業(yè)務(wù)與大數(shù)據(jù)和新技術(shù)之間的契合點(diǎn)。而通過(guò)大數(shù)據(jù)構(gòu)建精準(zhǔn)風(fēng)險(xiǎn)預(yù)測(cè)模型提升風(fēng)險(xiǎn)識(shí)別的精準(zhǔn)度和效率,對(duì)于經(jīng)營(yíng)風(fēng)險(xiǎn)的保險(xiǎn)公司來(lái)說(shuō),便成了一個(gè)極具吸引力和價(jià)值的切入點(diǎn)。
縱觀國(guó)內(nèi)保險(xiǎn)行業(yè),目前對(duì)于大數(shù)據(jù)建模技術(shù)的應(yīng)用還處在探索和嘗試階段。整體來(lái)看,財(cái)產(chǎn)險(xiǎn)領(lǐng)域在精準(zhǔn)風(fēng)險(xiǎn)識(shí)別模型的應(yīng)用上要略為先行一步:一方面是行業(yè)信息的整合共享更加到位,2016 年底,“全國(guó)車險(xiǎn)反欺詐信息系統(tǒng)”正式上線,面向各市場(chǎng)主體提供保險(xiǎn)欺詐線索識(shí)別和風(fēng)險(xiǎn)預(yù)警功能,初步實(shí)現(xiàn)了行業(yè)車險(xiǎn)欺詐信息的交互共享;另一方面,由于車輛保險(xiǎn)的數(shù)據(jù)標(biāo)準(zhǔn)化程度較高,進(jìn)行大數(shù)據(jù)建模的基礎(chǔ)良好,因此國(guó)內(nèi)部分財(cái)產(chǎn)險(xiǎn)公司在車輛保險(xiǎn)后續(xù)稽核方面通過(guò)構(gòu)建大數(shù)據(jù)風(fēng)險(xiǎn)識(shí)別模型輔助稽核,取得了一定的成效。而人身保險(xiǎn)以人的壽命和健康作為對(duì)象,其經(jīng)營(yíng)的風(fēng)險(xiǎn)更加復(fù)雜多樣,加之我國(guó)公民信息管理較為碎片化,數(shù)據(jù)標(biāo)準(zhǔn)化程度低,因此大數(shù)據(jù)在我國(guó)人身保險(xiǎn)風(fēng)險(xiǎn)管控領(lǐng)域的應(yīng)用還較為滯后,僅有數(shù)家保險(xiǎn)公司進(jìn)行了創(chuàng)新嘗試。
本文以大數(shù)據(jù)建模技術(shù)在人身保險(xiǎn)反欺詐領(lǐng)域的應(yīng)用為例,從業(yè)務(wù)場(chǎng)景選擇、風(fēng)險(xiǎn)特征篩選、數(shù)據(jù)清洗與整理、建模工具與算法選擇、模型準(zhǔn)確性的驗(yàn)證等方面,詳細(xì)解構(gòu)了基于Spark 計(jì)算引擎、采用隨機(jī)森林算法構(gòu)建重大疾病保險(xiǎn)核保欺詐風(fēng)險(xiǎn)評(píng)估模型的路徑,以期對(duì)大數(shù)據(jù)建模技術(shù)在保險(xiǎn)風(fēng)險(xiǎn)管控領(lǐng)域的應(yīng)用提供一定的參考。
二、人身保險(xiǎn)大數(shù)據(jù)建模的基礎(chǔ)條件分析
(一)基礎(chǔ)數(shù)據(jù)條件
從1980 年我國(guó)保險(xiǎn)業(yè)恢復(fù)經(jīng)營(yíng)以來(lái),經(jīng)過(guò)30 多年的快速發(fā)展,到2016 年我國(guó)保險(xiǎn)業(yè)原保險(xiǎn)保費(fèi)收入已達(dá)3.10 萬(wàn)億元。三十年來(lái),人身保險(xiǎn)經(jīng)營(yíng)領(lǐng)域穩(wěn)步拓展,險(xiǎn)種類型不斷豐富,客戶群體持續(xù)擴(kuò)充,國(guó)內(nèi)主要人身保險(xiǎn)公司已經(jīng)積累起了海量的內(nèi)部數(shù)據(jù)。盡管保險(xiǎn)運(yùn)營(yíng)數(shù)據(jù)數(shù)字化的歷史僅二十年左右,規(guī)范的高質(zhì)量數(shù)據(jù)積累時(shí)間大約只有十余年,但主要人身保險(xiǎn)公司的內(nèi)部數(shù)據(jù)已經(jīng)足夠豐富。此外,金融行業(yè)的多元融合、金融機(jī)構(gòu)集團(tuán)化發(fā)展、大數(shù)據(jù)交易市場(chǎng)的興起,為人身保險(xiǎn)公司提供了外部重要風(fēng)險(xiǎn)數(shù)據(jù)接入的渠道和機(jī)會(huì)。雖然大部分重要數(shù)據(jù)都還碎片化地散落在不同領(lǐng)域,但從基本面上看,已經(jīng)具備進(jìn)行反欺詐大數(shù)據(jù)建模的數(shù)據(jù)基礎(chǔ)。
(二)建模技術(shù)條件
基于機(jī)器學(xué)習(xí)的數(shù)據(jù)建模工作,2010 年以前已經(jīng)在某些特定領(lǐng)域發(fā)揮了巨大作用,如圖像識(shí)別、自然語(yǔ)言處理等等。2010 年以后,隨著大數(shù)據(jù)概念的興起,機(jī)器學(xué)習(xí)大量的應(yīng)用都與大數(shù)據(jù)高度耦合,幾乎可以認(rèn)為,大數(shù)據(jù)是機(jī)器學(xué)習(xí)應(yīng)用的最佳場(chǎng)景。另一方面,技術(shù)發(fā)展促使硬件資源的成本不斷降低,模型構(gòu)建可用資源不斷擴(kuò)展,也為算法本身的完善提供了有利條件。2012年6月,《紐約時(shí)報(bào)》報(bào)道了Google Brain項(xiàng)目,這個(gè)項(xiàng)目是由Andrew Ng 和Map-Reduce 發(fā)明人Jeff Dean 共同主導(dǎo),用16000 個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱為“深層神經(jīng)網(wǎng)絡(luò)”的機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)的概念由此提出。通過(guò)大量模擬人腦行為的計(jì)算,深度學(xué)習(xí)為人類解決很多復(fù)雜的問(wèn)題打開了一扇無(wú)限的大門。
此外,在建模的工具和語(yǔ)言上,近幾年也有了井噴式的發(fā)展。除去老牌的SPSS 和SAS 這樣的企業(yè)在向大數(shù)據(jù)、分布式轉(zhuǎn)型,R和Python 語(yǔ)言的發(fā)展和應(yīng)用也簡(jiǎn)化了數(shù)據(jù)分析和建模的難度,各大互聯(lián)網(wǎng)企業(yè)也紛紛推出自己的機(jī)器學(xué)習(xí)平臺(tái),像Google 的Tensor Flow、IBM 的Watson 等等,都已經(jīng)有了很多成熟的應(yīng)用。
各方技術(shù)條件的成熟,為大數(shù)據(jù)建模技術(shù)在人身保險(xiǎn)反欺詐工作中的應(yīng)用做了充分的鋪墊。該應(yīng)用的探討和落地,可以有效輔助風(fēng)險(xiǎn)管控的人工作業(yè),提高欺詐案件的識(shí)別效率和識(shí)別精準(zhǔn)度。
(三)國(guó)內(nèi)建模技術(shù)人才狀況
在大數(shù)據(jù)建模工作中,具體模型搭建這個(gè)環(huán)節(jié)的主要承擔(dān)者是“數(shù)據(jù)科學(xué)家”!皵(shù)據(jù)科學(xué)家”的概念在2009 年由Natahn Yau 首次提出,其概念是采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備業(yè)務(wù)知識(shí)、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)分析能力、計(jì)算機(jī)相關(guān)知識(shí)及機(jī)器學(xué)習(xí)等多維度的知識(shí)體系,是業(yè)務(wù)、技術(shù)與數(shù)據(jù)三者結(jié)合的高端型人才。對(duì)此類人才高標(biāo)準(zhǔn)的要求和目前各行各業(yè)對(duì)這些人才的強(qiáng)大需求,造成了相關(guān)人才的緊缺,目前國(guó)內(nèi)此類人才供需狀況非常緊張,處于嚴(yán)重的供不應(yīng)求狀態(tài)。據(jù)2016 年數(shù)據(jù)科學(xué)家報(bào)告統(tǒng)計(jì),大約三分之二的數(shù)據(jù)科學(xué)家從業(yè)時(shí)間小于5 年,有83%的企業(yè)和組織表示沒(méi)有足夠的數(shù)據(jù)科學(xué)家來(lái)解決問(wèn)題。而隨著“互聯(lián)網(wǎng)+大數(shù)據(jù)”商業(yè)模式的巨大成功,越來(lái)越多的企業(yè)和組織對(duì)數(shù)據(jù)進(jìn)行投資,這一趨勢(shì)可能繼續(xù)。
但需求催生供給,國(guó)內(nèi)巨大的數(shù)據(jù)科學(xué)家人才供給缺口引致了此類人力資源價(jià)格的高企,吸引了人才資源流入國(guó)內(nèi)。2016 年國(guó)內(nèi)數(shù)據(jù)人才短缺的狀況已較2015 年有所改善,其中大部分屬于引進(jìn)國(guó)外專家或留學(xué)歸國(guó)人員;國(guó)內(nèi)高校、科研機(jī)構(gòu)和各類企業(yè)也加快了對(duì)此類人才的培養(yǎng)。
綜合來(lái)看,目前國(guó)內(nèi)人身保險(xiǎn)行業(yè)構(gòu)建精準(zhǔn)反欺詐風(fēng)險(xiǎn)識(shí)別模型的數(shù)據(jù)條件、技術(shù)條件和人才條件均已具備,可以也應(yīng)當(dāng)融合數(shù)據(jù)技術(shù)重構(gòu)傳統(tǒng)的反欺詐管理模式,以提升人身保險(xiǎn)經(jīng)營(yíng)死差益。
三、基于應(yīng)用實(shí)操的反欺詐大數(shù)據(jù)建模路徑探析
(一)業(yè)務(wù)場(chǎng)景選擇
模型的建設(shè)和應(yīng)用必須基于具體的業(yè)務(wù)場(chǎng)景,它決定了模型的數(shù)據(jù)原料范圍、風(fēng)險(xiǎn)特征篩選、作業(yè)經(jīng)驗(yàn)導(dǎo)入和模型建成后的具體應(yīng)用方式,因此在進(jìn)行模型建設(shè)之前需要選定目標(biāo)業(yè)務(wù)場(chǎng)景。下面從一個(gè)角度分析大數(shù)據(jù)模型在人身保險(xiǎn)反欺詐實(shí)踐中適合的業(yè)務(wù)場(chǎng)景:
1.選擇業(yè)務(wù)類型。以契約形式來(lái)劃分,保險(xiǎn)業(yè)務(wù)可以分為個(gè)人業(yè)務(wù)和團(tuán)體業(yè)務(wù)兩種類型。人身保險(xiǎn)公司在團(tuán)體業(yè)務(wù)中能夠獲取的數(shù)據(jù)信息普遍不足,而且在團(tuán)體業(yè)務(wù)中議價(jià)能力較弱,對(duì)團(tuán)體業(yè)務(wù)中單一被保險(xiǎn)人開展反欺詐工作存在一定的障礙和難度。因此,個(gè)人業(yè)務(wù)應(yīng)該是人身保險(xiǎn)公司反欺詐工作關(guān)注的重點(diǎn)。
2.選擇險(xiǎn)種類型。從險(xiǎn)種類型角度考量,高現(xiàn)金價(jià)值的儲(chǔ)蓄型險(xiǎn)種,由于射幸性不強(qiáng),故作為欺詐的標(biāo)的險(xiǎn)種可能性不大,保險(xiǎn)公司花費(fèi)大量的投入進(jìn)行建模的產(chǎn)出很低;費(fèi)用補(bǔ)償型短期健康險(xiǎn)雖然存在欺詐,但多以軟性欺詐為主,且涉及到第三方(醫(yī)療機(jī)構(gòu)),構(gòu)建反欺詐控費(fèi)模型需要龐大的醫(yī)療知識(shí)庫(kù)和海量的數(shù)據(jù),難度大、耗時(shí)長(zhǎng),一般保險(xiǎn)公司難以具備相應(yīng)能力。綜合考慮業(yè)務(wù)價(jià)值、代表性、實(shí)施可行性和數(shù)據(jù)質(zhì)量等多種因素,重大疾病保險(xiǎn)是一個(gè)較為理想的切入點(diǎn)。
3.選擇作業(yè)環(huán)節(jié)。從保險(xiǎn)公司業(yè)務(wù)風(fēng)險(xiǎn)管控作業(yè)鏈條和保險(xiǎn)合同的整個(gè)生命周期考慮,核保、理賠兩個(gè)環(huán)節(jié),一個(gè)把控入口關(guān)、一個(gè)把控出口關(guān),是保險(xiǎn)公司風(fēng)險(xiǎn)管控鏈條中最核心的兩個(gè)環(huán)節(jié),都是構(gòu)建和應(yīng)用反欺詐風(fēng)險(xiǎn)識(shí)別模型比較理想的業(yè)務(wù)環(huán)節(jié);谝陨蠋c(diǎn)的考慮,本文以個(gè)人業(yè)務(wù)重大疾病保險(xiǎn)核保階段的大數(shù)據(jù)反欺詐模型構(gòu)建作為后續(xù)探討的基礎(chǔ)。
(二)風(fēng)險(xiǎn)特征選擇
大數(shù)據(jù)預(yù)測(cè)模型是與對(duì)應(yīng)業(yè)務(wù)強(qiáng)綁定的。對(duì)保險(xiǎn)公司來(lái)說(shuō),大數(shù)據(jù)反欺詐模型性能的好壞,相關(guān)業(yè)務(wù)的風(fēng)險(xiǎn)特征的選擇是最基礎(chǔ)也是最重要的工作。它需要依靠保險(xiǎn)運(yùn)營(yíng)風(fēng)險(xiǎn)管理業(yè)務(wù)專家對(duì)實(shí)際業(yè)務(wù)的精深了解,協(xié)同數(shù)據(jù)科學(xué)家進(jìn)行精細(xì)篩選。只有將與欺詐結(jié)論密切相關(guān)的業(yè)務(wù)風(fēng)險(xiǎn)特征字段放入預(yù)先選擇的范圍內(nèi),才能為后續(xù)建模過(guò)程所用;如果在最初階段就遺漏某些關(guān)鍵業(yè)務(wù)信息,則將嚴(yán)重影響模型的效果。以重大疾病保險(xiǎn)核保階段的風(fēng)險(xiǎn)管控業(yè)務(wù)場(chǎng)景為例,大數(shù)據(jù)反欺詐模型建設(shè)中“本次投保信息、客戶歷史信息、銷售人員/渠道信息、外部重要風(fēng)險(xiǎn)信息”應(yīng)是主要考慮到的四個(gè)維度,基于以上維度又可以進(jìn)一步篩選風(fēng)險(xiǎn)特征,F(xiàn)簡(jiǎn)單舉例如下:除了從保險(xiǎn)公司內(nèi)外部可以直接獲取的風(fēng)險(xiǎn)數(shù)據(jù)特征外,數(shù)據(jù)科學(xué)家往往會(huì)基于數(shù)據(jù)的相關(guān)性等因素構(gòu)建一些衍生特征,目的在于用更低維度、相關(guān)性更強(qiáng)的特征替代原有特征,簡(jiǎn)化模型,提升效率。這在保險(xiǎn)公司的建模實(shí)操中也是一個(gè)非常重要的步驟。
(三)數(shù)據(jù)清洗和整理
基于預(yù)選的數(shù)據(jù)特征,需要進(jìn)行數(shù)據(jù)的基礎(chǔ)分析和數(shù)據(jù)清洗整理。
通過(guò)數(shù)據(jù)基礎(chǔ)的分析,可以使數(shù)據(jù)科學(xué)家對(duì)于數(shù)據(jù)質(zhì)量有一個(gè)全局的把控,也能夠獲取到各特征之間的相關(guān)性、和標(biāo)簽值(Label,是否為欺詐)之間的相關(guān)性,為上文提到的衍生特征加工作基礎(chǔ)。數(shù)據(jù)清洗和整理,能夠保證模型訓(xùn)練數(shù)據(jù)的數(shù)據(jù)質(zhì)量,結(jié)合模型算法的選擇,作一些適當(dāng)?shù)臄?shù)據(jù)格式轉(zhuǎn)換,可以提升模型的效率,具體有以下幾種方式:缺失值填補(bǔ)、量綱統(tǒng)一、離散連續(xù)值轉(zhuǎn)換、信息冗余值處理等。
(四)建模工具選擇
如上文所述,大數(shù)據(jù)建模技術(shù)的興起,為業(yè)內(nèi)提供了多樣化的建模工具與語(yǔ)言的選擇。在數(shù)據(jù)量不大的基礎(chǔ)上可以考慮在R語(yǔ)言或Python 語(yǔ)言單機(jī)開發(fā)環(huán)境上進(jìn)行模型建立;對(duì)于已經(jīng)熟練使用SAS 等傳統(tǒng)工具的企業(yè),可以在原有基礎(chǔ)上進(jìn)行大數(shù)據(jù)方面的擴(kuò)展和延伸;但目前基于大數(shù)據(jù)比較主流的建模工具是由UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP 實(shí)驗(yàn)室)所開源的通用并行框架——Spark。
Spark ML 是Spark 的機(jī)器學(xué)習(xí)庫(kù),支持回歸、分類、協(xié)同過(guò)濾、聚類等多種算法,部分算法支持流式訓(xùn)練,而且在spark2.0 上提供了模型文件保存和調(diào)用的接口,為模型落地實(shí)施提供了基礎(chǔ)。數(shù)據(jù)量較大的保險(xiǎn)公司進(jìn)行重大疾病保險(xiǎn)核保欺詐風(fēng)險(xiǎn)大數(shù)據(jù)建模時(shí),Spark ML 是比較合適的工具選擇。
(五)建模算法選擇
本文選擇的業(yè)務(wù)場(chǎng)景——個(gè)人業(yè)務(wù)重大疾病保險(xiǎn)核保階段的欺詐風(fēng)險(xiǎn)評(píng)估,可以視為一個(gè)數(shù)據(jù)的二分類問(wèn)題,將欺詐案件標(biāo)簽值識(shí)別為1,非欺詐案件識(shí)別為0。目前比較主流的二分類算法有:支持向量機(jī)(SVM)、決策樹、梯度下降樹、隨機(jī)森林等等。相比于其他的算法,隨機(jī)森林擁有以下優(yōu)點(diǎn):
1.實(shí)現(xiàn)比較簡(jiǎn)單;
2.有很好的抗噪聲能力,以及較低的擬合風(fēng)險(xiǎn);
3.高維度數(shù)據(jù)處理能力強(qiáng),能同時(shí)處理離散和連續(xù)型數(shù)據(jù);
4.訓(xùn)練速度快,能較快得到變量重要性排序;
5.訓(xùn)練過(guò)程中能夠?qū)崟r(shí)檢測(cè)到變量間的相互影響;
6.適用于并行化計(jì)算。
保險(xiǎn)公司在選擇算法的時(shí)候,應(yīng)當(dāng)綜合業(yè)務(wù)場(chǎng)景、數(shù)據(jù)規(guī)模和項(xiàng)目推進(jìn)時(shí)間要求來(lái)整體考量?傮w看來(lái),隨機(jī)森林比較適合作為大型保險(xiǎn)公司重大疾病保險(xiǎn)核保階段的欺詐風(fēng)險(xiǎn)評(píng)估模型的建模算法。
(六)構(gòu)建模型
大數(shù)據(jù)欺詐風(fēng)險(xiǎn)精準(zhǔn)評(píng)估模型的構(gòu)建是一個(gè)反復(fù)迭代的過(guò)程,其中主要分為兩個(gè)階段——訓(xùn)練階段和測(cè)試階段。其中訓(xùn)練階段主要是通過(guò)訓(xùn)練集數(shù)據(jù)根據(jù)不同的算法以及選取的參數(shù)進(jìn)行模型的初步擬合,而測(cè)試階段是通過(guò)測(cè)試集數(shù)據(jù)和評(píng)估指標(biāo)從數(shù)據(jù)上驗(yàn)證模型,并根據(jù)驗(yàn)證結(jié)果選擇調(diào)整模型參數(shù)重新訓(xùn)練或是輸出最終結(jié)果。其中參數(shù)的選取,是模型構(gòu)建過(guò)程中的一個(gè)關(guān)鍵步驟,本文使用Spark ML 提供的超參數(shù)網(wǎng)格和交叉驗(yàn)證來(lái)實(shí)現(xiàn)參數(shù)自動(dòng)化選取;模型的驗(yàn)證標(biāo)準(zhǔn)選取二分類評(píng)估中的Auc 值,該值為一個(gè)0 到1 的小數(shù),取值越大認(rèn)為模型效果越優(yōu)。
考慮到本文選取隨機(jī)森林算法作為示例,所以最終的模型結(jié)果是一個(gè)N 棵決策樹的組合。每棵樹中特征為特征池中隨機(jī)選擇出的M 個(gè)變量。在隨機(jī)森林中種植決策數(shù)的具體數(shù)量,需要數(shù)據(jù)科學(xué)家和保險(xiǎn)業(yè)務(wù)專家綜合模型的數(shù)據(jù)基礎(chǔ)和業(yè)務(wù)目標(biāo)來(lái)確定。整個(gè)模型以每棵決策樹評(píng)分的平均值作為最終案件欺詐風(fēng)險(xiǎn)的評(píng)估值,命名為F(Fraud)值(可理解為欺詐概率值)。該值為0 到1 之間的小數(shù),越接近1,認(rèn)為欺詐風(fēng)險(xiǎn)越大。
(七)模型性能的驗(yàn)證
基于大數(shù)據(jù)基礎(chǔ)構(gòu)建的個(gè)人業(yè)務(wù)重大疾病保險(xiǎn)核保階段欺詐風(fēng)險(xiǎn)評(píng)估模型能否投入生產(chǎn)環(huán)境進(jìn)入實(shí)際應(yīng)用,需要經(jīng)過(guò)詳盡周密的性能評(píng)估。目前業(yè)內(nèi)對(duì)于模型評(píng)估的兩種主要的評(píng)估度量是查準(zhǔn)率/準(zhǔn)確率(Precision)和召回率/查全率(Recall)。要理解這兩個(gè)度量值,首先要理解以下數(shù)據(jù)分類矩陣,又稱混淆矩陣——數(shù)據(jù)依照實(shí)際和預(yù)測(cè)的不同結(jié)果可以分為四類:
True Positives(TP):角色是反面人物,模型預(yù)測(cè)為反面人物
False Positives(FP):角色是正面人物,模型預(yù)測(cè)為反面人物
True Negatives(TN):角色是正面人物,模型預(yù)測(cè)為正面人物
False Negatives(FN):角色是反面人物,模型預(yù)測(cè)為正面人物
Precision 查準(zhǔn)率/準(zhǔn)確率計(jì)算公式為:在所有被預(yù)測(cè)為反面人物中,模型正確預(yù)測(cè)的比例,即TP(/ TP + FP);Recall 召回率/查全率計(jì)算公式為:在所有原本就是反面人物中,模型正確預(yù)測(cè)的比例,即TP / (TP + FN)?梢钥闯,通常在選擇高準(zhǔn)確率和高召回率之間總有一種權(quán)衡,這種權(quán)衡通過(guò)對(duì)F值判定欺詐的閾值大小調(diào)整來(lái)實(shí)現(xiàn)。而閾值的取值要取決于構(gòu)建模型的最終目的,對(duì)于某些情況而言,高準(zhǔn)確率的選擇可能會(huì)優(yōu)于高召回率。然而,對(duì)于欺詐預(yù)測(cè)模型,通常要偏向于高召回率,即使會(huì)犧牲掉一些準(zhǔn)確率。
四、大數(shù)據(jù)模型在保險(xiǎn)公司反欺詐實(shí)踐中的應(yīng)用
(一)模型的反欺詐業(yè)務(wù)場(chǎng)景嵌入
大數(shù)據(jù)精準(zhǔn)風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)模型的價(jià)值實(shí)現(xiàn)是與具體業(yè)務(wù)強(qiáng)綁定的,脫離業(yè)務(wù)場(chǎng)景的模型無(wú)法創(chuàng)造價(jià)值。本文以重大疾病保險(xiǎn)核保欺詐風(fēng)險(xiǎn)評(píng)估模型具體應(yīng)用為例,簡(jiǎn)要說(shuō)明一下模型具體如何應(yīng)用。
1.將模型固化為可以即插即用的系統(tǒng)功能模塊,能夠快速高效地在保險(xiǎn)公司的數(shù)據(jù)倉(cāng)庫(kù)中抓取風(fēng)險(xiǎn)特征數(shù)據(jù);
2.將模型嵌入保險(xiǎn)公司的自動(dòng)核保作業(yè)系統(tǒng),對(duì)所有待核保重大疾病投保申請(qǐng)進(jìn)行全業(yè)務(wù)風(fēng)險(xiǎn)掃描,并輸出模型計(jì)算的欺詐風(fēng)險(xiǎn)評(píng)估結(jié)果——F 值;
3.保險(xiǎn)公司運(yùn)營(yíng)風(fēng)險(xiǎn)管理專家根據(jù)核保作業(yè)經(jīng)驗(yàn)制定F 值的應(yīng)用規(guī)則,對(duì)F 值較低的投保申請(qǐng)自動(dòng)核保通過(guò),F(xiàn) 值較高的則進(jìn)入人工核保作業(yè)池并標(biāo)識(shí)風(fēng)險(xiǎn)提示;
4.核保作業(yè)人員參考F 值及對(duì)應(yīng)的風(fēng)險(xiǎn)提示,對(duì)進(jìn)入人工核保作業(yè)池的投保申請(qǐng)進(jìn)行審核,必要時(shí)可采用體檢、契約調(diào)查等更進(jìn)一步的風(fēng)險(xiǎn)控制手段;
5.持續(xù)觀察模型應(yīng)用效果,當(dāng)模型的準(zhǔn)確率和召回率達(dá)到較為理想的狀態(tài)時(shí),可以考慮按比例或者全部替代人工作業(yè),從而進(jìn)一步降低保險(xiǎn)公司運(yùn)營(yíng)成本。
此外,對(duì)于不需要嵌入作業(yè)流程或?qū)ψ鳂I(yè)時(shí)效要求不高的業(yè)務(wù)場(chǎng)景,也可以考慮以流程外批處理的方式應(yīng)用模型,來(lái)輔助業(yè)務(wù)的開展。
(二)模型的迭代完善
模型的后續(xù)迭代和完善是一個(gè)長(zhǎng)期的過(guò)程,在以下幾種情況下應(yīng)當(dāng)考慮對(duì)模型進(jìn)行迭代:
1.出現(xiàn)新的重要風(fēng)險(xiǎn)特征或模型原有風(fēng)險(xiǎn)特征被新的特征替代:在有外部數(shù)據(jù)補(bǔ)充或者業(yè)務(wù)角度分析出大量更優(yōu)的特征變量,可以對(duì)模型進(jìn)行迭代。
2.出現(xiàn)重大的業(yè)務(wù)規(guī)則變更:當(dāng)業(yè)務(wù)規(guī)則發(fā)生變化,為了適應(yīng)新的業(yè)務(wù)場(chǎng)景,模型將會(huì)需要進(jìn)行完全迭代,甚至可以理解為重建。
3.周期的迭代:模型是依賴于數(shù)據(jù)的,隨著數(shù)據(jù)的積累,模型應(yīng)該進(jìn)行周期性的迭代來(lái)保證其性能,可以考慮以數(shù)據(jù)增量百分比或者時(shí)間周期為標(biāo)準(zhǔn)來(lái)進(jìn)行迭代。
不論因?yàn)楹畏N原因?qū)δP瓦M(jìn)行了迭代,都需要基于準(zhǔn)確率和召回率重新評(píng)估模型的性能,必要的時(shí)候需要新舊模型同時(shí)在線,對(duì)比一段時(shí)間之后,再做模型的切換。
五、小結(jié)
保險(xiǎn)欺詐是保險(xiǎn)業(yè)自誕生以來(lái)從未徹底治愈的一個(gè)頑疾,嚴(yán)重威脅保險(xiǎn)公司健康發(fā)展,而信息不對(duì)稱帶來(lái)的博弈地位巨大差異和保險(xiǎn)本身的強(qiáng)射幸性是保險(xiǎn)欺詐難以禁絕的重要原因。由于射幸性是保險(xiǎn)的天然屬性難以改變,因此,盡可能地消除保險(xiǎn)公司與投/被保人之間的信息不對(duì)稱便成為了防范與控制保險(xiǎn)欺詐的主要途徑。通過(guò)商業(yè)調(diào)查的方式來(lái)消除信息不對(duì)稱雖然效果較好,但投入大、耗時(shí)長(zhǎng)、成本高,不宜作為一種普遍方式應(yīng)用于每一單業(yè)務(wù),故而保險(xiǎn)公司需要探索一條高效低廉的方式進(jìn)行全業(yè)務(wù)風(fēng)險(xiǎn)掃描,篩選出高風(fēng)險(xiǎn)業(yè)務(wù)加以重點(diǎn)防控。近年來(lái),隨著“互聯(lián)網(wǎng)+大數(shù)據(jù)”形成的現(xiàn)實(shí)生產(chǎn)力逐步滲透到保險(xiǎn)行業(yè),大數(shù)據(jù)建模技術(shù)有了越來(lái)越多的應(yīng)用,雖然現(xiàn)在還不甚成熟,但其所指明的前進(jìn)方向已確定無(wú)疑。將大數(shù)據(jù)建模技術(shù)應(yīng)用到人身保險(xiǎn)反欺詐領(lǐng)域,是一項(xiàng)保險(xiǎn)業(yè)務(wù)與先進(jìn)技術(shù)之間的創(chuàng)新結(jié)合。
本文探討了人身保險(xiǎn)公司開展大數(shù)據(jù)建模在數(shù)據(jù)、技術(shù)、人才三方面的條件。進(jìn)一步地,以大數(shù)據(jù)建模技術(shù)在人身保險(xiǎn)反欺詐領(lǐng)域的應(yīng)用為例,較為詳細(xì)地解構(gòu)了基于Spark計(jì)算引擎、采用隨機(jī)森林算法構(gòu)建重大疾病保險(xiǎn)核保欺詐風(fēng)險(xiǎn)評(píng)估模型的路徑,并給出了模型在實(shí)際業(yè)務(wù)中的嵌入方式以及相應(yīng)的迭代和完善方法。當(dāng)然,由于筆者能力有限以及一些客觀條件的限制,本文的研究還存在一些不足的地方,例如模型風(fēng)險(xiǎn)特征的具體探討,各個(gè)算法之間模型性能的比較,模型落地和迭代的具體實(shí)施方案等,這些都有賴于實(shí)踐的進(jìn)一步深化以豐富完善。展望未來(lái),大數(shù)據(jù)建模技術(shù)與人身保險(xiǎn)領(lǐng)域的合作將會(huì)更加深化,隨著技術(shù)能力的不斷提升,信息技術(shù)將在更高的層次上輔助保險(xiǎn)業(yè)解決各種業(yè)務(wù)難題,在保證精準(zhǔn)度的同時(shí),降低作業(yè)成本,助力保險(xiǎn)業(yè)打造出一片更加健康美好的明天。
【大數(shù)據(jù)建模技術(shù)在人身保險(xiǎn)反欺詐領(lǐng)域的應(yīng)用路徑解析論文】相關(guān)文章:
淺談納濾技術(shù)在水污染處理領(lǐng)域的應(yīng)用論文04-22
數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文04-21
數(shù)據(jù)處理技術(shù)在教學(xué)管理中的應(yīng)用05-25
數(shù)學(xué)建模論文格式字體04-18
數(shù)學(xué)建模論文格式標(biāo)準(zhǔn)05-07
多媒體技術(shù)應(yīng)用論文參考文獻(xiàn)09-19