- 相關(guān)推薦
分類(lèi)器組合增量集成的遠(yuǎn)程教育論文
1引言
基于上述分析,為了更好地在遠(yuǎn)程教育系統(tǒng)中對(duì)學(xué)生的表現(xiàn)進(jìn)行預(yù)測(cè),本文提出使用投票方法結(jié)合樸素貝葉斯的增量版本、1-NN和WINNOW算法。實(shí)驗(yàn)結(jié)果表明,本文提出的算法應(yīng)用于預(yù)測(cè)學(xué)生表現(xiàn)方面非常有用,能夠識(shí)別出學(xué)生的不良表現(xiàn),還能使老師在較早階段采取預(yù)防措施。甚至在學(xué)年一開(kāi)始,為了對(duì)有危險(xiǎn)的群體提供額外的幫助,更加準(zhǔn)確地診斷出學(xué)生表現(xiàn)的能力會(huì)隨著學(xué)期中加入新的課程數(shù)據(jù)而提升,為老師提供了更加有效的結(jié)果。
2背景
本章給出為預(yù)測(cè)學(xué)生表現(xiàn)進(jìn)行的教育數(shù)據(jù)挖掘、在線(xiàn)學(xué)習(xí)算法和增量集成分類(lèi)器的一些基本理論。
。玻苯逃龜(shù)據(jù)挖掘
分類(lèi)、分簇、可視化、關(guān)聯(lián)規(guī)則和統(tǒng)計(jì)挖掘通;趯W(xué)生們的使用數(shù)據(jù)發(fā)掘新的、有趣且有用的知識(shí),主要應(yīng)用于電子學(xué)習(xí)問(wèn)題或?qū)ο罂商幚砼c評(píng)估學(xué)生的學(xué)習(xí)表現(xiàn)、基于學(xué)生的學(xué)習(xí)表現(xiàn)提供適應(yīng)性課程和學(xué)習(xí)建議、處理與評(píng)估學(xué)習(xí)材料和基于網(wǎng)頁(yè)的教育課程、提供教師和學(xué)生的電子學(xué)習(xí)課程反饋、監(jiān)督非典型學(xué)生的學(xué)習(xí)表現(xiàn)。分類(lèi)(電子學(xué)習(xí)中最有用的教育數(shù)據(jù)挖掘任務(wù)之一)可用作不同的教育目標(biāo),例如:將提示驅(qū)動(dòng)或錯(cuò)誤驅(qū)動(dòng)的那些學(xué)生分組,找出這些學(xué)生通常有的錯(cuò)誤觀念;使用智能教學(xué)系統(tǒng)時(shí)預(yù)測(cè)/分類(lèi)學(xué)生等。還有,使用不同數(shù)據(jù)挖掘方法預(yù)測(cè)學(xué)生學(xué)習(xí)成績(jī)(分出低、中、高等級(jí))、使用來(lái)自Moodle日志的神經(jīng)網(wǎng)絡(luò)模型。
。玻苍诰(xiàn)學(xué)習(xí)算法和增量集成分類(lèi)
在線(xiàn)學(xué)習(xí)任務(wù)是為了從標(biāo)記的隨時(shí)間分布的訓(xùn)練數(shù)據(jù)中獲得一組概念描述,這類(lèi)學(xué)習(xí)對(duì)許多應(yīng)用都是重要的,如計(jì)算機(jī)安全、智能用戶(hù)接入和市場(chǎng)購(gòu)物籃分析,客戶(hù)的喜好會(huì)隨著新產(chǎn)品而變化,服務(wù)變得可用。應(yīng)對(duì)概念漂移算法必須快速并精確地收斂到新的目標(biāo)概念,而且在時(shí)間和空間上都有效。在不斷變化的環(huán)境中增量學(xué)習(xí)系統(tǒng)理想的特征有:無(wú)明顯關(guān)于系統(tǒng)環(huán)境變化的信息進(jìn)入系統(tǒng)時(shí)監(jiān)測(cè)環(huán)境變化的能力。從變化環(huán)境中迅速恢復(fù)的能力和調(diào)整假設(shè)滿(mǎn)足新環(huán)境的能力。舊環(huán)境重復(fù)出現(xiàn)時(shí)在環(huán)境中利用先驗(yàn)經(jīng)驗(yàn)的能力。在線(xiàn)學(xué)習(xí)算法處理每個(gè)訓(xùn)練實(shí)例一次,不需要存儲(chǔ)和預(yù)處理,維護(hù)當(dāng)前的影響目前所有訓(xùn)練實(shí)例的假說(shuō),這類(lèi)算法對(duì)大型數(shù)據(jù)集也是有用的,對(duì)大數(shù)據(jù)使用要求多次遍歷的批算法代價(jià)非常昂貴。批神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法會(huì)多次遍歷數(shù)據(jù)集,但在線(xiàn)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)僅需遍歷一次數(shù)據(jù),然而,僅遍歷一次數(shù)據(jù)可能會(huì)有一些相關(guān)損失。所有這些算法都有一個(gè)已知的缺點(diǎn),一次進(jìn)行幾個(gè)例子的學(xué)習(xí)非常困難,為了解決這個(gè)問(wèn)題,一些技術(shù)依賴(lài)于窗口技術(shù),它包括存儲(chǔ)的最后n個(gè)例子,當(dāng)新例子加進(jìn)來(lái)時(shí)才執(zhí)行一次學(xué)習(xí)任務(wù)。加權(quán)多數(shù)算法(WM)是許多在線(xiàn)算法的基礎(chǔ),WM維護(hù)專(zhuān)家集的權(quán)重向量,通過(guò)專(zhuān)家之間的加權(quán)多數(shù)投票預(yù)測(cè)輸出。投票感知在訓(xùn)練期間能存儲(chǔ)更多的信息,然后使用這個(gè)精細(xì)的信息在測(cè)試集上產(chǎn)生更好的預(yù)測(cè)。為了計(jì)算一個(gè)預(yù)測(cè),算法計(jì)算了每個(gè)預(yù)測(cè)向量的二進(jìn)制預(yù)測(cè),通過(guò)加權(quán)多數(shù)投票合并所有這些預(yù)測(cè),使用的權(quán)重是上述的幸存次數(shù),這產(chǎn)生了直觀的感受,“優(yōu)秀”的預(yù)測(cè)向量幸存時(shí)間長(zhǎng),在多數(shù)投票中有較大的權(quán)重。合并分類(lèi)器的概念是改進(jìn)分類(lèi)器性能的一個(gè)新方向,然而,在線(xiàn)設(shè)置中不是很明白如何直接應(yīng)用集成方法。一個(gè)解決辦法是依靠用戶(hù)指定每個(gè)基本學(xué)習(xí)者輸入流中例子的數(shù)目,但該方法假設(shè)已知很多關(guān)于數(shù)據(jù)流結(jié)構(gòu)的情況。也存在重新加權(quán)分類(lèi)器的在線(xiàn)升級(jí)算法,但是這些算法假設(shè)分類(lèi)器數(shù)目是固定的,此外,當(dāng)基本模型由少量例子訓(xùn)練時(shí)在線(xiàn)升級(jí)最初可能會(huì)有很大的損失,算法可能再也無(wú)法恢復(fù)。
3算法
提出眾所周知分類(lèi)器優(yōu)化集的選擇是多分類(lèi)器系統(tǒng)的一個(gè)重要部分,通常把分類(lèi)器輸出的獨(dú)立性當(dāng)作獲得更好的多分類(lèi)器系統(tǒng)的優(yōu)勢(shì)。分類(lèi)器合并項(xiàng)中,投票方法要求分類(lèi)器無(wú)任何先決條件。當(dāng)使用投票方法合并多個(gè)分類(lèi)器時(shí),如果大多數(shù)專(zhuān)家同意他們的觀點(diǎn)就會(huì)做出正確的決策,基于對(duì)這一點(diǎn)的信任,本文期待能獲得更好的結(jié)果。目前,有三種集成學(xué)習(xí)算法備受關(guān)注:WINNOW算法的核心類(lèi)似于感知。如果∑ixiwi>θ,它分類(lèi)一個(gè)新的實(shí)例x到類(lèi)2,否則分類(lèi)至類(lèi)1。然而,如果預(yù)測(cè)的類(lèi)是正確的,WIN-NOW如下更新它的權(quán)重,如果預(yù)測(cè)的值是y′=0,且實(shí)際值為y=1,則權(quán)重太;因此,對(duì)于每個(gè)xi=1,權(quán)重wi=wiβ這類(lèi)的特征,其中,推廣參數(shù)β大于1。如果y′=1且y=0,則權(quán)重太大;因此,對(duì)于每個(gè)特征xi=1,會(huì)通過(guò)設(shè)定權(quán)重wi=wiβ中0<β<1來(lái)降低對(duì)應(yīng)的權(quán)重,稱(chēng)為降級(jí)參數(shù)。WIN-NOW是指數(shù)更新算法的一個(gè)實(shí)例,相關(guān)特征的權(quán)重呈指數(shù)增長(zhǎng),但是不相關(guān)特征的權(quán)重呈指數(shù)縮小,基于這個(gè)原因,WINNOW能迅速適應(yīng)目標(biāo)函數(shù)中的變化(概念漂移)。1-最近鄰(1NN)是基于這樣的原則:一般會(huì)存在與數(shù)據(jù)集內(nèi)實(shí)例很靠近的實(shí)例,且這些實(shí)例有類(lèi)似的屬性。如果把實(shí)例打上類(lèi)標(biāo)簽,則未分類(lèi)實(shí)例的標(biāo)簽值可以通過(guò)觀察它的最近鄰居類(lèi)而確定。這個(gè)空間內(nèi)實(shí)例的絕對(duì)位置不如實(shí)例之間相對(duì)位置那么重要,使用距離度量標(biāo)準(zhǔn)確定相對(duì)距離,理想的距離度量標(biāo)準(zhǔn)一定是兩個(gè)相似類(lèi)的實(shí)例之間的最小距離,而不同類(lèi)的實(shí)例之間的最大距離。樸素貝葉斯分類(lèi)器是最簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)形式,因?yàn)樗J(rèn)定了每個(gè)特征與其他特征都是獨(dú)立的假設(shè),給定類(lèi)特征的狀態(tài)。獨(dú)立性的假設(shè)顯然幾乎總是錯(cuò)誤的,然而,簡(jiǎn)單的樸素貝葉斯方法仍然很有競(jìng)爭(zhēng)力,盡管它提供了對(duì)真實(shí)基礎(chǔ)概率很差的估計(jì)。樸素貝葉斯算法用于“批模式”,意味著算法見(jiàn)到它的訓(xùn)練實(shí)例之后還不能執(zhí)行它絕大部分計(jì)算,而是在所有訓(xùn)練實(shí)例上累積特定信息,然后在整個(gè)群里或者實(shí)例的“批”上執(zhí)行最終的計(jì)算,然而,需要注意的是,算法中沒(méi)有固定任何東西去阻止使用它進(jìn)行增量式的學(xué)習(xí)。例如,考慮增量式樸素貝葉斯算法可以運(yùn)行,假設(shè)它只遍歷一次訓(xùn)練數(shù)據(jù)。第1步,初始化所有的計(jì)數(shù)和總和為0,然后貫穿訓(xùn)練實(shí)例,一次一個(gè),對(duì)于每個(gè)訓(xùn)練實(shí)例,給定特征向量x和它的標(biāo)簽值,算法貫穿特征向量并遞增合適的計(jì)數(shù);第2步,用每個(gè)計(jì)數(shù)值除以同一類(lèi)訓(xùn)練實(shí)例的數(shù)目轉(zhuǎn)化這些計(jì)數(shù)和總數(shù)為概率;最后,計(jì)算之前的概率p(k),當(dāng)作類(lèi)k所有訓(xùn)練實(shí)例的分?jǐn)?shù)。本文提出的集成算法以創(chuàng)建三個(gè)算法(NB、WINNOW、1-NN)的集為起點(diǎn),當(dāng)新的實(shí)例到達(dá)時(shí),算法經(jīng)過(guò)它,并接收每個(gè)專(zhuān)家的預(yù)測(cè)。在線(xiàn)設(shè)置中,算法連續(xù)修改它使用的假說(shuō),重復(fù)接收模式,基于專(zhuān)家的預(yù)測(cè)多數(shù)投票預(yù)測(cè)它的分類(lèi),找出正確的分類(lèi),可能因此更新它的假說(shuō)。本文提出的集成方法的整體框圖如圖1所示,其中,hi是每個(gè)分類(lèi)器產(chǎn)生的假說(shuō),x是分類(lèi)的實(shí)例,y*是提出的在線(xiàn)集成方法的預(yù)測(cè)。模型的數(shù)目或運(yùn)行時(shí)間參數(shù)由用戶(hù)調(diào)整,這也是算法的一個(gè)易用性指標(biāo),對(duì)于非專(zhuān)業(yè)性數(shù)據(jù)挖掘,本文提出的集成方法無(wú)用戶(hù)調(diào)整參數(shù),將更吸引人。本文使用這三個(gè)具體的算法是因?yàn)樗鼈兒苋菀走m應(yīng)在線(xiàn)環(huán)境,不僅同一個(gè)WRI的新標(biāo)記可利用,而且下一個(gè)WRI的標(biāo)記也變得可用。對(duì)這三個(gè)算法使用簡(jiǎn)單的多數(shù)投票方法是因?yàn)樗谠诰(xiàn)環(huán)境中使用簡(jiǎn)單。增量訓(xùn)練學(xué)習(xí)者成為新實(shí)例的打包升級(jí)實(shí)現(xiàn)是可用的,但是沒(méi)有新特征變得可用。本文提出的集成方法能輕松的實(shí)現(xiàn)每臺(tái)機(jī)器并行使用學(xué)習(xí)算法。并行和分布式計(jì)算對(duì)機(jī)器學(xué)習(xí)(ML)執(zhí)行者來(lái)說(shuō)很重要,ML系統(tǒng)并行或是分布執(zhí)行的優(yōu)點(diǎn)有:
。保┨岣咚俣;
。玻┰黾涌墒褂玫膽(yīng)用范圍(例如它可以處理更多數(shù)據(jù))。
4實(shí)驗(yàn)
。矗睌(shù)據(jù)集
本文以希臘遠(yuǎn)程教育大學(xué)“信息”課程提供的訓(xùn)練集HOU為研究目標(biāo),HOU的基本教育單元是模塊,一個(gè)學(xué)生每年可以注冊(cè)高達(dá)三個(gè)模塊,“信息”課程由12個(gè)模塊組成,可得到學(xué)士學(xué)位。HOU的INF10模塊中,每學(xué)年學(xué)生必須上交四份書(shū)面作業(yè),參加與老師面對(duì)面的四個(gè)可選會(huì)議,11個(gè)月后應(yīng)考最終的測(cè)試。希臘的大學(xué)成績(jī)系統(tǒng)是10分制系統(tǒng),學(xué)生分?jǐn)?shù)大于等于5,則通過(guò)課程或模塊,而小于5則意味著掛科。共有1347個(gè)實(shí)例(學(xué)生的記錄)注冊(cè)INF10,如表1所示。從兩個(gè)不同資源中收集數(shù)據(jù),HOU的學(xué)生注冊(cè)和老師的記錄,幾乎收集到了所有學(xué)生的有關(guān)數(shù)據(jù)!邦(lèi)屬性”(因變量)表示導(dǎo)致期末考試測(cè)試結(jié)果的兩個(gè)值,“失敗”表示學(xué)生表現(xiàn)差,“差表現(xiàn)”表示學(xué)年內(nèi)暫停學(xué)業(yè)的學(xué)生(由于個(gè)人或?qū)I(yè)原因或沒(méi)能力上交兩份書(shū)面作業(yè))及不參加期末考試或參加了期末考試但分?jǐn)?shù)低于5分的學(xué)生,“通過(guò)”表示完成了INF10模塊,在期末考試中得到的分?jǐn)?shù)超過(guò)5分。
。矗矊(shí)驗(yàn)結(jié)果及分析
第一階段(訓(xùn)練階段)使用2006~2007學(xué)年收集的數(shù)據(jù)訓(xùn)練每個(gè)算法,將訓(xùn)練階段劃分成四個(gè)連續(xù)步驟,第1步包括來(lái)自第一份書(shū)面作業(yè)和得到的類(lèi)中的數(shù)據(jù),第2步包括第1步使用的數(shù)據(jù)和第二份書(shū)面作業(yè)的數(shù)據(jù),第3步包括第2步使用的數(shù)據(jù)和第三份書(shū)面作業(yè)的數(shù)據(jù),第4步包括第3步使用的數(shù)據(jù)和第4份書(shū)面作業(yè)的數(shù)據(jù)。隨后,收集新學(xué)年(2007~2008)的一組數(shù)據(jù),這組數(shù)據(jù)用于測(cè)量預(yù)測(cè)值精度(測(cè)試階段),測(cè)試階段也分成四個(gè)步驟,第1步,為了預(yù)測(cè)類(lèi),使用第一份書(shū)面作業(yè)。剩余的步驟以上述相同的方式使用新學(xué)年的數(shù)據(jù)。實(shí)驗(yàn)一:將本文提出的算法與每個(gè)在線(xiàn)學(xué)習(xí)算法(樸素貝葉斯、1-NN、WINNOW)進(jìn)行比較。本文通過(guò)調(diào)整任一算法的特定數(shù)據(jù)集來(lái)最小化任一專(zhuān)家系統(tǒng)偏見(jiàn)的影響,盡可能使用學(xué)習(xí)參數(shù)的缺省值,這樣可能導(dǎo)致較低的估計(jì)誤差率,但可能會(huì)影響所有學(xué)習(xí)算法的偏置,表中的WRI-1標(biāo)記的行表示預(yù)測(cè)精度。從表可以明顯看出,依照p<0.05的t-測(cè)試,本文提出的集成算法的分類(lèi)精度優(yōu)于其它各個(gè)分類(lèi)器?偟膩(lái)說(shuō),本文提出的集成算法在四個(gè)測(cè)試步驟的四個(gè)輸出上明顯比WINNOW算法更精確,此外,本文提出的算法在四個(gè)測(cè)試步驟的兩個(gè)輸出上明顯比1-NN算法更精確,而且,本文提出的算法在四個(gè)測(cè)試步驟的一個(gè)輸出上明顯比NB算法更精確。實(shí)驗(yàn)二:將本文提出的集成方法與每一批先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)的代表性算法進(jìn)行了比較。批算法是用于測(cè)量學(xué)習(xí)算法精度的上層算法,大部分批算法的增量版本都不是無(wú)損的,無(wú)損在線(xiàn)學(xué)習(xí)算法就是當(dāng)給定同一個(gè)訓(xùn)練集時(shí),這個(gè)算法會(huì)返回一個(gè)假說(shuō),與它對(duì)應(yīng)的批算法返回的相同。C4.5算法是一個(gè)決策樹(shù)代表性算法,RBF算法是一個(gè)眾所周知的估計(jì)神經(jīng)網(wǎng)絡(luò)權(quán)重值的學(xué)習(xí)算法,是神經(jīng)網(wǎng)絡(luò)的代表性算法,本研究中,3-NN算法結(jié)合了強(qiáng)魯棒性噪聲,RIPPER是規(guī)則的代表性學(xué)習(xí)者,最后,序貫最小優(yōu)化算法(SMO)是SVMs的代表性算法,表中WRI-2、WRI-3、WRI-4標(biāo)記的行表示每個(gè)算法的預(yù)測(cè)精度。表明顯地表示出本文提出的集成方法在四個(gè)測(cè)試步驟的一個(gè)輸出上明顯比RBF、BP和SMO算法更精確,此外,本文提出的算法在四個(gè)測(cè)試步驟的兩個(gè)輸出上明顯比3NN算法更精確,本文提出的算法在四個(gè)測(cè)試步驟的一個(gè)輸出上明顯比RIPPER和C4.5算法更精確,最后,本文提出的算法在四個(gè)測(cè)試步驟的四個(gè)輸出上也明顯比投票感知方法更精確。實(shí)驗(yàn)三:將本文提出的方法與幾個(gè)眾所周知的集成分類(lèi)器進(jìn)行了比較,必須提到的是其他集成方法只能用于批模式,本文使用批集成作為測(cè)量集成方法精確度的上層算法。第三個(gè)實(shí)驗(yàn)用于比較:
。保粒洌幔猓铮铮螅魶Q策樹(shù)樁算法和10次迭代算法,
。玻┯校保邦w樹(shù)的隨機(jī)森林集成算法,
3)投票感知器算法,
4)帶C4.5的旋轉(zhuǎn)森林算法和10次迭代算法。表4明顯地表示出本文提出的集成方法在四個(gè)測(cè)試步驟的一個(gè)輸出上明顯比其他測(cè)試的批集成方法更精確。從表可以看出,正如之前提到的,本文提出的集成方法的主要優(yōu)點(diǎn)是它能很容易地適用于在線(xiàn)環(huán)境,不僅相同WRI的新標(biāo)記變得可用,而且下一個(gè)WRI的標(biāo)記也可用,如果本文已經(jīng)使用了另一個(gè)測(cè)試學(xué)習(xí)者和集成方法,那么當(dāng)下一個(gè)WRI的標(biāo)記變成可用時(shí),應(yīng)該從零開(kāi)始重新訓(xùn)練分類(lèi)器。實(shí)驗(yàn)四:將本文的數(shù)據(jù)集中所有算法都用于批學(xué)習(xí)者,表5給出了訓(xùn)練時(shí)間。從表5可以明顯看出,增量更新將比在目前所見(jiàn)的所有數(shù)據(jù)上返回一個(gè)批算法快得多,它甚至可能是僅有的辦法,如果不能存儲(chǔ)目前所見(jiàn)的所有數(shù)據(jù)或者如果實(shí)時(shí)時(shí)間內(nèi)需要執(zhí)行在線(xiàn)預(yù)測(cè)和更新,至少它是非常迅速的。最大限度減小所需的訓(xùn)練時(shí)間是學(xué)者們非常感興趣的事,正如前面提到的,數(shù)據(jù)分析主要的研究領(lǐng)域是可用于數(shù)以百計(jì)訓(xùn)練實(shí)例問(wèn)題的精確度技術(shù)的探索。
5結(jié)語(yǔ)
本文提出了一種使用投票方法結(jié)合三個(gè)在線(xiàn)分類(lèi)器的集成算法:樸素貝葉斯、1-NN和WIN-NOW算法,通過(guò)非常精確的預(yù)測(cè),老師有能力知道哪些學(xué)生能完成模塊或課程,這個(gè)預(yù)測(cè)初始精度為73%,基于學(xué)生的人數(shù)統(tǒng)計(jì)數(shù)據(jù),在期末考試前達(dá)到82%。數(shù)據(jù)集來(lái)自模塊“信息介紹”,但結(jié)論是可推廣的,目前引起了學(xué)者們對(duì)HOU大部分模塊廣泛的研究興趣。實(shí)驗(yàn)結(jié)果表明,相比幾種較為先進(jìn)的分類(lèi)器,本文提出的分類(lèi)集成算法能夠更加準(zhǔn)確地預(yù)測(cè)學(xué)生的表現(xiàn)。
【分類(lèi)器組合增量集成的遠(yuǎn)程教育論文】相關(guān)文章:
項(xiàng)目集成管理公路工程論文12-04
物理小組合作教學(xué)論文12-07
一種新型集成解復(fù)用接收器的設(shè)計(jì)11-22
開(kāi)放英語(yǔ)自學(xué)模式遠(yuǎn)程教育論文12-02
本質(zhì)分類(lèi)教育改革論文12-04