亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

漢語(yǔ)分詞在中文軟件中的廣泛應(yīng)用

  • 相關(guān)推薦

漢語(yǔ)分詞在中文軟件中的廣泛應(yīng)用

摘要
中文軟件需要具有對(duì)中文文本的輸入、顯示、編輯、輸出等基本功能,而且隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)于計(jì)算機(jī)的文本處理能力提出了更高的要求,諸如智能拼音語(yǔ)句輸入、手寫(xiě)和語(yǔ)音自動(dòng)識(shí)別輸入;文章的校對(duì);簡(jiǎn)體和繁體中文的自動(dòng)轉(zhuǎn)換;信息檢索和信息摘錄;文本分類和自動(dòng)文摘;語(yǔ)音合成;自然語(yǔ)言的理解和自動(dòng)翻譯;自然語(yǔ)言接口等。 而所有這些中文處理功能都要建立在對(duì)漢語(yǔ)文本的分詞處理這一基本功能之上。因而,漢語(yǔ)分詞是中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。 一、 為什么需要漢語(yǔ)分詞我們知道,漢語(yǔ)的中文信息處理就是要“用計(jì)算機(jī)對(duì)漢語(yǔ)的音、形、義進(jìn)行處理。” [1], 我們還知道,“詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分!盵2] 然而,漢語(yǔ)文本中詞與詞之間卻沒(méi)有明確的分隔標(biāo)記,而是連續(xù)的漢字串。顯而易見(jiàn),自動(dòng)識(shí)別詞邊界,將漢字串切分為正確的詞串的漢語(yǔ)分詞問(wèn)題無(wú)疑是實(shí)現(xiàn)中文信息處理的各項(xiàng)任務(wù)的首要問(wèn)題。 以拼音輸入中的同音詞自動(dòng)辨識(shí)為例,據(jù)我們統(tǒng)計(jì),漢語(yǔ)單字同音現(xiàn)象是非常嚴(yán)重的。以6763個(gè)漢字為例,沒(méi)有同音字的漢字只有16個(gè)。其他漢字都有同音字。其中最多的有116個(gè)同音字。而漢語(yǔ)詞的同音現(xiàn)象則有很大的改善。以52505的詞表為例,其中35942個(gè)詞語(yǔ)沒(méi)有同音詞。因此,大多數(shù)同音字可以依靠詞來(lái)確定。例如:”yi”對(duì)應(yīng)的同音字“以,一,易,已,意”, 分別可以在“以為,一定,容易,已經(jīng),意義”中來(lái)確定。對(duì)于詞語(yǔ)(包括單字詞)的同音現(xiàn)象,則需要運(yùn)用詞語(yǔ)之間的合理搭配以及詞語(yǔ)在句子中的合法運(yùn)用來(lái)確定。比如“一枝可愛(ài)的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。但是這里“枝”是和“花”的合理搭配。也就是說(shuō)”一 枝 可愛(ài)的玫瑰花”是合理的搭配。由此不難看出,分詞對(duì)于同音詞自動(dòng)辨識(shí)的作用。而同音詞的自動(dòng)辨識(shí)也是語(yǔ)音自動(dòng)識(shí)別所要解決的重要問(wèn)題。 除了同音詞的自動(dòng)辨識(shí),漢語(yǔ)的多音字自動(dòng)辨識(shí)仍然需要分詞的幫助。例如:“校、行、重、樂(lè)、率”等都是多音字。無(wú)論是拼音自動(dòng)標(biāo)注還是語(yǔ)音合成都需要識(shí)別出正確的拼音。而多音字的辨識(shí)可以利用詞以及句子中前后詞語(yǔ)境,即上下文來(lái)實(shí)現(xiàn)。如以上幾個(gè)多音字都可以在以下幾組詞中得以定音:學(xué)校(xiao)/ 校(jiao)對(duì)、行(hang)列/行(xing)進(jìn)、重(zhong)量/重(chong)新、快樂(lè)(le)/音樂(lè)(yue)、率(shuai)領(lǐng)/效率(lv)。 漢字的簡(jiǎn)體/繁體轉(zhuǎn)換、信息檢索和信息摘錄、自然語(yǔ)言理解、文本分類、機(jī)器翻譯、文本校對(duì)等中文信息處理系統(tǒng)同樣都首先需要分詞作為其最基本的模塊。 二、 漢語(yǔ)分詞所面臨的關(guān)鍵問(wèn)題及分詞算法漢語(yǔ)分詞是由計(jì)算機(jī)自動(dòng)識(shí)別文本中的詞邊界的過(guò)程。從計(jì)算機(jī)處理過(guò)程上看,分詞系統(tǒng)的輸入是連續(xù)的字符串(C1C2C3……Cn),輸出是漢語(yǔ)的詞串(W1W2W3……Wm), 這里,Wi 可以是單字詞也可以是多字詞。 那么,在這個(gè)過(guò)程中,我們所要解決的關(guān)鍵問(wèn)題是什么,我們又有什么樣的解決方案哪?
    關(guān)鍵問(wèn)題
      通用詞表和切分規(guī)范 漢語(yǔ)的語(yǔ)素和單字詞,合成詞和短語(yǔ)之間沒(méi)有清晰的界限。語(yǔ)言學(xué)界雖然對(duì)于詞在概念上有一個(gè)十分清晰的定義,即,“詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分!钡珡囊恍┰~典的編撰中,我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問(wèn)題。比如:“聽(tīng)見(jiàn)”“看見(jiàn)”在很多詞典中都有收錄,但是有類似結(jié)構(gòu)的“聞見(jiàn)”卻沒(méi)有收錄。在建立分詞系統(tǒng)詞表時(shí),仍然對(duì)于收詞的標(biāo)準(zhǔn)難以把握,例如:“雞蛋”是詞,那么“鴨蛋、鵪鶉蛋”是否也作為詞收入詞表?至今為止,分詞系統(tǒng)仍然沒(méi)有一個(gè)統(tǒng)一的具有權(quán)威性的分詞詞表作為分詞依據(jù)。這不能不說(shuō)是分詞系統(tǒng)所面臨的首要問(wèn)題。除了分詞詞表,還有一個(gè)概念值得我們注意,即“分詞單位”。從計(jì)算機(jī)進(jìn)行分詞的過(guò)程來(lái)看,其輸出的詞串我們稱之為“切分單位”或“分詞單位”!缎畔⑻幚碛矛F(xiàn)代漢語(yǔ)分詞規(guī)范》中對(duì)于“分詞單位”也有一個(gè)定義:“漢語(yǔ)信息處理使用的、具有確定的語(yǔ)義或語(yǔ)法功能的基本單位。包括本規(guī)范的規(guī)則限定的詞和詞組!保3]由此可見(jiàn),信息處理中分詞單位的定義比傳統(tǒng)意義上的詞更寬泛些。這也就避開(kāi)了理論上對(duì)于詞的界定難以把握的困擾。分詞系統(tǒng)可以面向解決實(shí)際問(wèn)題的需求和真實(shí)語(yǔ)料中使用的頻繁程度來(lái)規(guī)定“分詞單位”。分詞單位可以是同詞表中詞完全一致,也可以是包含未登錄詞識(shí)別以及一些詞法分析的切分單位, 例如,一些人名、地名、機(jī)構(gòu)名、外國(guó)人譯名,應(yīng)予以識(shí)別和切分。一些動(dòng)詞和形容詞重疊結(jié)構(gòu),如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱敏性”等;都可以作為分詞單位予以識(shí)別和切分。因此,對(duì)于一個(gè)分詞系統(tǒng)而言,制定一個(gè)一致性的分詞單位切分規(guī)范無(wú)疑也是一個(gè)重要的問(wèn)題。 歧義切分字段 分詞系統(tǒng)要處理的第二個(gè)關(guān)鍵問(wèn)題是文本中歧義切分字段的判別。漢語(yǔ)中歧義切分字段最基本有以下兩種類型:
        交集型歧義字段,據(jù)統(tǒng)計(jì),這種歧義字段占全部歧義字段的85%以上。[4]所以這也是分詞系統(tǒng)所要重點(diǎn)解決的問(wèn)題。在字段ABC中,這里,A,B,C分別代表有一個(gè)或多個(gè)漢字組成的字串。A,AB,BC,C分別都是詞表中的詞,則稱該字段為交集型歧義字段。如:“中國(guó)/人”,“中/國(guó)人”兩種切分結(jié)果。 組合型歧義在字段ABC中, A,B,AB 分別都是詞表中的詞,則稱該字段為交集型歧義字段。如:他/具有/非凡/的/才能/。/ 只有/他/才/能/舉起/這/個(gè)/重物/。/
      未登錄詞識(shí)別 我們知道,詞表中不能囊括所有的詞。一方面是因?yàn)檎Z(yǔ)言在不斷的發(fā)展和變化,新詞會(huì)不斷的出現(xiàn)。另一方面是因?yàn)樵~的衍生現(xiàn)象非常普遍,沒(méi)有必要把所有的衍生詞都收入辭典中。 特別是人名、地名等專有名詞,在文本中有非常高的使用頻度和比例。而且由于未錄詞引入的分詞錯(cuò)誤往往比單純的詞表切分歧義還要嚴(yán)重。這就要求分詞系統(tǒng)具有一定的未登錄詞識(shí)別能力,從而提高分詞的正確性。 除了人名、地名的識(shí)別,我們認(rèn)為,分詞系統(tǒng)還需要有一定的詞法分析能力,從而解決衍生詞和復(fù)合詞等詞匯平面上的問(wèn)題,為進(jìn)一步的中文信息處理提供堅(jiān)實(shí)的基礎(chǔ)。
    分詞算法 以上我們大致了解了分詞系統(tǒng)所面臨的關(guān)鍵問(wèn)題,那么,分詞系統(tǒng)怎樣解決這些問(wèn)題的哪?下面我對(duì)我們?cè)?jīng)試驗(yàn)過(guò)的幾種分詞算法,也是目前比較被廣泛使用的方法加以簡(jiǎn)單介紹:
      基于詞表的分詞-最大匹配(MM) 這是一種有著廣泛應(yīng)用的機(jī)械分詞方法,該方法依據(jù)一個(gè)分詞詞表和一個(gè)基本的切分評(píng)估原則,即“長(zhǎng)詞優(yōu)先”原則,來(lái)進(jìn)行分詞。這種評(píng)估原則雖然在大多數(shù)情況下是合理的,但也會(huì)引發(fā)一些切分錯(cuò)誤。根據(jù)我們小規(guī)模測(cè)試的結(jié)果,其正確率為95.422%,速度為65,000字/分鐘。 這種切分方法,需要最少的語(yǔ)言資源(僅需一個(gè)詞表,不需要任何詞法、句法、語(yǔ)義知識(shí)),程序?qū)崿F(xiàn)簡(jiǎn)單,開(kāi)發(fā)周期短,是一個(gè)簡(jiǎn)單實(shí)用的方法。 基于統(tǒng)計(jì)的分詞 這種方法首先切分出與詞表匹配的所有可能的詞,這種切分方法稱為“全切分”,運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。 這種方法的優(yōu)點(diǎn)是可以發(fā)現(xiàn)所有的切分歧義,但是解決歧義的方法很大程度上取決于統(tǒng)計(jì)語(yǔ)言模型的精度和決策算法。需要大量的標(biāo)注語(yǔ)料,并且分詞速度也因搜索空間的增大而有所緩慢。根據(jù)我們小規(guī)模測(cè)試的結(jié)果,其正確率為96.252%。分詞速度為:40,000字/分鐘。 基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合 這種方法首先運(yùn)用最大匹配作為一種初步切分, 再對(duì)切分的邊界處進(jìn)行歧義探測(cè),發(fā)現(xiàn)歧義。再運(yùn)用統(tǒng)計(jì)和規(guī)則結(jié)合的方法來(lái)判別正確的切分,運(yùn)用不同的規(guī)則解決人名、地名、機(jī)構(gòu)名識(shí)別,運(yùn)用詞法結(jié)構(gòu)規(guī)則來(lái)生成復(fù)合詞和衍生詞。 目前這種方法可以解決漢語(yǔ)中最常見(jiàn)的歧義類型:?jiǎn)巫纸患推缌x。并對(duì)人名、地名、機(jī)構(gòu)名、后綴、動(dòng)詞/形容詞重疊、衍生詞等詞法結(jié)構(gòu)進(jìn)行識(shí)別的處理,基本解決了分詞所面臨的最關(guān)鍵的問(wèn)題。而且由于優(yōu)秀的辭典結(jié)構(gòu)和算法設(shè)計(jì),分詞速度非?。根據(jù)我們小規(guī)模測(cè)試的結(jié)果,其正確率為97.948%。分詞速度為:200,000字/分鐘。但是,目前這個(gè)分詞系統(tǒng)對(duì)于組合歧義的處理還沒(méi)有涉及。 這一分詞系統(tǒng)我們稱之為:WB2000, 它作為Office2000中文版中的一個(gè)基本模塊被許多中文功能所運(yùn)用。
    三、 漢語(yǔ)分詞系統(tǒng)WB2000以及在中文Office2000中的應(yīng)用舉例這里,我們就WB2000在Office2000中文版中的具體應(yīng)用實(shí)例進(jìn)行簡(jiǎn)單介紹,從這些具體的應(yīng)用實(shí)例中,我們可以對(duì)中文分詞的廣泛應(yīng)用有進(jìn)一步深入的了解。
      WB2000的分詞功能 以上已經(jīng)從分詞算法上初步了解了WB2000, 從分詞功能的角度看,它具備以下幾個(gè)功能: 1)交叉型歧義識(shí)別
      2)詞法分析:前后綴、重疊等
      3)專有名詞識(shí)別:人名、地名、機(jī)構(gòu)名
      4)其它:數(shù)量和時(shí)間類詞組識(shí)別 此外,從程序設(shè)計(jì)的角度看,它還具備以下的特點(diǎn):
        詞表的可擴(kuò)充性, 分詞用詞表可以支持批量追加適合于各種應(yīng)用的詞匯。 功能的可組合型, 可以根據(jù)不同應(yīng)用的需要,通過(guò)以上分詞功能的不同組合,來(lái)調(diào)整不同的“分詞單位”。 接口的可共享型, 分詞系統(tǒng)的統(tǒng)一接口設(shè)計(jì),使得不同的應(yīng)用可以共享同一分詞系統(tǒng)。
      以上幾個(gè)的特點(diǎn),是基于分詞系統(tǒng)是所有語(yǔ)言信息處理系統(tǒng)的基礎(chǔ),也就是說(shuō),是所有語(yǔ)言信息處理系統(tǒng)所不可或缺的模塊這一認(rèn)識(shí)來(lái)設(shè)計(jì)的。我們認(rèn)為這一設(shè)計(jì)思想應(yīng)該是開(kāi)發(fā)通用的、實(shí)用的分詞系統(tǒng)所必須掌握的原則。 Office2000中的應(yīng)用舉例 Office2000 中有諸多功能運(yùn)用到分詞系統(tǒng),這里只挑選幾個(gè)典型的應(yīng)用例子加以說(shuō)明。
        文本自動(dòng)校對(duì) 分詞是文本校對(duì)中的一個(gè)基本模塊,校對(duì)系統(tǒng)運(yùn)用分詞模塊對(duì)文本進(jìn)行分詞,運(yùn)用詞語(yǔ)之間搭配的合理性來(lái)識(shí)別可能的錯(cuò)誤。 例1:
        簡(jiǎn)體/繁體自動(dòng)轉(zhuǎn)換 我們知道,簡(jiǎn)體/繁體之間的轉(zhuǎn)換,在單字一級(jí),會(huì)有一個(gè)簡(jiǎn)體漢字對(duì)應(yīng)多個(gè)繁體漢字的情況,如:“發(fā)”對(duì)應(yīng)繁體的“發(fā)”和“髮”。那么,簡(jiǎn)體/繁體轉(zhuǎn)換應(yīng)該將“發(fā)”轉(zhuǎn)為“發(fā)”還是“髮”哪?這就引入了如何解決簡(jiǎn)/繁歧義的問(wèn)題。此外,簡(jiǎn)體中文和繁體中文在一些技術(shù)術(shù)語(yǔ)的運(yùn)用上也有不同。例如,簡(jiǎn)體中文計(jì)算機(jī)術(shù)語(yǔ)“物理地址”和“邏輯地址”在繁體中文中寫(xiě)作“邏輯位址”和“物理位址”。簡(jiǎn)體/繁體轉(zhuǎn)換系統(tǒng)也需要解決這種術(shù)語(yǔ)的不同用法問(wèn)題。 我們的簡(jiǎn)體/繁體轉(zhuǎn)換系統(tǒng)運(yùn)用分詞模塊切分詞語(yǔ),根據(jù)詞語(yǔ)以及上下文來(lái)決定最可能的轉(zhuǎn)換結(jié)果。 例2:
          迅速發(fā)展的計(jì)算機(jī)技術(shù)。
          迅速發(fā)展的電腦技術(shù)。 她有一頭黑亮的頭發(fā)
          她有一頭黑亮的頭。
        聰明選詞 MSWord2000中,當(dāng)用戶雙擊鼠標(biāo)左鍵是,如果是英文文本,英文單詞會(huì)被高亮選中,如果是中文文本,中文詞語(yǔ)則也會(huì)高亮選中,用戶可以對(duì)選中的詞語(yǔ)做進(jìn)一步的編輯行為。這一功能同樣是運(yùn)用分詞系統(tǒng)來(lái)實(shí)現(xiàn)的。 例3:當(dāng)用戶在“計(jì)算機(jī)”文本段內(nèi)任意位置雙擊鼠標(biāo)左鍵時(shí),“計(jì)算機(jī)”將作為詞被選中。
        拼音指南 MSWord2000中提供了對(duì)于文本自動(dòng)標(biāo)音的功能,我們知道,漢語(yǔ)存在一字多音的問(wèn)題,如何決定多音字的正確拼音哪?這里,我們?nèi)匀焕梅衷~系統(tǒng)作為基礎(chǔ)模塊根據(jù)上下文來(lái)判別其正確的拼音。 例4:
          四、結(jié)語(yǔ)漢語(yǔ)分詞是中文信息處理系統(tǒng)的基礎(chǔ),有著極其廣泛的實(shí)際應(yīng)用。從基本的輸入系統(tǒng),如智能語(yǔ)句輸入法、語(yǔ)音輸入、手寫(xiě)輸入;到文字處理,如文本校對(duì)、簡(jiǎn)體/繁體轉(zhuǎn)換、拼音標(biāo)注;以及語(yǔ)音合成,文本檢索,文本分類,自然語(yǔ)言接口,自動(dòng)文摘等等,無(wú)處不滲透著分詞系統(tǒng)的應(yīng)用。但是對(duì)于分詞中所涉及的一些關(guān)鍵問(wèn)題,我們?nèi)匀粵](méi)有很好的解決方案。因此,中文信息處理技術(shù)的進(jìn)步和中文信息處理系統(tǒng)的廣泛應(yīng)用,有待于對(duì)分詞中的關(guān)鍵問(wèn)題進(jìn)行進(jìn)一步的深入研究和探索,如,制定和頒布國(guó)家通用的分詞詞表,研究歧義切分字段類型,增強(qiáng)歧義判別的能力,提高專有名詞的識(shí)別率,研究漢語(yǔ)的構(gòu)詞規(guī)則和詞法規(guī)則等等。從系統(tǒng)設(shè)計(jì)方面,應(yīng)考慮開(kāi)發(fā)通用的多功能的漢語(yǔ)分詞系統(tǒng),如:支持多種不同應(yīng)用的多詞典結(jié)構(gòu)、自適應(yīng)不同應(yīng)用的切分結(jié)果、帶結(jié)構(gòu)化和屬性信息的切分結(jié)果等。從分詞的在中文信息處理系統(tǒng)中的應(yīng)用方面,可以說(shuō),我們已經(jīng)跨出了一大步,但是我們?nèi)栽谥铝τ谕卣蛊湫碌膽?yīng)用,如:自動(dòng)文摘、漢語(yǔ)文本索引和檢索、漢語(yǔ)語(yǔ)音合成、漢語(yǔ)自然語(yǔ)言接口等。 我們認(rèn)為,漢語(yǔ)分詞系統(tǒng)作為中文信息處理系統(tǒng)的基石,有著極其廣泛的應(yīng)用前景。通過(guò)對(duì)分詞技術(shù)的深入研究,開(kāi)發(fā)出高質(zhì)量,多功能的分詞系統(tǒng),必將促進(jìn)中文信息處理系統(tǒng)的廣泛應(yīng)用,換言之,也就提高了中文軟件對(duì)于中文的處理能力,這也將使得計(jì)算機(jī)用戶的日常工作的效率得以提高。 參考文獻(xiàn)[1]《漢語(yǔ)信息處理詞匯01部分;基本術(shù)語(yǔ)(GB12200.1-90)》,中國(guó)標(biāo)準(zhǔn)出版社,1991
          [2] 朱德熙《語(yǔ)法講義》,商務(wù)印書(shū)館,1982
          [3] GB/T13715-92《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》,中國(guó)標(biāo)準(zhǔn)出版社,1993。
          [4] 梁南元《書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)-CDWS》,《中文信息學(xué)報(bào)》1(2),1987。 論文出處(作者):
          現(xiàn)代漢語(yǔ)文本的詞語(yǔ)切分技術(shù)
          人工智能論文下載(專業(yè)論文)

          【漢語(yǔ)分詞在中文軟件中的廣泛應(yīng)用】相關(guān)文章:

          漢語(yǔ)中的數(shù)字文化06-01

          試論對(duì)外漢語(yǔ)教學(xué)中的漢語(yǔ)課教學(xué)03-09

          探析翻譯教學(xué)中的“中文西化”現(xiàn)象03-19

          有機(jī)化學(xué)在生活中的廣泛應(yīng)用論文(精選8篇)03-16

          軟件無(wú)形性在軟件工程教育中的影響的論文12-08

          淺談對(duì)外漢語(yǔ)教學(xué)中漢語(yǔ)顏色詞的構(gòu)成分析03-22

          隱喻理論在漢語(yǔ)花喻中的研究03-18

          談對(duì)外漢語(yǔ)教學(xué)中的游戲教學(xué)03-18

          世界與地方:漢語(yǔ)思想語(yǔ)境中“政治”的本性03-06