- 相關(guān)推薦
漢語分詞在中文軟件中的廣泛應用
摘要中文軟件需要具有對中文文本的輸入、顯示、編輯、輸出等基本功能,而且隨著計算機技術(shù)的發(fā)展,對于計算機的文本處理能力提出了更高的要求,諸如智能拼音語句輸入、手寫和語音自動識別輸入;文章的校對;簡體和繁體中文的自動轉(zhuǎn)換;信息檢索和信息摘錄;文本分類和自動文摘;語音合成;自然語言的理解和自動翻譯;自然語言接口等。 而所有這些中文處理功能都要建立在對漢語文本的分詞處理這一基本功能之上。因而,漢語分詞是中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應用前景。 一、 為什么需要漢語分詞我們知道,漢語的中文信息處理就是要“用計算機對漢語的音、形、義進行處理! [1], 我們還知道,“詞是最小的能夠獨立活動的有意義的語言成分。”[2] 然而,漢語文本中詞與詞之間卻沒有明確的分隔標記,而是連續(xù)的漢字串。顯而易見,自動識別詞邊界,將漢字串切分為正確的詞串的漢語分詞問題無疑是實現(xiàn)中文信息處理的各項任務的首要問題。 以拼音輸入中的同音詞自動辨識為例,據(jù)我們統(tǒng)計,漢語單字同音現(xiàn)象是非常嚴重的。以6763個漢字為例,沒有同音字的漢字只有16個。其他漢字都有同音字。其中最多的有116個同音字。而漢語詞的同音現(xiàn)象則有很大的改善。以52505的詞表為例,其中35942個詞語沒有同音詞。因此,大多數(shù)同音字可以依靠詞來確定。例如:”yi”對應的同音字“以,一,易,已,意”, 分別可以在“以為,一定,容易,已經(jīng),意義”中來確定。對于詞語(包括單字詞)的同音現(xiàn)象,則需要運用詞語之間的合理搭配以及詞語在句子中的合法運用來確定。比如“一枝可愛的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。但是這里“枝”是和“花”的合理搭配。也就是說”一 枝 可愛的玫瑰花”是合理的搭配。由此不難看出,分詞對于同音詞自動辨識的作用。而同音詞的自動辨識也是語音自動識別所要解決的重要問題。 除了同音詞的自動辨識,漢語的多音字自動辨識仍然需要分詞的幫助。例如:“校、行、重、樂、率”等都是多音字。無論是拼音自動標注還是語音合成都需要識別出正確的拼音。而多音字的辨識可以利用詞以及句子中前后詞語境,即上下文來實現(xiàn)。如以上幾個多音字都可以在以下幾組詞中得以定音:學校(xiao)/ 校(jiao)對、行(hang)列/行(xing)進、重(zhong)量/重(chong)新、快樂(le)/音樂(yue)、率(shuai)領(lǐng)/效率(lv)。 漢字的簡體/繁體轉(zhuǎn)換、信息檢索和信息摘錄、自然語言理解、文本分類、機器翻譯、文本校對等中文信息處理系統(tǒng)同樣都首先需要分詞作為其最基本的模塊。 二、 漢語分詞所面臨的關(guān)鍵問題及分詞算法漢語分詞是由計算機自動識別文本中的詞邊界的過程。從計算機處理過程上看,分詞系統(tǒng)的輸入是連續(xù)的字符串(C1C2C3……Cn),輸出是漢語的詞串(W1W2W3……Wm), 這里,Wi 可以是單字詞也可以是多字詞。 那么,在這個過程中,我們所要解決的關(guān)鍵問題是什么,我們又有什么樣的解決方案哪?
- 關(guān)鍵問題
- 通用詞表和切分規(guī)范 漢語的語素和單字詞,合成詞和短語之間沒有清晰的界限。語言學界雖然對于詞在概念上有一個十分清晰的定義,即,“詞是最小的能夠獨立活動的有意義的語言成分。”但從一些詞典的編撰中,我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。比如:“聽見”“看見”在很多詞典中都有收錄,但是有類似結(jié)構(gòu)的“聞見”卻沒有收錄。在建立分詞系統(tǒng)詞表時,仍然對于收詞的標準難以把握,例如:“雞蛋”是詞,那么“鴨蛋、鵪鶉蛋”是否也作為詞收入詞表?至今為止,分詞系統(tǒng)仍然沒有一個統(tǒng)一的具有權(quán)威性的分詞詞表作為分詞依據(jù)。這不能不說是分詞系統(tǒng)所面臨的首要問題。除了分詞詞表,還有一個概念值得我們注意,即“分詞單位”。從計算機進行分詞的過程來看,其輸出的詞串我們稱之為“切分單位”或“分詞單位”。《信息處理用現(xiàn)代漢語分詞規(guī)范》中對于“分詞單位”也有一個定義:“漢語信息處理使用的、具有確定的語義或語法功能的基本單位。包括本規(guī)范的規(guī)則限定的詞和詞組!保3]由此可見,信息處理中分詞單位的定義比傳統(tǒng)意義上的詞更寬泛些。這也就避開了理論上對于詞的界定難以把握的困擾。分詞系統(tǒng)可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規(guī)定“分詞單位”。分詞單位可以是同詞表中詞完全一致,也可以是包含未登錄詞識別以及一些詞法分析的切分單位, 例如,一些人名、地名、機構(gòu)名、外國人譯名,應予以識別和切分。一些動詞和形容詞重疊結(jié)構(gòu),如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱敏性”等;都可以作為分詞單位予以識別和切分。因此,對于一個分詞系統(tǒng)而言,制定一個一致性的分詞單位切分規(guī)范無疑也是一個重要的問題。 歧義切分字段 分詞系統(tǒng)要處理的第二個關(guān)鍵問題是文本中歧義切分字段的判別。漢語中歧義切分字段最基本有以下兩種類型:
- 交集型歧義字段,據(jù)統(tǒng)計,這種歧義字段占全部歧義字段的85%以上。[4]所以這也是分詞系統(tǒng)所要重點解決的問題。在字段ABC中,這里,A,B,C分別代表有一個或多個漢字組成的字串。A,AB,BC,C分別都是詞表中的詞,則稱該字段為交集型歧義字段。如:“中國/人”,“中/國人”兩種切分結(jié)果。 組合型歧義在字段ABC中, A,B,AB 分別都是詞表中的詞,則稱該字段為交集型歧義字段。如:他/具有/非凡/的/才能/。/ 只有/他/才/能/舉起/這/個/重物/。/
- 基于詞表的分詞-最大匹配(MM) 這是一種有著廣泛應用的機械分詞方法,該方法依據(jù)一個分詞詞表和一個基本的切分評估原則,即“長詞優(yōu)先”原則,來進行分詞。這種評估原則雖然在大多數(shù)情況下是合理的,但也會引發(fā)一些切分錯誤。根據(jù)我們小規(guī)模測試的結(jié)果,其正確率為95.422%,速度為65,000字/分鐘。 這種切分方法,需要最少的語言資源(僅需一個詞表,不需要任何詞法、句法、語義知識),程序?qū)崿F(xiàn)簡單,開發(fā)周期短,是一個簡單實用的方法。 基于統(tǒng)計的分詞 這種方法首先切分出與詞表匹配的所有可能的詞,這種切分方法稱為“全切分”,運用統(tǒng)計語言模型和決策算法決定最優(yōu)的切分結(jié)果。 這種方法的優(yōu)點是可以發(fā)現(xiàn)所有的切分歧義,但是解決歧義的方法很大程度上取決于統(tǒng)計語言模型的精度和決策算法。需要大量的標注語料,并且分詞速度也因搜索空間的增大而有所緩慢。根據(jù)我們小規(guī)模測試的結(jié)果,其正確率為96.252%。分詞速度為:40,000字/分鐘。 基于規(guī)則和基于統(tǒng)計相結(jié)合 這種方法首先運用最大匹配作為一種初步切分, 再對切分的邊界處進行歧義探測,發(fā)現(xiàn)歧義。再運用統(tǒng)計和規(guī)則結(jié)合的方法來判別正確的切分,運用不同的規(guī)則解決人名、地名、機構(gòu)名識別,運用詞法結(jié)構(gòu)規(guī)則來生成復合詞和衍生詞。 目前這種方法可以解決漢語中最常見的歧義類型:單字交集型歧義。并對人名、地名、機構(gòu)名、后綴、動詞/形容詞重疊、衍生詞等詞法結(jié)構(gòu)進行識別的處理,基本解決了分詞所面臨的最關(guān)鍵的問題。而且由于優(yōu)秀的辭典結(jié)構(gòu)和算法設計,分詞速度非常快。根據(jù)我們小規(guī)模測試的結(jié)果,其正確率為97.948%。分詞速度為:200,000字/分鐘。但是,目前這個分詞系統(tǒng)對于組合歧義的處理還沒有涉及。 這一分詞系統(tǒng)我們稱之為:WB2000, 它作為Office2000中文版中的一個基本模塊被許多中文功能所運用。
- WB2000的分詞功能 以上已經(jīng)從分詞算法上初步了解了WB2000, 從分詞功能的角度看,它具備以下幾個功能: 1)交叉型歧義識別
2)詞法分析:前后綴、重疊等
3)專有名詞識別:人名、地名、機構(gòu)名
4)其它:數(shù)量和時間類詞組識別 此外,從程序設計的角度看,它還具備以下的特點:
- 詞表的可擴充性, 分詞用詞表可以支持批量追加適合于各種應用的詞匯。 功能的可組合型, 可以根據(jù)不同應用的需要,通過以上分詞功能的不同組合,來調(diào)整不同的“分詞單位”。 接口的可共享型, 分詞系統(tǒng)的統(tǒng)一接口設計,使得不同的應用可以共享同一分詞系統(tǒng)。
- 文本自動校對 分詞是文本校對中的一個基本模塊,校對系統(tǒng)運用分詞模塊對文本進行分詞,運用詞語之間搭配的合理性來識別可能的錯誤。 例1:
簡體/繁體自動轉(zhuǎn)換 我們知道,簡體/繁體之間的轉(zhuǎn)換,在單字一級,會有一個簡體漢字對應多個繁體漢字的情況,如:“發(fā)”對應繁體的“發(fā)”和“髮”。那么,簡體/繁體轉(zhuǎn)換應該將“發(fā)”轉(zhuǎn)為“發(fā)”還是“髮”哪?這就引入了如何解決簡/繁歧義的問題。此外,簡體中文和繁體中文在一些技術(shù)術(shù)語的運用上也有不同。例如,簡體中文計算機術(shù)語“物理地址”和“邏輯地址”在繁體中文中寫作“邏輯位址”和“物理位址”。簡體/繁體轉(zhuǎn)換系統(tǒng)也需要解決這種術(shù)語的不同用法問題。 我們的簡體/繁體轉(zhuǎn)換系統(tǒng)運用分詞模塊切分詞語,根據(jù)詞語以及上下文來決定最可能的轉(zhuǎn)換結(jié)果。 例2:
- 迅速發(fā)展的計算機技術(shù)。
迅速發(fā)展的電腦技術(shù)。 她有一頭黑亮的頭發(fā)。
她有一頭黑亮的頭髮。
拼音指南 MSWord2000中提供了對于文本自動標音的功能,我們知道,漢語存在一字多音的問題,如何決定多音字的正確拼音哪?這里,我們?nèi)匀焕梅衷~系統(tǒng)作為基礎(chǔ)模塊根據(jù)上下文來判別其正確的拼音。 例4:
[2] 朱德熙《語法講義》,商務印書館,1982
[3] GB/T13715-92《信息處理用現(xiàn)代漢語分詞規(guī)范》,中國標準出版社,1993。
[4] 梁南元《書面漢語自動分詞系統(tǒng)-CDWS》,《中文信息學報》1(2),1987。 論文出處(作者):
現(xiàn)代漢語文本的詞語切分技術(shù)
人工智能論文下載(專業(yè)論文)
【漢語分詞在中文軟件中的廣泛應用】相關(guān)文章:
漢語中的數(shù)字文化06-01
試論對外漢語教學中的漢語課教學03-09
軟件無形性在軟件工程教育中的影響的論文12-08
隱喻理論在漢語花喻中的研究03-18
談對外漢語教學中的游戲教學03-18
世界與地方:漢語思想語境中“政治”的本性03-06