亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

多民族語言本體知識庫構(gòu)建技術(shù)文學(xué)論文

時間:2024-10-07 17:37:47 語言文學(xué)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

多民族語言本體知識庫構(gòu)建技術(shù)文學(xué)論文

  摘 要:語義本體是共享概念模型的顯示的形式化規(guī)范說明,其目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R源。語義本體知識庫的構(gòu)建是文本自動處理的一個重要環(huán)節(jié),跨語言信息檢索、信息抽取、自動翻譯等領(lǐng)域中都有廣泛的應(yīng)用。該文旨在描述統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語言本體知識庫的創(chuàng)建思路,以及包含的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,基于詞匯語義的、包括漢語、英語及少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法等。

多民族語言本體知識庫構(gòu)建技術(shù)文學(xué)論文

  關(guān)鍵詞:知識庫;語義本體;詞典擴充;本體學(xué)習(xí)

  1 前言

  我國是一個統(tǒng)一的多民族國家,55個少數(shù)民族中的53個民族都有自己的語言文字。這些語言文字與本民族生存發(fā)展息息相關(guān)。2009年國務(wù)院發(fā)表《中國的民族政策與各民族共同繁榮發(fā)展》白皮書中指出:“為了使少數(shù)民族群眾共享信息化時代的成果,國家采取各種措施促進少數(shù)民族語言文字規(guī)范化、標(biāo)準(zhǔn)化和信息處理工作的健康發(fā)展!北倔w(Ontology)[1]是對共享概念的正規(guī)、明確的表述。本體始于哲學(xué)概念,90年代初被引入人工智能后,作為一種能在語義和知識層面上描述信息系統(tǒng)的概念模型建模工具[2]。

  基于語義的本體庫是實現(xiàn)跨語言信息檢索、信息抽取、自動翻譯等智能信息處理應(yīng)用的重要基礎(chǔ),是智能文本信息處理的重要環(huán)節(jié)。為人們所熟知的本體庫中文《知網(wǎng)》HowNet[3],是一個較為完整的以語言知識為基礎(chǔ)的中文本體知識庫。目前,《知網(wǎng)》已成為許多自然語言智能處理系統(tǒng)的基礎(chǔ)資源。

  本體構(gòu)建需要描述語言共性和個性信息。大量的語言研究說明,不同語言除具有個性差異外,還有共性因素。語言共性研究認(rèn)為,語言間存在某種共同的普遍規(guī)律,稱為“普遍語法”。為蒙、藏、維、哈、朝等民族語言以及漢語、英語構(gòu)建統(tǒng)一標(biāo)準(zhǔn)的本體庫,對于多民族語言智能信息處理應(yīng)用將起到積極地推動作用。

  目前,多民族語言,除漢語外,均缺乏或沒有本體知識庫建設(shè)。進行統(tǒng)一標(biāo)準(zhǔn)和接口的多民族語言語義本體知識庫的創(chuàng)建,意義主要表現(xiàn)在:(1)從技術(shù)方面看,將促進民族語言信息處理(Ethnic Language Processing)技術(shù)的發(fā)展,探索出一套把被充分研究的語言的處理技術(shù)轉(zhuǎn)移到被較少研究的語言上移植方案,使自然語言處理(NaturalLanguage Processing)技術(shù)的應(yīng)用更加廣泛。

  (2)從科技發(fā)展方面看,本項目實施為多民族語言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐。

  (3)從社會價值方面看,通過多民族語言信息技術(shù)服務(wù)于多民族的信息溝通和交流,將增強民族地區(qū)網(wǎng)絡(luò)信息安全,有利于促進民族團結(jié)、構(gòu)建多民族和諧社會。

  本文首先介紹了多民族語義本體庫的構(gòu)建思路,創(chuàng)建方法,詳細(xì)描述多民族語言知識本體庫包含內(nèi)容。介紹多民族語言共性知識庫中詞匯語義知識的表示和抽取,各民族語言特有語法知識的表示和抽取等技術(shù)。

  2 相關(guān)工作

  20世紀(jì)90年代初期,國際計算機界舉行了多次關(guān)于本體的專題研討會,本體成為包括知識工程、自然語言處理和知識表示在內(nèi)的諸多人工智能研究團體的熱門課題,其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的基礎(chǔ)上。目前中英文自然語言處理領(lǐng)域,已經(jīng)有很多語義本體的研究成果,其中最突出的是WordNet和HowNet。

  英文本體WordNet[4]的詞匯包括名詞、動詞、形容詞、副詞和功能詞。每個詞(更確切地說是詞的一條意項)是一個網(wǎng)絡(luò)節(jié)點。節(jié)點之間通過“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。目前,Word-Net已經(jīng)分別建立了名詞、動詞、形容詞和副詞的四個相互獨立的語義網(wǎng)絡(luò),包括約十萬多個詞項。

  中文本體HowNet[3]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,從1996年研發(fā)至今,已有漢語詞項96 744條,多家科研單位研發(fā)基于HowNet知識表示的信息處理技術(shù)。但目前,查新還沒有查到民族語言信息處理研究中,關(guān)于語義本體表示層面的相關(guān)研究內(nèi)容。基于語義的本體知識庫在文本處理、信息抽取、基于文本的數(shù)據(jù)挖掘、自動翻譯中都有廣泛的應(yīng)用,合適的本體知識庫將成為文本自動處理中的一個重要環(huán)節(jié)。

  總結(jié)多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,發(fā)現(xiàn)各民族語言之間的異同;研究和實現(xiàn)基于詞匯語義的、包括漢語、英語、及多種少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法,構(gòu)建統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多語言語義概念本體知識庫,將會為多民族語言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐,加快民族語言信息處理的進程。

  3 多民族語言知識庫構(gòu)建

  本文將多語言知識庫的建設(shè)作為研究的重點,為多語言信息處理的關(guān)鍵技術(shù)和應(yīng)用研究提供更好的支持。為了實現(xiàn)上述目標(biāo),表達(dá)各民族語言的語義知識的多語言語義本體庫和各民族語言語法知識庫都是不可缺少的,擬構(gòu)建的多民族語言知識庫將這兩種知識庫融合在一起。

  3.1 多民族語言本體知識庫

  與通常單語本體知識庫不同,由于各民族語言間存在著一些共性的概念,如一個漢語詞與其在其他語言中的譯文對應(yīng)同樣的語義概念,同一概念在不同語言中具有相同的語法功能(比如動詞同時需要施事者和受事者,或動詞可接雙賓語),且其常見搭配詞可以在語義概念上一一對應(yīng)。因此,多語本體知識庫需要保存各民族語言在語法和語義上的一些共性信息,從而體現(xiàn)各語言的詞匯在語義概念上的對應(yīng)性,各語義概念在不同語言中語法行為的某種相似性,以及各語義概念之間的關(guān)聯(lián)。這些共性知識可用于解決翻譯和跨語言檢索中的詞義消歧,提供翻譯模板輔助調(diào)序和目標(biāo)語生成等問題。表示語言共性知識的本體庫使用語義概念作為基本詞條(在本體庫中稱為元素)。

  在這一過程中,有一個反復(fù)迭代、逐步求精的過程,而這種迭代體現(xiàn)在自動建立HowNet語義本體知識庫需要用到一系列不同語言的分詞詞性標(biāo)注工具的自動分析結(jié)果,而使用語義本體知識庫和語義相似度分析可以解決分詞詞性標(biāo)注過程中的一些歧義消歧現(xiàn)象,提高分詞詞性標(biāo)注的性能。

  多語言語義本體知識庫構(gòu)建模型見圖1。

  3.2 語言本體創(chuàng)建

  本體結(jié)構(gòu)(Ontology Structure)是一個四元組O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示關(guān)系集合;Hc表示概念層次,即概念間的分類關(guān)系(Taxonomy Relation);Rel表示概念間的非分類關(guān)系(Non-taxonomy Relation)。

  本文以概念和概念的層次分類為基礎(chǔ),適當(dāng)增加概念之間的聯(lián)系與推理,作為多民族語言語義本體的體系結(jié)構(gòu)。本文借鑒《知網(wǎng)》的知識定義,結(jié)合在多民族語言信息處理當(dāng)中的應(yīng)用,確定本體庫的結(jié)構(gòu)。

  主要包含以下內(nèi)容:

  ①基本屬性a)語義編碼 b)上下位元素 c)詞類信息②概念屬性a)義原 b)搭配概念③共性語法信息在設(shè)計該本體庫結(jié)構(gòu)中,充分考慮了擴展性因素,并將信息處理需要用到的信息盡量并入該本體庫當(dāng)中,作為元信息以最大化地輔助其他信息處理過程。

 、苷Z法知識庫

  各民族語言也具有自己的特性知識,充分利用這些信息對機器翻譯調(diào)序、目標(biāo)語言生成和跨語言信息檢索都有重要意義。這部分語言的特性知識一般表現(xiàn)在語法層面,因此本體知識庫需要另一個部分———各民族語言特有的語法知識庫作為補充。

  蒙藏維語和漢語語法知識庫結(jié)構(gòu):詞法信息:詞類,變格,變元等信息,時態(tài)、人稱、數(shù)等信息;

  句法信息:句式或次范疇化信息,主謂賓等信息。

 、轂榱俗詣咏ㄔO(shè)包含上述多語言共性知識和各民族語言語法知識的知識庫,本課題還需要完成兩個任務(wù):一是為知識庫的每種詞條設(shè)計屬性結(jié)構(gòu),使每種詞條的結(jié)構(gòu)能夠充分表達(dá)其對應(yīng)的知識,并使其易于應(yīng)用;二是在獲得合理的知識庫結(jié)構(gòu)的基礎(chǔ)上,從語料庫中通過統(tǒng)計或規(guī)則的方法學(xué)習(xí)每一詞條的各種屬性的取值。

  3.3 語義本體概念的詞典擴充

  語義本體的創(chuàng)建是耗時耗力的艱苦工作,需要語言學(xué)家、知識工程師和信息處理人員合作完成。

  目前的語義本體的創(chuàng)建,有手工創(chuàng)建和自動生成兩種策略。手工創(chuàng)建本體人工工作是主體,最多增加一些本體創(chuàng)建的輔助工具,以方便和加快概念和關(guān)系獲取的過程。完全手工創(chuàng)建的本體一般規(guī)模較小,無法應(yīng)付海量的知識源。自動策略一般采用有監(jiān)督或無監(jiān)督的機器學(xué)習(xí)技術(shù)從文本語料中自動獲取概念和關(guān)系,人工干預(yù)程度較低。

  為了自動構(gòu)建描述多民族語言共同特點的本體知識庫,我們首先需要一個具有較高準(zhǔn)確率和覆蓋率的雙語詞典。對于一個翻譯系統(tǒng),這樣的詞典也可以有效地提高翻譯的準(zhǔn)確性。然而,當(dāng)前的民族語言和漢語之間的雙語詞典還不能很好地覆蓋語料庫中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規(guī)模語料之上建立起來的,這些語料并不能很好地覆蓋所有的領(lǐng)域,因此有些詞(比如領(lǐng)域?qū)I(yè)術(shù)語)不會在詞典中出現(xiàn);而且當(dāng)某個詞具有一詞多義現(xiàn)象時,具有領(lǐng)域偏置的詞典可能會漏掉一些解釋。第二,未登錄詞問題,其中有很大一部分是專有名詞,如人名、地名、機構(gòu)名、時間日期等,這些專有名詞除了時間、日期可以通過規(guī)則進行翻譯,其他詞語在翻譯中往往并無直接的規(guī)律可循。還有很多新詞需要收入詞典。

  解決上述問題的一個方法是在已有詞典和語料的基礎(chǔ)上,進行詞典的自動擴充,包括根據(jù)上下文對齊關(guān)系擴充新詞,以及采用特定方法識別術(shù)語和名實體并找到其對應(yīng)的翻譯等方法。目前,關(guān)于自動詞典擴充的研究還不完善,且多民族語言的現(xiàn)有數(shù)據(jù)缺乏對齊語料、部分語言數(shù)據(jù)量很小等特點,現(xiàn)有的方法并不符合多民族語言信息處理的現(xiàn)狀。因此需要提出針對多民族語言詞語級信息處理的詞典擴充方案。為了建立一個適用于翻譯的雙語詞典,我們需要對以下問題進行研究:①在現(xiàn)有詞典的基礎(chǔ)上,根據(jù)上下文的共現(xiàn)信息進行逐步擴充。在詞典擴充的過程中,可能會出現(xiàn)三種情況,第一,對應(yīng)的雙語端詞語都是新詞;第二,雙語端詞都在詞典中出現(xiàn),但詞典中不包含兩者的對應(yīng)關(guān)系;第三,雙語端有一端在詞典中出現(xiàn),另一端是新詞,如一詞多義現(xiàn)象和一詞多譯現(xiàn)象。其中第一、二種情況需要根據(jù)雙語上下文共現(xiàn)一致性進行詞典擴充,第三種情況可以利用單語言端上下文共現(xiàn)一致性進行同義詞的挖掘。

 、诿麑嶓w和術(shù)語的翻譯往往有一定規(guī)律可循,例如命名實體等在不同語言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語料中識別出名實體和術(shù)語并找到不同語言間的對應(yīng)翻譯。如蒙古文詞是一個人名,用漢字標(biāo)音時蒙古文中間的音節(jié)(ro)在漢字中沒有,可用近似的漢字來標(biāo)注,有三種寫法:嘎日迪、嘎爾迪、嘎儒迪,這三種標(biāo)注都算正確。

  ③詞典會隨著新語料的加入而不斷增長,且新詞當(dāng)中名實體類型出現(xiàn)的頻率最高。詞典不斷增長的問題使得詞典擴充不可能一次性被解決,因此為了解決以上問題,我們將采用一種在線擴充方法,在當(dāng)前詞典的基礎(chǔ)上,不斷地從新語料中抽取新的對應(yīng)關(guān)系加入到詞典中,實現(xiàn)詞典的不斷更新。

  4 總結(jié)

  語義本體是共享概念模型的顯示的形式化規(guī)范說明,其目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R源。本文描述了建設(shè)統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語言本體知識庫的思路,及需要研究的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,基于詞匯語義的、包括漢語、英語、及多種少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法等。

  語義本體知識庫的構(gòu)建是文本自動處理的一個重要環(huán)節(jié),跨語言信息檢索、信息抽取、自動翻譯等領(lǐng)域中都有廣泛的應(yīng)用,具有極大的研究價值。

【多民族語言本體知識庫構(gòu)建技術(shù)文學(xué)論文】相關(guān)文章:

當(dāng)代審美實踐與文學(xué)本體論的構(gòu)建10-16

當(dāng)代審美實踐與文學(xué)本體論的構(gòu)建詳細(xì)內(nèi)容05-08

基于本體的教學(xué)知識庫系統(tǒng)分析08-31

綠色建筑技術(shù)體系構(gòu)建論文10-28

漢語言文學(xué)論文05-24

漢語言文學(xué)論文10-23

語言文學(xué)畢業(yè)論文精選10-24

語言文學(xué)畢業(yè)論文07-06

電影語言與文學(xué)語言的比較研究論文08-17

構(gòu)建高職漢語言文學(xué)專業(yè)課程人才培養(yǎng)模式論文07-10