LZW算法的改進(jìn)研究

時間：2024-08-31 11:26:53 計(jì)算機(jī)應(yīng)用畢業(yè)論文我要投稿

相關(guān)推薦

關(guān)于LZW算法的改進(jìn)研究

【摘　要】在分析LZW算法的基礎(chǔ)上，對LZW算法的缺陷進(jìn)行了探討。并對LZW算法進(jìn)行了改進(jìn)，大幅度減少了編碼的長度，降低了匹配長度取值變化的影響，完全兼容LZW算法，在平均壓縮率方面有較大的提高，而且對改進(jìn)的算法進(jìn)行了分析論證。
【關(guān)鍵詞】數(shù)據(jù)壓縮 LZW算法緩沖區(qū)

關(guān)于LZW算法的改進(jìn)研究

        LZW算法的實(shí)質(zhì)是無損壓縮技術(shù)[1-3]，LZW算法通過對輸入流進(jìn)行分析，自適應(yīng)地生成一個包含輸入流中不重復(fù)子串的串表，將每一子串映射為一獨(dú)立的碼字輸出。這樣，它就充分利用了相鄰輸入之間的相關(guān)性，可以取得超過信源一階熵的編碼效率。然而，受緩存容量、計(jì)算復(fù)雜度和計(jì)算速度等因素的限制，串表的長度受到一定限制，且一般信源所具有的局部平穩(wěn)性隨緩存容量加大，編碼效率提高不大。即：它自身固有一定的缺陷與不足，難以滿足人們的需要，對它進(jìn)行改進(jìn)一直成為人們的研究目標(biāo)之一[4-6]。為了解決這一問題，本文對LZW算法進(jìn)行了改進(jìn)，命名為LZWC編碼算法。它兼有LZW算法的優(yōu)點(diǎn)，還具有自身的優(yōu)越性。首先對LZW算法進(jìn)行一些必要的介紹和分析。
        1. LZW算法
        LZW算法[1]由韋爾奇（T.A.Welch）于1984年通過對LZ算法的改進(jìn)。開發(fā)出的一種更優(yōu)算法。它是一種基于字典的編碼方法。并且它是LZ系列碼中應(yīng)用最廣，變形最多的一種算法。LZW壓縮有3個重要的對象：數(shù)據(jù)流、編碼流和編譯表。在編碼時，數(shù)據(jù)流是輸入對象，編碼流就是輸出對象；在解碼時，編碼流則是輸入對象，數(shù)據(jù)流是輸出對象；而編譯表是在編碼和解碼時都需要借助的對象。
        1.1LZW算法的編碼原理
        LZW算法的編碼原理為：對消息序列xn=x1x2x3…xn從左到右進(jìn)行閱讀，并以此進(jìn)行LZW編碼：
        (1)對x1顯然是第一次出現(xiàn)，它的前面也沒有字符，那么他的編號是1，它的碼元為(1,0, x1)。
        (2)對于x2它可能有兩種情況發(fā)生，即x1=x2或x1≠x2。對此，有
        ①如果x1=x2，那么對于x2不作編碼，而對x3的編碼位點(diǎn)取2，連接位點(diǎn)則為1，這表示對x3作第二次編碼，它與第一次編碼的x1相連接。
        ②如果x1≠x2，那么x2的編碼位點(diǎn)取為2，連接位點(diǎn)則為0，這表示對x2作第二次編碼，它的前面沒有出現(xiàn)過相同的字符。
        (3)依照上述步驟遞推，如果對向量xn=x1x2x3…xn，n<m，我們已經(jīng)得到它的編碼：C={(i,li, xji),i=1,2, …, k }.
        對上式的C滿足的條件:對每一個i有且只有一對(i,li)，使li<i<ji成立。那么C構(gòu)成一LZW樹。由樹的構(gòu)造可知，對每個點(diǎn)i，它的枝li是唯一的。因此，樹C的全部枝為li，i=0，1，…,k 確定，而且每個li與xn中的子向量xαi對應(yīng)。
        (4)如向量xn中的編碼C及相應(yīng)的樹確定，那么我們就可讀xn+1,xn+2,…, xn+k,并對它們繼續(xù)進(jìn)行編碼，如果有一個i≦k使xαi=(xn+1,xn+2,…, xn+k)成立，而且對任何i≦k都有：xαi≠( xn+1,xn+2,…, xn+k，xn+k+1)成立。那么：
        ①不對字符xn+1,xn+2,…, xn+k進(jìn)行編碼。
        ②對xn+k+1作它的編碼為（K+1,i, xn+k+1）。
        以此類推，就可以完成對xn的編碼C。
        2.2 LZW算法的原理
        LZW算法通過編碼表來組織輸人字符串，并把它們轉(zhuǎn)換成一定長度的編碼。LZW算法有一個重要的特性稱作前綴性，即如果一個字符串在編碼表上，那它的前綴串也在編碼表上。例如:A、B為兩個不同的字符串，AB組成一新的字符串，A為B的前綴串，如果B在編碼表中，則一定在編碼表中。
        LZW通過編碼表識別源輸人字符序列，通過向編碼表中增加新的字符串，從而識別更多、更長的字符序列。但由于前綴性的約束，這種識別一般每次只在原來的基礎(chǔ)上增加一個字符，依次進(jìn)行。同時，由于編碼算法沒有很強(qiáng)的分析功能，使它不知道哪些字符序列將來出現(xiàn)的概率較大，所以它具有一定的盲目性。例如，有一個長度為n的字符序列，LZW編碼表要完全識別它，則至少需要該序列部分或全部重復(fù)出現(xiàn)n次。但是，當(dāng)一個較長的字符串重復(fù)出現(xiàn)兩次，我們就能夠容易識別它，而且這樣的字符串再次出現(xiàn)的概率是非常大的�；谶@樣一種認(rèn)識，本文在LZW算法的基礎(chǔ)上，構(gòu)造了一種新的編碼算法，我們把新算法稱為LZWC編碼算法，一般情況下它對數(shù)據(jù)的壓縮率比LZW算法有大幅度提高。新算法在最差的情況下可退化成標(biāo)準(zhǔn)的LZW算法。下面對LZWC算法的原理進(jìn)行詳細(xì)的介紹。
        2 LZWC算法
        LZWC算法的基本原理是針對源輸人數(shù)據(jù)中不同特點(diǎn)的數(shù)據(jù)序列，采用不同的編碼器分別編碼。數(shù)據(jù)序列的分類則是根據(jù)它的特點(diǎn)，通過對原始數(shù)據(jù)序列的分析來完成。
        LZWC算法共有兩個編碼器，它們是：
        (1）重復(fù)編碼器（RepeatCorder），簡稱RC。
        (2） LZW編碼器。
        RC對輸入流中重復(fù)的數(shù)據(jù)進(jìn)行編碼，剩下的數(shù)據(jù)由則由LZW編碼器進(jìn)行編碼。RC編碼器和LZW編碼器的編碼通過LZW編碼器的編碼表統(tǒng)一起來。
        2.1 LZWC算法的編碼及原理
        LZWC的算法過程如下：
        對消息序列xn=x1x2x3…xn從左到右進(jìn)行閱讀，并以此進(jìn)行LZWC編碼：
        (1）輸入流中的數(shù)據(jù)x1，x2，…，xn依次經(jīng)過前緩沖區(qū)。
        (4）假如還有數(shù)據(jù)進(jìn)入緩沖區(qū)，則轉(zhuǎn)1），繼續(xù)此過程。
        (5）否則，結(jié)束編碼過程。
        LZWC算法和LZW算法一樣采用編碼表來組織輸入數(shù)據(jù)，顯然LZW的編碼表中包含RC和LZW兩個編碼器編碼的編碼表。我們分別稱其為編碼表中的RC項(xiàng)和LZW項(xiàng)。這兩項(xiàng)雖然對兩個編碼器來說是通用的，但實(shí)現(xiàn)時為了提高編碼表的搜索速度，可以把兩者分開處理。
        RC的編碼識別很簡單，只在緩沖區(qū)中進(jìn)行，對于較長的重復(fù)字符，這種編碼方式簡便易行，效率較高。
        LZW編碼器編碼不連續(xù)的字符，當(dāng)然是有效的，從而獲得較高的壓縮率。從LZWC編碼過程可以看出，如果RC編碼器在輸入流中找不到滿足條件的字符，則LZW編碼器將獨(dú)自編碼輸入數(shù)據(jù)。這時LZWC算法退化為LZW算法。
        2.2 LZWC算法的解碼原理
        LZWC壓縮算法的解碼過程是編碼過程的逆過程，以下是LZWC算法的解碼過程：
        (1）讀一個編碼（按LZW方式確定的碼長）；
        (2）如果是結(jié)束碼，則結(jié)束解碼過程；
        (3）如果是RC標(biāo)志的編碼，則按照RC編碼規(guī)則解碼，輸出原始數(shù)據(jù)；
        (4）否則，按LZW方式解碼；
        (5）譯碼過程結(jié)束。
        2.3 LZWC編碼的算例
        下面，我們用一個例子來說明LZWC編碼算的過程。例如：假設(shè)信源發(fā)出的序列為：00110000111011100011001解：依題意，有：信源序列的數(shù)據(jù)依次經(jīng)過前緩沖區(qū)，則
        (1）RC編碼器對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x1=x2，x2≠x3，即：0重復(fù)出現(xiàn)2次，符合RC編碼的條件，則00的LZWC編碼為（1，2，0）。
        (2）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x3=x4，x4≠x5，1重復(fù)出現(xiàn)2次，符合RC編碼的條件，則11的LZWC編碼為（2，2，1）。
        (3）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x5=x6，x6=x7，x7=x8，x8≠x9，0重復(fù)出現(xiàn)4次，符合RC編碼的條件，則0000的LZWC編碼為（3，4，0）。
        (4）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x9=x10，x10=x11，x11≠x12，1重復(fù)出現(xiàn)3次，符合RC編碼的條件，則111的LZWC編碼為（4，3，1）。
        (5）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x12≠x13，0僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則0的LZWC編碼為（5，1，0）。
        (6）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x13=x14，x14=x15，x15≠x16，1重復(fù)出現(xiàn)3次，符合RC編碼的條件，則111的LZWC編碼為（6，3，1）。
        (7）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x16=x17，x17=x18，x18≠x19，0重復(fù)出現(xiàn)3次，符合RC編碼的條件，則000的LZWC編碼為（7，3，0）。
        (8）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x19=x20，x20≠x21，次，符合RC編碼的條件，則11的LZWC編碼為（8，2，1），1重復(fù)出現(xiàn)2次，符合RC編碼的條件，則11的LZWC編碼為（8，2，1）。
        (9）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x21=x22，x22≠x23，次，符合RC編碼的條件，則00的LZWC編碼為（9，2，0）。
        (10）RC編碼器繼續(xù)對進(jìn)入前緩沖區(qū)的數(shù)據(jù)進(jìn)行檢測，x23是最后一個數(shù)據(jù)，1僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則1的LZWC編碼為（10，1，1）。
        (11）前緩沖區(qū)沒有數(shù)據(jù)通過了，編碼到此結(jié)束。
        所以，信源序列的LZWC編碼為：C′={(1，2，0)，(2，2，1)，(3，4，0)，(4，3，1)，(5，1，0)，(6，3，1)，(7，3，0)，(8，2，1)，(9，2，0)，(10，1，1)}。

       3 LZWC算法與LZW算法性能的比較
        壓縮算法性能的比較一般有兩個重要因素，就是平均數(shù)據(jù)壓縮率和壓縮時間。我們從下面例子入手，來討論他們的壓縮性能：
        例1：設(shè)輸入流為：ababcbabccc
        先建立初始化字典，將信源符號a，b，c預(yù)置為字典的前3項(xiàng)，編碼位點(diǎn)分別為1，2，3。編碼就從這個初始字典開始。
        3.1 LZW編碼過程
        (1）由于"a"已經(jīng)在字典中了，而"ab"不在，輸出"a"的編碼，同時把"ab"添加到字典中，所以字典的第4個條目為"ab"令其編碼位點(diǎn)為4，當(dāng)前位置前移一位，變?yōu)?，當(dāng)前字符變?yōu)?quot;b"。它的LZW編碼為（4，1，1）。
        (2）從輸入流的第1個位置開始，"b"已在字典中了，
而"ba"不在。同理，輸出"b"的編碼，同時把"ba"添加到字典中，編碼位點(diǎn)為5，當(dāng)前位置變?yōu)?，當(dāng)前字符為"a"它的LZW編碼為（5，1，2）。
        (3）從輸入流的第2個位置開始，"ab"已在字典中了，而"abc"不在。同理，輸出"ab"的編碼，同時把"abc"添加到字典中，編碼位點(diǎn)為6，當(dāng)前位置變?yōu)?，當(dāng)前字符為"c"。它的LZW編碼為（6，1，4）。
        (4）從輸入流的第3個位置開始，"c"已在字典中了，而"cb"不在。同理，輸出"c"的編碼，同時把"cb"添加到字典中，編碼位點(diǎn)為7，當(dāng)前位置變?yōu)?，當(dāng)前字符為"c"。它的LZW編碼為（7，1，3）。
        (5）從輸入流的第4個位置開始，"ba"已在字典中了，而"bab"不在。同理，輸出"ba"的編碼，同時把"bab"添加到字典中，編碼位點(diǎn)為8，當(dāng)前位置變?yōu)?，當(dāng)前字符為"b"。它的LZW編碼為（8，1，5）。
        (6）從輸入流的第5個位置開始，"b"已在字典中了，而"bc"不在。同理，輸出"b"的編碼，同時把"bc"添加到字典中，編碼位點(diǎn)為9，當(dāng)前位置變?yōu)?，當(dāng)前字符為"c"。它的LZW編碼為（9，1，2）。
        (7）從輸入流的第6個位置開始，"c"已在字典中了，而"cc"不在。同理，輸出"c"的編碼，同時把"cc"添加到字典中，編碼位點(diǎn)為10，當(dāng)前位置變?yōu)?，當(dāng)前字符為"c"。它的LZW編碼為（10，1，3）。
        (8）從輸入流的第10個位置開始，"cc"已在字典中了，并且沒有別的字符需要編碼了。即，編碼過程到此結(jié)束。
        所以，它的LZW編碼為：
        C’={(1，0，1)，(2，0，2)，(3，0，3)，(4，1，1)，(5，1，2)，(6，1，4)，(7，1，3)，(8，1，5)，(9，1，2)，(10，1，3)}。
        3.2 LZWC編碼過程
        (1）由于x1≠x2，a僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則a的LZWC編碼為（1，1，1）。
        (2）由于x2≠x3，b僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則b的LZWC編碼為（2，1，2）。
        (3）由于x3≠x4，a僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則a的LZWC編碼為（3，1，1）。
        (4）由于x4≠x5，b僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則b的LZWC編碼為（4，1，2）。
        (5）由于x5≠x6，c僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則c的LZWC編碼為（5，1，3）。
        (6）由于x6≠x7，b僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則b的LZWC編碼為（6，1，2）。
        (7）由于x7≠x8，a僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則a的LZWC編碼為（7，1，1）。
        (8）由于x8≠x9，b僅出現(xiàn)1次，不符合RC編碼的條件，所以，不能用RC編碼器對其進(jìn)行編碼。但是，它符合LZW編碼的條件，由LZW編碼器，則b的LZWC編碼為（8，1，2）。
        (9）由于x9=x10，x10=x11，c重復(fù)出現(xiàn)3次，符合RC編碼的條件，則ccc的LZWC編碼為（9，3，3）。
        (10）由于x11是最后一個數(shù)據(jù)，前緩沖區(qū)沒有數(shù)據(jù)通過了，編碼過程到此結(jié)束。
        C’={(1，1，1)，(2，1，2)，(3，1，1)，(4，1，2)，(5，1，3)，(6，1，2)，(7，1，1)，(8，1，2)，(9，3，3)}。
        所以，LZWC算法的平均字符壓縮率較高，壓縮時間較短，較LZW算法有一定的優(yōu)勢。
        4 結(jié) 論
        本文在LZW算法的基礎(chǔ)上，提出了一種改進(jìn)的算法。命名為LZWC算法，LZWCS算法在壓縮方面比LZW算法有了較大的提高，它適合對文本、字符、數(shù)據(jù)等類型的文件進(jìn)行壓縮。對于重復(fù)字符很少的輸入流，新算法和LZW算法的壓縮效果差別不大。但是，對于重復(fù)字符較多的輸入流，新算法壓縮效果的優(yōu)勢十分明顯。但由于新算法兼容LZW算法，所以，它在應(yīng)用中比單純的LZW算法具有更好的性能。

參考文獻(xiàn)
[1] 姜丹.信息論與編碼[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2001.
[2] 張鳳林,劉思峰. LZW*:一個改進(jìn)的LZW數(shù)據(jù)壓縮算法[J]. 小型微型計(jì)算機(jī)系統(tǒng).2006,27（10）1897-1899
[3] 吳宇新,余松煌.對 LZW 算法的改進(jìn)及其在圖像無損壓縮中的應(yīng)用[J].上海交通大學(xué)學(xué)報, 1998,3 (29): 110-113
[4] 卓越, 楊長生, 宋廣華.一種基于自適應(yīng)字典的通用無損壓縮算法[J]. 計(jì)算機(jī)工程, 2001, 27(2): 149-151
[5] David Salomon. Data Compression: The Complete Reference [M].Springer-Verlag New York Inc.,200

【LZW算法的改進(jìn)研究】相關(guān)文章：

入侵檢測模式匹配算法的研究與改進(jìn)03-29

一種改進(jìn)的粒子濾波算法的研究03-07

一種改進(jìn)的無線鏈路調(diào)度算法研究03-07

改進(jìn)logit多路徑分配模型及其求解算法研究03-07

基于信道估計(jì)的改進(jìn)單載波頻域塊LMS算法研究03-05

藍(lán)牙的信息安全機(jī)制及密鑰算法改進(jìn)03-18

計(jì)數(shù)查找算法的研究11-22

BP算法在矩陣分析基礎(chǔ)上的改進(jìn)03-07

LDPC碼譯碼算法研究03-07

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

LZW算法的改進(jìn)研究