土壤有機質含量高光譜遙感中的資料探勘

    摘要：文章分析了資料探勘技術在土壤有機質含量高光譜遙感資料分析中的發展歷程以及目前所面臨的問題；
探討了聚類、模糊集、粗集、神經網路、決策樹等資料探勘演算法在高光譜資料分析中的應用；
展望了資料探勘技術的應用前景。

    關鍵詞：資料探勘；
高光譜遙感；
演算法

    資料是客觀世界性質、特徵和狀態的描述，但由於客觀世界的複雜性和在資料產生過程中攜帶了一些和客觀無關的因素的干擾，使得資料產生了與客觀世界不一致的狀況，人們通常把這些干擾稱為“誤差”，在資訊科學中則稱之為“噪聲”。根據資訊理論，資料是由資訊和噪聲共同組成的，只有當資料中排除了“噪聲”之後，才能稱為資訊：資訊=（資料）-（噪聲或誤差）。在日常應用中，大量的資料未能充分利用這一現象常常被描述為“資料豐富，但資訊貧乏”。為此，決策者迫切需要從海量資料庫中提取有價值知識的工具，資料探勘技術正是為滿足上述要求而產生的。

    土壤高光譜遙感資料就是這樣一種情況，在室內土壤高光譜測試過程中，由於可控條件和不可控條件的變化，使得所得結果有一定的差異，如土壤的粒徑差異、測試土樣表面處理方法的不同、測試時幾何條件的差異等都會引起土壤光譜反射係數的不確定。同時，高光譜遙感資料波段眾多，資料量龐大，這些給處理和解譯都帶來了很大困難，而資料探勘技術能夠很好的解決這種情況。

    一、資料探勘技術的發展

    （一）資料探勘的產生髮展

    資料探勘其實是一個逐漸演變的過程，其思想可以追溯到20世紀70年代。隨著資料庫儲存技術和計算速度提高，科學研究人員意識到，還可以利用機器學習的方式來分析資料。機器學習的過程就是將一些已知的並已被成功解決的問題作為範例輸入計算機，機器通過學習這些範例總結並生成相應的規則，這些規則具有通用性，使用它們可以解決某一類的問題。隨後，伴隨著神經網路技術的形成和發展，人們的注意力轉向知識工程。知識工程不同於機器學習那樣給計算機輸入範例，讓它生成出規則，而是直接給計算機輸入已被程式碼化的規則，而計算機是通過使用這些規則來解決某些問題。80年代末在美國底特律召開的第11屆國際人工智慧聯合會議的專題討論會上首次出現KDD（Knowledge discovery in database）這個術語，人們接受了這個術語，並用KDD來描述整個資料發掘的過程。隨後的KDD國際學術大會研究重點逐漸從發現方法轉向系統應用，並且注重多種發現策略和技術的整合，以及多種學科之間的相互滲透，資料探勘和知識發現成為當前電腦科學界的一大熱點。隨著支援資料探勘技術發展，資料探勘漸漸成為成熟的技術，並在實際應用中取得了良好效果。

    （二）資料探勘所面臨的問題

    由於資料探勘時遇到的資料庫種類繁多，且各種資料探勘方法作用範圍有限，因此採用單一方法難以得到決策所需的各種知識，多方法融合將成為資料探勘的發展趨勢。而資料探勘技術當前所面臨的問題主要有：如何進行降維操作、高維資料索引、典型特徵提取等；
挖掘演算法的表達和改進創新；
如何對挖掘產生的規則和模式進行解釋與表達，使其與資訊處理的要求相關聯以得到應用，並對挖掘的知識進行客觀、科學的評價，控制知識可靠性和質量，實施有效管理；
針對高光譜遙感資訊的特點，對資料探勘任務的描述、演算法功能模組組織都是其中的關鍵問題。

    二、資料探勘的主要演算法

    資料探勘演算法很多，結合不同的應用領域又發展了一些新的方法，進一步豐富和發展了資料探勘的演算法體系。資料探勘可以採用的方法主要包括聚類、空間分析、模糊集、粗集、神經網路、決策樹等。這些方法都有侷限性，但它們的有機組合具有互補性，多方法融合將成為資料探勘的發展趨勢。目前一些具有較好應用效果的方法主要包括：

    （一）聚類

    聚類是把一組個體按照相似性歸納成若干類別，即“物以類聚”。它的目的是使得屬於同一類別的個體之間的距離儘可能的小，而不同類別上的個體間的距離儘可能的大。在實現其他挖掘任務之前，應用聚類方法可使挖掘精度與效率大大提高。聚類方法包括統計方法、機器學習方法、神經網路方法和麵向資料庫的方法。由於高光譜遙感資訊的海量特點，聚類是一種有效的挖掘演算法。通過將資訊從光譜維和空間維進行聚類，挖掘隱含在其中的規則和知識，對於解決波段選擇、特徵提取、純淨象元識別等問題，具有明顯的優越性。由於聚類僅是實現對目標的叢集分析，而對不同叢集的屬性和特徵進行挖掘才能取得更好的效果，因此聚類一般要和其他演算法結合進行。

    （二）人工神經網路（ANN）

    神經網路是資料探勘和知識發現非常重要的方法，包括前向神經網路、徑向基函式神經網路、反饋神經網路等已都得到了重視和應用。另一方面，人工神經網路也在高光譜遙感資訊中得到了一些應用。神經網路常用於兩類問題：分類和迴歸。神經網路的引數可以比統計方法多很多。由於引數如此之多，引數通過各種各樣的組合方式來影響輸出結果，以至於很難對一個神經網路表示的模型做出直觀的解釋。實際上神經網路也正是當作“黑盒”來用的，不用去管“盒子”裡面是什麼，只管用就行了。人工神經網路有望在高光譜遙感資料探勘中得到廣泛應用。

    （三）粗集理論和模糊理論

    在資料探勘中，從實際系統採集到的資料可能包含各種噪聲，存在許多不確定因素和不完全資訊有待處理。傳統的不確定資訊處理方法因需要資料的附加資訊或先驗知識（難以得到），有時在處理大資料量的資料庫方面無能為力。粗集作為一種軟計算方法，可以克服傳統不確定處理方法的不足，並且和它們能有機結合，可望進一步增強對不確定、不完全資訊的處理能力。粗集理論中，知識被定義為對事物的分類能力。這種能力由上近似集、下近似集、等價關係等概念體現。因為粗集處理的物件是類似二維關係表的資訊表（決策表）。目前成熟的關係資料庫管理系統和新發展起來的資料倉庫管理系統，為粗集的資料探勘奠定了堅實的基礎。

    （四）決策樹

    決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。決策樹的基本組成部分為決策節點、分支和葉子。決策樹中最上面的節點稱為根節點，是整個決策樹的開始。決策樹的每個節點子節點的個數與決策樹所用的演算法有關。每個分支要麼是一個新的決策節點，要麼是樹的結尾，稱為葉子。在沿著決策樹從上到下遍歷的過程中，在每個節點都會遇到一個問題，對每個節點上問題的不同回答導致不同的分支，最後會到達一個葉子節點。這個過程就是利用決策樹進行分類的過程，利用幾個變數（每個變數對應一個問題）來判斷所屬的類別（最後每個葉子會對應一個類別）。資料探勘中，決策樹是一種經常要用到的技術，可以用於分析資料，同樣也可以用來作預測。決策樹在高光譜遙感資訊分類、典型資訊提取等任務中都得到了應用，在高光譜遙感資料探勘中，決策樹學習可以建立對特定應用敏感的知識集，以指導挖掘過程的進行。

    三、發展前景

    從目前高光譜遙感資訊處理與應用情況來看，高光譜遙感資料探勘將在智慧資訊處理和高水平應用方面發揮重要作用，以下對其潛在應用領域進行分析。

    （一）典型資訊提取與識別

    通過對標準地物波譜資料庫、典型高光譜資訊源等的挖掘，建立和發現對特定資訊、特徵和現象提取有效的規則和知識，以直接應用於目標資訊的提取與識別。

    （二）定量遙感與遙感反演

    高光譜遙感資訊是定量遙感如成因礦物學、作物養分監測、植被監測、生態遙感等的基礎，其中隱含的規則和知識也是遙感反演如地面組分反演、陸面溫度反演等的基礎。資料探勘發現的知識可以建立相應的決策規則和專題知識。

    （三）高光譜分類與亞像元分解

    分類是遙感應用的重要環節，基於知識的自動分類目前是遙感分類的熱點。基於知識的高光譜遙感分類的基礎是領域知識，而這正是資料探勘的優勢所在。亞像元分解與混合像元分類是高光譜遙感資訊處理的重要內容，資料探勘在純淨像元提取及分解知識與規則發現方面可以發揮作用。

    （四）特徵提取與最優特徵組合選擇

    實現面向應用的特徵提取與最優特徵組合對於充分應用高光譜資訊、減少資訊冗餘、提高處理效率具有重要作用，也是目前高光譜應用中的主要模式之一。隨著研究的深入，可以預言資料探勘在高光譜遙感資訊處理與應用中將可以發揮更加深入和重要的作用，促進高光譜遙感的快速發展和廣泛應用。

    參考文獻：

    1、Fu L  generation from neural networks[J] Trans onSystems，Man and Cybernetics,1994(8).
    2、Towell G, extraction of refined rules from knowledgebased neural networks[J]ing Learning,1993(1).
    3、袁曾任,盧振中.由神經網路提取規則的一種方法[J].資訊與控制,1997(1).
    4、劉振凱,貴忠華,蔡青.基於神經網路結構學習的知識求精方法[J].計算機研究與發展,1999(10).
    5、張朝輝.利用神經網路發現分類規則[J].計算機學報,1999(1).
    6、黃源,蕭嶸,張福炎.神經網路的規則提取研究[J].計算機研究與發展,1999(9).
    7、Tu Peilei,Chung Jenyao.A new decision2tree classification algorithm for machine learning[C]. In Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence. Arlington , VA ,Quinlan J R. Induction of Decision Trees[M]ine Learning,1986.
    8、劉小虎,李生.決策樹的優化演算法[J].軟體學報,1998(10).
    9、洪家榮,丁明峰,李星原等.一種新的決策樹歸納學習演算法[J].計算機學報,1995(6).
    10、Schlimmer J C, Fisher D. A case study of incremental concept induction [C] Proceedings of AAAI286,1986.
    11、苗奪謙,王珏.基於粗糙集的多變數決策樹構造方法[J].軟體學報,1997(6).
    12、劉興華.資料探勘技術及其應用研究[J].遼寧師範大學學報(自然科學版),2002(2).
    13、於金龍,李曉紅,孫立新.連續屬性的整體離散化[J].哈爾濱工業大學學報,2000(3).
    14、李永敏,朱善君,陳湘暉等.根據粗糙集理論進行BP網路設計的研究[J].系統工程理論與實踐,1999(4).
    （作者單位：湖南農業大學資源環境學院土地資源利用與資訊科技專業）