資料探勘技術在數字圖書館中的應用研究

(北京大學醫學部，北京 100191)
摘要：
文章介紹了資料探勘的主要技術，即關聯規則和聚類演算法，並針對北京林業大學數字圖書館資料的具體特點，將這兩種關鍵技術運用到圖書館借閱資訊挖掘過程中，通過分析挖掘結果，尋找借閱書刊一些潛在的規律，優化圖書館的館藏佈局，提高個性化服務質量。
關鍵詞：資料探勘；

關聯規則；

聚類演算法；

數字圖書館
中圖分類號：TP274 文獻標識碼：A 文章編號：[HT K]1007—6921(2009)04—0158—03

隨著高校圖書館資料庫中資料量的迅速增加，如何使高校圖書館朝著自動化、數字化和資訊化的方向發展，已成為目前迫切需要解決的問題。如果將資料探勘技術很好的運用到圖書館資料庫中，將會使其職能相應地實現轉型，即除了傳統的服務和教育職能外，還可以為高校的決策、管理及建設發展提供資訊諮詢與服務。這樣可以使高校圖書館逐步成為開放的社會化數字圖書館，為師生的學習及科研創造更好的環境和氛圍。
1 資料探勘及其關鍵技術
1.1 資料探勘的定義

資料探勘(Data Mining,簡稱DM)，就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據庫中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程 ［1］ 。它主要研究發現知識的各種方法和技術，並利用各種分析工具在海量資料中分析發現模型和資料間的潛在關係。
1.2 資料探勘中的主要技術
1.2.1 關聯規則。關聯規則是資料探勘的主要技術之一。所謂關聯規則，就是尋找資料庫中資料項(屬性、變數)之間存在(潛在)的關聯規則。利用關聯規則的資料探勘技術，可以找出大量資料之間未知的依賴關係。例如：通過對讀者借閱行為進行關聯規則分析，可以分析出不同圖書類別中的潛在關係。雖然資料探勘中頻繁項集挖掘演算法對於一些非稠密資料庫能夠取得較好的效能，但對於稠密資料庫或者支援度閾值比較小時，頻繁項集的數量會以指數形式增長，使得找出所有的頻繁項整合為不可能的任務。但實際上，在頻繁項集中，存在著較多的冗餘，最大頻繁項集的規模是所有頻繁項集中最小的，並且可以匯出頻繁項集。因此我們可以使用最大頻繁項集資料探勘，提高關聯規則挖掘效率。
1.2.2 聚類分析。聚類是一種常見的資料分析工具，其目的是把大量資料點的集合分成若幹類，使得每個類中的資料之間最大程度地相似，而不同類中的資料最大程度地不同。因此在資料進行聚類這一過程中沒有指導，是一種無監督分類。聚類分析是用數學方法研究和處理所給物件的分類以及各類之間的親疏程度，是在對資料不作任何假設的條件下進行分析的技術［2］。
2 資料探勘技術在圖書館借閱資訊中的應用

資料探勘在商業領域內的應用給圖書館帶來了很大啟發，圖書館讀者的特點是數量巨大、讀者的年齡不同、工作性質和專業方向不同、研究領域更是差別很大，這樣的讀者特點給圖書館提出了不同的個性化要求。如何滿足讀者的需求，提高讀者的滿意度，給讀者更好的服務，是一個值得研究的問題［3］。

在讀者利用圖書館的資源過程中會留下諸如讀者基本資訊、借閱歷史、檢索歷史等有價值的大量資訊，這正是圖書館工作者獲取讀者資訊需求、讀者分類、需求聚類的寶貴資料，獲取這些資訊就可以據此提供個性化資訊服務，即根據讀者興趣檔案或興趣規則主動向讀者提供有價值的資源。通過分析資料探勘的結果，尋找各個學科領域中的一些相互關聯的知識、優化圖書館的館藏佈局。圖書館資料庫的各個表中包含很多資訊，其中讀者的借閱資訊是主要資訊之一，它直接面向讀者，反應讀者的借閱需求。下面以北京林業大學數字圖書館為例，對讀者的借閱資訊進行資料探勘。
2.1 關聯規則演算法的應用

應用關聯規則演算法對借閱資料進行挖掘，在圖書館優化書架書庫的管理、發現學科間的隱性關聯、指導讀者的借閱行為和提供個性化服務等方面有積極作用。
2.1.1 提供個性化特色服務。在傳統的期刊服務過程中，一般是使用者提出資訊服務請求，然後由圖書館員做出解答，後來出現了定製式服務，由圖書館員定期向用戶提供與其所從事的課題有關的資訊資料。顯然，這二者都是由客戶首先提出服務需求，然後才得到相應的服務。利用資料探勘，完全可以根據使用者借閱、查閱的歷史資料以及正在從事的課題研究進行數據挖掘，從而瞭解使用者的所需，確定個性化服務內容，主動將相關資料傳送到他們手中［4］。另外，由於有的讀者在借閱圖書之前，有一些盲目性，不知道自己需要哪類書，什麼書適合自己，因此可以根據挖掘出來的關聯規則，指導讀者借閱書籍，也利於他們今後的學習和研究。

在進行資料探勘前，首先選取2005年至2007年三年內北京林業大學圖書館所有讀者借閱資料，並對資料進行預處理，將一些屬性根據實際需要進行離散化，例如：用年級將大學生的年齡離散化為：00級、01級、02級、03級、04級、05級……。在本文挖掘的資料庫中，由於借閱資訊表中有一個“學號”的屬性，學號前兩位標識該學生所在的年級，所以用年級將大學生的年齡離散化，可操作性強，並且含義清晰。同理，由於北京林業大學圖書館圖書是按照中圖法進行分類上架的，我們只需選取讀者借閱圖書索書號的前3位，就可將圖書種類進行離散化。最後我們對資料運用清理、轉換、消減等其他方法進行預處理。

對資料進行預處理之後，使用Apriori關聯規則挖掘演算法，設最小支援度為1%，最小置信度為50%，進行關聯規則挖掘，可以得到最大頻繁項集。從挖掘結果可以看出，大部分院系的讀者借閱與本專業相關的圖書比較頻繁，例如：資訊學院電子資訊科學與技術專業借閱計算機技術類圖書的支援度為1.5%，同時可以看出，借閱計算機類圖書(TP3)比較頻繁的讀者有：電子資訊科學與技術系、自動化系、木材科學與工程系、計算機藝術設計系、工商管理系、電子資訊科學與技術系、資訊管理與資訊系統系、工業設計系、機械設計製造自動化系、林學系。因此可以在新書推薦時，針對這些系的學生推薦計算機類圖書。由於北京林業大學的學生的自身特點，對於地下建築類(TU9)、建築設計類(TU2)圖書，主要是園林學院的學生借閱較多，這也因為此類圖書內容和讀者專業知識關係比較密切。因此在新書推薦中，可以針對園林學院學生的特點，將地下建築類及建築設計類圖書推薦給他們，更好地方便這些讀者的借閱。
2.1.2 發現學科間隱性關聯。此外，針對學科領域的主要研究人員進行關聯關係挖掘還能發現最新學科發展動向，我們選取前面已經處理過的資料表，並對該讀者借閱資訊表進行降維，使它只包含每個讀者借閱的所有圖書種類。然後使用挖掘速度較快的FP-growth演算法，挖掘最大頻繁項集，設定最小置信度為80%。從挖掘結果可以看出，在同一個大類學科中有些小類之間有很強的關聯關係，例如：頻繁二項集F71，F27（國內貿易經濟，企業經濟）的支持度為17.9%，即同時借閱國內貿易經濟與企業經濟類的書籍的借閱資訊佔總借閱資訊的17. 9%，因此可以說在F（經濟類）圖書中，國內貿易經濟和企業經濟這兩類有很強的隱性關聯和隱含的學科動向。其他頻繁二項集有相同結果。同樣，頻繁三項集I25，I26，I24（報告文學，散文，小說）的支援度為13.4%，報告文學，散文，小說三種小類的圖書存在隱性關聯關係。

同理，在不同大類中的頻繁項集也存在隱含的關聯，例如：頻繁二項集C91，B84（社會學，心理學）的支援度為18.0%，即從挖掘結果看在C（社會科學總論）和B（哲學）這兩大類中社會學和心理學有著隱性的關聯關係。因此可以通過資料探勘中的單維關聯規則，挖掘出各種不同學科中的隱性關係，指出學科的發展方向及潛在關聯。
2.2 聚類演算法的應用

應用聚類演算法對借閱資料進行挖掘，對讀者借閱規律的分析和把握、館藏圖書質量判斷等方面有積極作用。

由於有些優秀的書籍往往會被反覆借閱，並長期在某一固定使用者手中，其借閱次數不一定很高，但借閱時間很長。這是圖書館中最有利用價值的文獻。這些圖書並不一定能從借閱次數上體現其優勢，因為某本質量很差的書籍會因為其較為吸引人的標題而被經常借閱，但也不能因此從書籍的借閱時長來斷定其價值。判斷館藏書籍的優劣需從多方面考慮［5］ 。筆者通過統計借閱書籍的平均借閱時間，然後設定最小平均借閱閾值，去掉未達到閾值的圖書種類，得到館藏中借閱時間較長的圖書。

根據讀者借閱資料表中借閱圖書日期和歸還圖書日期，可以得到讀者對每種類別圖書的借閱次數及借閱時長。由於讀者的借閱行為有這種相似性及連續性，因此只需要對2006年和2007 年讀者的借閱資訊進行聚類分析，就可以挖掘出讀者最近這幾年來對圖書的需求資訊，挖掘出哪些類圖書是最受讀者歡迎的圖書，從而優化館藏，引導學生的借閱傾向。

對資料表進行k-中心點聚類分析，將資料集分類，可以得到平均借閱時長較短並且借閱次數較少的資料類即這類圖書不太受讀者歡迎（設定為A類）；
平均借閱時長較長並且借閱次數較多的資料類，即這類圖書較受讀者歡迎，是比較受歡迎的圖書（設定為B類）；
平均借閱時長較長但並未超過借閱時間的期限並且借閱次數很多的資料類，即這類圖書是讀者最感興趣的圖書，是熱門圖書（設定為C類）；
平均借閱時長非常長而且借閱次數較少的資料類，分析具體的資料可以得出，這類圖書的平均借閱時長遠遠超過了圖書館規定的借閱時間段，因此是讀者忘記歸還或者讀者將此類圖書丟失造成的，並不是由於讀者喜歡這類圖書而不按時歸還，因此這類圖書也不應該是熱門圖書（設定為D類）。

比較2006年和2007年的聚類分析圖可以看出2007年不受歡迎的圖書數量有了很大的下降。因此可以得出不受歡迎和在超過規定歸還期限的圖書種類在減少，受歡迎的圖書相對增加，而最受歡迎的圖書的種類沒有變化。總體來說，圖書館2007年的圖書比2006年的圖書更受歡迎，圖書館的服務質量有所提高。
3 圖書館讀者借閱資料探勘系統設計與實現
3.1 系統需求分析

圖書館讀者借閱資料探勘系統的主要使用者包括：讀者、圖書館管理者、圖書館工作人員。其中讀者包括任何借閱圖書的人，例如：學生、教師、研究人員等，圖書館工作人員包括圖書館資料庫維護人員、圖書館負責上架的工作人員、採購圖書的工作人員等。
740)h=740" border=undefined>

讀者使用者群的主要需求包括瞭解當前學科動向、讀者借閱傾向及需求、掌握最新熱門圖書信息等。圖書館管理者需求主要包括掌握讀者借閱傾向、圖書借閱情況等，從而為進一步決策提供依據。圖書館工作人員需求主要包括如何優化館藏，方便圖書上架，以及更好對圖書館借閱資訊進行處理，為讀者提供更好的服務。使用者功能需求如圖1所示。
3.2 圖書館讀者借閱資料探勘系統體系結構

根據前面提出的資料探勘演算法，並結合北京林業大學圖書館實際應用的需求，設計圖書館讀者借閱資料探勘系統。該系統在SQl Server資料庫基礎上，運用資料探勘模型庫為中間層，進行模型匹配、資料探勘等操作，併為使用者提供可以進行操作的視覺化介面。具體系統體系結構如圖2所示。740)h=740" border=undefined>
本系統採用C/S結構，在VC6.0下用C++實現圖書館借閱資料探勘系統，主要面向圖書館管理人員及普通讀者，應用的具體環境為作業系統Windows XP及資料庫伺服器SQL Server 2003 。
3.3 系統功能詳細設計

根據資料探勘演算法及系統體系結構，本文提出圖書館讀者借閱資料探勘系統的需求模型，如下圖3所示。

740)h=740" border=undefined>
3.4 關聯規則及聚類分析模組主要介面

在前面介紹的系統體系結構及詳細功能設計的基礎上，運用VC++進行程式設計，實現圖書館讀者借閱資訊資料探勘系統，主要的關聯規則及聚類分析介面如圖4、圖5。

740)h=740" border=undefined>
4 結束語
本文以資料探勘為研究物件，將挖掘演算法運用到圖書館借閱資料中，挖掘出對讀者以及工作人員有指導意義的隱含資訊。儘管目前資料探勘技術在數字圖書館的應用還處於起步階段, 但是本文對資料探勘在高校數圖書館服務中的應用方面作了一定的研究，並取得了一些研究成果。
由於個性化服務將成為未來數字圖書館技術發展的主要趨勢，隨著網路使用者群的日益增長，更多的使用者期望能得到具有針對性的、個性化的資訊服務和使用者支援。資料探勘技術因其在海量資訊資源中的智慧表現，能為數字圖書館的個性化服務建設提供不可或缺的技術支援。

儘管資料探勘作為一門前沿技術，自身還在不斷髮展完善，還面臨著許多問題，但隨著研究的深入，資料探勘技術必將對數字圖書館的建設產生積極的影響。
［參考文獻］
［1］ [ZK(]Han Jiawei,Micheline Kamber.範明，孟曉峰譯.資料探勘概念與技術［M］. 北京:機械工業出版社，2001.158～161.
［2］姜園,張朝陽,仇佩亮,周東方.用於資料探勘的聚類演算法［J］.電子與資訊學報 ,2005.4,(27) :655～662.
［3］鮑翠梅,王尊新,白如江.資料探勘技術及其在圖書館中的應用［J］.情報雜誌, 2004,(9).
［4］蔡會霞,朱潔,蔡瑞英.關聯規則的資料探勘在高校圖書館中的應用［J］.南京工業大學學報,2005,27(1).
［5］李盼池.基於核聚類演算法的高校圖書借閱資訊分類方法［J］.現代情報,2003,9(9).