可可簡歷網

位置:首頁 > 熱點 > 黨建文案

淺談資料探勘在情報學領域中的應用

(新疆財經大學 圖書館,新疆 烏魯木齊 830012)
摘 要:
文章介紹了資料探勘的含義及與傳統資料分析的不同,並 對其在情報研究領域中的應用進行了初步探討。
關鍵詞:資料探勘;
情報學;
情報檢索;
情報服務
中圖分類號:G350.7  文獻標識碼:A  文章編號:1007—6921(2009)07—0303—02
1 情報學領域面臨的問題
1.1 資源全球化 資訊海量化

淺談資料探勘在情報學領域中的應用

可以說Internet 是全球最大的資訊資源庫,其資源型別多樣,包括教育網站、虛擬圖書館 、虛擬軟體庫等等,為採集所需資訊提供了方便和可能。但同時,網路資訊的無序又造 成利用率相對較低。另外,網路海量資料的產生,使提取有用資訊困難重重。
1.2 資料呈現非結構化

就目前大量視訊、音訊、動畫等非結構化資料而言,現有的檢索方法對這類資料的搜尋難以 奏效。只有資料探勘技術才能對海量結構化或非結構化資料進行高效檢索、處理及分析。
1.3 情報需求個性化

需求的個性化使得傳統的一對多的情報服務模式越來越不適應時代的要求。不同的企業有不 同的競爭情報服務需求,各科研機構需要不同領域的科技查新服務。這些個性化的服務需求 只能通過資料探勘技術,建立一對一的服務平臺來實現。

綜上,隨著資訊量的快速膨脹、資訊獲得手段和途徑的日益增加,人們可以獲得的資訊越來 越多,可是,人們對有用資訊佔有比例卻越來越小。因此,如何在浩瀚的資訊海洋中找到有 用的資訊越來越受到關注,資料探勘技術就是在這樣的背景下應運而生。
2 資料探勘技術簡介
2.1 資料探勘的含義

簡單地講,資料探勘是一種利用各種分析工具建構資料分析模型,在大型的資料庫 (或資料 倉庫) 中提取人們感興趣的知識的過程。提取的知識一般可以表達為概念、規則、規律、模 式等形式。資料探勘(Data Mining),又稱資料庫中的知識發現,它產生於上世紀80年代初 , 是人 工智慧、機器學習與資料庫技術相結合的產物。

是從大量的、不完全的、有噪聲的、模糊 的、隨機的原始資料中,提取隱含在其中的、事先未知的、但又潛在有用的資訊的過程。數 據挖掘技術是面向應用的,它不僅面向特定資料庫的簡單檢索查詢呼叫,而且要對這些資料 進行深入的統計、分析和推理,發掘資料間的相互關係,完成從業務資料到決策資訊的轉換 。資料探勘技術把人們對資料的應用,從低層次的末端查詢提高到為決策者提供決策支援。


2.2 資料探勘同傳統資料分析的區別

同傳統的資料分析相比,資料探勘是在沒有明確假設的前提下挖掘資訊,發現的知識通常是 未知的、很難預料的,但對人們是非常有用的;
而傳統的資料分析則是在人們提出某種假設 的前提下對資料進行分析,得出的結果往往可以預知。因此,傳統的資料分析只是表層的數 據分析,而資料探勘則是對資料進行深層的挖掘。
3 資料探勘在情報學領域的應用
3.1 情報收集

資料探勘使情報收集方式由人工搜取( 檢索、購買、交換等) 擴充套件到機器自動抓取。資料挖 掘中搜索引擎技術為網上資訊資源的情報蒐集提供了非常有效的工具,Web 挖掘不但能收集 所需的情報資料,而且可以提供各類資訊資源被使用情況以及熱點專題等,利用資料探勘技 術自動對所蒐集來的資料進行清理、去冗等處理, 不僅減輕了工作量,而且縮短了從原始信 息變成情報產品的時間。
3.2 情報處理
3.2.1 對情報處理物件的拓展。資料探勘技術使情報加工不再侷限於結構化資料的處理、單一字元資訊的處理,而是拓展到 音像資料、視訊資訊等視覺化資訊的處理, 從單一結構化的資訊處理延伸到異構的、半結 構、甚至無結構的文字資訊的處理。
3.2.2 對情報處理技術的創新。資料探勘提供了更加科學的、豐富多彩的分析處理手段。例如,在資訊分類方面,所提供的 判定樹歸納分析、貝葉斯分類、傳播分類、基於關聯的分類等,完全突破了過去基於分類表 的分類思想,使不同的資訊採用不同的分類方法,使分類結果更加具有針對性和科學性;
在 資訊聚類處理方面,資料探勘推出的針對不同型別資料的資訊聚類方法 ( 劃分聚類、層次 聚類、基於密度、基於網路、基於模型的聚類等) 使相同或相似資訊能夠更加可靠地集聚在 一起。更為重要的是,複雜型別的資料探勘技術使情報處理更加適應未來多樣化資訊( 地理 空間資訊、時序資訊、多媒體資料以及文字與 Web 資訊等) 的處理需要,使情報處理不再 受到媒體的限制。
3.3 情報服務
3.3.1 拓寬了情報服務範圍,增加了服務專案。傳統的、人工檢索式的定題服務,將上升為從廣博的網上資源和資料庫中自動挖掘、並通過 網際網路主動地把資訊或知識推送給使用者的服務方式;
資訊的查新服務不再侷限在各種大型的 資料庫中,而是擴充套件到整個網路資源,並對各企業門戶進行挖掘, 給出全面的分析查新報告 。
3.3.2 昇華了服務理念,大大提高服務的主動性和質量。由於資料探勘技術的應用,情報服務的重點將轉向為各層次的決策支援服務,而為科技的服 務則更多地由科技人員自己利用挖掘工具採取“自助式”服務。
3.3.3 完善了情報服務的內容和形式。

由於資料探勘的目的是從海量的資訊中發現知識,所以,情報部門提供給使用者的不僅僅是信 息,還包含著大量用於解決問題的知識,其提供情報的形式也可能是將資料探勘出的資料組 織成報表或繪製成直觀的圖形,便於使用者分析決策。
3.4 情報分析

資料探勘中的關聯規則分析技術將是傳統情報分析的補充。因為,通過對資料的關聯分析可 以發現隱藏在資料之中的、不易被人發現的、甚至與人的意識相違背的關聯事件。例如,在 商店的商品關係中,憑主觀意識人們無論如何也不會想到“湯匙”和“雜誌”會有購物的關 聯性,但在對美國一家超市的資料記錄的關聯挖掘的的確確發現了這樣的關聯,利用傳統的 情報分析方法是很難發現的。資料探勘中另一種被廣泛使用的資料分析技術是聯機分析處理 ,它是能夠對多維資料進行分析處理的技術,可以從多個視角觀察分析,能夠同時針對多方 面的資料進行處理。總之,資料探勘中的資料分析技術將大大加強情報分析的能力,使情報 分析得到多方面的支援,情報分析技術將更加完備和豐富多彩。
3.5 情報檢索技術

針對結構化的資料庫或文字型資料,傳統的檢索技術多為 布林邏輯檢索或全文檢索技術,缺 乏對其他媒體資料的檢索手段。資料探勘中對複雜型別資料的檢索技術將大大豐富情報檢索 的技術手段,如影象識別技術、語音技術、基於相似性的檢索技術以及對時序資料採取的關 聯檢索的技術等。可以肯定,資料探勘中的多媒體檢索技術完全能夠用於情報檢索之中,情 報檢索技術將因此實現跨媒體檢索,迎來全面突破。
4 資料探勘對情報學產生的影響

資料探勘不僅作為一種技術手段推進了情報學的發展,而且對情報學的理念和研究領域也產 生了廣泛而深刻的影響。
4.1 情報理念的完善

資料探勘在情報學領域的應用,使情報學更多地注重實用性和使用價值。情報學的使命應該 以資訊為素材,以知識的傳播、利用、功能為主體。通過技術上的日臻成熟來完善服務於人 的最終理念。比如體現在競爭情報服務上,競爭情報就是滿足企業為了贏得市場競爭的優勢 ,蒐集有關對手的技術、市場、客戶、銷售等資訊,經過分析處理使之變成具有競爭價值的 情報。
4.2 情報領域的延伸

資料探勘是一個重要的技術手段,它的應用賦予情報學的研發流程與應用場景更為廣闊。

資料探勘也是一個多學科交叉的新興研究領域,在這個領域中, 彙集了來自機器學習、模 式識別、資料庫、統計學、人工智慧以及管理資訊系統等各學科的成果,多元化的投入,使 得這一技術得以蓬勃發展,而且已初具規模。
4.3 情報工作的拓展

情報學發源於圖書館學和文獻學,現已發展成為自然科學、技術科學和社會科學的交叉學科 。資料探勘技術與情報學的完美結合,除學術上的需要外,還具有極大的商業應用前景。即 使在情報學領域上的研究也主要是為生產、管理服務的,研究重點仍然是放在能見經濟效益 的應用方面。
5 資料探勘技術帶來的新挑戰

目前,資料探勘技術應用於情報學已經成為學科的熱點之一,但也還有許多亟待解決的問題 。尤其在實際推廣應用中, 例如:資料的複雜化需要更多領域的專業知識,巨大的資料庫對 演算法的效率提出更高的要求,資料探勘中人機互動功能的強化以及對內部資料和個人資料的 安全保護等等。我們堅信,隨著資料庫技術、人工智慧技術及相關學科的不斷進步,上述問 題將會逐步得到解決,資料探勘技術將會更好地服務於情報學的研究,服務於社會。
[參考文獻]
[1] 石冰,鄭燕峰. 資訊檢索中的資料探勘技術[J].情報學報,1999,(3).
[2] 趙丹群. 資料探勘: 原理、方法及其應用[J].現代圖書情報技術,2000(6).
[3] 蒲群瑩.  基於資料探勘的競爭情報系統模型[J].情報技術,2005,(1).
[4] 苗傑,倪波.面向整合競爭情報系統的資料探勘應用研究[J]. 情報學報,200 1,(4).