淺析基于數據挖掘的數字檔案信息管理研究(2)
時間:
許惠瑋1由 分享
二、數據挖掘在建設現代化高校檔案館中的應用
1、資源類數據包括館藏檔案經過數字化加工而產生的各類電子檔案、電子文件中心中存儲的各類電子檔案、檔案軟件收集的信息、檔案信息網建設和維護信息。我們從研究大學檔案用戶的信息需求出發,數據挖掘為大學檔案館全面掌握和準確理解檔案用戶的信息需求提供了方法。
(1) 利用Web訪問信息挖掘技術發現其中的關聯模式、序列模式和Web訪問趨勢等,構建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務受歡迎的程度,發現用戶訪問模式和用戶需求的趨勢,從不同側面來研究用戶的信息需求,為優化檔案館的檔案信息資源建設提供了科學依據。
(2) 收集大學檔案網web服務器保留的用戶注冊信息、訪問記錄,以及有關用戶與系統交互的信息等原始數據,經過清洗、濃縮和轉換形成便于統計分析的用戶查閱數據庫、日志數據庫、用戶定制信息庫、用戶反饋信息等各種數據集合。
2、從建設大學檔案館館藏信息資源出發,數據挖掘為大學檔案館提供了選擇一條科學發展道路的重要依據。
(1) 利用檔案網和檔案管理軟件訪問信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統載體檔案優先數字化。例如:通過對檔案信息的訪問記錄、檢索請求中用戶請求失敗的數據進行分析,按類統計檔案拒用集和頻繁利用集,結合聚集算法發現館藏資源的缺漏,有針對性地補充和豐富檔案信息資源。
(2) 在大學檔案館藏管理過程中利用文本挖掘,運用關聯、分類、聚類等方法,從海量檔案信息中按照相關專題進行挖掘、分類、加工、整理和有序化重組,構建特色檔案信息庫及各類專題檔案信息庫等。
3、從做好大學檔案館信息管理工作的角度出發,數據挖掘為優化館藏信息和對未來工作的預測發揮重要作用。
(1) 在提供利用環節中,對用戶每次借閱的信息進行關聯分析,發現各類檔案信息之間的關聯規則或比例關系,這樣可以進一步優化館藏信息。
(2) 開展大學檔案館館藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評價工作,實現對大量文檔集合的內容進行總結、分類、聚類、關聯分析、分布分析,通過歸納與總結,發現的知識可以為未來檔案工作的趨勢進行預測。
三、數據挖掘在管理類數據中的應用
大學檔案館的管理類數據包括:智能監控系統、消防系統、溫濕度控制系統、智能密集架、數據管理系統、數據利用系統等在日常工作產生大量的管理類數據。我們得用數據挖掘工具在這類看似無用的數據中提取有價值的知識并運用到大學檔案館工作中,并在大學檔案館的現代化建設中發揮作用。
大學檔案館檔案工作的重點是為師生服務,以服務為中心開展各項工作,如何使用先進的工具,提高服務的質量是一直困擾我們的難題。數據挖掘為大學檔案館檔案工作的智能化、個性化、精品化提供了行之有效的方法。在智能檢索系統可調用用戶興趣模型,自動修正檢索策略并可依用戶興趣將檢索結果迅速聚類和分類,并條理化地排序出來;對于設計院、社科院等科研型檔案用戶,可借助數據挖掘開展針對性的檔案信息挖掘,并將研究成果以概述、成果報告等形式提供給用戶。這樣不光實現了大學檔案的二次開發,也會給用戶帶來意外的驚喜。
網絡最初只是科學家與研究人員之間交換文件的軟件,把因特網用于教育和研究可以得到政府的補貼。在中國,大學有撥款,圖書館有大學支持,數字圖書館的網絡檔案館是不贏利的,產出是教學和科研的長期社會效益。今天,因特網已經越來越商業化了,網絡在數字經濟中已成為極具潛力的技術投資對象。大學數字圖書館也可以考慮建立以贏利為目的的網絡檔案庫,采用網絡商務中的一些商務模式,例如網絡廣告、旗幟廣告、贊助廣告、訂閱、B2C等。收入可用于大學數字圖書館網絡檔案館建設的滾動發展。目前人們對這些處于萌芽中的經濟模式認識甚少。管理網絡的公共政策制定主體是政府部門,推行電子政務,開發網絡資源,促進從文字印刷向網絡出版的轉移是當前相關政府部門的重要任務。大學的政策、態度和措施對數字圖書館的發展至關重要。市場手段和政策平衡是網絡檔案館建設,網絡檔案庫運行,網上內容傳遞和保存應該和必須考慮的。
參考文獻:
[1]Peer to peer Networking and Digital Right Management,by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,2005
[2]What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet,
[3]彼得·萊曼.把萬維網檔案化.信息化參考,2004(13)
[4]周宏仁等.信息化助建和諧社會的14個著力點.中國信息界,2008(3)
[5]ITU-T Technology Watch Reports. 2006-2008, Telecommunication Standardization Policy Division, ITU Telecommunication Standardization Sector