欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

图书馆数据挖掘算法概述

在高校的图书馆里,每天都有会因为有读者借、还图书而产生例如图书流通记录、读者使用图书记录之类的大量的数据。我们要充分的挖掘和利用这些目前只用于记录读者的账户信息和些常规的业务统计的数据,发挥出这些数据潜在的价值。

    如果在图书流通数据中使用关联规则的挖掘方法进行分析,从中挖掘和发现读者借阅行为中隐含的规律,这对图书馆服务读者的工作可以起着很好指导作用

    通常情况下,一个人如果要进行高层次的专业知识学习或科学研究,不仅先要具备扎实的基础知识,还要掌握相关的专业知识。如今,随着科学技术的不断进步,出现了许许多多本身就跨越多个知识领域边缘学科,目前各种学科相互影响、渗透的现象己屡见不鲜。因此,如果要学习或研究某个专业领域,必须学习的基础知识或相关知识与既有可能属于同一领域内的不同学科方向,也有可能根本就不属于同一个领域。随着研究的不断深入,还有可能发现需要更多的跨领域的知识。目前的按学科分类排放的图书馆馆藏布局对于同时借阅不同学科的读者来说,找到自己想要的图书是费时费力的。这个需要图书管理者来打破目前馆藏,能按照学科之间的关联性来对图书排放进行从新布局。但是,对于图书管理者来说这个能力是有限的,他们所能判断出某个专业领域或某个学科之间是否存在的内在的知识或部分关联只有很少的一部分,并且一些比较常识性的认识。比如学习计算机专业知识要求学习数学知识,研究电工电子技术的要求有物理学基础知识,钻研临床医学要也要具备化学知识。大部分的知识关联他们是无法判断和发现。这会对建设合理的、科学的图书馆资源学科结构造成很大的困难。

    如何解决这个问题呢?图书馆每天产生的大量的图书流通数据就为我们提供了挖掘分析的第一手资料。从挖掘分析能反映出具体的借阅行为的不同专业的读者群的流通数据可以发现影响读者借阅行为的隐含知识间的关联,例如各类文献间的关联规则或比例关系。图书馆为读者所提供的服务水平可以得到提升,可以实现更高一级知识服务。

    如果对图书馆管理系统的中图书的流通、借阅状况及馆藏书目数据使用聚类分析方法进行挖掘分析,可以按类统计文献的频繁借阅集,分析出文献的利用率。可为图书馆各学科文献的采访工作提供合理的分析和预测报告,指导图书管理员及时补充利用率高、紧缺的文献,剔除过时的,利用率的文献或减少部分文献的采购复本量,在一定程度上能够优化馆藏。使用聚类算法也可以解决的对专业类不强的图书部署问题。比如说应试类图书、考研、公务员考试、公共英语、公共计算机考试等。利用聚类挖掘技术可以为读者提供个性化服务。