欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

图书馆数据采集

对于图书馆而言,需要收集的数据包括:读者的个人信息、读者的借阅信息、读者的预约信息、读者对相关学科文献资源的评价、检索时的关键字信息等等。

    万维网联盟(W3C)为描述用户在Web上的使用行为定义了一系列相关的概念,包括用户、用户会话、页面视图、页面文件、服务器会话、情节等。这些概念是理解Web使用数据特性的基础。目前,客户机/服务器(C/S)加浏览器/服务器(B/S)模式是大多数图书馆信息系统采用的。在这种模式中所有图书馆藏信息均存放在数据库服务器上,用户使用的客户机通过网络与数据库服务器通讯,利用WEB服务通过ADO数据访问模型访问数据库服务器。读者一般都是通过来网页进入图书馆系统的,每次的访问行为都是一次在Web环境中交互的过程,在这个过程中会衍生出许多数据记录,这些数据包含了读者行为的信息。因此,如何有效地从Web交互环境中获取有用的数据信息是图书馆数据采集方法研究的重点。

    在服务器(包括应用服务器、Web服务器、代理服务器)、客户端浏览器甚至TCP/IP网络层的数据都可以使用Web挖掘来采集。因此,采集的源数据可分为四类:浏览器交互数据、HTTP协议数据、应用交互数据和TCP/IP协议数据。浏览器交互数据在客户端采集,这里包含了浏览器界面上发生的所有事件,得到的读者行为信息是最全面的。HTTP协议数据包含了请求的URL和相关协议数据,是读者在客户端使用浏览器打开图书馆系统页面与Web服务器进行通讯产生的数据,代理服务器和Web服务器上的每天生成的大量读者访问口志记录就属于HTTP协议数据。识别和采集应用交互数据在正常情况下只在应用服务器内部,包含在应用层面的各种事件信息。 TCP/IP协议数据的采集方式是直接从网络上截取数据包,它包含HTTP协议数据以及其他通讯层面的信息。