欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

图书评论的收集

为了降低关于图书评论判断的主观性以及片面性,为以后进行多种图书分析打下良好基础,在选取图书的过程中,我们采用不同学科的图书作为评论选取基础条件的方法。首先选取10个热门的公共学科,在每个学科中挑选3本比较畅销或知名度较高的图书,然后对每本图书搜集1000条评论作为图书舆情分析的基础。本文中的图书评论定义为字数少于200字的关于某本图书的评论,并且评论是由人工筛选出的简答评论。例如:这本书内容较好;而排除掉复杂的评论信息例如:“这本书的内容不是不太好”这样的评论。评论搜集的来源是从各种图书销售或图书评论网站网页中搜索并下载图书的评价信息。

    1、网页链接采集

    依据需要搜索的网站信息和书目信息,找到网站中关于该书目起始网页,并将此网页URL存入URL种子库中的等待访问的序列,利用使用有效的网络协议访问所有含有图书评论的网页。我们使用第三章提到的网络爬虫技术,并使用多线程并行的搜集方法。

    首先是把全部等待搜索的URL储存到等待序列内,接下来不断的按照队列顺序将URL提取出来并使用工作线程开始数据搜集。当其中一个工作线程信息搜索完成之后,该线程会自动对主进程发送一个关于要求搜索URL的信号,主进程从等待搜索的链接序列中选择位置最前的URL返回给发送信号的进程,并不断重复改过程,直到需要搜索含有图书评论的链接序列中全部的URL都被访问。并将采集深度设为4,以防止线程进入死循环发生错误。

    2、页面净化

    快速准确地识别并清除网页内的噪音内容的过程,称为网页净化,它是网络舆情分析方法中基础数据处理中最重要的一部分。网页净化的作用如下:

    (1)减少网页噪音,可以使Web信息采集程序顺利的从网络页面中采集到准确的信息,增加了软件处理的速度和准确率;

    (2)排除不必要的网站标签类信息,使Web应用程序检索信息更加快捷,减少资源耗费。

    页面净化的方法主要是将整张页面分割成不同的区块,然后对着写区块进行检索和处理。选择其中具有有效信息的区块进行直接的信息采集,减少了直接操作大量信息的时间和资源。

    3、图书评论采集

    将含有图书评论的网页搜集成功之后,使用网络页面分析器的文本分析功能从中采集出图书的具体评论信息,为下一步的图书敏感词库建立提供数据基础。首先利用网页信息解析装置对图书舆情网页进行处理,使用网页分析工具找到图书评论信息,然后将所有图书评论信息存入到评论基础数据库中,等待进行图书敏感词提取。