欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

图书评价热词库的建立

一、图书评价分词

    首先将己经存入图书评论数据库中的图书评论提取出来,然后对图书评论进行人工标记。图书评论选择简单易分析的评论,排除复杂的评论,例如:这本书不能说不好。每条评论通过三人进行标记,只有两人同时认定评论是正向的或者是负向的才能将评论成功标记。将所有评论分类标记为正向的和负向的。将标记完成的评论分别放入正向评论数据库和负向评论数据库。然后分写将标记后的图书评论进行分词,对于图书评论我们使用第三章提到的最大匹配法对己经存入到评论数据库中的评论进行分词。例如:“这个是要学习的书,还不错,比较详细。”分词之后“这个、是、要、学习、的、书、还不错、比较详细”。正向最大匹配的基本思想是:

    1、从等待分词的语料中选取长度为n(小于词典的最大长度)的字符串等待与分词词典中词组匹配;

    2、遍历分词词典,如果词典内含有与上述字符串相同的词组则匹配成功,就将改字符串从原始语料中切出去;

    3、如匹配失败,则将等待匹配的字符串的最后一个字移除,将余下的字符串重新进行匹配;

    4、循环以上操作直到所有数据都匹配成功。

二、图书评价热词库的生成

    将存入正向分词数据库中的词组取出,使用词频计算软件对词组出现的频率进行计算统计,并按照从大到小的顺序排列。根据正向评论的数量,选择词组频率大于正向评论数量50%的词组作为图书评论基础敏感词。通过人工主动筛选,删除不可用的词,将余下的词组作为正向图书评论敏感词存入正向图书评论热数据库。同理,将负向分词数据库中的词组做相同处理生成负向图书评论热词库。至此图书评价热词库建立完成。