欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

文档摘要生成算法的发展现状

文档摘要技术最初以统计学为支撑,兴起于20世纪50年代,通过对文本中的词项进行诸如词频分析、位置信息等处理生成文档摘要,主要适用于格式较为规范的文档。从90年代开始,随着机器学习方法在自然语言处理中应用的越来越多,文档摘要技术中开始融入更多人工智能的元素。针对新闻、学术论文、图书等主题明确、结构清晰的文档,一些文档摘要技术使用隐马尔科夫模型和贝叶斯方法从文档中抽取重要句子组成摘要。现今,网页文档分析处理中开始广泛的使用文档摘要生成技术。针对网页文档主题较多、结构松散的特点,一些新颖的文档摘要生成技术出现在网页文档摘要中,比如基于图排序的文档摘要生成技术等。

    尽管文档摘要技术得到了广泛的研究,该领域依然存在很多关键问题没有解决,主要有:(1)当前自动摘要系统生成的摘要在内容上还比不过人写的摘要,文本单元的排序和抽取两个关键问题还需要进一步的研究;(2)摘要通常是句子的简单集合,内容组织比较混乱,可读性差;(3)通常是从原始文档集中抽取完整的句子构成摘要,没有考虑单个句子中的冗余成分。