基于Density Based Selection 的文本摘要算法

标签: density based selection | 发表时间:2013-10-14 08:26 | 作者:xyl520
出处:http://blog.csdn.net

    文本摘要算法大意是提取出文章的主要信息,以一种较为概括的简短的方式表达整篇文章,在搜索领域会经常用到,前段时间,yahoo以3000W刀的价格收购了一家创业公司,该公司据说是以一种机器学习的方法来对新闻进行摘要,跟传统的推送完整新闻的方式不同,该公司是展示新闻的摘要给用户的,这里只是介绍下简单的摘要算法。

    摘要算法

    摘要算法目前的实现基本上是从正文选择有代表性的句子或段落形成文章的摘要,简单的直接取文章的第一句或者第一段,复杂的采用一些算法来提取关键的句子或者段落。一般是先抽取关键词,然后计算关键词的权重,根据关键词在文章中的出现位置来计算最短摘要,详情可以看下编程之美的最短摘要算法,这里介绍下基于密度的摘要算法,首先是将文章按照句子分隔,对每一个句子计算权重,然后根据句子的权重来选择哪个句子作为摘要,影响句子的权重的主要特征有句子和标题的一致性,句子在文章和段落的位置,句子的长短,句子和文章关键词的一致性等。以下算法是计算句子和文章关键词的一致性算法,代码比较简单但是没有经过验证,只是简单的描述了下思想,过段时间会将详细的应用场景补充。


作者:xyl520 发表于2013-10-14 0:26:23 原文链接
阅读:194 评论:0 查看评论

相关 [density based selection] 推荐:

基于Density Based Selection 的文本摘要算法

- - CSDN博客互联网推荐文章
    文本摘要算法大意是提取出文章的主要信息,以一种较为概括的简短的方式表达整篇文章,在搜索领域会经常用到,前段时间,yahoo以3000W刀的价格收购了一家创业公司,该公司据说是以一种机器学习的方法来对新闻进行摘要,跟传统的推送完整新闻的方式不同,该公司是展示新闻的摘要给用户的,这里只是介绍下简单的摘要算法.

Django class-based view 基础

- Ken - python.cn(jobs, news)
自从Django在1.3中新增了class-based view以来,还没有仔细研究它,开始感觉这个东西是否有点多余. 因为Django已经有了Generic veiws了啊, 可是仔细看过class-based veiw之后, 这种想法打消了, 因为你完全可以用类方法实现你所有的视图, 而代码阅读起来却更容易!.

Django class-based view 深入

- Ken - python.cn(jobs, news)
上一篇我们粗略介绍了Django中的class-based view基础知识, 本篇我们继续来看关于class-based view的高级应用.. 我们继续沿用上篇中的model:. 我们来看看如何对一个Book实例进行更新, 我们要做的只是在视图类中更新 :.     template_name = 'updatebook.html'  #这里是你的模板文件名.

GitHub - GruppoFilippetti/vertx-mqtt-broker: Vert.x based MQTT Broker

- -

Tree Based Classification 基于树的分类算法

- - xlvector
非线性分类问题向来是分类问题中最有挑战性的问题,这主要是因为线性分类问题已经可以完美的解决了. 解决非线性分类问题基本有如下的思路:. 非线性Kernel的SVM:其实是将原空间的非线性分类问题转化成了距离空间的线性分类问题. Mixture Model : 这种其实只能解决一类特殊的非线性分类问题,即样本分成不同的簇,而不同的簇有不同的类标.

为什么 Leader Based 的分布式协议 Raft 是更好的

- - idea's blog
为什么 Leader Based 的分布式协议 Raft 是更好的. 这个问题隐式地表达了 Paxos 多主特性是不好的. 之前谈过, Paxos 不区分读写, 读和写都要进行完整的 Paxos prepare-accept 两阶段流程, 否则, 就无法保证一致性. 事实上, 我看过一些 Paxos 实现, 它们基于优化的考虑, 简化了 prepare-accept 两阶段流程, 最终失去了一致性保证而不自知.

MYSQL的主从复制之旅(一)——戏说MySQL Statement-based 主从复制

- - 百度质量部 | 软件测试 | 测试技术 | 百度测试
我是一条数据更改操作,来自SQL家族. 今天呀,我要来描述一段旅程,通过这段旅程,我才发现原来从主库(master)走到从库(slave)这么的不简单. 今天早上我从主库(master)确定要出发后,首先被要求到一个叫做二进制日志(binary log)的小册子中进行了登记,接着就和其他兄弟姐妹一起等待着被送往今天的目的地——从库(slave).

为豆瓣电影实现User-based协同过滤的推荐系统

- - 鸟窝
协同过滤(Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息,个人透过合作的机制给予信息相当程度的反馈(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,反馈不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要,比如浏览信息,收藏,分享,点击等.

为豆瓣电影实现Item-based协同过滤的推荐系统

- - 鸟窝
前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统. 我们再来回顾一下item-base CF算法的特点:. 物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大. 适合长尾物品丰富,用户个性化需求强的领域.

RTMP 流媒体服务器 GitHub - arut/nginx-rtmp-module: NGINX-based Media Streaming Server

- -
几个优秀的RTMP 流媒体服务器:. NGINX-based Media Streaming Server:基于Nginx插件. SRS(Simple RTMP Server) over state-threads:基于C++. livego:基于go语言. node-rtsp-rtmp-server:基于 Node.js.