[原]文本分析论文资料

标签: | 发表时间:2018-05-11 15:38 | 作者:u011239443
出处:https://blog.csdn.net/u011239443

https://blog.csdn.net/u011239443/article/details/80282419

一、文本分析

1.fastText

《Bag of Tricks for Efficient Text Classification》: “>https://arxiv.org/pdf/1607.01759v2.pdf~~ 《一揽子高效文本分类技巧》论文阅读

2.TextCNN

《Convolutional Neural Networks for Sentence Classification》: “>http://xueshu.baidu.com/s?wd=paperuri%3A%287ea81182039becbb82a22aaae8099c15%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1408.5882&ie=utf-8&sc_us=17214068522800736720~~《用于句子分类的卷积神经网络》论文阅读

3.Cw2vec

https://www.atatech.org/articles/88976?spm=a1z2e.8101737.webpage.dtitle0.7dc2d360278L2Q

《cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
》: https://github.com/ShelsonCao/cw2vec/blob/master/cw2vec.pdf

4.字符串相似度

计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式。

Levenshtein(Levenshtein Distance)

支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为levenshtein,相似度在参数中表示为levenshtein_sim。

lcs(Longest Common SubString)

支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为lcs,相似度在参数中表示为lcs_sim。

ssk(String Subsequence Kernel)

支持相似度计算,在参数中表示为ssk。

参考:Lodhi, Huma; Saunders, Craig; Shawe-Taylor, John; Cristianini, Nello; Watkins, Chris (2002). “Text classification using string kernels”. Journal of Machine Learning Research: 419–444.

https://warwick.ac.uk/fac/sci/eng/staff/hml/stringfinal.pdf

cosine(Cosine)

支持相似度计算,在参数中表示为cosine。

参考:Leslie, C.; Eskin, E.; Noble, W.S. (2002), The spectrum kernel: A string kernel for SVM protein classification 7, pp. 566–575

http://pdfs.semanticscholar.org/0704/bb7b7918cd512b5e66ea4b4993e50b8ae92f.pdf

simhash_hamming

其中SimHash算法是把原始的文本映射为64位的二进制指纹,HammingDistance则是计算二进制指纹在相同位置上不同的字符的个数,支持距离和相似度两个参数,相似度=1-距离/64.0,距离在参数中表示为simhash_hamming,相似度在参数中表示为simhash_hamming_sim。

《Similarity Estimation Techniques from Rounding
Algorithms》: http://www.cs.princeton.edu/courses/archive/spr04/cos598B/bib/CharikarEstim.pdf

《Hamming distance》: https://en.wikipedia.org/wiki/Hamming_distance

5.word2vec

《Efficient Estimation of Word Representations in
Vector Space》: https://arxiv.org/pdf/1301.3781.pdf

6.Multi Label 训练

《CNN-RNN: A Unified Framework for Multi-label Image Classification》: https://arxiv.org/pdf/1604.04573.pdf

7.文本摘要

《TextRank: Bringing Order into Texts》: https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
《A Neural Attention Model for Abstractive Sentence Summarization》: https://arxiv.org/pdf/1509.00685.pdf

8.Semi-AAE

《Adversarial Autoencoders》: https://arxiv.org/pdf/1511.05644.pdf

9.PMI

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
https://en.wikipedia.org/wiki/Pointwise_mutual_information

10.条件随机场

条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,主要应用到标注问题中,其中线性链(linear chain)条件随机场是最典型的。
https://en.wikipedia.org/wiki/Conditional_random_field

11.LDA

《Latent Dirichlet Allocation》: http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

12、关系推理

大规模知识图谱的构建与应用需要多种智能信息处理技术的支持,其中主要包括:实体链指(Entity Linking)、关系抽取(Relation Extraction)、知识表示(Knowledge Representation)、知识推理(Knowledge Reasoning)等。

在知识推理方面,利用推理规则实现关系抽取的经典方法之一就是Path Ranking Algorithm算法,由Lao & Cohen与2010年提出。该方法将每种不同的关系路径作为一维特征,通过在知识图谱/KnowledgeBase中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,取得不错的抽取效果,成为近年来的关系抽取的代表方法之一。

《Relational retrieval using a combination
of path-constrained random walks》: https://link.springer.com/content/pdf/10.1007%2Fs10994-010-5205-8.pdf

13、句法依存分析

《Discriminative Reordering with Chinese Grammatical Relations Features》: https://nlp.stanford.edu/pubs/ssst09-chang.pdf
《Probabilistic Context-Free Grammars》: http://xueshu.baidu.com/s?wd=paperuri%3A%28cf125589545a418d86c5b3be651114bd%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Flink.springer.com%2Fcontent%2Fpdf%2F10.1007%252F978-1-4899-7687-1_669.pdf&ie=utf-8&sc_us=12971079026083217742

14、WMD算法

WMD(Word Mover’s Distance)算法,是利用word embedding对词的表示,将句子(sentence)/文本(document)之间的距离,转化为运输问题,通过EMD(earth mover’s distance)优化算法,计算两者之间的最小匹配耗费,以此作为文本相似性的距离度量。
https://www.atatech.org/articles/68948
《From Word Embeddings To Document Distances》: http://proceedings.mlr.press/v37/kusnerb15.pdf

二、深度学习

1、ConvLSTM

ConvLSTM (Convolutional LSTM)模型是一种图像深度学习模型,它由若干卷积层和LSTM层组成,是当前最好的图像ocr整行文字识别模型。

《Reading Scene Text in Deep Convolutional Sequences》: https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12256/12121

2、SSD

SSD是一种常用的检测算法,具有较快的检测速度,具体原理可以参考论文 
SSD: Single Shot MultiBox Detector

三、搜索推荐

1、Frequent Pattern growth

http://blog.sina.com.cn/s/blog_68ffc7a40100uebg.html

2、Swing 推荐算法

https://www.atatech.org/articles/38516

3、协同过滤etrec

Jaccardindex : http://www.baidu.com/link?url=1tylaUjth8E6Wz40pho8m96LCILSaDFx2AlIQ4yu1KHEKB5qJjWEd892a3aBurqcqwcjM4LefFjtorCAMTclGa
《Wide & Deep Learning for Recommender Systems》: https://arxiv.org/abs/1606.07792

4、关联分析

关联分析是通过发现存在于数据集中的关联性而描述了一个事物中某些属性同时出现的规律和模式的挖掘算法,经典应用场景是购物篮的商品挖掘而分析顾客的消费习惯。
https://en.wikipedia.org/wiki/Apriori_algorithm

5、SMART Rank

https://www.atatech.org/articles/81136

作者:u011239443 发表于 2018/05/11 15:38:07 原文链接 https://blog.csdn.net/u011239443/article/details/80282419
阅读:3

相关 [文本分析 论文 资料] 推荐:

[原]文本分析论文资料

- - Soul Joy Hub
《一揽子高效文本分类技巧》论文阅读. 计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域. 本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式.

毕业论文相关PPT资料整理

- - 且行资源
如果需要毕业论文PPT答辩模板,请看看这里收集的资料有没有你需要的:. 2014年5月16日 增加. 天蓝色汇报汇报答辩模板: http://dl.vmall.com/c08k02a6fg. 1、 10年1月,我自己的毕业论文答辩PPT http://www.qiexing.com/post/1282.html.

新浪微博文本分析初探

- - 统计之都
自从lijian大哥的Rweibo包问世以来,便成了R爱好者们获取新浪微博数据的最为重要的工具. 在该包的中文主页上,作者对如何连接新浪微博的API,获取授权,并以此为基础开发应用的原理讲解的非常清楚. 对于我这种连基本的网页开发神马原理都一点也不清楚的菜鸟来说,Rweibo是一种非常趁手的获取微博数据的工具.

文本分析漫谈-分类器中的关键词提取

- flychen50 - UGC广播站
作者:人人网UGC团队成员 刘威 人人网UGC团队博客. 面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一. 在推荐系统中,分类器是个非常重要的部分. 分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类.

\(^_^)/ Jboss资料

- - 编程语言 - ITeye博客
官网: http://www.jboss.org/. 下载: http://www.jboss.org/jbossas/downloads/. Jboss博客: http://jbosscn.iteye.com/. 中赢网Jboss: http://www.chinawin.net/tag/jboss/.

Pentaho 资料

- - ITeye博客
Loading Data into HBase — How to use a PDI transformation that sources data from a flat file and writes to an HBase table. Transforming Data within a Hadoop Cluster — How to transform data within the Hadoop cluster using Pentaho MapReduce, Hive, and Pig.

2016年,文本分析、情感分析和社交分析的10大趋势

- - 博客园_新闻
英文原文: 10 text, sentiment, and social analytics trends for 2016. 文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”. 这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场.

Redis资料汇总

- medal - NoSQLfan
本资料大全转自redcreen同学的博客,是一个不错的学习 Redis 的系列阅读资料. 五.redis pipeline. 九.redis学习笔记之虚拟内存. Redis进阶教程-aof(append only file)日志文件. Redis完成Pub/Sub功能开发. Redis Pipelining功能介绍.

SOA资料学习

- - 人月神话的BLOG
从对象到组件,首先可以把对象理解为更细粒度东西,而组件是更加粗粒度的模块,对象更多关注技术,而组件应该更加关注业务. 前面我们谈过技术组件和业务组件,在SOA思想下业务组件化的思想就更加重要. 组件本身而言很简单,南向接口和北向接口,或者再有底座平台支撑. 接口通过服务方式来实现,组件通过OSGI等技术实现高度的解耦和可热插拔性.

快速构建简单问答系统,第 2 部分: 生成并部署文本分析引擎

- goodman - IBM developerWorks 中国 : 文档库
要想使一个系统具有智能问答功能,至少要解决两个问题:一是要理解问题,二是要理解消化已有的知识. 本文将提供类似问题地一种解决方案,帮助读者从自然语言处理这一方面更好地认识沃森. 作为了解沃森的一个窗口,本文介绍了 IBM 企业级搜索和文本分析引擎 IBM Content Analytics 怎样同 LanguageWare Resource Workbench 集成,包括怎样客户化注解器,怎样部署文本分析引擎,最终实现了一个简单的问答系统.