[原]文本分析论文资料
https://blog.csdn.net/u011239443/article/details/80282419
一、文本分析
1.fastText
《Bag of Tricks for Efficient Text Classification》: “>https://arxiv.org/pdf/1607.01759v2.pdf~~: 《一揽子高效文本分类技巧》论文阅读
2.TextCNN
《Convolutional Neural Networks for Sentence Classification》: “>http://xueshu.baidu.com/s?wd=paperuri%3A%287ea81182039becbb82a22aaae8099c15%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1408.5882&ie=utf-8&sc_us=17214068522800736720~~: 《用于句子分类的卷积神经网络》论文阅读
3.Cw2vec
https://www.atatech.org/articles/88976?spm=a1z2e.8101737.webpage.dtitle0.7dc2d360278L2Q
《cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
》: https://github.com/ShelsonCao/cw2vec/blob/master/cw2vec.pdf
4.字符串相似度
计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式。
Levenshtein(Levenshtein Distance)
支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为levenshtein,相似度在参数中表示为levenshtein_sim。
lcs(Longest Common SubString)
支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为lcs,相似度在参数中表示为lcs_sim。
ssk(String Subsequence Kernel)
支持相似度计算,在参数中表示为ssk。
参考:Lodhi, Huma; Saunders, Craig; Shawe-Taylor, John; Cristianini, Nello; Watkins, Chris (2002). “Text classification using string kernels”. Journal of Machine Learning Research: 419–444.
https://warwick.ac.uk/fac/sci/eng/staff/hml/stringfinal.pdf
cosine(Cosine)
支持相似度计算,在参数中表示为cosine。
参考:Leslie, C.; Eskin, E.; Noble, W.S. (2002), The spectrum kernel: A string kernel for SVM protein classification 7, pp. 566–575
http://pdfs.semanticscholar.org/0704/bb7b7918cd512b5e66ea4b4993e50b8ae92f.pdf
simhash_hamming
其中SimHash算法是把原始的文本映射为64位的二进制指纹,HammingDistance则是计算二进制指纹在相同位置上不同的字符的个数,支持距离和相似度两个参数,相似度=1-距离/64.0,距离在参数中表示为simhash_hamming,相似度在参数中表示为simhash_hamming_sim。
《Similarity Estimation Techniques from Rounding
Algorithms》: http://www.cs.princeton.edu/courses/archive/spr04/cos598B/bib/CharikarEstim.pdf
《Hamming distance》: https://en.wikipedia.org/wiki/Hamming_distance
5.word2vec
《Efficient Estimation of Word Representations in
Vector Space》: https://arxiv.org/pdf/1301.3781.pdf
6.Multi Label 训练
《CNN-RNN: A Unified Framework for Multi-label Image Classification》: https://arxiv.org/pdf/1604.04573.pdf
7.文本摘要
《TextRank: Bringing Order into Texts》: https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
《A Neural Attention Model for Abstractive Sentence Summarization》: https://arxiv.org/pdf/1509.00685.pdf
8.Semi-AAE
《Adversarial Autoencoders》: https://arxiv.org/pdf/1511.05644.pdf
9.PMI
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
https://en.wikipedia.org/wiki/Pointwise_mutual_information
10.条件随机场
条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,主要应用到标注问题中,其中线性链(linear chain)条件随机场是最典型的。
https://en.wikipedia.org/wiki/Conditional_random_field
11.LDA
《Latent Dirichlet Allocation》: http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
12、关系推理
大规模知识图谱的构建与应用需要多种智能信息处理技术的支持,其中主要包括:实体链指(Entity Linking)、关系抽取(Relation Extraction)、知识表示(Knowledge Representation)、知识推理(Knowledge Reasoning)等。
在知识推理方面,利用推理规则实现关系抽取的经典方法之一就是Path Ranking Algorithm算法,由Lao & Cohen与2010年提出。该方法将每种不同的关系路径作为一维特征,通过在知识图谱/KnowledgeBase中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,取得不错的抽取效果,成为近年来的关系抽取的代表方法之一。
《Relational retrieval using a combination
of path-constrained random walks》: https://link.springer.com/content/pdf/10.1007%2Fs10994-010-5205-8.pdf
13、句法依存分析
《Discriminative Reordering with Chinese Grammatical Relations Features》: https://nlp.stanford.edu/pubs/ssst09-chang.pdf
《Probabilistic Context-Free Grammars》: http://xueshu.baidu.com/s?wd=paperuri%3A%28cf125589545a418d86c5b3be651114bd%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Flink.springer.com%2Fcontent%2Fpdf%2F10.1007%252F978-1-4899-7687-1_669.pdf&ie=utf-8&sc_us=12971079026083217742
14、WMD算法
WMD(Word Mover’s Distance)算法,是利用word embedding对词的表示,将句子(sentence)/文本(document)之间的距离,转化为运输问题,通过EMD(earth mover’s distance)优化算法,计算两者之间的最小匹配耗费,以此作为文本相似性的距离度量。
https://www.atatech.org/articles/68948
《From Word Embeddings To Document Distances》: http://proceedings.mlr.press/v37/kusnerb15.pdf
二、深度学习
1、ConvLSTM
ConvLSTM (Convolutional LSTM)模型是一种图像深度学习模型,它由若干卷积层和LSTM层组成,是当前最好的图像ocr整行文字识别模型。
《Reading Scene Text in Deep Convolutional Sequences》: https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12256/12121
2、SSD
SSD是一种常用的检测算法,具有较快的检测速度,具体原理可以参考论文
SSD: Single Shot MultiBox Detector
三、搜索推荐
1、Frequent Pattern growth
http://blog.sina.com.cn/s/blog_68ffc7a40100uebg.html
2、Swing 推荐算法
https://www.atatech.org/articles/38516
3、协同过滤etrec
Jaccardindex : http://www.baidu.com/link?url=1tylaUjth8E6Wz40pho8m96LCILSaDFx2AlIQ4yu1KHEKB5qJjWEd892a3aBurqcqwcjM4LefFjtorCAMTclGa
《Wide & Deep Learning for Recommender Systems》: https://arxiv.org/abs/1606.07792
4、关联分析
关联分析是通过发现存在于数据集中的关联性而描述了一个事物中某些属性同时出现的规律和模式的挖掘算法,经典应用场景是购物篮的商品挖掘而分析顾客的消费习惯。
https://en.wikipedia.org/wiki/Apriori_algorithm
5、SMART Rank
https://www.atatech.org/articles/81136