Levenshtein 自动机（拼音纠错）

- -

原文： http://blog.jobbole.com/80659/. 在上一期的超酷算法中，我们聊到了BK树，这是一种非常聪明的索引结构，能够在搜索过程中进行模糊匹配，它基于编辑距离（Levenshtein distance），或者任何其它服从三角不等式的度量标准. 今天，我将继续介绍另一种方法，它能够在常规索引中进行模糊匹配搜索，我们将它称之为 Levenshtein自动机.

编辑距离（Edit Distance | Levenshtein距离）

- - CSDN博客互联网推荐文章

编辑距离又称为Levenshtein距离，是指两个字符串之间，从一个字符串变成另一个字符串所需要的最小编辑操作次数. 可以采用的编辑操作包括：插入操作、替换操作和删除操作. 例如：字符串“a“ 与字符串 ”b“的编辑距离为1，只有一个替换操作. 将”kitten一字转成“sitting”的编辑距离为3：.

最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现

- - Java - 编程语言 - ITeye博客

原文： http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html. It implements a few well known tricks to use less memory by only hanging on to two arrays instead of allocating a huge n x m table for the memoisation table.

[记录]字符串相似度算法（编辑距离算法 Levenshtein Distance）

- - xilo's blog

在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”，关于原理和C#实现做个记录. 编辑距离，又称Levenshtein距离（也叫做Edit Distance），是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同. 许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符.

java 两字符串相似度计算算法（转）Levenshtein Distance编辑距离算法

- - 开源软件 - ITeye博客

Levenshtein distance最先是由俄国科学家Vladimir Levenshtein在1965年发明，用他的名字命名. 不会拼读，可以叫它edit distance（编辑距离）. 原理很简单，就是返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数. 次数越少，意味着字符串相似度越高 .

智能拼音

- jerry - Joyloft-Zenzen的酒楼

有人装纯洁的，就有人装更纯洁的、. 看到公司论坛有人问，TJJTDS是什么意思. 就有人回复，我也不知道，不过我的拼音输入法打出来的是：“他晋级他得胜”. 然后有人纠正：是“他拒绝她的说”；. 然后又有人纠正：“太极集团董事”；. 接着有人反驳：“天津交通堵塞”；. 最后最邪恶的人出来了，他的拼音打出来是：“舔鸡鸡舔到射”….

AC自动机

- Sosi - C++博客-Mato is No.1

AC自动机就是在Trie树上加入一些失败指针（fail，类似KMP中的next），使得它在某个结点失配的时候能够转移到该结点失败指针指向的结点继续匹配，从而实现多串匹配（单主串多子串）. 其中SZ是字符集的大小，比如小写字母集SZ=26，数字集SZ=10等. 另外这个mul表示的是该结点的重复次数（和平衡树中的比较像），就是这个结点所对应的字符串（从根到该结点路径上的所有边上的字符组成的字符串）出现了几次.

Ruby世界：汉字转换成拼音

- 董玉伟 - 道喜技术日记 .^. 天天红玉世界

谷歌拼音的脑补优化

- CandyFrankie - 月光博客

　　前些天看月光一篇讨论Google拼音的文章有感. 这里提供一个思路，让输入法更简单而不是更复杂. 文中有洁癖、偏执、妄想、超现实内容，如果引起您的不适请自便. 我没有长时间用过紫光和Google以外的任何输入法. 如果文中的一些想法有抄袭其他输入法的嫌疑，那么请推荐给我那个输入法，我立刻去用. 　　现在Google输入法的UI右边有两个切换按钮.

谷歌拼音输入法 v2.5.16.94

- 介潤 - cnBeta.COM

版本2.5.16.94 2011/08/18. 修复了在某些情况下同步和升级功能不正常的问题.

String length	Max strings	Small dict	Med dict	Full dict
1	79	47 (59%)	54 (68%)	81 (100%)
2	132	81 (61%)	103 (78%)	129 (97%)
3	185	94 (50%)	120 (64%)	147 (79%)
4	238	94 (39%)	123 (51%)	155 (65%)
5	291	94 (32%)	124 (43%)	161 (55%)

String length	Max strings	Small dict	Med dict	Full dict
1	2054	413 (20%)	843 (41%)	1531 (75%)
2	10428	486 (5%)	1226 (12%)	2600 (25%)
3	24420	644 (3%)	1643 (7%)	3229 (13%)
4	44030	646 (1.5%)	1676 (4%)	3366 (8%)
5	69258	648 (0.9%)	1676 (2%)	3377 (5%)

Levenshtein 自动机（拼音纠错）

简介

构建与评价

索引

测试

相关 [levenshtein 自动机拼音] 推荐：