博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
计算字符串相似度算法—Levenshtein
阅读量:6609 次
发布时间:2019-06-24

本文共 2210 字,大约阅读时间需要 7 分钟。

什么是Levenshtein

Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。levenshtein() 函数返回两个字符串之间的 Levenshtein 距离。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance

实现过程

首先我们明确从一个字符串变化到另一个字符串需要进行添加、修改、删除来变化

如a变化到ab需要一步,添加一个b,

   aa变化到ab需要修改一个a到b,

   ab变化到a需要删除一个b。

 

首先我们确定了两个字符串str1,str2;假设这两个字符为a1a2a3a4......,b1b2b3......

那么构建一个二维矩阵

        空   a1  a2  a3  a4 ......

空     [1]   [2]   [3]   [4]     [5]......

b1    [6]   [7]   [8]   [9]     [10]......

b2    [11]  [12]  [13] [14]   [15]......

b3    [16] [17]   .......

...     

1.判断[1]左边为空,上面为空,从空到空需要变化0次

2.所以可以得到下面的矩阵

        空   a1  a2  a3  a4 ......

空     0      1      2      3       4......

b1    1      [7]   [8]   [9]     [10]......

b2    2       [12]  [13] [14]   [15]......

b3    3      [17]   .......

 .......

3.到7的位置表示了[空a1]变化到[空b1],这里我们需要得到三个值

    1)从[2]变化到[7]需要的步数是[2]+1

    2)从[6]变化到[7]需要的变化是[6]+1

    3) 从[1]变化到[7]需要的变化是 ,如果a1=b1,那么需要0步,如果a1!=b1,那么需要删除一个a1在添加一个b1,需要2步,也就是大于1步。

我们取这三步中所需走的最短步数填到[7]的位置   。

4.以此推得到

    Amn的值为Am-1n+1,Amn-1+1,Am-1n-1+x(当am=bn时x=0,否则x=2)的最小值

5.当求得的值的最后一位得到的值N,用1-n/(max(len(a),len(b)))得到相关度。 

实现代码 

///         /// Levenshtein 算法实现          ///         ///         ///         /// 
public static float Leven(string value1, string value2) { int len1 = value1.Length; int len2 = value2.Length; int [,] dif =new int[len1+1,len2+1]; for (int a=0;a<=len1;a++) { dif[a,0] = a; } for (int a = 0; a <= len2; a++) { dif[0, a] = a; } int temp =0; for (int i = 1; i <= len1; i++) { for (int j = 1; j <= len2; j++) { if (value1[i - 1] == value2[j - 1]) { temp = 0; } else { temp = 1; } dif[i,j] = Min(dif[i - 1,j - 1] + temp, dif[i,j - 1] + 1, dif[i - 1,j] + 1); } } float similarity=1- (float)dif[len1, len2]/Math.Max(len1,len2); return similarity; } public static int Min(int a, int b, int c) { int i = a < b ? a : b; return i = i < c ? i : c; }

 

转载地址:http://fjiso.baihongyu.com/

你可能感兴趣的文章
各高级语言特点与比较
查看>>
iOS地图 -- 区域监听的实现和小练习
查看>>
Spring Boot实现一个监听用户请求的拦截器
查看>>
Java多线程总结之线程安全队列Queue
查看>>
百度编辑器 Ueditor 下拉处增加字体
查看>>
WPF 虚拟化 VirtualizingWrapPanel 和 VirtualLizingTilePanel
查看>>
Redis快速入门
查看>>
nodejs 相关
查看>>
Diffie-Hellman密钥交换算法
查看>>
复制表结构和数据SQL语句
查看>>
JavaScript onkeydown事件入门实例(键盘某个按键被按下)
查看>>
免费开源的DotNet二维码操作组件ThoughtWorks.QRCode(.NET组件介绍之四)
查看>>
Unity进阶技巧 - 动态创建UGUI
查看>>
【简单易懂的AMV图文教程-2】VEGAS基础进阶——认识关键帧
查看>>
使用css打造形形色色的形状!
查看>>
Spring切面处理
查看>>
浅谈CPU和GPU的区别
查看>>
开源大数据利器汇总
查看>>
从知名外企到创业公司做CTO是一种怎样的体验?
查看>>
Oracle 表空间和用户权限管理【转】
查看>>