动态规划——最短编辑距离

一、问题描述

        最短编辑距离(Minimum Edit Distance),也被称为Levenshtein距离,是一种计算两个字符串间的差异程度的字符串度量(string metric)。我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如替换、插入、删除)所需要的最少次数。                           简单例子:                                                                                                                                                给定两个单词word1,word2,找到最少的修改操作次数,使得将word1转换成word2,操作包含替换,插入,删除。

        1.替换操作:将某个字符替换成另一个字符

        2.插入操作:在某两个字符中间插入一个新的字符

        3.删除字符:删除某一个字符

        例如,word1=‘ssitten’,word2=‘sitting’,其中最短的编辑操作为

        将 word1 的第一个‘ s ’删除;将‘ e ’替换成‘ i ’;末尾处插入字符‘ g ’,所以编辑距离为3

二、动态规划

        不妨先想一想,两个字符串的最短编辑距离,只需要考虑对其中一个字符串操作即可,所以最短编辑距离的最大值一定不超过两个字符串长度的较大值(只对较短字符串进行替换和插入操作)。                                                                                                                                                         在动态规划思想中,将问题转化成一个个子问题来解决,即如何根据上述三种操作方式推导。定义 F[ i ][ j ] 为字符串1中 1 ~ i 和字符串2 1 ~ j 中的最短编辑距离,将字符串从末尾开始比较有以下递推公式。

        1.当两个字符串末尾相同时 (word1 = "intention’, word2 = ’execution‘ )

       F[9][9]=F[8][8] \, \, \, \, \, \, \, \, \, \, \, \, (s1[9]==s2[9])

                此时不需要任何操作     F[i][j]=F[i-1][j-1]   即可

        2.当两个字符串末尾不相同时,有以下三种操作。

        ① 替换操作 

        直接将 word1 中的末尾字符替换成 word2 中的末尾字符,操作数+1,此时情况为 case1 易理解。

        F[i][j]=F[i-1][j-1]+1

        ②插入操作

        在 word1 的末尾后面插入 word2 的末尾字符,操作数+1,举例说明

        例如上述样例    word1=‘ssitten’,word2=‘sitting’   此时在 word1 末尾加上 ‘ g ’ ,word1 和 word2 此时末尾字符相同,即同上述情况相同有

        F[i][j]=F[i][j-1]+1

        ③ 删除操作

        直接删除 word1 末尾的元素,考虑 F[ i-1 ] [ j ]

        F[i][j]=F[i-1][j]+1

        再考虑初始条件         F[i][0]=i \, \, \, \, \, \, \, \, \, \, F[0][j] = j

         则递推公式为:

 三、代码部分

        

#include<stdio.h>
#include<string.h>
using namespace std;
#include<iostream> 
int f[2001][2001],n;
char s1[10001],s2[10001];
int main()
{
	scanf("%s",s1);
	scanf("%s",s2);
	int l1=strlen(s1),l2=strlen(s2);
	for(int i=l1-1;i>=0;i--)
		s1[i+1]=s1[i];
	for(int j=l2-1;j>=0;j--)
		s2[j+1]=s2[j];
	for(int i=1;i<=l1;i++) f[i][0]=i;
	for(int i=1;i<=l2;i++) f[0][i]=i;
	for(int i=1;i<=l1;i++)
	for(int j=1;j<=l2;j++)
	{
		if(s1[i]==s2[j])
			f[i][j]=f[i-1][j-1];
		else 
		{
			f[i][j]=min(min(f[i-1][j-1]+1,f[i-1][j]+1),f[i][j-1]+1);  // 替换 删除 插入 
		}
	}
	printf("%d",f[l1][l2]);
	return 0; 
}

上一篇:【Python可视化】pyecharts


下一篇:Python量化炒股的获取数据函数—get_index_stocks