Levenshtein距离

Levenshtein距离

莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。 指两个字串之間,由一个转成另一个所需的最少编辑操作次数。 允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,刪除一个字符。

GitHub 提供了计算莱文斯坦距离的包。
安装方法:

pip install python-Levenshtein

https://www.lfd.uci.edu/~gohlke/pythonlibs/ 里面查找python-Levenshtein.xxx.whl 离线安装

1 Levenshtein

1.1 汉明距离

  • Levenshtein.hamming(str1, str2)
    计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +1
    import Levenshtein.hamming
    Levenshtein.hamming('hello', 'world')
    # 4
    Levenshtein.hamming('abc', 'abd')
    # 1
    

1.2 编辑距离

  • Levenshtein.distance(str1, str2)
    计算编辑距离(也成Levenshtein距离)。是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换。

  • 编辑距离计算方式

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +1
    import Levenshtein.distance
    Levenshtein.distance('hello', 'world')
    # 4
    Levenshtein.distance('abc', 'abd')
    # 1
    Levenshtein.distance('abc', 'aecfaf')
    # 4
    

1.3 莱文斯坦比

  • Levenshtein.ratio(str1, str2)
    计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离
    注意:这里的类编辑距离与编辑距离不同

  • 类编辑距离计算方式

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +2

    莱文斯坦比越接近1,则两个字符串越接近

    import Levenshtein.ratio
    Levenshtein.ratio('hello', 'world')  # (10 -8) / 10
    0.2
    Levenshtein.ratio('abc', 'aecfaf')  # (9 - 2 - 3) / 9
    0.4444444444444444
    Levenshtein.ratio('abc', 'abd')  # (6 - 2) / 6
    0.6666666666666666
    Levenshtein.ratio('abc', 'abc')  # (6 - 0) / 6
    1.0
    
上一篇:Neural Network Compression Framework for fast model inference


下一篇:【Inference】变分推断以及VIEM