当前位置: 首页 > news >正文

LCS算法(文本相似度计算)

文章目录

  • 1.dp
  • 2.dp(单数组优化)

LCS,Longest Common Subsequenc,最长公共子序列,子序列在原序列中可以不连续,但必须先后顺序保持一致。例如ABCD中,BD是一个子序列,DB不是。

LCS常被用来计算文本相似度,其中的一种相似度计算方式:
在这里插入图片描述
这种计算方式的优点是可以平衡两文本长度差异,更公平。

1.dp

def lcs(s1, s2):
    """
    定义状态:dp[i][j]表示s1前i个字符和s2前j个字符的最长公共子序列
    得到两种情况下的转移方程:
        1) s1[i-1]=s2[j-1]: 此时 dp[i][j]=dp[i-1][j-1]+1
        2) s1[i-1]≠s2[j-1]: 此时 dp[i][j]=max(dp[i-1][j], dp[i][j-1])
    	当i=0或j=0时,前i或前j个字符空字符串,所以最长子序列长度都为0
    :param s1:
    :param s2:
    :return:
    """
    s1, s2 = ' ' + s1, ' ' + s2  # 添加占位符方便下标计算
    len_s1, len_s2 = len(s1), len(s2)
    dp = [[0] * len_s2] * len_s1
    for i in range(len_s1):
        for j in range(len_s2):
            if i * j == 0:
                continue
            if s1[i] == s2[j]:
                dp[i][j] = dp[i - 1][j - 1] + 1
            else:
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
    return dp[-1][-1], dp[-1][-1] * 2 / (len_s1 + len_s2)  # 返回lcs长度和相似度


if __name__ == '__main__':
    addr1 = '北京市海淀区西北旺路10号'
    addr2 = '北京海淀西北旺路附近'
    print(lcs(addr1, addr2))

# (8, 0.64)

这种实现方式需要双重循环遍历两个序列,所以时间复杂度和空间复杂度都是O(mn),m、n为两个序列的长度。

2.dp(单数组优化)

主要针对空间复杂度进行优化,上面实现方式构建的dp数组是m x n,可以通过下面单数组优化的方式将空间复杂度降到O(min(m, n))。

实现中以短文本的长度构建数组,外层循环遍历长文本,内层循环遍历短文本。下面代码为了方便没有做这个逻辑处理,空间复杂度是O(len(s2))。

def lcs(s1, s2):
    """
    原来的二维数组的更新方式是从左到右,从上到下。、
    将这个二维数组想象成一个矩阵,每次更新一个dp[i][j]时,只参考了三个位置的值:
        1) dp[i-1][j-1]: 左上位置
        2) dp[i][j-1]: 左边位置
        3) dp[i-1][j]: 上方位置
    因此,只需要这个矩阵中j所在的数组长度就可以替代二维数组。
    定义dp[j]为s1与s2前j个元素的最长子序列长度,则没i轮迭代中dp[j]的值表示s1前i个字符和s2中前j个字符的最长子序列长度。
    因为数组是从左往右覆盖更新,因此:1) dp[j]=dp[i-1][j]    2) dp[j-1]=dp[i][j-1]
    此时只需要解决dp[i-1][j-1]位置的元素获取。
    设这个变量名left_up,每次外层循环初始为0,表示内层遍历的文本长度为0时的最长子序列长度。
    内层循环中,dp[j]在更新之前表示dp[i-1][j],因此只需要在每次dp[j]更新后将更新之前的dp[j]赋值给left_up,
    这样在下一个j的循环中left_up其实就是dp[i-1][j-1],也就是当前位置的左上角元素。
    :param s1:
    :param s2:
    :return:
    """
    s1, s2 = ' ' + s1, ' ' + s2
    len_s1, len_s2 = len(s1), len(s2)
    dp = [0] * len_s2
    for i in range(len_s1):
        left_up = 0
        for j in range(len_s2):
            temp = dp[j]
            if i * j == 0:
                continue
            if s1[i] == s2[j]:
                dp[j] = left_up + 1
            else:
                dp[j] = max(dp[j - 1], dp[j])
            left_up = temp
    return dp[-1], dp[-1] * 2 / (len_s1 + len_s2)  # 返回lcs长度和相似度


if __name__ == '__main__':
    addr1 = '北京市海淀区西北旺路10号'
    addr2 = '北京海淀西北旺路附近'
    print(lcs(addr1, addr2))

# (8, 0.64)

相关文章:

  • springmvc 框架学习
  • 国思RDIF低代码快速开发框架 v6.2版本发布
  • 【Qt】Qt + Modbus 服务端学习笔记
  • 论数据结构
  • 基于单片机控制的电动汽车双闭环调速系统(论文+源码)
  • PowerShell 美化 增强教程
  • go语言中空结构体
  • [代码规范]1_良好的命名规范能减轻工作负担
  • golang+redis 实现分布式限流
  • 蓝桥杯 握手问题
  • 【C#高阶编程】—单例模式详解
  • MySQL性能优化,sql优化有哪些,数据库如何优化设计(二)
  • 【软件工程】08_结构化设计方法
  • Bash 脚本基础
  • numpy学习笔记15:模拟100次随机游走,观察平均行为
  • 数据处理专题(二)
  • vue2 el-table跨分页多选以及多选回显
  • Springboot的MultipartFile,获取不到inputStream
  • SeaCMS代码审计
  • 基于深度学习的OCR+NLP,医疗化验单智能识别方案
  • 庄语乐︱宋代历史是被“塑造”出来的吗?
  • 华夏银行一季度营收降逾17%、净利降逾14%,公允价值变动损失逾24亿
  • 上海乐高乐园建设进入最后冲刺,开园限量纪念年卡将于5月开售
  • 香港警务处高级助理处长叶云龙升任警务处副处长(行动)
  • 四川邻水县县长石国平拟任县(市、区)党委书记
  • 上海超万套保租房供应高校毕业生,各项目免押、打折等优惠频出