Press⌘+Kto search
IP: 获取中...
为效率而生, Just tools.goodssoft.com
文本相似度计算工具 - 编辑距离算法对比
专业的在线文本相似度计算工具,基于编辑距离(Levenshtein距离)算法计算两段文本的相似度。支持内容去重、查重检测、版本对比等场景。
相似度结果
90.91%
相似度
1
编辑距离
11
最大长度
1
需要操作
相似度90.91%
不同相似几乎相同
计算说明
编辑距离 (Levenshtein距离): 将一段文本转换为另一段文本所需的最少单字符编辑(插入、删除或替换)操作次数。
相似度计算: 相似度 = (1 - 编辑距离 / 最大长度) × 100%
应用场景: 内容去重、查重检测、版本对比、模糊匹配、数据清洗等。
# 什么是文本相似度?
文本相似度是指两段文本在内容上的相似程度。本工具使用Levenshtein编辑距离算法来计算相似度, 这是一种衡量两个字符串差异程度的经典算法。编辑距离越小,相似度越高,表示两段文本越相似。
# 如何使用本工具
- 在左侧输入框中输入或粘贴第一段文本
- 在右侧输入框中输入或粘贴第二段文本
- 系统会自动计算并显示相似度结果
- 查看编辑距离、相似度百分比等详细指标
# 算法原理
- Levenshtein距离: 通过动态规划计算,将一个字符串转换为另一个字符串的最少编辑次数
- 编辑操作: 包括插入一个字符、删除一个字符、替换一个字符三种基本操作
- 相似度公式: 相似度 = (1 - 编辑距离/最大长度) × 100%
- 时间复杂度: O(m×n),其中m和n分别是两段文本的长度
# 常见问题 (FAQ)
相似度和编辑距离有什么区别?
编辑距离是绝对值,表示需要多少次操作才能将一段文本转换为另一段;而相似度是相对值, 以百分比形式表示两段文本的相似程度,更直观易懂。
这个工具支持中文吗?
支持。本工具基于字符级别进行计算,无论是中文、英文还是其他语言,都能准确计算相似度。 对于中文文本,每个汉字被视为一个字符。
相似度多少算是相似?
这取决于具体应用场景。一般来说,相似度≥80%可视为高度相似,50%-80%为中等相似, <50%为低相似度。在内容查重场景中,阈值可能需要设置得更高。
为什么空文本和任意文本的相似度是100%?
因为两段空文本的最大长度为0,根据相似度公式,0/0被视为100%。实际应用中, 建议先检查文本是否为空,再进行相似度计算。