如何记录文件变化

2025年9月21日 · 阅读需 8 分钟

diff 算法是用于比较两个文本文件的差异，并生成它们之间的差异输出的算法。它的核心思想是找出两个文本之间的最小差异，并将这些差异表示为一系列的 增量操作，通常是 插入、删除、修改。这个过程通常会用在 文本比较、版本控制（如 Git）、文件同步（如 rsync）等场景中。

`diff` 算法的基本思路：

将文本分解为行：将两个文本文件按行分割，通常是按行、单词或字符进行比较。在传统的 diff 中，通常是按行比较。
找到公共部分和不同部分：
- 最长公共子序列（LCS）：核心思想是找到两个文本之间的最长公共子序列（LCS）。LCS 是两个文本中没有改动的部分。diff 算法会通过计算 最长公共子序列 来确定哪些行是相同的，哪些行发生了变化。
- 差异生成：根据 LCS，可以通过比较每个文本中的不同部分，找出需要的差异操作（如：插入、删除）。

具体实现

实现 diff 算法的经典方法是 动态规划（Dynamic Programming, DP），它的基本思想是通过递归关系和记忆化（缓存）来逐步解决问题。这里是一个基于 动态规划 的 diff 算法的简单实现过程。

1. 定义问题

假设有两个文本（文本 A 和文本 B），分别为：

文本 A：
A1
A2
A3
A4

文本 B：
B1
A2
A3
B4

我们要比较文本 A 和文本 B 之间的差异。

2. 构建 DP 表

我们可以通过一个二维数组 dp[i][j] 来表示文本 A 的前 i 行与文本 B 的前 j 行之间的 最长公共子序列（LCS）的长度。dp[i][j] 的值表示在比较文本 A 的前 i 行和文本 B 的前 j 行时，它们的 LCS 长度。

初始化：

dp[0][0] = 0，表示空文本之间的 LCS 长度为 0。
如果文本 A 或文本 B 中某一方为空，则 dp[i][0] = 0 和 dp[0][j] = 0。

状态转移：

如果 A[i-1] == B[j-1]，则 dp[i][j] = dp[i-1][j-1] + 1。
否则，dp[i][j] = max(dp[i-1][j], dp[i][j-1])，即选择删除或插入的操作。

3. 构建差异

一旦我们构建了 dp 表，我们可以回溯来确定文本 A 和文本 B 之间的差异：

如果 A[i-1] == B[j-1]，则这两行是相同的，不需要操作。
如果 A[i-1] != B[j-1]，则表示有差异，我们需要插入或删除对应的行。
通过回溯，我们可以生成差异的详细列表。

4. 生成差异输出

diff 输出通常包括三种操作：

删除：如果 A 中有一行，而 B 中没有，表示该行被删除。
插入：如果 B 中有一行，而 A 中没有，表示该行被插入。
修改：如果 A 和 B 中的同一行内容不同，表示该行被修改。

动态规划实现 `diff` 算法的伪代码：

def diff(A, B):
    m, n = len(A), len(B)
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # 构建 dp 表
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1] + 1
            else:
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])

    # 回溯生成差异
    diff_output = []
    i, j = m, n
    while i > 0 and j > 0:
        if A[i - 1] == B[j - 1]:
            i -= 1
            j -= 1
        elif dp[i - 1][j] >= dp[i][j - 1]:
            diff_output.append(f"- {A[i - 1]}")  # 删除操作
            i -= 1
        else:
            diff_output.append(f"+ {B[j - 1]}")  # 插入操作
            j -= 1

    # 处理剩余的行
    while i > 0:
        diff_output.append(f"- {A[i - 1]}")  # 删除剩余的行
        i -= 1
    while j > 0:
        diff_output.append(f"+ {B[j - 1]}")  # 插入剩余的行
        j -= 1

    return diff_output[::-1]  # 逆序返回差异

# 示例
A = ["A1", "A2", "A3", "A4"]
B = ["B1", "A2", "A3", "B4"]
diff_output = diff(A, B)
for line in diff_output:
    print(line)

输出：

- A1
+ B1
  A2
  A3
- A4
+ B4

5. 优化

时间复杂度：这个动态规划算法的时间复杂度是 O(m * n)，其中 m 和 n 分别是两个文本的行数。由于我们需要构建一个 m x n 的二维表。
空间复杂度：空间复杂度也是 O(m * n)，因为我们需要存储一个 m x n 的 DP 表。

为了优化空间，有些 diff 算法使用 线性空间 优化方法，例如只保存当前行和上一行的 DP 状态，从而将空间复杂度降到 O(min(m, n))。

总结

diff 算法的实现大体依赖于 动态规划，通过计算 最长公共子序列（LCS） 来找出文本之间的差异。然后，通过回溯 DP 表生成详细的增量操作（插入、删除、修改）。这个过程广泛应用于文件比较、版本控制等场景。

nodejs中常用的diff库

在 Node.js 中，有几个非常流行的库可以用来实现 diff 算法，用于比较文本或文件的差异。以下是几个常用的库：

1. `diff`

diff 是一个常用的库，用于比较两个文本（字符串或文件）的差异，并生成一个类似 Git 的差异输出。

安装：

npm install diff

使用示例：

const Diff = require('diff');

const text1 = "A1\nA2\nA3\nA4";
const text2 = "B1\nA2\nA3\nB4";

const diffResult = Diff.diffLines(text1, text2);

diffResult.forEach((part) => {
  // Green for additions, red for deletions
  const color = part.added ? 'green' : part.removed ? 'red' : 'grey';
  console.log(part.value[color]);
});

解释：

diffLines 比较两个字符串的行差异。
part.added、part.removed 和 part.value 表示差异的类型（增加、删除、没有变化）及其值。
该库支持多种比较模式，如 diffWords（按单词比较）、diffChars（按字符比较）等。

2. `jsdiff`

jsdiff 是另一个非常常用的库，它提供了比 diff 更强大的功能，可以进行单词、字符、行级别的差异比较。这个库广泛用于处理文本差异，并生成差异报告。

安装：

npm install diff

使用示例：

const jsdiff = require('diff');

const text1 = "A1\nA2\nA3\nA4";
const text2 = "B1\nA2\nA3\nB4";

// 比较行级差异
const diff = jsdiff.diffLines(text1, text2);

diff.forEach((part) => {
  // Green for additions, red for deletions
  const color = part.added ? 'green' : part.removed ? 'red' : 'grey';
  console.log(part.value[color]);
});

3. `deep-diff`

deep-diff 主要用于深度比较两个对象的差异，但它也可以用于比较较复杂的数据结构，包括 JSON 对象和数组。它能返回关于添加、删除或修改的详细信息。

安装：

npm install deep-diff

使用示例：

const diff = require('deep-diff').diff;

const object1 = { a: 1, b: 2, c: 3 };
const object2 = { a: 1, b: 3, c: 3 };

const differences = diff(object1, object2);

differences.forEach((difference) => {
  console.log(difference);
});

输出示例：

{
  kind: 'E', // E表示修改，N表示新增，D表示删除
  path: ['b'], // 修改路径
  lhs: 2, // 左边的值（旧值）
  rhs: 3  // 右边的值（新值）
}

4. `diff-match-patch`

diff-match-patch 是一个 Google 提供的库，它可以高效地生成文本差异和合并差异。它的特点是能够处理非常大的文本文件，并且能够生成高效的差异输出。

安装：

npm install diff-match-patch

使用示例：

const diff_match_patch = require('diff-match-patch');
const dmp = new diff_match_patch();

const text1 = "A1\nA2\nA3\nA4";
const text2 = "B1\nA2\nA3\nB4";

// 生成差异
const diff = dmp.diff_main(text1, text2);
dmp.diff_cleanupSemantic(diff);

console.log(diff);

解释：

diff_main 用于计算两个文本之间的差异。
diff_cleanupSemantic 会对生成的差异进行优化，以便忽略某些无关的变化。

5. `diff2html`

如果你想把 diff 输出渲染为 HTML 格式，diff2html 是一个很好的选择，它将 diff 结果转换为易于展示的 HTML 格式。

安装：

npm install diff2html

使用示例：

const Diff = require('diff');
const Diff2Html = require('diff2html').Diff2Html;

const text1 = "A1\nA2\nA3\nA4";
const text2 = "B1\nA2\nA3\nB4";

const diff = Diff.diffLines(text1, text2);
const html = Diff2Html.getPrettyHtml(diff, { inputFormat: 'json', showFiles: false });

console.log(html);

总结：

这些库提供了不同的功能和灵活性，适用于各种场景：

diff 和 jsdiff：用于简单的文本差异比较。
deep-diff：适合复杂的对象或数组结构的比较。
diff-match-patch：适合处理大文件或高效的文本差异处理。
diff2html：适合将 diff 结果转换为 HTML 展示。

你可以根据你的需求选择最合适的库。如果你的目标是实现文本或文件级别的差异比较，diff 和 jsdiff 是最常用和高效的选择。

diff 算法的基本思路：​

具体实现​

1. 定义问题​

2. 构建 DP 表​

3. 构建差异​

4. 生成差异输出​

动态规划实现 diff 算法的伪代码：​

输出：​

5. 优化​

总结​

nodejs中常用的diff库

1. diff​

安装：​

使用示例：​

解释：​

2. jsdiff​

安装：​

使用示例：​

3. deep-diff​

安装：​

使用示例：​

输出示例：​

4. diff-match-patch​

安装：​

使用示例：​

解释：​

5. diff2html​

安装：​

使用示例：​

总结：​

`diff` 算法的基本思路：

具体实现

1. 定义问题

2. 构建 DP 表

3. 构建差异

4. 生成差异输出

动态规划实现 `diff` 算法的伪代码：

输出：

5. 优化

总结

1. `diff`

安装：

使用示例：

解释：

2. `jsdiff`

安装：

使用示例：

3. `deep-diff`

安装：

使用示例：

输出示例：

4. `diff-match-patch`

安装：

使用示例：

解释：

5. `diff2html`

安装：

使用示例：

总结：