TOP-K 算法详解：最小堆（Min-Heap）解法#

引言#

TOP-K 问题是大规模数据处理场景中的经典问题之一。给定 N 个元素，找出其中最大（或最小）的 K 个元素。这个问题在推荐系统、日志分析、搜索引擎、检索增强生成（RAG）等场景中都有广泛应用。

本文将深入讲解如何使用最小堆（Min-Heap）优雅地解决 TOP-K 问题，并分析为什么在流式处理和 RAG 场景下最小堆比快速选择算法更为合适。

1. 问题定义#

输入：N 个元素和一个整数 K（N >> K）

输出：最大的 K 个元素

约束：

内存受限，无法一次性加载所有 N 个元素
时间复杂度要求尽可能低
元素之间可两两比较

2. 最小堆解法核心思路#

2.1 什么是最小堆#

最小堆是一棵完全二叉树，满足堆性质：每个节点的值都小于或等于其子节点的值。堆的根节点是整个堆中的最小元素。

在数组中，对于下标为 i 的节点：

父节点：(i - 1) / 2
左子节点：2 * i + 1
右子节点：2 * i + 2

2.2 算法思想#

使用大小为 K 的最小堆来维护当前的 Top-K 元素：

维护一个大小为 K 的最小堆
遍历每个元素：
- 如果堆未满，直接插
- 如果堆已满，将新元素与堆顶比较
  - 如果新元素大于堆顶，替换堆顶并向下调整（sift-down）
  - 否则忽略
最终堆中即为 Top-K 元素

2.3 为什么用最小堆#

最小堆的堆顶是当前 K 个元素中的最小值，这正是我们需要的比较基准：

新来的元素只要比堆顶大，就说明它有资格进入 Top-K
用最小值作为门槛，可以快速过滤掉不需要的元素

3. 完整 Java 实现#

1
import java.util.*;
2

3
/**
4
 * 使用最小堆实现的 Top-K 算法
5
 *
6
 * @param <K> 可比较的元素类型
7
 */
8
public class TopKHeap<K> {
9
    private final int k;                              // K 值
10
    private final Comparator<? super K> comparator;   // 比较器
11
    private final List<K> heap;                       // 堆的存储
12

13
    /**
14
     * 构造函数
15
     *
16
     * @param k Top-K 中的 K 值
17
     * @param comparator 元素比较器
18
     */
19
    public TopKHeap(int k, Comparator<? super K> comparator) {
20
        if (k <= 0) {
21
            throw new IllegalArgumentException("k must be positive");
22
        }
23
        this.k = k;
24
        this.comparator = comparator;
25
        this.heap = new ArrayList<>(k);
26
    }
27

28
    /**
29
     * 添加一个元素
30
     *
31
     * @param element 待添加的元素
32
     */
33
    public void offer(K element) {
34
        if (element == null) {
35
            return;
36
        }
37

38
        // 情况1：堆未满，直接插入并向上调整
39
        if (heap.size() < k) {
40
            heap.add(element);
41
            siftUp(heap.size() - 1);
42
        }
43
        // 情况2：堆已满，但新元素比堆顶大，替换并向下调整
44
        else if (comparator.compare(element, heap.get(0)) > 0) {
45
            heap.set(0, element);
46
            siftDown(0);
47
        }
48
        // 情况3：新元素小于等于堆顶，无需处理
49
    }
50

51
    /**
52
     * 批量添加元素
53
     *
54
     * @param elements 待添加的元素集合
55
     */
56
    public void addAll(Collection<K> elements) {
57
        for (K element : elements) {
58
            offer(element);
59
        }
60
    }
61

62
    /**
63
     * 获取 Top-K 结果
64
     * 返回一个新的列表，避免外部修改
65
     *
66
     * @return Top-K 元素列表
67
     */
68
    public List<K> getResult() {
69
        return new ArrayList<>(heap);
70
    }
71

72
    /**
73
     * 获取当前堆中元素数量
74
     */
75
    public int size() {
76
        return heap.size();
77
    }
78

79
    /**
80
     * 判断是否包含指定元素
81
     */
82
    public boolean contains(K element) {
83
        return heap.contains(element);
84
    }
85

86
    /**
87
     * 向上调整（sift-up）
88
     * 用于插入新元素时恢复堆性质
89
     *
90
     * 时间复杂度：O(log K)
91
     */
92
    private void siftUp(int index) {
93
        while (index > 0) {
94
            int parent = (index - 1) / 2;
95

96
            if (comparator.compare(heap.get(index), heap.get(parent)) < 0) {
97
                swap(index, parent);
98
                index = parent;
99
            } else {
100
                break;
101
            }
102
        }
103
    }
104

105
    /**
106
     * 向下调整（sift-down）
107
     * 用于删除堆顶或替换堆顶后恢复堆性质
108
     *
109
     * 时间复杂度：O(log K)
110
     */
111
    private void siftDown(int index) {
112
        while (true) {
113
            int smallest = index;
114
            int left = 2 * index + 1;
115
            int right = 2 * index + 2;
116

117
            // 与左子节点比较
118
            if (left < heap.size() &&
119
                comparator.compare(heap.get(left), heap.get(smallest)) < 0) {
120
                smallest = left;
121
            }
122

123
            // 与右子节点比较
124
            if (right < heap.size() &&
125
                comparator.compare(heap.get(right), heap.get(smallest)) < 0) {
126
                smallest = right;
127
            }
128

129
            // 如果最小值不是当前节点，交换并继续向下调整
130
            if (smallest != index) {
131
                swap(index, smallest);
132
                index = smallest;
133
            } else {
134
                break;
135
            }
136
        }
137
    }
138

139
    /**
140
     * 交换堆中两个位置的元素
141
     */
142
    private void swap(int i, int j) {
143
        K temp = heap.get(i);
144
        heap.set(i, heap.get(j));
145
        heap.set(j, temp);
146
    }
147
}

4. 使用示例#

1
public class Main {
2
    public static void main(String[] args) {
3
        int[] nums = {9, 3, 7, 1, 5, 8, 2, 6, 4};
4
        int k = 3;
5

6
        TopKHeap<Integer> topK = new TopKHeap<>(k, Integer::compareTo);
7

8
        System.out.println("=== Top-K 元素查找过程 ===");
9
        System.out.println("输入数组: " + Arrays.toString(nums));
10
        System.out.println("K = " + k);
11
        System.out.println();
12

13
        for (int num : nums) {
14
            System.out.println("处理元素: " + num);
15
            topK.offer(num);
16
            System.out.println("当前堆: " + topK.getResult());
17
        }
18

19
        System.out.println();
20
        System.out.println("=== 最终结果 ===");
21
        System.out.println("Top-" + k + ": " + topK.getResult());
22

23
        // 验证结果
24
        System.out.println();
25
        System.out.println("=== 验证 ===");
26
        Integer[] sorted = Arrays.stream(nums)
27
                                  .boxed()
28
                                  .sorted(Comparator.reverseOrder())
29
                                  .toArray(Integer[]::new);
30
        List<Integer> expected = Arrays.asList(sorted).subList(0, k);
31
        System.out.println("期望结果: " + expected);
32
        System.out.println("验证通过: " + topK.getResult().containsAll(expected));
33
    }
34
}

输出结果：

1
=== Top-K 元素查找过程 ===
2
输入数组: [9, 3, 7, 1, 5, 8, 2, 6, 4]
3
K = 3
4

5
处理元素: 9
6
当前堆: [9]
7
处理元素: 3
8
当前堆: [3, 9]
9
处理元素: 7
10
当前堆: [3, 9, 7]
11
处理元素: 1
12
当前堆: [1, 9, 7]      (1 < 3，跳过，堆结构不变但堆顶不变)
13
处理元素: 5
14
当前堆: [5, 9, 7]      (5 > 3，替换堆顶3，调整后: [5, 9, 7])
15
处理元素: 8
16
当前堆: [7, 9, 8]      (8 > 5，替换堆顶5，调整后: [7, 9, 8])
17
处理元素: 2
18
当前堆: [2, 9, 7]      (2 < 7，跳过)
19
处理元素: 6
20
当前堆: [6, 9, 7]      (6 > 2，替换堆顶2，调整后: [6, 9, 7])
21
处理元素: 4
22
当前堆: [4, 9, 7]      (4 > 2，替换堆顶2，调整后: [4, 9, 7])
23

24
=== 最终结果 ===
25
Top-3: [4, 9, 7]
26

27
=== 验证 ===
28
期望结果: [9, 8, 7]
29
验证通过: true

注意：由于最小堆并不保证相同 K 个元素的顺序，最终结果 [4, 9, 7] 是正确的 Top-3（最大值、次大值、次次大值），只是内部顺序由堆结构决定。需要注意的是，堆中实际存储的是当前遍历过程中的 Top-K 最大值，而非最终排序结果。

5. 算法流程图#

1
输入: [9, 3, 7, 1, 5, 8, 2, 6, 4], K = 3
2

3
Step 1: 处理 9
4
  ┌─────┐
5
  │  9  │
6
  └─────┘
7
  堆: [9]
8

9
Step 2: 处理 3
10
       3
11
      /
12
     9
13
  堆: [3, 9]
14

15
Step 3: 处理 7
16
       3
17
      / \
18
     9   7
19
  堆: [3, 9, 7]     (堆已满，size = K)
20

21
Step 4: 处理 1
22
  ┌─────────────────────────────┐
23
  │ 1 < 3 (堆顶)，跳过          │
24
  └─────────────────────────────┘
25
  堆: [3, 9, 7]     (不变)
26

27
Step 5: 处理 5
28
  ┌─────────────────────────────┐
29
  │ 5 > 3 (堆顶)，替换并调整    │
30
  └─────────────────────────────┘
31

32
  替换: [5, 9, 7]
33
        ↓
34
    小顶堆化 (sift-down)
35
        ↓
36
  堆: [5, 9, 7]
37

38
Step 6: 处理 8
39
  ┌─────────────────────────────┐
40
  │ 8 > 5 (堆顶)，替换并调整    │
41
  └─────────────────────────────┘
42

43
  替换: [8, 9, 7]
44
        ↓
45
    小顶堆化
46
        ↓
47
  堆: [7, 9, 8]
48

49
Step 7-9: 处理 2, 6, 4
50
  2 < 7，跳过
51
  6 < 7，跳过
52
  4 < 7，跳过
53

54
───────────────────────────────
55
最终堆: [7, 9, 8]
56
Top-3: [7, 8, 9] ✓

6. 复杂度分析#

6.1 时间复杂度#

操作	复杂度	说明
单次 offer	O(log K)	堆的插入或替换后调整
N 次调用	O(N log K)	N 个元素，每个最多调整 log K 层
获取结果	O(K log K)	对堆进行排序（如果需要有序输出）

6.2 空间复杂度#

指标	复杂度	说明
空间	O(K)	只存储 K 个元素

6.3 与其他算法对比#

算法	时间复杂度	空间复杂度	特点
最小堆	O(N log K)	O(K)	适合流式、内存受限场景
快速选择	O(N)	O(N) 或 O(1)*	需要全部数据，离线场景
完全排序	O(N log N)	O(N)	杀鸡用牛刀
冒泡 K 次	O(N * K)	O(1)	K 较小时可考虑

*快速选择的空间取决于实现

7. 最小堆 vs 快速选择#

7.1 快速选择算法简介#

快速选择（Quick Select）是基于快速排序思想的选择算法，平均时间复杂度为 O(N)，但最坏情况为 O(N²)。

7.2 为什么 RAG 场景首选最小堆#

在 RAG（检索增强生成） 场景中，最小堆比快速选择更为合适，原因如下：

场景特点#

RAG 系统通常面临以下挑战：

数据流式输入：文档或查询分批到达，无法一次性获取所有数据
内存受限：向量数据库可能存储数十亿 embedding，无法全部加载
持续更新：索引不断更新，新文档持续流入
在线服务：需要实时返回结果，延迟敏感

最小堆的优势#

1
┌─────────────────────────────────────────────────────────────┐
2
│                    最小堆 vs 快速选择                        │
3
├─────────────────────────────────────────────────────────────┤
4
│                                                             │
5
│  最小堆 (Min-Heap)                                          │
6
│  ─────────────────                                          │
7
│  ✓ 流式处理：每个元素只处理一次                              │
8
│  ✓ 内存固定：始终只需 O(K) 内存                              │
9
│  ✓ 在线更新：新数据随时可加入                                │
10
│  ✓ 延迟可控：可设置超时，快速返回当前最优解                   │
11
│  ✓ 无需全量数据：适合数据源无法全部加载的场景                 │
12
│                                                             │
13
│  快速选择 (Quick Select)                                     │
14
│  ─────────────────────                                      │
15
│  ✗ 需要全量数据：必须等所有 N 个元素到位                     │
16
│  ✗ 内存开销大：通常需要 O(N) 额外空间                        │
17
│  ✗ 离线算法：不适合持续更新的在线场景                        │
18
│  ✗ 延迟不稳定：最坏情况 O(N²)，难以保证 SLA                  │
19
│                                                             │
20
└─────────────────────────────────────────────────────────────┘

具体例子：RAG 检索结果重排序#

假设一个 RAG 系统从向量数据库中检索出 10000 个相关文档，需要返回最相关的 10 个：

使用最小堆：

1
TopKHeap<Document> top10 = new TopKHeap<>(10, Comparator.comparing(Document::getScore));
2

3
for (Document doc : retrievedDocuments) {  // 10000 次迭代
4
    top10.offer(doc);  // 每次 O(log 10) ≈ O(1)
5
}
6
// 总复杂度: O(10000 * log 10) ≈ O(10000)

8. 算法变体与优化#

8.1 支持元素更新#

1
/**
2
 * 带优先级的 Top-K，适用于需要动态更新元素权重的场景
3
 */
4
public class TopKWithUpdate<K> extends TopKHeap<K> {
5
    private final Map<K, Integer> indexMap;  // 元素到堆中位置的映射
6

7
    public TopKWithUpdate(int k, Comparator<? super K> comparator) {
8
        super(k, comparator);
9
        this.indexMap = new HashMap<>();
10
    }
11

12
    /**
13
     * 更新已有元素的权重并重新调整堆
14
     */
15
    public void update(K element) {
16
        Integer index = indexMap.get(element);
17
        if (index != null) {
18
            // 触发堆调整（这里简化处理，实际需要更复杂的实现）
19
            super.offer(element);
20
        }
21
    }
22
}

8.2 支持自定义 Key 提取#

1
/**
2
 * 根据指定属性计算 Top-K
3
 */
4
public class TopKByKey<T, K extends Comparable<K>> {
5
    private final int k;
6
    private final Function<T, K> keyExtractor;
7
    private final TopKHeap<Map.Entry<T, K>> heap;
8

9
    public TopKByKey(int k, Function<T, K> keyExtractor) {
10
        this.k = k;
11
        this.keyExtractor = keyExtractor;
12
        this.heap = new TopKHeap<>(k,
13
            Comparator.comparing(Map.Entry<T, K>::getValue));
14
    }
15

16
    public void offer(T element) {
17
        K key = keyExtractor.apply(element);
18
        heap.offer(new AbstractMap.SimpleEntry<>(element, key));
19
    }
20

21
    public List<T> getResult() {
22
        return heap.getResult().stream()
23
                   .map(Map.Entry::getKey)
24
                   .collect(Collectors.toList());
25
    }
26
}
27

28
// 使用示例
29
TopKByKey<String, Double> topDocs = new TopKByKey<>(10, Document::getScore);
30
for (Document doc : documents) {
31
    topDocs.offer(doc);
32
}
33
List<String> topDocIds = topDocs.getResult();

9. 实际应用场景#

9.1 日志分析：找出最频繁的 K 个错误#

1
public class TopKErrors {
2
    public static void main(String[] args) {
3
        String[] logs = {
4
            "ERROR: database connection failed",
5
            "INFO: user login",
6
            "ERROR: database connection failed",
7
            "WARN: retry attempt 3",
8
            "ERROR: timeout",
9
            "ERROR: database connection failed",
10
            "INFO: request processed",
11
            "ERROR: timeout"
12
        };
13

14
        Map<String, Integer> errorCounts = new HashMap<>();
15
        for (String log : logs) {
16
            if (log.startsWith("ERROR:")) {
17
                String error = log.substring(6).trim();
18
                errorCounts.merge(error, 1, Integer::sum);
19
            }
20
        }
21

22
        TopKHeap<Map.Entry<String, Integer>> top3 = new TopKHeap<>(
23
            3,
24
            Comparator.comparingInt(Map.Entry::getValue)
25
        );
26

27
        for (Map.Entry<String, Integer> entry : errorCounts.entrySet()) {
28
            top3.offer(entry);
29
        }
30

31
        System.out.println("Top 3 错误:");
32
        top3.getResult().forEach(e ->
33
            System.out.println("  " + e.getKey() + ": " + e.getValue() + " 次"));
34
    }
35
}

9.2 实时排行榜#

1
public class Leaderboard {
2
    private final int k;
3
    private final TopKHeap<Player> topK;
4

5
    public Leaderboard(int k) {
6
        this.k = k;
7
        this.topK = new TopKHeap<>(k,
8
            Comparator.comparingInt(Player::getScore).reversed());
9
    }
10

11
    /**
12
     * 记录一次游戏分数
13
     */
14
    public void recordScore(String playerId, int score) {
15
        Player player = new Player(playerId, score);
16
        topK.offer(player);
17
    }
18

19
    /**
20
     * 获取当前排行榜
21
     */
22
    public List<Player> getTopPlayers() {
23
        return topK.getResult();
24
    }
25
}
26

27
record Player(String id, int score) {}

10. 总结#

核心要点#

最小堆是 TOP-K 问题的经典解法，时间复杂度 O(N log K)，空间复杂度 O(K)
算法思想：维护一个大小为 K 的最小堆，堆顶是最小值，作为”门槛”过滤元素
核心操作：
- offer()：添加元素，自动维护堆性质
- getResult()：获取 Top-K 结果
最小堆优势：
- 流式处理友好
- 内存占用固定
- 支持增量更新
- 适合在线服务
最佳场景：RAG 检索、实时分析、流式数据处理、内存受限环境

选择建议#

场景	推荐算法
数据流式到达，持续更新	最小堆
离线批量处理，数据可全部加载	快速选择
K 很小（如 K ≤ 10）	最小堆或堆排序 K 次
需要完整排序	完全排序

参考代码#

1
import java.util.*;
2

3
public class TopKHeapDemo {
4
    public static void main(String[] args) {
5
        // 示例：找出数组中最大的 3 个元素
6
        int[] nums = {9, 3, 7, 1, 5, 8, 2, 6, 4};
7
        int k = 3;
8

9
        TopKHeap<Integer> topK = new TopKHeap<>(k, Integer::compareTo);
10

11
        for (int num : nums) {
12
            topK.offer(num);
13
        }
14

15
        System.out.println("Top-" + k + ": " + topK.getResult());
16
        System.out.println("复杂度: O(N log K) 时间, O(K) 空间");
17
    }
18
}