我的算法书 - Sequence II

题目大意

给定一个长度为 n 的序列。有 m 次在线查询，每次询问区间 [l, r] 内有多少个不同的数。

1. 核心转换：如何定义“首次出现”

要在区间 $[l, r]$ 中找到“首次出现”的数字，我们可以利用前驱位置的概念。

定义 $pre[i]$ 为数组中第 $i$ 个位置的数字 $a[i]$ 上一次出现的位置。如果 $a[i]$ 之前没出现过，则 $pre[i] = 0$ 。

推论：

对于查询区间 $[l, r]$ ，如果位置 $i$ ( $l \le i \le r$ ) 是该数字在区间内的首次出现，那么必须满足：

pre[i] < l

原因：如果 $pre[i] \ge l$ ，说明在区间 $[l, r]$ 内，在 $i$ 的左边还有一个 $a[i]$ ，那么 $i$ 就不是第一次出现了。

这样就变成了查找区间 $[l,r]$ 满足条件的 $pre[i] < l$ 个数

| \{ x | x \in [l,r] , pre[x] < l \} |

2. 区间问题

假设数组 $A = [1, 2, 1, 3, 2]$ ，下标从 1 开始。

A  : [1, 2, 1, 3, 2]
Pre: [0, 0, 1, 0, 2]

我们用一个数组（桶） p_group[v] 来存储所有 $pre[i] == v$ 的下标 $i$ 。

p_group[0] 包含 $pre$ 为 0 的下标：{1, 2, 4}
p_group[1] 包含 $pre$ 为 1 的下标：{3}
p_group[2] 包含 $pre$ 为 2 的下标：{5}
p_group[3], p_group[4], p_group[5] 均为空。

得到pre[i]=k的位置分别是那些

时间演进法求区间内不同数字的数量

转成区间问题

这个表格展示了如何将原问题转化为一个可以用可持久化线段树解决的模型。

表格的每一行可以看作是一个版本。

第 k 行 (pre[i] <= k)：是一个 0/1 序列。如果位置 j 上的 pre[j] 值小于等于 k，那么该序列的第 j 个位置就为 1，否则为 0。

我们的目标是查询区间 [l, r] 中 pre[i] < l 的个数，这等价于查询 pre[i] <= l-1 的个数。这完美地对应到：使用版本为 l-1 的线段树，查询区间 [l, r] 的和。

	1	2	3	4	5
`pre[i] <= 0`	1	1	0	1	0
`pre[i] <= 1`	1	1	1	1	0
`pre[i] <= 2`	1	1	1	1	1
`pre[i] <= 3`	1	1	1	1	1

	1	2	3	4	5
`pre[i] <= 2`	1	`[1]`	1	1	1

这个[1]表示位置 $2$ 它的前驱的位置 $pre[i] \leqslant 2$ 是成立的

如果我们想要查询区间[2,4]内不同的数字的个数

那我们就去找 pre[i] <=1 对应的数组的 [2,4] 区间和

| `pre[i] <= 1` | 1 | 1 | 1 | 1 | 0 |

时间版本的区间01串 ,0代表不成立,1代表条件成立

用到的数学原理

$true \lor false = true$
$pre[i] \leqslant k = (pre[i] == k) \lor (pre[i] <k)$

求区间内第k个不同的元素

A  : [1, 2, 1, 3, 2]
Pre: [0, 0, 1, 0, 2]

求区间内第k个不同的元素,比如求区间 [2,4] 第二个不同的数字是那个

cpp

copy

        1
2
3
4
5
6
7
8
9
10
11
12

        int cnt =  0;
for(int i = 2 ;i<=4;i++){
{
    if( pre[i] < 2) {
      cnt++;
      if( cnt == 2) {
        cout << a[i] << endl;
        break;
      }
    }
}

上面代码表达的思路: 是1的时候统计,0的时候忽略

显然相同的数字被忽略,上面代码对应对应的数学描述:

设集合 $S$ 为所有满足条件的位置 $i$ 的集合：

S = \{ i \mid l \le i \le r \land pre[i] < l \}

我们将集合

S

中的元素从小到大排序，得到有序序列

p_1, p_2, \dots, p_{|S|}

。我们要找的就是这个序列中的第

k

个元素

p_k

。

如果把S看成序列,那就是 $S[k]$

这等价于在版本为 l-1 的可持久化线段树上，查询区间 [l, r] 内第 k 个 1 所在的位置。

在 root[l-1] 中，仅限于 $[l, r]$ 范围内，找到第 $k$ 个出现的位置（下标）。

完全按照你提供的逻辑梳理，这个解法的核心在于：把“不同数字”的问题转化为了“前驱位置 pre”的二维点计数问题。

我们以 pre[i] 的值作为**时间轴（版本）**来构建可持久化线段树。

核心逻辑映射

数据预处理：
- 计算每个位置 $i$ 的 $pre[i]$ （上一次出现的位置）。
- 将所有位置 $i$ 按照 $pre[i]$ 的值进行分组（即你的 p_group）。
构建主席树：
- 第 $k$ 个版本 root[k] 代表条件： $pre[i] \le k$ 。
- root[k] 是在 root[k-1] 的基础上，把所有 $pre[i] == k$ 的位置 $i$ 在线段树中置为 1。
- 这是一棵维护区间和的线段树（值为1代表该位置满足条件，0代表不满足）。
查询处理：
- 查询区间 $[l, r]$ 内不同的数 $\rightarrow$ 寻找区间内满足 $pre[i] < l$ 的数。
- 这对应于查找 版本 root[l-1]。
- 数量计算：在 root[l-1] 中查询区间 $[l, r]$ 的和，记为 $k_{cnt}$ 。
- 位置查找：我们要找第 $\lceil k_{cnt} / 2 \rceil$ 个数。
  - 注意：在 root[l-1] 版本中，下标 $1$ 到 $l-1$ 的位置肯定都是 1（因为对于 $i < l$ ，必然有 $pre[i] < i < l$ ）。
  - 所以，区间 $[l, r]$ 里的第 $k$ 小，其实就是**整棵树（全局）**里的第 $(l-1) + k$ 小。

C++ 代码实现

cpp