原文链接 https://www.cnblogs.com/cly-none/p/9825339.html
题意:给出\(n\)个长度为\(m\)的互不相同的01串。有另一个串,初始为空。不断进行如下操作:每次这个串的末尾会等概率加上0或1。当出现\(n\)个串中的一个成为这个串的子串,操作立刻停止。问每个串停止操作的概率。
\(n,m \leq 300\)
首先,显然可以建出AC自动机,在trie图上每个结点设一个未知数表示如果这个结点是终止结点,那么在它终止的概率,然后用高斯消元求出答案。但这样做复杂度是\(O((nm)^3)\)的,不能通过本题。
考虑简化方程组。由数据范围可知,方程组的未知数数应当是\(O(n)\)的。因此,我们要考虑放弃AC自动机。这意味着放弃不同非终点状态之间的关系,那么我们就需要更简单的对方程未知数的定义。
首先,因为AC自动机上每个串代表的终止结点最多访问一次,所以访问到它的概率就等于访问它的期望次数。于是我们修改方程中未知数的定义,定义为这个结点期望被访问到的次数。
接下来,考虑终止的最终状态,就是\(n\)个串中的一个作为后缀(设其编号为\(i\)),前面拼上一段\(S\)。这个\(S\)需要满足不能走到终止状态,且加上串\(i\)的任何长度小于\(m\)的前缀也不会走到终止状态。
于是就放弃一点性质:让\(S\)为任何不能走到终止状态的串(包括空串)。那么,强制它后面接上串\(i\)时(即忽略在途中的终止),那么,就有如下几种可能:
- 恰好走到串\(i\)的终止状态。并且,由于\(S\)是任意走不到终止状态的串,因此这能包含所有恰好在串\(i\)终止的状态。
- 在后面接上\(j\)个01后,就在途中停止了。假设我们在串\(k\)处停止。那么,串\(k\)长度为\(j\)的前缀就与串\(i\)长度为\(j\)的后缀相同。然后,因为能保证串\(k\)的串长不小于\(j\),且在\(k\)串处终止就意味着在之前一定没有终止,所以这包含了所有在\(k\)处终止的状态。但还要注意后面又强行加上了\(m-j\)位。
于是就能构建出方程组了。新加一个未知数\(x_0\)表示非终止状态的期望经过次数。\(x_i, \, (i \geq 1)\)就是经过串\(i\)的终止结点的期望次数。那么,当\(S\)后强行接上串\(i\),我们就能得到
\]
这样就有\(n\)条方程了。第\(n+1\)条方程是\(\sum_{k=1}^n x_k = 1\)。
话说怎么证明这个矩阵是奇异的啊?求大佬赐教。
于是高斯消元一下就解决了本题。时间复杂度\(O(n^2(n+m))\)。
#include <bits/stdc++.h>
using namespace std;
const int N = 310, MOD[2] = {(int)(1e9 + 7), (int)(1e9 + 9)}, BAS = 3;
typedef double db;
db mat[N][N],pwi2[N];
int n,m,has[2][N][N],pw[2][N];
char s[N][N];
int gethas(int k,int *has,int l,int r) {
return (has[r] - 1ll * has[l-1] * pw[k][r-l+1] % MOD[k] + MOD[k]) % MOD[k];
}
void guass(int rn) {
for (int i = 1 ; i <= rn ; ++ i) {
int r = i;
for (int j = i + 1 ; j <= rn ; ++ j)
if (fabs(mat[j][i]) > fabs(mat[r][i]))
r = j;
if (r != i)
for (int j = i ; j <= rn + 1 ; ++ j)
swap(mat[i][j],mat[r][j]);
for (int j = i + 1 ; j <= rn ; ++ j) {
for (int k = i + 1 ; k <= rn + 1 ; ++ k)
mat[j][k] -= (mat[j][i] / mat[i][i]) * mat[i][k];
mat[j][i] = 0;
}
}
for (int i = rn ; i >= 1 ; -- i) {
mat[i][rn+1] /= mat[i][i];
for (int j = i - 1 ; j >= 1 ; -- j)
mat[j][rn+1] -= mat[i][rn+1] * mat[j][i];
}
}
int main() {
scanf("%d%d",&n,&m);
for (int i = 1 ; i <= n ; ++ i)
scanf("%s",s[i] + 1);
for (int k = 0 ; k < 2 ; ++ k) {
pw[k][0] = 1;
for (int i = 1 ; i <= m ; ++ i)
pw[k][i] = 1ll * pw[k][i-1] * BAS % MOD[k];
for (int i = 1 ; i <= n ; ++ i) {
has[k][i][0] = 0;
for (int j = 1 ; j <= m ; ++ j)
has[k][i][j] = (1ll * has[k][i][j-1] * BAS + (s[i][j] == 'T')) % MOD[k];
}
}
pwi2[0] = 1.0;
for (int i = 1 ; i <= m ; ++ i)
pwi2[i] = pwi2[i-1] / 2.0;
for (int i = 1 ; i <= n ; ++ i) {
mat[i][n+1] = - pwi2[m];
for (int j = 1 ; j <= m ; ++ j) {
for (int k = 1 ; k <= n ; ++ k) {
if (gethas(0,has[0][k],m-j+1,m) == gethas(0,has[0][i],1,j))
if (gethas(1,has[1][k],m-j+1,m) == gethas(1,has[1][i],1,j)) {
mat[i][k] += pwi2[m - j];
}
}
}
}
for (int i = 1 ; i <= n ; ++ i)
mat[n+1][i] = 1;
mat[n+1][n+2] = 1;
guass(n+1);
for (int i = 1 ; i <= n ; ++ i)
printf("%.8lf\n",mat[i][n+2]);
return 0;
}
小结:这个做法放弃了AC自动机,通过对未知数概念的修改和某种情况的讨论,得到了复杂度低且支持串长不相等、字符集较大、每种字符随机概率不相等的解法。可见解决一些问题,还可能要放弃部分常规套路。