Алгоритм Колусси
Версия от 00:58, 15 мая 2014; Kabanov (обсуждение | вклад)
Содержание
Алгоритм
Отметим, что нумерация символов строк и элементов массива у нас начинается с .
Обозначим префикс-функцию. При этом она должна быть определена для и иметь значение по умолчанию.
| Определение: |
| Для всех таких, что выполняется: |
Псевдокод
Наивный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
for k = 1 .. m
int i = k
while x[i] == x[i - k]
i++
hmax[k] = i
return hmax
Явная реализация по определению, очевидно, работает за и требует памяти.
Улучшенный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
int i = 1
int k = 1
while k <= m
while x[i] == x[i - k]
i++;
hmax[k] = i
int q = k + 1
while hmax[q - k] + k < i
hmax[q] = hmax[q - k] + k
q++
k = q
if k == i + 1
i = k
return hmax
На каждой итерации цикла увеличивается либо переменная , либо (или переменная , которая используется в конечном счете для обновления ). Поскольку и в начале и в конце алгоритма, количество итераций алгоритма не превосходит . Следовательно функция требует времени и памяти.
Функция для построения массива .
int[] buildKmin(int[] hmax, int m)
int kmin[m]
for i = m .. 1
if hmax[i] < m
kmin[hmax[i]] = i
return kmin
Функция для построения массива .
int[] buildRmin(int[] hmax, int[] kmin, int m)
int rmin[m]
int r = 0
for i = m - 1 .. 0
if hmax[i + 1] == m
// — первое число большее, чем и такое, что шаблон имеет период
r = i + 1
if kmin[i] == 0
rmin[i] = r
else
rmin[i] = 0
return rmin
Функция для построение массива .
int[] buildShift(int[] kmin, int[] rmin, int[] h, int nd, int m)
int shift[m + 1]
for i = 0 .. nd
shift[i] = kmin[h[i]]
for i = nd + 1 .. m - 1
shift[i] = rmin[h[i]]
shift[m] = rmin[0]
return shift
Функция для построения массива .
Асимптотики
- partitions the set of pattern positions into two disjoint subsets; the positions in the first set are scanned from left to right and when no mismatch occurs the positions of the second subset are scanned from right to left;
- preprocessing phase in time and space complexity;
- searching phase in time complexity;
- performs text character comparisons in the worst case.
Сравнение с другими алгоритмами
Достоинства
- Поиск выполняется за в отличие от алгоритма Кнута-Морриса-Пратта, поиск в котором занимается , что помогает уменьшить константу при .
- Фаза предобработки выполняется за в отличие от алгоритма Бойера-Мура, где в наилучшем случае можно получить время , что плохо при больших алфавитах.
Недостатки
- Сложность реализации.
Источники
- COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251.
- Colussi algorithm
- Colussi.ppt