Алгоритм Колусси — различия между версиями
Kabanov (обсуждение | вклад) м |
Kabanov (обсуждение | вклад) (→Предварительные вычисления) |
||
| Строка 75: | Строка 75: | ||
* <tex>x[\mathrm{H_{max}}(k)] \neq x[\mathrm{H_{max}}(k)-k]</tex>. | * <tex>x[\mathrm{H_{max}}(k)] \neq x[\mathrm{H_{max}}(k)-k]</tex>. | ||
}} | }} | ||
| + | |||
| + | {{Определение | ||
| + | |definition= | ||
| + | Обозначим за <tex>\mathrm{nhd0}(i)</tex> количество насыщенных позиций строго меньших <tex>i</tex>. | ||
| + | }} | ||
| + | |||
| + | Теперь мы можем определить два функции <tex>shift</tex> и <tex>next</tex>: | ||
| + | * <tex>\mathrm{shift}(i)=\mathrm{K_{min}}(h[i])</tex> и <tex>\mathrm{next}(i)=\mathrm{nhd0}(h[i]-\mathrm{K_{min}}(h[i]))</tex> для всех <tex>i : i < nd</tex>; | ||
| + | * <tex>\mathrm{shift}(i)=\mathrm{R_{min}}(h[i])</tex> и <tex>\mathrm{next}(i)=\mathrm{nhd0}(m-\mathrm{R_{min}}(h[i]))</tex> для всех <tex>i : nd \leqslant i < m</tex>; | ||
| + | * <tex>\mathrm{shift}(m)=\mathrm{R_{min}}(0)</tex> и <tex>\mathrm{next}(m)=\mathrm{nhd0}(m-\mathrm{R_{min}}(h[m-1]))</tex>. | ||
| + | |||
| + | Таким образом, при возникновении несовпадения между <tex>x[h[r]]</tex> и <tex>y[j+h[r]]</tex> окно сравнения должно быть сдвинуто на <tex>shift(r)</tex> и сравнения могут быть продолжены с позиции h[next[r]] шаблона <tex>x</tex>. | ||
==Псевдокод== | ==Псевдокод== | ||
Версия 15:47, 13 июня 2014
Содержание
Алгоритм
Отметим, что нумерация символов строк и элементов массива у нас начинается с .
Обозначим за — префикс-функцию, но при этом она определена для и имеет значение по умолчанию.
Множество всех позиций шаблона разделим на два непересекающихся множества. Тогда каждая попытка сравнения шаблона с исходной строкой состоит из двух фаз.
| Определение: |
| В первой фазе сравнения выполняются слева направо с символами текста, выровненными с шаблоном в позиции, для которой значение функции строго больше . Такие позиции будем называть насыщенными (noholes). |
| Определение: |
| Вторая фаза состоит в сравнении в оставшихся позициях справа налево. Такие позиции будем называть ненасыщенными (holes). |
Такая стратегия предоставляет, как минимум, 2 преимущества:
- когда несовпадение появляется во время первой фазы, после соответствующего сдвига уже нет необходимости делать проверки в насыщенных позициях, которые были проверены на предыдущем шаге.
- когда несовпадение появляется во время второй фазы, это означает, что суффикс шаблона совпал с периодом (factor) строки, после соответствующего сдвига префикс шаблона будет все ещё совпадать с периодом текста, поэтому нет необходимости в повторной проверке.
| Определение: |
| Обозначим за . Функция определена для всех позиций , у которых . |
Если , то периодичность шаблона заканчивается в позиции .
Очевидно, что для позиция :
- насыщенная, если
- ненасыщенная, иначе
Обозначим за количество насыщенных позиций в шаблоне .
Массив содержит первыми элементами насыщенных позиций в возрастающем порядке и затем ненасыщенных в убывающем порядке, т.е.
- для всех насыщенная позиция и для .
- для всех ненасыщенная и для .
| Определение: |
| Обозначим за наименьший период шаблона большего, чем . Функция определена для всех позиций , у которых . |
| Определение: |
| Обозначим за наименьший число такое, что . |
Допустим, что шаблон выровнен с .
Первая фаза
Рассмотрим случай, когда для и .
Пусть .
Тогда нет вхождений шаблона , начиная с и может быть сдвинут на позиций вправо.
Кроме того для означает, что сравнения могут продолжены с и .
Вторая фаза
Теперь рассмотрим ситуацию, когда для и для .
Пусть позиций вправо.
Тогда нет вхождений шаблона , начиная с и может быть сдвинут на .
Кроме того означает, что сравнения могут продолжены с и .
Предварительные вычисления
Для вычисления значений будем использовать вспомогательную функцию .
| Определение: |
Обозначим за функцию, для которой выполняется:
|
| Определение: |
| Обозначим за количество насыщенных позиций строго меньших . |
Теперь мы можем определить два функции и :
- и для всех ;
- и для всех ;
- и .
Таким образом, при возникновении несовпадения между и окно сравнения должно быть сдвинуто на и сравнения могут быть продолжены с позиции h[next[r]] шаблона .
Псевдокод
Наивный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
for k = 1 .. m
int i = k
while x[i] == x[i - k]
i++
hmax[k] = i
return hmax
Явная реализация по определению, очевидно, работает за и требует памяти.
Улучшенный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
int i = 1
int k = 1
while k <= m
while x[i] == x[i - k]
i++;
hmax[k] = i
int q = k + 1
while hmax[q - k] + k < i
hmax[q] = hmax[q - k] + k
q++
k = q
if k == i + 1
i = k
return hmax
На каждой итерации цикла увеличивается либо переменная , либо (или переменная , которая используется в конечном счете для обновления ). Поскольку и в начале и в конце алгоритма, количество итераций алгоритма не превосходит . Следовательно функция требует времени и памяти.
Функция для построения массива .
int[] buildKmin(int[] hmax, int m)
int kmin[m]
for i = m .. 1
if hmax[i] < m
kmin[hmax[i]] = i
return kmin
Функция для построения массива .
int[] buildRmin(int[] hmax, int[] kmin, int m)
int rmin[m]
int r = 0
for i = m - 1 .. 0
if hmax[i + 1] == m
// — первое число большее, чем и такое, что шаблон имеет период
r = i + 1
if kmin[i] == 0
rmin[i] = r
else
rmin[i] = 0
return rmin
Функция для построение массива .
int[] buildShift(int[] kmin, int[] rmin, int[] h, int nd, int m)
int shift[m + 1]
for i = 0 .. nd
shift[i] = kmin[h[i]]
for i = nd + 1 .. m - 1
shift[i] = rmin[h[i]]
shift[m] = rmin[0]
return shift
Функция для построения массива .
Асимптотики
- partitions the set of pattern positions into two disjoint subsets; the positions in the first set are scanned from left to right and when no mismatch occurs the positions of the second subset are scanned from right to left;
- preprocessing phase in time and space complexity;
- searching phase in time complexity;
- performs text character comparisons in the worst case.
Сравнение с другими алгоритмами
Достоинства
- Поиск выполняется за в отличие от алгоритма Кнута-Морриса-Пратта, поиск в котором занимается , что помогает уменьшить константу при .
- Фаза предобработки выполняется за в отличие от алгоритма Бойера-Мура, где в наилучшем случае можно получить время , что плохо при больших алфавитах.
Недостатки
- Сложность реализации.
Источники
- COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251.
- Colussi algorithm
- Colussi.ppt