Турбо-алгоритм Бойера-Мура — различия между версиями
Zemskovk (обсуждение | вклад) (→Алгоритм) |
Zemskovk (обсуждение | вклад) (→Асимптотика) |
||
| Строка 56: | Строка 56: | ||
==Асимптотика== | ==Асимптотика== | ||
| + | {{Утверждение|statement= | ||
* Фаза препроцессинга требует <tex>O(m + \sigma)</tex> времени и памяти, где <tex>\sigma</tex> {{---}} размер алфавита. | * Фаза препроцессинга требует <tex>O(m + \sigma)</tex> времени и памяти, где <tex>\sigma</tex> {{---}} размер алфавита. | ||
* Фаза поиска требует <tex>O(n)</tex> времени. | * Фаза поиска требует <tex>O(n)</tex> времени. | ||
* В худшем случае поиск требует <tex>O(2n)</tex> сравнений. | * В худшем случае поиск требует <tex>O(2n)</tex> сравнений. | ||
| + | |proof=Разобьём поиск на стадии. Каждая стадия делится на | ||
| + | две операции: сканирование и сдвиг. На этапе <tex>k</tex> мы назовём <tex>suf_k</tex> длину суффикса шаблона | ||
| + | что совпадает с текстом. Она предшествует буква, которая не | ||
| + | совпадает с соответствующим символом в тексте (в случае когда <tex>suf_k</tex> не соответствует длине шаблона). Мы также | ||
| + | назовём <tex>shift_k</tex> длину сдвига сделанного на этапе <tex>k</tex>. | ||
| + | Рассмотрим три типа стадий в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на стадии <tex>k</tex> короткий, если <tex>2shift_k < suf_k + 1</tex>. Тогда три типа сдвигов будут:}} | ||
==См. также== | ==См. также== | ||
Версия 17:23, 10 апреля 2016
Турбо-алгоритм Бойера-Мура (англ. Turbo Boyer-Moore) является улучшением алгоритма Бойера-Мура. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае.
Содержание
Алгоритм
Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:
- Можно перепрыгнуть через этот сегмент.
- Она может позволить выполнение «турбо-сдвига».
Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
Пусть — запомненный сегмент, а — cуффикс, совпавший во время текущей попытки, такой что — суффикс . Тогда — суффикс , два символа и встречаются на расстоянии в тексте, и суффикс длины имеет период длины , а значит не может перекрыть оба появления символов и в тексте. Наименьший возможный сдвиг имеет длину (его мы и называем турбо-сдвигом).Применение турбо-сдвига в случае |v| < |u|
При , если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен . В этом случае символы и различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший совместит и с одним и тем же символом . Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший либо равный .
Нельзя совместить символы с одним и тем же символом .
Псевдокод
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура.
В сам алгоритм добавляется обработка турбо-сдвигов.
function TBM(char[] x, char[] y, int n, int m)
int n = length(y)
int m = length(x)
int i = 0
int u = 0
int shift = m
if (m == 0)
return
//Предварительные вычисления
int bmBc[] = preBmBc(x, m)
int bmGs[] = preBmGs(x, m)
while (i <= n - m)
int j = m - 1
while (j >= 0 and x[j] == y[i + j])
--j
if (u != 0 and j == m - 1 - shift)
j -= u
if (j < 0)
print(i)
shift = bm_gs[0]
u = m - shift
else
int v = m - 1 - j
int turbo_shift = u - v
int bc_shift = bm_bc[y[i + j]] - m + j + 1
shift = max(turbo_shift, bc_shift, bm_gs[j + 1])
if (shift == bm_gs[j + 1])
u = min((m - shift), v)
else
if (turbo_shift < bc_shift)
shift = min(shift, (u + 1))
u = 0
i += shift
Асимптотика
| Утверждение: |
|
|
Разобьём поиск на стадии. Каждая стадия делится на две операции: сканирование и сдвиг. На этапе мы назовём длину суффикса шаблона что совпадает с текстом. Она предшествует буква, которая не совпадает с соответствующим символом в тексте (в случае когда не соответствует длине шаблона). Мы также назовём длину сдвига сделанного на этапе . Рассмотрим три типа стадий в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на стадии короткий, если . Тогда три типа сдвигов будут: |