Алгоритм Мейна-Лоренца
| НЕТ ВОЙНЕ |
|
24 февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян. Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием. Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей. Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить. Антивоенный комитет России |
| Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению. |
| meduza.io, Популярная политика, Новая газета, zona.media, Майкл Наки. |
Алгоритм Мейна-Лоренца (англ. Main-Lorentz algorithm) — алгоритм на строках, позволяющий найти все тандемные повторы в строке за
Содержание
Алгоритм
Так как повторов строке , мы не можем хранить их в явном виде. Будем хранить несколько подряд идущих (по индексу конца) повторов одной длины блоками вида , где — это длина повтора, а — промежуток индексов, в каждом из которых заканчивается повтор такой длины. Для каждой длины может быть несколько блоков.
Данный алгоритм — это алгоритм типа "разделяй и властвуй": разделим строку пополам, рекурсивно запустимся от каждой половинки — так мы найдем повторы, которые не пересекают границу раздела. Далее рассмотрим процесс нахождения повторов, которые пересекают границу раздела. Их можно разделить на две группы по положению центра повтора: правые и левые.
Нахождение правых повтров
Рассмотрим строку , пусть — индекс начала в исходной строке .
- Разобьем ее на две строки и .
- Предподсчитаем следующие массивы c помощью Z-функции:
- , то есть наибольший общий префикс строк и . Нахождение можно осуществить следующим образом: вычислим для строки Z-функцию. Очевидно, что в таком случае массивом будет массив значений Z-функции, начиная с индекса .
- , то есть наибольший общий суффикс строк и . Нахождение можно осуществить следующим образом: вычислим для строки Z-функцию. Очевидно, что в таком случае массивом будет перевернутый массив значений Z-функции, начиная с индекса .
- Переберем длину повтора и будем искать все повторы такой длины: для каждого получим интервал индексов конца повтора в строке : (по формуле, которую докажем позднее). Добавим полученный интервал к ответу, учитывая смещение в исходной строке :
Итоговая асимптотика:
Докажем следующее утверждение для нахождения интервала :
Нахождение левых повтров
Левые повторы находим аналогично правым, кроме вычисления интервала для заданного и, как следствие, предподсчета. Предподсчитаем с помощью Z-функции массивы:
- , то есть наибольший общий префикс строк и
- , то есть наибольший общий суффикс строк и
Докажем следующее утверждение для нахождения интервала :
Асимптотика
Асимптотика алгоритма "разделяй и властвуй", каждый рекурсивный запуск которого линеен относительно длины строки, из рекурентного соотношения (аналогичное доказательство для сортировки слиянием).
Количество блоков в ответе также будет : на каждом рекурсивном запуске при рассмотрении повторов, которые пересекают границу раздела, добавляется блоков для каждой рассмотренной длины повтора (их количество линейно относительно длины строки), из чего получаем аналогичное рекурентное соотношение .
См. также
Источники информации
- Main, M., Lorentz, R.J. — An O(n log n) Algorithm for Finding All Repetitions in a String. 1982
- Билл Смит — Методы и алгоритмы вычислений на строках. Пер. с англ.— М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1
- MAXimal :: algo :: Поиск всех тандемных повторов в строке. Алгоритм Мейна-Лоренца