Алгоритм Крочемора — различия между версиями

Версия 08:39, 18 июня 2014

Определение:

Тандемным повтором (англ. 'tandem repeat') в строке называются два вхождения какой-либо подстроки подряд. Иными словами, тандемный повтор описывается парой индексов такими, что подстрока — это две одинаковые строки, записанные подряд

Алгоритм Крочемора (англ. 'crochemore algorithm') — алгоритм на строках, позволяющий найти все тандемные повторы в строке [math]s[1..n][/math] за [math]O(n \log n)[/math]

Содержание

1 Алгоритм
- 1.1 Упрощенный алгоритм
- 1.2 Оптимизация
2 Псевдокод
3 Источники информации

Алгоритм

Разобьем описание алгоритма на две части: сначала покажем упрощенный алгоритм, работающий за [math]O(n^2)[/math], а затем попытаемся его оптимизировать до [math]O(n \log n)[/math]

Упрощенный алгоритм

Рассмотрим следующую строку Фиббоначи:

	1	2	3	4	5	6	7	8	9	10	11	12	13
[math]f_6 = [/math]	a	b	a	a	b	a	b	a	a	b	a	a	b

Будем вычислять все повторяющиеся подстроки длины [math]l[/math], где [math]l = 1 \ldots n - 1[/math]. Зная эти данные, мы автоматически находим все тандемные повторы.

Предположим, что в строке [math]f_6[/math] вычислены последовательности позиций, в которых встречаются одинаковые символы:

[math]l = 1[/math]	<1, 3, 4, 6, 8, 9, 11, 12>	<2, 5, 7, 10, 13>
[math]l = 1[/math]	a	b

Если нам заранее известен алфавит и он индексирован, то мы можем выполнить данное вычисление за [math]O(n)[/math].

Далее для [math]l = 2[/math] мы хотим найти все повторяющиеся подстроки длины [math]2[/math]. Поскольку повторяющиеся подстроки длины [math]l \geqslant 2[/math] будут иметь общий префикс длиной [math]l - 1[/math], то вычисления уровня [math]l[/math] должны привести к последовательностям, которые будут подпоследовательностями последовательностей, вычисленных на уровне [math]l - 1[/math]. Другими словами, разбиение на уровне [math]l \geqslant 2[/math] — декомпозиция разбиения на уровне [math]l - 1[/math]:

Последовательная декомпозиция строки [math]f_6 = abaababaabaab[/math]
[math]l = 2[/math]	<1, 4, 6, 9, 12>	<3, 8, 11>	<2, 5, 7, 10>	<13>
[math]l = 2[/math]	ab	aa	ba	b$
[math]l = 3[/math]	<1, 4, 6, 9>	<12>	<3, 8, 11>	<2, 7, 10>	<5>
[math]l = 3[/math]	aba	aa$	aab	baa	bab
[math]l = 4[/math]	<1, 6, 9>	<4>	<3, 8>	<11>	<2, 7, 10>
[math]l = 4[/math]	abaa	abab	aaba	aab$	baab
[math]l = 5[/math]	<1, 6, 9>	<3>	<8>	<2, 7>	<10>
[math]l = 5[/math]	abaab	aabab	aabaa	baaba	baab$
[math]l = 6[/math]	<1, 6>	<9>	<2>	<7>
[math]l = 6[/math]	abaaba	abaab$	baabab	baabaa
[math]l = 7[/math]	<1>	<6>
[math]l = 7[/math]	abaabab	abaabaa

Если реализовывать процесс декомпозиции "наивно", то поучаем сложность [math]O(n^2)[/math]

Оптимизация

Декомпозицию каждой последовательности можно получить косвенным путем, а не путем прямых вычислений. Идея такого подхода состоит в следующем: на каждом уровне [math]l[/math] выполняется непосредственная декомпозиция каждой последовательности [math]c^{l}_j[/math]. Более точно, если , то необходимо проверить совпадение букв , и, если какие-либо пары букв [math]s[p_i + l][/math] и [math]s[p_j + l][/math] равны, то [math]p_i[/math] и [math]p_j[/math] помещаются в одну и ту же последовательность на уровне [math]l + 1[/math].

Заметим, что декомпозицию можно выполнить, основываясь не на разбиваемой последовательности, а на последовательностях, относительно которых будут разбиваться другие последовательности.

Для каждой позиции [math]p_i \gt 1[/math] известно, что подстрока (длиной [math]l + 1[/math]) относится к некоторой последовательности [math]c^{l + 1}_{j'}[/math] на уровне [math]l + 1[/math]. Поскольку последовательность [math]c^{l}_{j}[/math] соответствует уникальной подстроке строки [math]s[/math], то каждая такая последовательность [math]c^{l + 1}_{j'}[/math] должна формироваться из тех же позиций последовательности [math]c^{l}_{j}[/math], которые определяют класс эквивалентности .

Таким образом, декомпозицию на уровне [math]l + 1[/math] можно выполнить косвенным путем, рассматривая каждую последовательность уровня [math]l[/math] с позиции, находящейся на [math]1[/math] левее от начальной позиции этой последовательности.

Лемма:

В каждом наборе последовательностей, порожденных одной последовательностью уровня , всегда можно исключить использование одной из них для декомпозиции последовательностей на уровне

Доказательство:

TBA

Определение:

В декомпозиции последовательности на последовательности назовем одну последовательность с наибольшим количеством элементов большой, а остальные последовательности - малыми. Для все последовательности будем считать малыми.

Лемма:

Предположим, что декомпозиция последовательностей, соответствующих произвольной строке , выполняется для уровней , где — наименьший уровень, на котором каждая последовательность содержит единственную позицию. Тогда каждая позиция строки входит в малые последовательности раз

Доказательство:

Заметим, что если последовательность разбивается на подпоследовательности , то каждая малая последовательность удовлетворяет условию . Другими словами, при каждая малая последовательность не превышает половины размера своей исходной последовательности. Поскольку для начальная малая последовательность может содержать не более n позиций, то из этого следует, что ни одна из позиций не может входить в больше, чем малых последовательностей.

Поскольку строка [math]s[/math] содержит [math]n[/math] позиций, то из предыдущей леммы следует, что всего в малых последовательностях на всех уровнях содержится [math]O(n \log n)[/math] позиций. Таким образом, если время обработки последовательностей на каждом уровне [math]l[/math] пропорционально количеству элементов в малых последовательностях этого уровня, то полный процесс декомпозиции будет выполнен за [math]O(n \log n)[/math], чего мы и хотели получить.

Псевдокод

  crochemore()
     [math]l[/math] [math]\gets[/math] 1
     Вычислим все последовательности на уровне 1 и пометим их как малые
     while [math]\exists[/math] малая последовательность на уровне [math]l[/math]:
        out [math]\gets[/math] кратные строки с периодом l
        Вычислим декомпозицию последовательностей уровня [math]l[/math], используя только малые последовательности
        l++
        Найдем малые последовательности на уровне [math]l[/math]

Источники информации

Билл Смит Методы и алгоритмы вычислений на строках. Пер. с англ.— М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1
E-maxx — Поиск всех тандемных повторов в строке. Алгоритм Мейна-Лоренца

@@ Строка 1: / Строка 1: @@
 {{Определение
 |definition =
-'''Тандемным повтором''' (англ. "tandem repeat") в строке называются два вхождения какой-либо подстроки подряд. Иными словами, тандемный повтор описывается парой индексов <tex>i < j</tex> такими, что подстрока <tex>s[i \ldots j]</tex> {{---}} это две одинаковые строки, записанные подряд
+'''Тандемным повтором''' (англ. 'tandem repeat') в строке называются два вхождения какой-либо подстроки подряд. Иными словами, тандемный повтор описывается парой индексов <tex>i < j</tex> такими, что подстрока <tex>s[i \ldots j]</tex> {{---}} это две одинаковые строки, записанные подряд
 }}
-'''Алгоритм Крочемора''' (англ. "crochemore algorithm") {{---}} алгоритм на строках, позволяющий найти все тандемные повторы в строке <tex>s[1..n]</tex> за <tex>O(n \log n)</tex>
+'''Алгоритм Крочемора''' (англ. 'crochemore algorithm') {{---}} алгоритм на строках, позволяющий найти все тандемные повторы в строке <tex>s[1..n]</tex> за <tex>O(n \log n)</tex>
-= Алгоритм =
+== Алгоритм ==
 Разобьем описание алгоритма на две части: сначала покажем упрощенный алгоритм, работающий за <tex>O(n^2)</tex>, а затем попытаемся его оптимизировать до <tex>O(n \log n)</tex>
-== Упрощенный алгоритм ==
+=== Упрощенный алгоритм ===
 Рассмотрим следующую строку Фиббоначи:
@@ Строка 66: / Строка 66: @@
 Если реализовывать процесс декомпозиции "наивно", то поучаем сложность <tex>O(n^2)</tex>
-== Оптимизация ==
+=== Оптимизация ===
 Декомпозицию каждой последовательности можно получить косвенным путем, а не путем прямых вычислений. Идея такого подхода состоит в следующем:
@@ Строка 101: / Строка 101: @@
 Поскольку строка <tex>s</tex> содержит <tex>n</tex> позиций, то из предыдущей леммы следует, что всего в малых последовательностях на всех уровнях содержится <tex>O(n \log n)</tex> позиций. Таким образом, если время обработки последовательностей на каждом уровне <tex>l</tex> пропорционально количеству элементов в малых последовательностях этого уровня, то полный процесс декомпозиции будет выполнен за <tex>O(n \log n)</tex>, чего мы и хотели получить.
-= Псевдокод =
+== Псевдокод ==
     crochemore()
        <tex>l</tex> <tex>\gets</tex> 1
@@ Строка 110: / Строка 110: @@
           l++
           Найдем малые последовательности на уровне <tex>l</tex>
-= Реализация =
-== Запись текущей последовательности для каждой позиции в строке ''s'' ==
-* Массив '''seq''' {{---}} <tex>seq[i]</tex> содержит индекс текущей последовательности, которой принадлежит <tex>i-я</tex> позиция
-* Массив '''seq_list''' {{---}} <tex>seq_list[i]</tex> содержит указатель на двусвязный список позиций, принадлежащих последовательности с индексом <tex>j</tex> и расположенных в порядке их возрастания
-* Массив '''seq_size''' {{---}} <tex>seq_size[i]</tex> равно количеству позиций в последовательности с индексом <tex>j</tex>, т.е. количеству последовательностей в списке, на который указывает <tex>seq_list[j]</tex>
-* Стек '''index_stack''' {{---}} стек неиспользованных индексов последовательностей
-== Управление малыми последовательностями ==
-== Организация подпоследовательностей ==
-== Вычисление кратных строк ==
 == Источники информации ==

Алгоритм Крочемора — различия между версиями

Версия 08:39, 18 июня 2014

Содержание

Алгоритм

Упрощенный алгоритм

Оптимизация

Псевдокод

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты