B+-дерево — различия между версиями
Mervap (обсуждение | вклад) |
Mervap (обсуждение | вклад) |
||
| Строка 12: | Строка 12: | ||
=== Структура узла === | === Структура узла === | ||
'''struct''' Node | '''struct''' Node | ||
| − | '''bool''' leaf <span style="color:#008000"> | + | '''bool''' leaf <span style="color:#008000"> // является ли узел листом</span> |
| − | '''int''' key_num <span style="color:#008000"> | + | '''int''' key_num <span style="color:#008000"> // количество ключей узла</span> |
| − | '''int''' key[] <span style="color:#008000"> | + | '''int''' key[] <span style="color:#008000"> // ключи узла</span> |
| − | '''Node''' | + | '''Node''' parent <span style="color:#008000"> // указатель на отца</span> |
| − | '''Node''' | + | '''Node''' child[] <span style="color:#008000"> // указатели на детей узла</span> |
| − | '''Node''' next <span style="color:#008000"> | + | '''Info''' pointers[] <span style="color:#008000">// если лист {{---}} указатели на данные</span> |
| + | '''Node''' next <span style="color:#008000"> // указатели на следующий узел</span> | ||
=== Структура дерева === | === Структура дерева === | ||
'''struct''' BPlusTree | '''struct''' BPlusTree | ||
| − | '''int''' t <span style="color:#008000"> | + | '''int''' t <span style="color:#008000"> // минимальная степень дерева</span> |
| − | '''Node''' root <span style="color:#008000"> | + | '''Node''' root <span style="color:#008000"> // указатель на корень дерева</span> |
== Оценка высоты дерева == | == Оценка высоты дерева == | ||
| Строка 42: | Строка 43: | ||
B<tex>^{+}</tex>-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте. | B<tex>^{+}</tex>-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте. | ||
| − | + | == Поиск листа == | |
| − | Определяем интервал и переходим к соответствующему сыну. Повторяем пока не дошли до листа. | + | Напишем вспомогательную функцию, которая будет возвращать лист, в котором должен находится переданный ей ключ. Определяем интервал и переходим к соответствующему сыну. Повторяем пока не дошли до листа. |
| − | '''Node''' | + | '''Node''' find_leaf(T: '''BPlusTree''', k: '''int'''): |
| − | + | now = T.root | |
'''while''' !now.leaf | '''while''' !now.leaf | ||
| − | '''for''' i = 0 '''to''' | + | '''for''' i = 0 '''to''' now.key_num |
'''if''' i == now.key_num '''or''' key < now.key[i] | '''if''' i == now.key_num '''or''' key < now.key[i] | ||
now = now.ch[i] | now = now.ch[i] | ||
'''break''' | '''break''' | ||
'''return''' now | '''return''' now | ||
| + | |||
| + | === Поиск === | ||
| + | Находим нужный лист через <tex>find</tex>_<tex>leaf</tex> и ищем нужный ключ в нем | ||
| + | |||
| + | == Добавление ключа == | ||
| + | Ищем лист, в который можно добавить ключ и добавляем его в список ключей. Если узел не заполнен, то добавление завершено. Иначе разбиваем узел на два узла, в первый добавляем первые <tex>t - 1</tex> ключей, во второй оставшиеся <tex>t</tex>. Первый ключ их второго узла копируется в родительский узел, где становится разделительной точкой для двух новых поддеревьев. | ||
| + | |||
| + | Если и родительский узел заполнен {{---}} поступаем аналогично, но не копируем, а перемещаем ключ в родительский узел, так как это просто копия. Повторяем пока не встретим незаполненный узел или не дойдем до корня. В последнем случае корень разбивается на два узла и высота дерева увеличивается. Будем считать, что в дереве не может находиться 2 одинаковых ключа, поэтому <tex>insert</tex> будет возвращать был ли добавлен ключ. | ||
| + | |||
| + | '''void''' insert(T: '''BPlusTree''', key: '''Node''', value: '''Info'''): | ||
| + | leaf = find_key(T, key) | ||
| + | '''for''' i = 0 '''to''' leaf.key_num | ||
| + | '''if''' key == leaf.key[i] | ||
| + | '''return false''' | ||
| + | pos = 0 | ||
| + | '''while''' pos < leaf.key_num '''and''' leaf.key[pos] < key | ||
| + | ++pos | ||
| + | '''for''' i = leaf.key_num '''downto''' pos + 1 | ||
| + | leaf.key[i] = leaf.key[i-1] | ||
| + | '''for''' i = leaf.key_num + 1 '''downto''' pos + 2 | ||
| + | leaf.pointers[i] = leaf.pointer[i-1] | ||
| + | leaf.key[pos] = key | ||
| + | leaf.pointers[x + 1] = value | ||
| + | ++leaf.key_num | ||
| + | '''if''' leaf.key_num == M <span style="color:#008000"> // M - степень дерева</span> | ||
| + | split(T, leaf) | ||
| + | |||
== Примeчания == | == Примeчания == | ||
<references/> | <references/> | ||
Версия 05:32, 26 марта 2018
B-дерево (англ. B-tree) — структура данных на основе B-дерева, сбалансированное -арное дерево поиска с переменным, но зачастую большим количеством потомков в узле. B-деревья имеют очень высокий коэффициент ветвления (число указателей из родительского узла на дочерние, обычно порядка 100 или более), что снижает количество операций ввода-вывода, требующих поиска элемента в дереве.
Содержание
Где используется
Изначально структура предназначалась для эффективного поиска в блочно-ориентированной среде хранения — в частности, для файловых систем. Структура широко применяется в таких файловых системах, как NTFS[1], ReiserFS[2], NSS[3], JFS[4], ReFS[5]. Различные реляционные системы управления базами данных, такие как Microsoft SQL Server[6], Oracle Database[7], SQLite[8] используют B-деревья для табличных индексов.
Отличия от B-дерева
В B-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В B-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем B-деревьев.
Структура
Свойства B дерева аналогичны свойствам B-дерева (с учетом отличий описанных выше).
Структура узла
struct Node bool leaf // является ли узел листом int key_num // количество ключей узла int key[] // ключи узла Node parent // указатель на отца Node child[] // указатели на детей узла Info pointers[] // если лист — указатели на данные Node next // указатели на следующий узел
Структура дерева
struct BPlusTree int t // минимальная степень дерева Node root // указатель на корень дерева
Оценка высоты дерева
| Теорема: |
Если , то для B-дерева c узлами и минимальной степенью
|
| Доказательство: |
|
Так как , то корень B-дерева содержит хотя бы один ключ, а все остальные узлы — хотя бы ключей. имеет хотя бы узла на высоте , не менее узлов на глубине , и так далее. То есть на глубине , оно имеет хотя бы узлов. Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для ключей |
Как можно заметить, высота B-дерева не более чем на 1 отличается от высоты B-дерева, то есть хранение информации только в листах почти не ухудшает эффективность дерева
Операции
B-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте.
Поиск листа
Напишем вспомогательную функцию, которая будет возвращать лист, в котором должен находится переданный ей ключ. Определяем интервал и переходим к соответствующему сыну. Повторяем пока не дошли до листа.
Node find_leaf(T: BPlusTree, k: int):
now = T.root
while !now.leaf
for i = 0 to now.key_num
if i == now.key_num or key < now.key[i]
now = now.ch[i]
break
return now
Поиск
Находим нужный лист через _ и ищем нужный ключ в нем
Добавление ключа
Ищем лист, в который можно добавить ключ и добавляем его в список ключей. Если узел не заполнен, то добавление завершено. Иначе разбиваем узел на два узла, в первый добавляем первые ключей, во второй оставшиеся . Первый ключ их второго узла копируется в родительский узел, где становится разделительной точкой для двух новых поддеревьев.
Если и родительский узел заполнен — поступаем аналогично, но не копируем, а перемещаем ключ в родительский узел, так как это просто копия. Повторяем пока не встретим незаполненный узел или не дойдем до корня. В последнем случае корень разбивается на два узла и высота дерева увеличивается. Будем считать, что в дереве не может находиться 2 одинаковых ключа, поэтому будет возвращать был ли добавлен ключ.
void insert(T: BPlusTree, key: Node, value: Info):
leaf = find_key(T, key)
for i = 0 to leaf.key_num
if key == leaf.key[i]
return false
pos = 0
while pos < leaf.key_num and leaf.key[pos] < key
++pos
for i = leaf.key_num downto pos + 1
leaf.key[i] = leaf.key[i-1]
for i = leaf.key_num + 1 downto pos + 2
leaf.pointers[i] = leaf.pointer[i-1]
leaf.key[pos] = key
leaf.pointers[x + 1] = value
++leaf.key_num
if leaf.key_num == M // M - степень дерева
split(T, leaf)