Регулярная аппроксимация КС-языков — различия между версиями

Текущая версия на 19:21, 4 сентября 2022

Содержание

1 Определения
2 Алгоритм преобразования грамматики в конечный автомат
- 2.1 Идея алгоритма
- 2.2 Псевдокод
3 Аппроксимации самоприменимой грамматики
4 См. также
5 Примечания
6 Источники информации

Определения

Определение:

Контекстно-свободная грамматика называется самоприменимой (англ. self-embeded), если , .

Определение:

Нетерминал в грамматике называется рекурсивным (англ. recursive), если .

Определение:

Нетерминалы в грамматике называются взаимно рекурсивными (англ. mutual recursive), если .

Алгоритм преобразования грамматики в конечный автомат

Лемма:

Не самоприменимая контекстно-свободная грамматика генерирует регулярный язык.

Доказательство:

В качестве конструктивного доказательства рассмотрим алгоритм построения конечного автомата по грамматике. Также приведем ссылку на формальное доказательство^[1].

Идея алгоритма

Пусть, [math] N^* [/math] множество рекурсивных нетерминалов из [math] N [/math]. Пусть, разбиение [math] N^*[/math] на [math] k [/math] дизъюнктных множеств взаимно рекурсивных нетерминалов, [math] N_i \neq \emptyset [/math].

Определим вспомогательную функцию [math]\mathtt {isLeftType}(N_i)[/math], которая возвращает [math]true[/math], если существует .

Аналогично определим функцию [math]\mathtt {isRightType}(N_i)[/math], которая возвращает [math]true[/math], если существует

bool isLeftType([math]N_i[/math]: nonterminal): 
    return [math] \exists (A \Rightarrow \alpha B \beta) \in P[ A \in N_i \land B \in N_i \land \alpha \neq \varepsilon ][/math]

bool isRightType([math]N_i[/math]: nonterminal): 
    return [math] \exists (A \Rightarrow \alpha B \beta) \in P[ A \in N_i \land B \in N_i \land \beta \neq \varepsilon ][/math]

Будем называть [math]\mathtt {typeRecursive}[/math] набор четырех величин

Определим функцию :

function getTheTypeOfMutualRecursiveSet([math]N_i[/math]: nonterminal): typeRecurcive
   if !isLeftType([math]N_i[/math]) and isRightType([math]N_i[/math]) 
       return left
   if isLeftType([math]N_i[/math]) and !isRightType([math]N_i[/math]) 
       return right
   if isLeftType([math]N_i[/math]) and isRightType([math]N_i[/math]) 
       return self
   if !isLeftType([math]N_i[/math]) and !isRightType([math]N_i[/math]) 
       return cyclic

Состояние означает, что состоит только из лево-рекурсивных нетерминалов.

Состояние означает, что состоит только из право-рекурсивных нетерминалов.

Состояние означает, что состоит только из правил, участвующих в рекурсии.

Состояние означает, что такое, при котором грамматика самоприменима.

Заметим, что [math] \forall i [/math] , т.к в противном случае грамматика будет самоприменима. В основе алгоритма будет рекурсивный обход грамматики. Спускаемся по грамматике до тех пор не приходим в нетерминал или символ алфавита:

Символ алфавит или [math] \varepsilon [/math] — добавляем новое правило в автомат;
Нерекурсивный нетерминал — запускаемся от всех правых частей правил, который терминал порождает;
Рекурсивный нетерминал — в зависимости от типа рекурсивного нетерминала, продолжаем рекурсию (будет ясно из пседокода).

Псевдокод

[math]Q[/math] — множество состояний ДКА.

[math]\Delta[/math] — множество переходов ДКА.

[math]T[/math] — множество допускающих состояний.

function createFA(G: grammar): Automaton              // [math] G = \langle N, \Sigma, P, S \rangle[/math] 
    [math]\mathtt{Q} \leftarrow \varnothing[/math]
    [math]\Delta \leftarrow \varnothing [/math]
    s = createState()               // createState создает некоторый объект, не принадлежащий [math]Q[/math], возвращает этот объект и добавляет его в [math]Q[/math]    
    f = createState()
    [math]F \leftarrow \{f\} [/math]
    return makeFA(s,S,f)
     
function makeFA(q0: vertex, a: char, q1: vertex): Automaton
   if a == [math] \varepsilon [/math] or a [math] \in \Sigma[/math]             // пришли в лист дерева разбора
        [math] \Delta = \Delta \cup \{(q_0,a,q_1)\} [/math]
        return
   if a == [math]X\beta[/math] where [math] X \in (N \cup \Sigma) \land \beta \in (N \cup \Sigma)^* \land |\beta| \gt  0 [/math]  
        q = createState()
        makeFA([math]q_0,X,q_1[/math])
        makeFA([math]q, \beta, q_1 [/math])
        return
    if exist [math] N_i [/math] where [math] a \in N_i [/math]  
         foreach b in [math]N_i[/math] 
            [math]q_b[/math] = createState
         if getTheTypeOfMutualRecursiveSet([math] N_i [/math]) == left 
            foreach C in [math]N_i[/math] where [math] C \rightarrow X_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_0, X_1 \ldots X_m, q_C[/math])             
            foreach C,D in [math]N_i[/math] where [math] C \rightarrow DX_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_D, X_1 \ldots X_m, q_C[/math])
               [math] \Delta = \Delta \cup \{(q_a,\varepsilon,q_1)\} [/math]
          else                      // рекурсивный нетерминал right или cyclic   
            foreach C in [math]N_i[/math] where [math] C \rightarrow X_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_C, X_1 \ldots X_m, q_1[/math])             
            foreach C,D in [math]N_i[/math] where [math] C \rightarrow DX_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_D, X_1 \ldots X_m, q_C[/math])
               [math] \Delta = \Delta \cup \{(q_0, \varepsilon ,q_a)\} [/math] 
             return
    foreach p in [math]P[/math] where p == [math] a \rightarrow \beta [/math]
       makeFA([math] q_0, \beta, q_1 [/math])

Аппроксимации самоприменимой грамматики

В данном разделе покажем методы апроксимации: [math]\mathrm {RTN}[/math] (recursive transition network) аппроксимацию и [math]\mathrm {MN}[/math] (Mohri and Nederhof's) аппроксимацию — самоприменимой контекстно-свободной грамматики к регулярной грамматике. Для удобства будем считать, что грамматика представлена в НФХ.

Автоматы для грамматики

RTN аппроксимация

Построим, по данной грамматике аппроксимирующий ее конечный автомат.

Конечный автомат для грамматики

Для каждого нетерминала [math] A[/math] в грамматике, создадим новый конечный автомат [math] T_A[/math], добавим в него два состояния [math] q_A[/math] и [math]q_{A^*}[/math].
Для каждого правила грамматике , введм новые состояния в автомат этого нетерминала [math] q_0^A \ldots q_m^A[/math], а также добавим новые правила перехода в [math] \Delta[/math]: .
Таким образом мы построили множество конечных автоматов [math]T[/math] = [math] \{ T_A \mid A \in N\}[/math] для каждого нетерминала [math]A[/math]. Теперь объединим все в один автомат. Объединим все состоянии автоматов из [math]T[/math] в множество [math]Q[/math]. Скопируем все переходы каждого автомата из [math]T[/math] в [math]\Delta[/math]. Далее для каждого перехода вида [math](q,A,p), A\in N[/math], вместо него добавим два новых перехода: .

MN аппроксимация

Построим по данной самоприменимой контекстно-свободной грамматике [math] G [/math] регулярную грамматику [math] G^*[/math].

Для каждого нетерминала [math] A \in N [/math] из [math]G[/math], добавим нетерминалы [math]A[/math] и [math] A^*[/math] в [math] G^* [/math].
Для каждого правила , где . Добавим в [math] G^*[/math] нетерминалы и следуюшие правила: .

(Если , тогда добавим правило ).

В итоге [math] G^*[/math] — правоконтекстная грамматика, эквивалентная конечному автомату, который задает регулярный язык.

Пример

Исходная грамматика [math] G [/math] генерирует язык: . Результирущая грамматика [math] G^*[/math] генирирует регулярный язык: [math] (ab)^+ a^*[/math].

Сравнение двух методов

Ясно, что оба языка, генерируемых конечным автомат для первого метода и апрокисимируещей граматикой для второго метода, содержат в себе язык генерируемый исходной грамматикой. Привлекателным свойством [math]\mathrm {MN}[/math] аппроксимации по сравнению с [math]\mathrm {RTN}[/math], то, что она можеть быть применима к большим грамматикам: для каждого нетерминала грамматике [math] G[/math], добавляется не более одного нового нетерминала в [math] G^*[/math] и размер результирующий грамматики максимум в [math]2[/math] раза больше, чем размер исходной. Так как для [math]\mathrm {RTN}[/math] апроксимации грамматики , количество состаяний апроксимируещего автомата в худшем случаи может составлять [math] O(|N|^2)[/math], что может быть критично для аппроксимации больших грамматик. Также,еще несколько эффекивных методов аппрокимации можно найти в статьях, приведенных в ссылках.

См. также

Примечания

↑ Noam Chomsky — A note on phrase structure grammars

Источники информации

Jean-Claude Junqua,Gertjan van Noord — Robustness in Language and Speech Technology — Kluwer Academic Publishers, 2001 — ISBN 0-7923-6790-1
Strongly Regular Grammars and Regular Approximation of Contex-Free Languages
Practical Experiments with Regular Approximation of Context-Free Languages
Willem J. M. Levelt — An Introduction to the Theory of Formal Languages and Automata — John Benjamin B.V., 2008 — ISBN 978-90-272-3250-2

[1] Noam Chomsky — A note on phrase structure grammars

[1]

@@ Строка 46: / Строка 46: @@
      '''if''' !isLeftType(<tex>N_i</tex>) '''and''' !isRightType(<tex>N_i</tex>)
          '''return''' cyclic
-:Когда функция <tex>\mathtt {getTheTypeOfMutualRecursiveSet}(N_i) = left, N_i </tex> состоит только из лево-рекурсивных нетерминалов.
+:Состояние <tex> left</tex> означает, что <tex> N_i </tex> состоит только из лево-рекурсивных нетерминалов.
-:Аналогично для <tex>\mathtt {getTheTypeOfMutualRecursiveSet}(N_i) = right </tex>.
+:Состояние <tex> right</tex> означает, что <tex> N_i </tex> состоит только из право-рекурсивных нетерминалов.
-:Когда функция <tex>\mathtt {getTheTypeOfMutualRecursiveSet}(N_i) = cyclic, N_i </tex> состоит только из правил, участвующих в рекурсии.
+:Состояние <tex> cyclic</tex> означает, что <tex> N_i </tex> состоит только из правил, участвующих в рекурсии.
-:Функция <tex>\mathtt {getTheTypeOfMutualRecursiveSet}(N_i) = self</tex>, для такого <tex>i </tex>, при котором грамматика самоприменима.
+:Состояние <tex> self</tex> означает, что  <tex>i </tex> такое, при котором грамматика самоприменима.
 Заметим, что <tex> \forall i </tex> <tex>\mathtt {getTheTypeOfMutualRecursiveSet}(N_i) \neq self </tex>, т.к в противном случае грамматика будет самоприменима.
 В основе алгоритма будет рекурсивный обход грамматики. Спускаемся по грамматике до тех пор не приходим в нетерминал или символ алфавита:
@@ Строка 65: / Строка 65: @@
       <tex>\mathtt{Q} \leftarrow \varnothing</tex>
       <tex>\Delta \leftarrow \varnothing </tex>
-      s = createState()
+      s = createState()               <font color=green>// createState создает некоторый объект, не принадлежащий <tex>Q</tex>, возвращает этот объект и добавляет его в <tex>Q</tex>  </font>
       f = createState()
       <tex>F \leftarrow \{f\} </tex>

Регулярная аппроксимация КС-языков — различия между версиями

Текущая версия на 19:21, 4 сентября 2022

Содержание

Определения

Алгоритм преобразования грамматики в конечный автомат

Идея алгоритма

Псевдокод

Аппроксимации самоприменимой грамматики

RTN аппроксимация

MN аппроксимация

Пример

Сравнение двух методов

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты