Formálny jazyk

(Formálny) jazyk je zovšeobecnenie pojmu jazyk z lingvistiky.

Formálne jazyky, ich vlastnosti a modely na ich opis študuje teória formálnych jazykov v informatike. Na jazyky sa môžeme pozerať ako na problémy. Formalizácia tohto pojmu prináša možnosť s ním exaktne pracovať a tým aj dokazovať vlastnosti problémov, ktoré reprezentujú, či sa vôbec dajú riešiť a aké sú náročné na riešenie.

Definícia[upraviť | upraviť zdroj]

Jazyk nad abecedou $\Sigma$ je ľubovoľná množina slov s konečnou dĺžkou nad touto konečnou abecedou.

Príklady[upraviť | upraviť zdroj]

Majme abecedu $\Sigma =\{a,b,c\}$ . Jazyky nad touto abecedou sú napr.:

$L_{1}=\{aa,bb,cc\}$ ,
$L_{2}=\{a\}$ ,
$L_{3}=\{a,b,c\}=\Sigma$ ,
$L_{4}=\emptyset$ ,
$L_{5}=\{a,aa,aaa,aaaa,\ldots \}=\{a^{i}~|~i\geq 1\}$ ,
$L_{6}=\Sigma ^{*}$ .

Reprezentácia[upraviť | upraviť zdroj]

Keďže formálne jazyky sú množiny, môžeme využiť všetky spôsoby reprezentácie množín, napr. vymenovanie prvkov pri konečných jazykoch alebo udanie logického predikátu nad množinou všetkých slov nad abecedou. V teórii formálnych jazykov boli vyvinuté dva veľmi silné modely, ktoré popisujú jazyky. Prvým je gramatika, ktorá svojimi pravidlami generuje slová z daného jazyka. Druhým modelom je automat. Na automat sa môžeme pozerať ako na čiernu skrinku, ktorá pre ľubovoľné slovo nad abecedou povie, či toto slovo patrí do daného jazyka alebo nie.

Klasifikácia jazykov[upraviť | upraviť zdroj]

V teórii formálnych jazykov delíme jazyky podľa sily modelov, ktoré ich popisujú, t. j. gramatík alebo automatov. V roku 1956 americký informatik a lingvista Noam Chomsky popísal hierarchiu jazykov, ktorú dnes poznáme ako Chomského hierarchia.

Operácie nad jazykmi[upraviť | upraviť zdroj]

Nech $L_{1},L_{2}$ sú jazyky nad abecedou $\Sigma$ :

Nad jazykmi sú definované, prirodzene, množinové operácie

zjednotenie jazykov $L_{1}\cup L_{2}=\{w~|~w\in L_{1}\vee w\in L_{2}\}$ ,
prienik jazykov $L_{1}\cap L_{2}=\{w~|~w\in L_{1}\wedge w\in L_{2}\}$ ,
rozdiel jazykov $L_{1}\setminus L_{2}=\{w~|~w\in L_{1}\wedge w\not \in L_{2}\}$ ,
komplement jazyka $L_{1}=\Sigma ^{*}\setminus L_{1}$ (pozri nižšie definíciu Kleeneho uzáveru - jazyka $\Sigma ^{*}$ ).

Ďalej sa definujú nasledovné základné operácie:

zreťazenie jazykov $L_{1}.L_{2}=\{w_{1}.w_{2}~|~w_{1}\in L_{1}\wedge w_{2}\in L_{2}\}$ , kde $w_{1}.w_{2}$ je zreťazenie slov $w_{1}$ a $w_{2}$ ,
mocnina jazyka je definovaná rekurzívne: $L_{1}^{0}=\{\varepsilon \},L_{1}^{i}=L.L^{i-1}$ . Do $i$ -tej mociny jazyka patria teda všetky slová, ktoré vznikli zreťazením $i$ slov z jazyka $L_{1}$ ,
Kleeneho hviezdička (Kleeneho uzáver, iterácia) jazyka $L_{1}^{*}=\bigcup _{i=0}^{\infty }L_{1}^{i}$ . Do Kleeneho uzáveru jazyka $L_{1}$ patria teda všetky slová, ktoré dostaneme zreťazením ľubovoľného (aj nulového) počtu slov z jazyka $L_{1}$ ,
Kleeneho plus (Kleeneho kladný uzáver, kladná iterácia) jazyka $L_{1}^{+}=\bigcup _{i=1}^{\infty }L_{1}^{i}$ . Obecne neplatí, že $L_{1}^{+}=L_{1}^{*}\setminus \{\varepsilon \}$ ; táto rovnosť platí len vtedy ak $L_{1}$ neobsahuje $\varepsilon \$ .
homomorfizmus: Nech je dané zobrazenie $h\colon \Sigma _{1}^{*}\to \Sigma _{2}^{*}$ medzi Kleeneho uzávermi abecied $\Sigma _{1}$ a $\Sigma _{2}$ také, že $\forall w_{1},w_{2}\in \Sigma _{1}^{*}:h(w_{1}.w_{2})=h(w_{1}).h(w_{2})$ . Zobrazenia s touto vlastnosťou voláme homomorfizmus. Obrazom jazyka $L\subseteq \Sigma _{1}^{*}$ v homomorfizme $h$ nazývame jazyk $h(L)=\{h(w)|w\in L\}$ .

Formálne jazyky, automaty a gramatiky
Chomského hierarchia	Gramatika	Jazyk	Minimálny automat
Typ-0	Frázová	Rekurzívne vyčísliteľný	Turingov stroj
		Rekurzívny	Vždy zastavujúci Turingov stroj
Typ-1	Kontextová	Kontextový	(Nedeterministický) lineárne ohraničený
Typ-2	Bezkontextová	Bezkontextový	(Nedeterministický) zásobníkový
Typ-3	Regulárna	Regulárny	Konečný
Každá množina jazykov alebo gramatík je vlastnou nadmnožinou množiny priamo pod ňou.