Korpus (jazykoveda)

Korpus textov v jazykovede je ohraničený súbor jazykových výpovedí zaznamenaných písmom alebo na zvukovom nosiči, ktorý spracováva na vedecko-výskumné a učebné ciele; množina textov používaných na lingvistický opis a argumentáciu; v užšom zmysle elektronická databáza jazykových prvkov spolu s prostriedkami efektívneho vyhľadávania.

Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Bežným používateľom môže korpus poslúžiť ako zdroj poznania reálneho fungovania jazykových prostriedkov, nenahrádza však kodifikačné ani gramatické príručky.

Typy korpusov[upraviť | upraviť zdroj]

Jednotlivé korpusy sa líšia mnohými parametrami, predovšetkým:

jazykom. Jednojazyčné korpusy – v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy). Dvoj- a viacjazyčné (paralelné) korpusy – rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady).
zaznamenanou formou jazyka. Popri najčastejších korpusoch písaných textov existujú aj korpusy hovoreného jazyka.
veľkosťou. Prvé korpusy (do r. 1975) disponovali menej ako 1 miliónom slovných tvarov, niektoré súčasné korpusové celky obsahujú miliardy slov.
typom textov. Korpusy môžu byť všeobecné (nešpecifické, základné) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; neformálne prejavy a pod.)
spôsobom uloženia. Korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo bývajú lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované.
obdobím, z ktorého texty pochádzajú. Korpusy konkrétneho jazyka v jeho súčasnej vývinovej fáze sa označujú ako synchrónne, prierez určitým historickým obdobím zahŕňajú korpusy diachrónne.

Reprezentatívnosť korpusu[upraviť | upraviť zdroj]

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu konkrétneho národného jazyka v celom jeho rozsahu, preto sa pri ich budovaní kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov.

Budovanie korpusu[upraviť | upraviť zdroj]

Budovanie korpusu má viacero etáp:

Získavanie súhlasov na iné použitie diel. Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských práv.
Zber dát. Korpusový materiál sa v súčasnosti získava najčastejšie priamo v elektronickej podobe, príp. prenesením z internetu, zriedkavejšie skenovaním alebo prepisovaním textov.
Spracovanie korpusových dát. V prvej fáze ide najmä o čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.), a o prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou prevodu textov do jednotného formátu je tokenizácia, čiže segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte). V ďalšej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.

Využitie korpusu[upraviť | upraviť zdroj]

Korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách korpusovej lingvistiky.

Odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Aplikačnou zložkou je lexikografické využitie: veľa korpusov bolo vytvorených na podporu tvorby slovníkov a lexikografi sú v súčasnosti najčastejšími používateľmi korpusov.

Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. systémy na spracovanie textov (automatická kontrola pravopisu, strojový preklad textov), systémy na rozpoznávanie reči atď.

Korpus môže byť dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov. Učebný počítačový program môže obsahovať klasický slovník spolu s menším korpusom, v ktorom možno jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.

Externé odkazy[upraviť | upraviť zdroj]

Slovenský národný korpus - zdroj, odkiaľ čerpal tento článok (s povolením držiteľov autorských práv)
zoznam rôznych korpusov prístupných na internete Archivované 2012-05-03 na Wayback Machine