Korpus (jazykoveda)
Korpus textov v jazykovede je ohraničený súbor jazykových výpovedí zaznamenaných písmom alebo na zvukovom nosiči, ktorý spracováva na vedecko-výskumné a učebné ciele; množina textov používaných na lingvistický opis a argumentáciu; v užšom zmysle elektronická databáza jazykových prvkov spolu s prostriedkami efektívneho vyhľadávania.
Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Bežným používateľom môže korpus poslúžiť ako zdroj poznania reálneho fungovania jazykových prostriedkov, nenahrádza však kodifikačné ani gramatické príručky.
Typy korpusov
Jednotlivé korpusy sa líšia mnohými parametrami, predovšetkým:
- jazykom. Jednojazyčné korpusy – v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy). Dvoj- a viacjazyčné (paralelné) korpusy – rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady).
- zaznamenanou formou jazyka. Popri najčastejších korpusoch písaných textov existujú aj korpusy hovoreného jazyka.
- veľkosťou. Prvé korpusy (do r. 1975) disponovali menej ako 1 miliónom slovných tvarov, niektoré súčasné korpusové celky obsahujú miliardy slov.
- typom textov. Korpusy môžu byť všeobecné (nešpecifické, základné) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; neformálne prejavy a pod.)
- spôsobom uloženia. Korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo bývajú lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované.
- obdobím, z ktorého texty pochádzajú. Korpusy konkrétneho jazyka v jeho súčasnej vývinovej fáze sa označujú ako synchrónne, prierez určitým historickým obdobím zahŕňajú korpusy diachrónne.
Reprezentatívnosť korpusu
Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu konkrétneho národného jazyka v celom jeho rozsahu, preto sa pri ich budovaní kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov.
Budovanie korpusu
Budovanie korpusu má viacero etáp:
- Získavanie súhlasov na iné použitie diel. Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských práv.
- Zber dát. Korpusový materiál sa v súčasnosti získava najčastejšie priamo v elektronickej podobe, príp. prenesením z internetu, zriedkavejšie skenovaním alebo prepisovaním textov.
- Spracovanie korpusových dát. V prvej fáze ide najmä o čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.), a o prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou prevodu textov do jednotného formátu je tokenizácia, čiže segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte). V ďalšej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.
Využitie korpusu
Korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách korpusovej lingvistiky.
Odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Aplikačnou zložkou je lexikografické využitie: veľa korpusov bolo vytvorených na podporu tvorby slovníkov a lexikografi sú v súčasnosti najčastejšími používateľmi korpusov.
Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. systémy na spracovanie textov (automatická kontrola pravopisu, strojový preklad textov), systémy na rozpoznávanie reči atď.
Korpus môže byť dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov. Učebný počítačový program môže obsahovať klasický slovník spolu s menším korpusom, v ktorom možno jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.
Externé zdroje
- Slovenský národný korpus - zdroj, odkiaľ čerpal tento článok (s povolením držiteľov autorských práv)
- zoznam rôznych korpusov prístupných na internete