Comma-separated values

z Wikipédie, slobodnej encyklopédie

Comma-separated values skrátene CSV (doslova: hodnoty oddelené čiarkami) je jednoduchý súborový formát vo forme čistého textu (angl. plain text) určený na ukladanie tabuľkových dát. Súbor vo formáte CSV pozostáva z ľubovoľného počtu záznamov (riadkov), oddelených znakom nového riadka. Každý záznam obsahuje stĺpce, ktoré su oddelené iným znakom, prevažne čiarkou (,) alebo tabulátorom. Zvyčajne majú všetky záznamy rovnaký počet stĺpcov.

Použitie[upraviť | upraviť zdroj]

CSV je bežný, relatívne jednoduchý súborový formát, ktorý je aplikáciami široko podporovaný. Medzi jeho najbežnejšie použitie patrí výmena tabuľkových dát medzi programami, ktoré natívne používajú nekompatibilné (často vlastné a nedokumentované) formáty. Väčšina takýchto programov podporuje CSV aspoň ako alternatívny formát na import/export dát. „CSV“ nie je jediný, presne stanovený formát, neexistuje preň žiadna špecifikácia. Popis formátu sa však nachádza (mimo iného) v RFC 4180. V praxi sa pojem „CSV“ vzťahuje na súbory, ktoré:

  1. obsahujú čistý text (plain text) s kódovaním napr. ASCII, Unicode, EBCDIC, alebo Shift JIS,
  2. pozostávajú zo záznamov (poväčšine jeden záznam na riadok),
  3. majú záznamy rozdelené do polí (stĺpcov) oddelených jedným rezervovaným znakom ako čiarka, bodkočiarka alebo tabulátor,
  4. v každom zázname obsahujú rovnaký počet stĺpcov.

Aj v rámci týchto všeobecných obmedzení, sa používajú rôzne variácie tohto formátu. Preto „CSV“ súbory nie sú celkom prenosné. Ale rozdiely sú len malé, a mnoho implementácií umožňujú užívateľom určiť oddeľovací znak, použitie úvodzoviek atď.

Nedostatočný štandard[upraviť | upraviť zdroj]

Názov "CSV" indikuje použitie čiarky na oddelenie stĺpcov s dátami. Ale, pojem „CSV“ je značne používaný na označenie veľkého množstva formátov, ktoré sa odlišujú rôznymi spôsobmi. Napríklad mnoho takzvaných „CSV“ súborov v skutočnosti používa tabulátor namiesto čiarky, takýto variant sa potom niekedy označuje ako TSV, Tab-separated values; niektoré povoľujú alebo vyžadujú apostrofy alebo úvodzovky okolo niektorých alebo všetkých stĺpcov; a niektoré rezervujú prvý riadok pre zoznam názvov stĺpcov. Konkrétny problém je v tom, že v niektorých jazykoch vrátane slovenčiny sa čiarka používa na oddelenie desatinných miest v číslach. Práve preto nie je v mnohých jazykoch možné jednoduché využitie čiarky ako oddeľovača jednotlivých stĺpcov, ale sa musia takéto hodnoty uzatvárať do úvodzoviek.

Externé odkazy[upraviť | upraviť zdroj]