Hĺbková analýza dát
z Wikipédie, slobodnej encyklopédie
(Presmerované z Data mining)
Hĺbková analýza dát (ang. data mining [dejta majnyn] – dolovanie z dát) alebo neodborne dolovanie dát je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tisícok polí v relačných databázach.
Využíva metódy štatistiky, matematiky (matematické modelovanie = klasifikačné pravidlá alebo stromy, regresia, zhluková analýza), umelej inteligencie (neuronové siete, rozpoznávanie, samoučiace sa algoritmy), nástroje OLAP (on-line analytické spracovanie)[1] a strojového učenia.
Obsah |
Typy modelov [upraviť]
- Predikčné modely – cieľom je na základe historických dát predpovedať budúcnosť
- Segmentačné modely – cieľom je roztriediť množstvo dát na zvládnuteľný počet homogénnych skupín
Aplikácia v praxi [upraviť]
- Propensity to Buy - cross-sell (predaj ďalších produktov existujúcim zákazníkom) a up-sell (zvýšenie spotreby daného produktu, doplnky)
- Credit risk - modelovanie pravdepodobnosti nesplácania úveru
- Fraud - identifikácia podvodov
- Churn - identifikácia zákazníkov náchylných na prechod ku konkurencii
- Segmentácia - zoskupovanie do homogénnych skupín
- Market Basket Analysis - analýza nákupného koša
- Diagnostické modely
- Modely analýzy časových radov
- Text mining
Delenie [upraviť]
Metodológie [upraviť]
Typické oblasti využitia [upraviť]
- marketing, podpora pri výbere klientov do marketingových kampaní (cross-sell, up-sell)
- poisťovníctvo, identifikácia podvodov, churn
- bankovníctvo, manažment rizika (credit risk, fraud)
- medicína, podpora pri stanovení pravdepodobnosti danej diagnózy
- telekomunikácie, cross-sell, up-sell, churn, fraud
- maloobchod, analýza nákupného koša, cross-sell, up-sell
- štátna správa, fraud
Algoritmy [upraviť]
- Lineárna regresia
- Logistická regresia
- Diskriminačná analýza
- Faktorová analýza
- Zhluková analýza
- Neurónové siete
- Support vector machines
- Rozhodovacie stromy
- Naivný Bayesov klasifikátor
- Bayesove siete
- Algoritmus k najbližších susedov (KNN)
- Kohonenove mapy
- Asociačné pravidlá
- Analýza sekvencií
- Analýza časových radov
Softvér [upraviť]
- SAS
- SPSS Clementine, SPSS
- Statistica
- SQL Server
- Oracle Data miner
- IBM DB2 Intelligent Miner
- R (slobodný softvér)
- Weka (slobodný softvér)
- RapidMiner, pred 2007-05-27 pod menom YALE (slobodný softvér)
- Matlab
Referencie [upraviť]
Iné projekty [upraviť]
Commons ponúka multimediálne súbory na tému Hĺbková analýza dát
Externé odkazy [upraviť]