Statistika in analiza podatkov - 2010

Little brother is watching you...
namen | vsebina | učbeniki | prosojnice | izpiti | iskrice
 

Obvestila

Drugi kolokvij bo 27. maja, 17-19 v PR04.

V ponedeljek 26. aprila predavanja odpadejo na željo študentov (in jih bomo nadomestili tako, da bomo naslednja štiri predavanja nekoliko podaljšali).

Preberite si še četrto poglavje iz FAPP (rok: 17. maj).

Dobili ste 1. domačo nalogo.

Pojdite v učilnico in se prijavite (obvezno za 1. domačo nalogo in obveščanje po e-pošti).

WHAT!!! You don't have little brother!

Predavanja   (šifra predmeta 70028)
so ob ponedeljkih od 17h do 19h na Tržaški 25 (FRI): PR09

Predavatelj: Aleksandar Jurišić 
pisarna: Jadranska 21, I/5 
tel: (01) 47 68 183,
(01) 28-32-895 (doma) 
e-pošta: ajurisic@valjhun.fmf.uni-lj.si

Vaje:

Asistent: Gregor Jerše
pisarna: Jadranska 19, soba 310, tel: 476?-???
govorilne ure: pon. 10-11 (najava po e-pošti)
e-pošta: gregor.jerse@fmf.uni-lj.si 

Predavanja v zimsko/spomladanskem sem. 2010:

  • (22. feb.) PREDSTAVITEV PREDMETA (domače naloge, kolokviji/izpiti itd).
    UVOD: Kaj je statistika: tipi podatkov, OSNOVE (OPISNE) STATISTIKE: grafične predstavitve podatkov (histogrami), mere za lokacijo in razpršenost: modus, povprečje, mediana, centili, kvartili, škatle z brki; razpon, centili, kvantili, škatla z brki), mere razpršenosti: varianca, standardni odklon; empirična pravila; mere oblike: asimetrije ter sploščenosti, kopasta in špičasta porazdelitev); sredine, neenakosti med kvadratno, aritmetično, geometrijsko in harmonično sredino; centralni momenti.

  • (1. mar.) Zamenjalna šifra.
    KOMBINATORIKA - ponovitev: permutacije, permutacije s ponavljanjem, kombinacije, število permutacij, permutacij s ponavljanjem in kombinacij; Pascalov trikotnik in binomski obrazec;
    Usojena krivulja (študija oblike histograma, ki ustreza n-ti vrstici Pascalovega trikotnika).

  • (8. mar.) I. VERJETNOST dogodek, računanje z dogodki (je način, vsota, produkt, komplement), statistična in klasična definicija verjetnosti, geometrijska verjetnost, aksiomi Kolmogorova.
    POGOJNA VERJETNOST:

  • (15. mar.) kontingenčna tabela, dvostopenjski poskusi (motivacija),
    avto in dve kozi (Monty Hall problem), obrazec razbitja in Bayesov obrazec,

  • (22. mar.) Bernoullijevo zaporedje neodvisnih poskusov in računanje Pi(k), Laplaceov intervalski obrazec, funkcija napake, Bernoullijev zakon velikih števil.
    SLUČAJNE SPREMENLJIVKE IN PORAZDELITVE: porazdelitvena funkcija in njene lastnosti; diskretne slučajne spremenljivke: verjetnostna tabela, enakomerna porazdelitev, binomska porazdelitev, Poissonova porazdelitev, Pascalova porazdelitev, hipergeometrijska porazdelitev;

  • (29. mar.) zvezne slučajne spremenljivke (gostota verjetnosti, enakomerna porazdelitev zvezne slučajne spremeljivke, normalna ali Gaussova porazdelitev, De Moivre-Lapacov točkovni obrazec, binomska porazdelitev B(n,p) je za velike n dobro aproksimirana z normalno porazdelitvijo N(np,s), kjer je s2=np(1-p) in s>0). Ogledali smo si film o statistiki-zbiranje podatkov (angl. naslov: Behind the Headlines - Collecting Data). Tu je še tonski zapis, no še malo manjka. Ga je mogoče kdo pripravljen dokončati? (omenili smo tudi film Control, 2004 v povezavi s placebo efektom, ki naj bi ga srečali pri branju prvega razdelka iz FAPP.)

  • (5. apr.) porazdelitev Poissonovega toka - eksponentna, porazdelitev Gama, Cauchyjeva porazdelitev). Povezava med binomsko in Poissonovo porazdelitvijo. Gama funkcija in faktoriel.

  • (12. apr.) SLUČAJNI VEKTORJI: diskretne večrazsežne porazdelitve, (npr. enakomerna, polinomska), zvezne večrazsežne porazdelitve (npr. dvorazsežne, večrazsežna normalna porazdelitev),

  • (19. apr.) Funkcije slučajnih spremenljivk (primeri: kvadrat normalno porazdeljene spremenljivke), neodvisnost, funkcije slučajnih vektorjev (primer: vsota, transformacija).

    POGOJNE PORAZDELITVE: diskretne in zvezne, gostota zvezne pogojne porazdelitve.

    MATEMATIČNO UPANJE: def., lastnosti, disperzija/razpršenost/varijanca, Divergentnost matematičnega upanja Cauchy-jeve porazdelitve. Standardizacija slučajne spremenljivke. lastnosti mat. upanja in disperzije, neodvisnost in nekoreliranost,

  • (26. apr.) kovarianca, lastnosti kovariance, korelacijski koeficient.

  • ( 3. maj) Višji momenti: centralni, začetni, kako izrazimo splošni moment z začetnimi in kako centralni; asimetrija, sploščenost. Kvantil reda p (kjer je p poljubno število z intervala (0,1) je vsaka vrednost x za katero velja P(X<=x)>= p in P(X>=x)>= 1-p oziroma F(x)<= p <= F(x+). Kvantil reda p označimo z xp. Potem je x1/2 mediana, xi/4 za i=0,1,2,3,4 so kvartili, kot nadomestek za standardni odklon pa uporabljamo (x3/4-x1/4)/2.

    LIMITNI IZREKI: Reprodukcijska lastnost normalne porazdelitve - povprečje neodvisnih slučajnih spremenljivk X1, X2,..., Xn, ki so porazdeljene normalno, limitira k slučajni spremenljivki, ki je tudi normalna; če imajo vse slučajne spremenljivke Xi enak začetni moment z1, potem ima tak moment tudi slučajna spremenljivka, ki predstavlja njihovo povprečje, medtem, ko gre drugi centralni moment proti 0 z naraščujočim n.

    Centralni limitni izrek (CLI): če je naključni vzorec velikosti n izbran iz populacije s končnim povprečjem in varianco, potem je lahko za dovolj velik n vzorčna porazdelitev povprečja aproksimirana z gostoto normalne porazdelitve.

    Naj bo y1,y2,...,yn naključni vzorec, ki je sestavljen iz n meritev populacije s končnim povprečjem in končnim standardnim odklonom. Potem je povprečje vzorčne porazdelitve enak povprečju populacije, varianca vzorčne porazdelitve pa je enaka varianci populacije pomanjšani za faktor n.

    Primer cetralne tendence: če začnemo s pošteno ali pa goljufivo kocko, se vzorčna povprečja z rastočim n (kjer je n velikost vzorca) porazdelijo standardizirano normalno, le da gre v prvem primeru dosti hitreje.

    II. STATISTIKA

    OSNOVNI POJMI: enota, populacija, vzorec, parameter, statistika, vrste spremenljivk, frekvenčna porazdelitev, slikovni prikazi, ...

    VZORČENJE: analitična statistika, zakaj vzorčenje, načini vzorčenja: enostavno naključno vzorčenje, razdeljen naključni vzorec, grozdno vzorčenje; merjenje tendence, vzorčne porazdelitve: normalna porazdelitev, standardna normalna porazdelitev, matematično upanje in varianca enostavnega povprečja, hi-kvadrat porazdelitev.

    CENILKE: vzorčna statistika, (A) vzorčno povprečje (X je porazdeljena normalno ali pa je velikost vzorca vsaj 30), (B) vzorčna disperzija,

  • (10. maj) Studentova T-porazdelitev in Fisherjeva (Snedecorjeva) porazdelitev. Točkovna cenilka, cenilka parametra, doslednost, pristranost, porazdelitev vzorčnih aritmetičnih sredin, porazdelitev vzorčnih deležev, porazdelitev razlik vzorčnih aritmetičnih sredin, porazdelitev razlik vzorčnih deležev.

    Ocenjevanje-INTERVALNE CENILKE, intervali zaupanja (pomen stopnje tveganja pri intervalih zaupanja, intervali zaupanja za aritmetično sredino, delež, razliko aritmetičnih sredin);

  • (17. maj) pregled in primeri (IX oziroma 8-39, XI, XIV).

    PREISKUŠANJE (TESTIRANJE) STATISTIČNIH DOMNEV (HIPOTEZ): ničelna hipoteza, alternativna hipoteza, napaka 1. in 2. vrste, (formalni) postopek testiranja hipoteze (tudi na primeru ameriškega sodnega sistema), (i) H0: povprečje zavzame fiksno vrednost, odklon poznan ter TS sledi z-porazdelitev; (ii) H0: povprečje zavzame fiksno vrednost, odklon ni poznan, velikost vzorca vsaj 30 ter TS sledi z-porazdelitev; (iii) H0: povprečje zavzame fiksno vrednost, odklon ni poznan, velikost vzorca pod 30 ter TS sledi t-porazdelitev z n-1 prostostnimi stopnjami;

  • (24. maj) (iv) H0: razlika dveh povprečij zavzame fiksno vrednost, odklona poznamo ter TS sledi zz-porazdelitev; (v) H0: razlika dveh povprečij zavzame fiksno vrednost obeh odklonov ne poznamo, velikost vzorca za katerega ne poznamo odklon je vsaj 30 ter TS sledi z-porazdelitev; (vi) H0: razlika dveh povprečij zavzame fiksno vrednost, obeh odklonov ne poznamo, populaciji sta normalno porazdeljeni, velikost vzorca za katerega ne poznamo odklon je pod 30 ter TS sledi t-porazdelitev z n1+n2-2 prostostnimi stopnjami; (vii) H0: razlika dveh povprečij zavzame fiksno vrednost, obeh odklonov ne poznamo, a sta enaka, populaciji sta normalno porazdeljeni, velikost vzorca za katerega ne poznamo odklon je pod 30 ter TS sledi t-porazdelitev; (viii) H0: povprečje razlik zavzame fiksno vrednost, odklon ni poznan, vzorci neodvisni, velikost vzorca vsaj 30 ter TS sledi z-porazdelitev; (ix) H0: povprečje razlik zavzame fiksno vrednost, odklon ni poznan, vzorci niso neodvisni, velikost vzorca pod 30 ter TS sledi t-porazdelitev z n-1 prostostnimi stopnjami; (x) H0: delež zavzame fiksno vrednost, velikost vzorca dovolj velika ter TS sledi z-porazdelitev; (xi) H0: deleža dveh populacij sta enaka, velikost vzorca dovolj velika ter TS sledi z-porazdelitev; (xii) H0: razlika deležev dveh populacij zavzame fiksno vrednost, velikost vzorca dovolj velika ter TS sledi z-porazdelitev;

  • (31. maj) (xiii) testiranje hipoteze o varianci populacije; (xiv) testiranje hipoteze o kvocijentu varianc in neodvisnih vzorcih; Preverjanje domnev o enakomerni in normalni porazdelitvi;

    BIVARIATNA ANALIZA: Preverjanje domnev o povezanosti dveh spremenljivk, ki sta (a) nominalni, (b) ordinalni ali (c) številski. Statistično sklepanje o korelacijski povezanosti, parcialna korelacija, regresijska analiza, preiskušanje regresijskih koeficientov. Linearni model. Pojasnjena varianca. Časovne vrste in trendi.

    Pregled celotne snovi in priprava za ustni izpit oziroma izpit iz teorije.

Ogledamo si lahko še:

WHAT!!! You don't have little brother!

Namen tečaja: Predstaviti kategorije statistike in njihovo vlogo v poslovanju.

Predznanje: Analiza 1 in 2.

Vsebina tečaja: (30 ur predavanj in 30 ur vaj, po dve uri prvih in dve uri drugih na teden)

Učbeniki:

Domače naloge: nekaj setov domačih nalog (rešitve nalog bodo morale biti lično napisane do prihodnjega predavanja).

Izpiti (pogoji): Ocena pri predmetu je sestavljena iz dveh delov: računskega in teoretičnega. Računski del je mogoče opraviti bodisi s kolokviji bodisi s pisnim izpitom, kjer je potrebno zbrati vsaj 50% točk. Kriterij za posamezne ocene določi predavatelj, za vsak izpit oz. kolokvije posebej. Teoretični del izpita je prav tako v pisni obliki.

Roki za pisne izpite:
(a) poletni 1. rok: 9. jun. 2010, PR01 ob 14h
(b) poletni 2. rok: 29. jun. 2010, PR09 ob 10h
(c) jesenski rok: 15. sept. 2010, PR04 ob 16h

Roki za teorijo: (a) poletni 1. rok: 11. jun. 2010, PR JA ob 13h
(b) poletni 2. rok: 30. jun. 2010, PR 09 ob 14h
(c) jesenski rok: 16. sept. 2010, PR JA ob 12h

(Opozorilo! Na izpit pisni/teorijo se je potrebno prijaviti vsaj dva dni vnaprej!)
Na kolokviju in pisnih izpitih je dovoljeno je imeti EN na roke napisan list A4 formata, en list s tabelo funkcije \Phi, en list s tabelo Studentove porazdelitve, en list s tabelo hi-kvadrat porazdelitve ter en kalkulator z osnovnimi funkcijami (seštevanje, množenje, korenjenje), torej tak, ki ni zmožen npr. risanja grafov. Na teoriji pa je ni dovoljena niti uporaba vseh teh pripomočkov.

Iskrice:

Dušan Murovec: Skoraj gotov dogodek
Janezek ne ve, kaj bi počel. Pa vzame kovanec in sklene:
"Tale kovanec bom vrgel v zrak.
"Ce pade cifra, grem na nogometno tekmo.
"Ce pade mož, grem v kino.
"Ce bo kovanec obstal na robu, grem spat.
"Ce pa bo kovanec ostal v zraku, se bom učil.
Presek 29/258.

Benjamin Disraeli
There are three kinds of lies: lies, damned lies and statistics.
Mark Twain, Autobiography.

Lang, Andrew (1844-1912)
He uses statistics as a drunken man uses lamp posts -- for support rather than illumination.
Treasury of Humorous Quotations. 16.feb.


Število obiskovalcev:  (z uporabo K2 števca.)