Verjetnost in statistika - 2008/09
namen
| vsebina
| učbeniki
| domače naloge
| FAQ
| izpiti
| stat_povezave
| e-student
| iskrice
Obvestila
Dobili ste
domačo nalogo in
naloge za vajo
(z rešitvami).
Preberite 4. razdelek poglavja o
statistiki iz FAPP.
Rezultati 5. kviza.
Drugi kolokvij bo ob 18:00-20:00 v torek 20. januar 2009 v PR01, PR03 in PR08.
Nagradna
naloga.
Sedaj pa si preberite
drugo
poglavje iz FAPP (rok: 10. nov.).
Dobili ste
četrti kviz (rok 18. nov.).
Marko priporoča naslednjo verzijo
Problema Monty Hall, Petra pa kako se ga v "praksi"
preveri. Hvala!
Pri delu z dejanskimi podatki se bomo v glavnem pomagali z
prosto dostopnim statističnim
programom R, zato si ga naložite na svoje osebne računalnike.
50 kratkih (a odličnih) nalog
za ponavljanje snovi osnove verjetnosti.
Pojdite v učilnico
in se prijavite (obvezno za 2. domačo nalogo, tj. 1. kviz, ki je omenjen
zgoraj, in obveščanje po e-pošti).
Predavanja
(šifra predmeta 20116)
so ob ponedeljkih od 12h do 15h na FRI, PR01
Predavatelj: Aleksandar Jurišić
pisarna: Jadranska 21, I/5
tel: (01) 47 78 638, (01) 28-32-895 (doma)
e-pošta: ajurisic@valjhun.fmf.uni-lj.si,
Vaje potekajo v štirih skupinah:
1. sk. tor. 11-13h PR-JB (A-Ga)
2. sk. čet. 14-16h PR-JB (Go-K)
3. sk. pet. 11-13h PR-JB (L-Pe)
4. sk. pet. 8-10h PR-JA (Po-Ž)
Asistenti:
Gregor Šega
(1. in 2. skupina)
pisarna: Jadranska 21 (MAT), 5.12, tel: 01 47-666-11
govorilne ure: v kabinetu ponedeljek in sredo ob 13h (dogovor po emailu)
e-pošta: gregor.sega@fmf.uni-lj.si
in
Peter Nose (3. in 4. skupina)
pisarna: Jadranska 21 (FRI), soba 23, tel: 47-68-185
govorilne ure: po dogovoru
e-pošta: peter.nose@gmail.com
|
Predavanja v jesenskem sem. 08/09:
- (6. okt.)
predstavitev predmeta,
statistično razbijanje zamenjalnega tajnopisa,
OSNOVE VERJETNOSTI: osnovni pojmi, računanje z dogodki,
klasična in statistična definicija verjetnosti
(začeli smo tudi z osnovami statistike, npr. kaj je to histogram).
- (13. okt.)
unija in presek treh in več dogodkov, aksiomi Kolmogorova,
(osnove statistike: mere za lokacijo in razpršenost:
modus, povprečje, mediana, centili, kvartili, škatle z brki;
centralni momenti, mere razpršenosti: varianca, standardni odklon;
empirična pravila, mere oblike: asimetrije ter sploščenosti,
kopasta in špičasta porazdelitev; standardizacija),
neenakosti med kvadratno, aritmetično, geometrijsko in harmonično
sredino
(... >= Kn >=
An >=
Gn >=
Hn >= ...),
ogledali smo si prvi dve lekciji o R-ju;
- (20. okt.)
avto in dve kozi (Monty Hall problem),
ogledali smo si odlomek iz filma 21;
POGOJNA VERJETNOST: kontingenčna tabela,
obrazec razbitja in Bayesov obrazec,
Bernullijevo zaporedje
neodvisnih poskusov in računanje Pi(k),
Laplaceov intervalski obrazec, funkcija napake,
- (27. okt.)
Bernullijev zakon velikih števil,
SLUČAJNE SPREMENLJIVKE IN PORAZDELITVE: porazdelitvena funkcija in
njene lastnosti; diskretne slučajne spremenljivke: verjetnostna
tabela, enakomerna porazdelitev, binomska porazdelitev, Poissonova
porazdelitev, Pascalova porazdelitev, hipergeometrijska porazdelitev.
zvezne slučajne spremenljivke (gostota verjetnosti,
enakomerna porazdelitev zvezne slučajne spremeljivke,
normalna ali Gaussova porazdelitev, porazdelitev Poissonovega toka
- eksponentna, porazdelitev Gama, Cauchyjeva porazdelitev);
RSA SISTEM IN FAKTORIZACIJA: pomankljivosti simetrične kriptografije,
(kriptografija z javnimi ključi), osnove teorije števil,
opis in implementacija RSA,
gostota praštevil,
generiranje praštevil,
(probabilistično testiranje praštevilčnosti)
Gaussov izrek o kvadratni recipročnosti,
probabilistično testiranje praštevilčnosti
(Monte Carlo algoritem, Solovay-Strassen algoritem).
- (3. nov.)
SLUČAJNI VEKTORJI: diskretne večrazsežne porazdelitve,
(npr. polinomska),
zvezne večrazsežne porazdelitve (npr. dvorazsežne,
večrazsežna normalna porazdelitev),
neodvisnost slučajnih spremenljivk.
Funkcije slučajnih spremenljivk (primeri: zvezne strogo
naraščujoče funkcije, kvadrat normalno porazdeljene spremenljivke),
neodvisnost, funkcije slučajnih vektorjev (primer: vsota,
transformacija),
ogledali smo si tudi film o kodah
(angl. naslov: Creating a Code; nakaj vsebine: začetki
-numerical representation Codes:
-music/radar,
-natural/genetic/DNA, - mathematics/equations,
-computer science/the binary system: two symbol code, place value system
logic,telegraph, gates AND, XOR, half-adder,
-CD/slike (converting from digital to analog, sampling).
- (10. nov.)
KOMBINATORIKA: Permutacije in transpozicije, permutacije s ponavljanjem.
predstavitev porazdelitvene funkcije za diskretni slučajni spremenljivki,
primeri dvo-razsežne zvezne porazdelitve,
od normalne do hi-kvadrat porazdelitve (z množenjem in seštevanjem).
- (17. nov.)
(Ponovitev: dvojni integral, dvakratni integral, osnovne lastnosti)
Transformacija slučajnega vektorja in Jacobijeva determinanta.
POGOJNE PORAZDELITVE: diskretne in zvezne, gostota zvezne pogojne
porazdelitve.
MATEMATIČNO UPANJE: def., lastnosti, disperzija/razpršenost/varijanca,
kovarianca, korelacijski koeficient,
pogojno matematično upanje, višji momenti, karakteristična funkcija;
LIMITNI IZREKI (šibki in krepki zakon velikih števil,
neenakost Čebiševa in njene posledice: izrek Markova, Čebiševa
in Bernullija), centralni limitni izrek (CLI).
- (24. nov.)
regresijska funkcija, kovariančna matrika;
ogledali smo si film o kodiranju informacij
(angl. naslov: Encoding Information; nekaj vsebine:
reservation system (PANAM), ascii koda, učinkovito kodiranje slik,
odvečnost, naključne napake - radiacija - Richard Hamming,
Vennov diagram in kode za odpravljanje napak, odkrivanje,
Hammingova koda, CD in 4.000 zaporednih napak,
HBO šifriranje in pošiljanje gesla preko satelita,
šifra pri kateri so gesla zakodirana individualno,
PRNG in enkratni ščit, kabelski operater in TV odšifrirna naprava,
FIPS, seme, naivno iskanje - 256,
več kot zvezd v 100.000 galaksijah velikosti Rimske ceste,...);
pisali ste 5. kviz;
- (1. dec.)
II. STATISTIKA: osnovni pojmi, vrste spremenljivk, vzorci,
osnovni izrek statistike.
VZORČENJE: analitična statistika, zakaj vzorčenje,
načini vzorčenja: enostavno naključno vzorčenje,
razdeljen naključni vzorec, grozdno vzorčenje;
merjenje tendence,
VZORČNE PORAZDELITVE: normalna porazdelitev,
standardna normalna porazdelitev,
matematično upanje in varianca enostavnega povprečja,
centralni limitni izrek (CLI),
ogledali smo si film o statistiki-zbiranje podatkov
(angl. naslov: Behind the Headlines - Collecting Data).
Tu je še tonski zapis,
no še malo manjka. Ga je mogoče kdo pripravljen dokončati?
- (8. dec.)
reprodukcijska lastnost normalne porazdelitve,
hi-kvadrat porazdelitev, Studentova T-porazdelitev in
Fisherjeva (Snedecorjeva) porazdelitev,
ogledali smo si film o codah (CD) ter
film o organiziranju in predstavljanju podatkov
(angl. naslov: Picture This - Organizing Data).
- (15. dec.)
Ocenjevanje-INTERVALNE CENILKE, intervali zaupanja
(pomen stopnje tveganja pri intervalih zaupanja,
intervali zaupanja za aritmetično sredino, delež,
razliko aritmetičnih sredin);
ogledali smo si film o verjetnost in igralništvu
(angl. naslov: Place Your Bets - Probability;
nekaj vsebine:
igralnice in zavarovalnice ne vedo kdo bo zmagal oziroma se bo
ponesrečil, prav dobro pa znajo z neverjetno natančnostjo
napovedati svoje dobičke; verjetnost, vzorčne porazdelitve,
povprečje, mediana, standardni odklon
ter prehod iz konveksne v konkavno obliko).
- (22. dec.)
PREISKUŠANJE (TESTIRANJE) STATISTIČNIH DOMNEV (HIPOTEZ):
ničelna hipoteza, alternativna hipoteza, napaka 1. in 2. vrste,
postopek testiranja hipoteze,
I. H0: povprečje zavzame fiksno vrednost,
odklon poznan ter TS sledi z-porazdelitev;
II. H0: povprečje zavzame fiksno vrednost,
odklon ni poznan, velikost vzorca vsaj 30
ter TS sledi z-porazdelitev;
III. H0: povprečje zavzame fiksno vrednost,
odklon ni poznan, velikost vzorca pod 30 ter TS sledi t-porazdelitev
z n-1 prostostnimi stopnjami;
IV. H0: razlika dveh povprečij zavzame fiksno vrednost,
odklona poznamo ter TS sledi zz-porazdelitev;
V. H0: razlika dveh povprečij zavzame fiksno vrednost,
obeh odklonov ne poznamo,
velikost vzorca za katerega ne poznamo odklon je vsaj 30
ter TS sledi z-porazdelitev;
VI. H0: razlika dveh povprečij zavzame fiksno vrednost,
obeh odklonov ne poznamo,
populaciji sta normalno porazdeljeni,
velikost vzorca za katerega ne poznamo odklon je pod 30
ter TS sledi t-porazdelitev
z n1+n2+-2 prostostnimi stopnjami;
VII. H0: razlika dveh povprečij zavzame fiksno vrednost,
obeh odklonov ne poznamo, a sta enaka,
populaciji sta normalno porazdeljeni,
velikost vzorca za katerega ne poznamo odklon je pod 30
ter TS sledi t-porazdelitev;
VIII. H0: povprečje razlik zavzame fiksno vrednost,
odklon ni poznan, vzorci neodvisni, velikost vzorca vsaj 30
ter TS sledi z-porazdelitev;
IX. H0: povprečje razlik zavzame fiksno vrednost,
odklon ni poznan, vzorci niso neodvisni, velikost vzorca pod 30
ter TS sledi t-porazdelitev z n-1 prostostnimi stopnjami;
X. H0: delež zavzame fiksno vrednost,
velikost vzorca dovolj velika ter TS sledi z-porazdelitev;
ogledali smo si film o statistiki-interferenca
(angl. naslov: Confident Conclusions - Statistical Inference).
- (5. jan.)
XI. H0: deleža dveh populacij sta enaka,
velikost vzorca dovolj velika ter TS sledi z-porazdelitev;
XII. H0: razlika deležev dveh populacij
zavzame fiksno vrednost,
velikost vzorca dovolj velika ter TS sledi z-porazdelitev;
XIII. testiranje hipoteze o varianci populacije;
XIV. testiranje hipoteze o kvocijentu varianc in neodvisnih vzorcih;
Preverjanje domnev o enakomerni in normalni porazdelitvi;
BIVARIANTNA ANALIZA:
Preverjanje domnev o povezanosti dveh nominalnih spremenljivk;
Preverjanje domnev o povezanosti dveh ordinalnih spremenljivk;
- (12. jan.)
Preverjanje domnev o povezanosti dveh številskih spremenljivk.
Statistično sklepanje o korelacijski povezanosti,
parcialna korelacija, regresijska analiza,
preiskušanje regresijskih koeficientov.
Linearni model. Pojasnjena varianca. Časovne vrste in trendi.
Ponovitev snovi in priprava na izpit iz teorije.
- (19. jan.)
Načrtovanje eksperimentov: ponavljanje, lokalna kontrola,
naključna izbira, latinski kvadrati (in projektivne ravnine).
ZAKLJUČKI: multivariantna analiza, diskriminacijska analiza,
naključni sprehodi (stohastični procesi), vizualizacija in
analiza slik, ponovno vzorčenje, kvaliteta podatkov, inovacija,
komunikacija, timsko delo.
Ogledali smo si film Hansa Roslinga: Konec revščine)
(ang. naslov End of Poverty), z izjemnimi dinamičnimi
predstavitvami časovnih vrst.
RAMSEYJEVA TEORIJA (kot primer kaj lahko verjetnost "vrne"
kombinatoriki/diskretni matematiki): popoln nered je nemogoč,
vsaka dovolj velika struktura vsebuje urejeno podstrukturo.
Koliko objektov nam zagotavlja "zeljeno podstrukturo?
SIM, Ramseyjev izrek, Erdősev izrek.
Omenimo se reklamo za predmete v sklopu modula
Kriptografija in teorija kodiranja: Teorija informacij
(Shannonova izreka "Source Coding" in "Channel Capacity"),
Teorija kodiranja (vse do turbo kod).
|
Namen tečaja:
Predstaviti osnove teorije verjetnosti in njeno uporabo v statistiki,
predstaviti osnove statistike.
V nekem članku i virusih lahko preberemo debato o napadu virusov (črvov),
ki so se razširili po Internetu ter upočasnili brskalnike in
e-pošto širom po svetu. Koliko računalnikov je bilo okuženih?
Strokovnjaki, na katere so se sklicali v članku, pravijo, da je
bilo okužnih 39.000 računalnikov, ki so vplivali na stotine
tisočev drugih sistemov.
Kako so lahko prišli to te številke?
Ali ne bi bilo težko priti do take številke?
Ali so preverili vsak računalnik na Internetu, da bi preverili,
če je okužen ali ne?
Dejstvo, da je bil članek napisan v manj kot 24 urah od časa
napada, sugerira, da je to število samo predpostavka.
Vendar pa se lahko vprašamo, zakaj potem 39.000 in ne 40.000?
Statistika je znanost zbiranja, organiziranja in interpretiranja
numeričnih dejstev, ki jih imenujemo podatki.
Vsakodnevno smo s podatki takorekoč bombardirani.
Večina ljudi povezuje "statistiko" z biti podatkov,
ki izhajajo v dnevnem časopisju, novicah, reportažah:
povprečna temperatura na današni dan,
procenti pri košarkaških prostih metih,
procent tujih vlaganj na našem trgu,
in anketa popularnosti predsednika in premierja.
Reklame pogosto trdijo, da podatki kažejo na superiornost
njihovega produkta. Vse strani v javnih debatah o ekonomiji,
izobraževanju in socialni politiki izhajajo iz podatkov.
Kljub temu pa uporabnost statistike presega te vsakodnevne primere.
Podatki so pomembni pri delu mnogih, zato je izobraževanje na
področju statistike izredno pomembno pri številnih poklicih.
Ekonomisti, finančni svetovalci, vodstveni kader v politiki in
gospodarstvu preučujejo najnovejše podatke o nezaposlenosti
in inflaciji. Zdravniki morajo razumeti izvor in zanesljivost
podatkov, ki so objavljeni v medicinskih revijah.
Poslovne odločitve so običajno zasnovane na raziskavah
tržišč, ki razkrijejo želje kupcev in njihovo obnašanje.
Večina akademskih raziskav uporablja številke in tako
hočeš nočes izkorišča statistične metode.
Nič lažje se ni pobegniti podatkom kot se izogniti uporabi besed.
Tako kot so besede na papirju brez pomena za nepismenega ali
slabo izobraženega človeka, tako so lahko tudi podatki privlačni,
zavajajoči ali enostavno nesmiselni. Statistična pismenost,
tj. sposobnost sledenja in razumevanja argumentov,
ki izhajajo iz podatkov, je pomembna za sleherno osebo.
Na statistiko in njene matematične temelje (verjetnost) lahko gledamo
kot na učinkovito orodje, pa ne samo pri teoretičnem računalništvu
(teoriji kompleksnosti, randomiziranih algoritmih, teoriji podatkovnih baz),
pač pa tudi na praktičnih področjih. V vsakdanjem življenju ni pomembno
da Vaš sistem obvlada čisto vse vhodne podatke, učinkovito pa naj opravi
vsaj s tistimi, ki pokrijejo 99.99% primerov iz prakse.
Pridobivanje podatkov
Novice so polne številk. Televizijski napovedovalec pove, da se je
stopnja nezaposlenosti zmanjšala na 4,7%. Raziskava trdi, da je 45%
Američanov zaradi kriminala strah ponoči zapustiti domove.
Od kod pridejo te številke? Ne vprašamo vseh ljudi, če so zaposleni
ali ne. Raziskovalne agencije vprašajo le nekaj posameznikov,
če zaradi strahu pred ropi ostajajo ponoči doma.
Vsak dan se v novicah pojavi nov naslov. Eden od teh trdi:
Aspirin preprečuje srčne infarkte.
Nadaljnje branje razkrije, da je raziskava obravnavala 22 tisoč
zdravnikov srednjih let. Polovica zdravnikov je vsak drugi dan
vzela aspirin, druga polovica pa je dobila neaktivno tableto.
V skupini, ki je jemala aspirin, je 139 zdravnikov doživelo srčni
infarkt. V drugi skupini je bilo v enakem časovnem obdobju 239
infarktov. Ali je ta razlika dovolj velika, da lahko trdimo,
da aspirin res preprečuje srčne infarkte?
Da bi ubežali neprijetnostim kot sta nezaposlenost in srčni infarkt,
prižgimo televizijo. V pogovorni oddaji voditelj povabi gledalce, da
sodelujejo v anketi. Tema pogovora je dobrodelnost in voditelja zanima,
če gledalci redno prispevajo denar ali oblačila v dobrodelne namene.
Med oddajo sprejmejo 50 tisoč klicev in $83\%$ gledalcev trdi,
da redno sodelujejo v tovrstnih akcijah.
Ali je res, da smo tako zelo humanitarno osveščeni?
Zanesljivost teh številk je v prvi vrsti odvisna od njihovega izvora.
Podatkom o nezaposlenosti lahko zaupamo, v tistih 83% iz pogovorne
oddaje pa najbrž lahko utemeljeno podvomimo. Naučili se bomo
prepoznati dobre in slabe metode pridobivanja podatkov. Razumevanje
metod, s katerimi lahko pridobimo zaupanja vredne podatke, je prvi
(in najpomembnejši) korak k pridobivanju sposobnosti odločanja o
pravilnosti sklepov, ki jih izpeljemo na osnovi danih podatkov.
Izpeljava zaupanja vrednih metod za pridobivanje podatkov je področje,
kjer vstopimo v svet statistike, znanosti o podatkih.
Obdelava podatkov
Za sodobno družbo je značilna poplava podatkov. Podatki, ali numerična
dejstva, so bistveni pri odločanju na skoraj vseh področjih življenja in
dela. Kot druge velike poplave nam poplava podatkov grozi, da nas bo pokopala
pod sabo. Moramo jo kontrolirati s premišljeno organizacijo in
interpretacijo podatkov. Baza podatkov kakšnega podjetja na primer vsebuje
velikansko število podatkov: o zaposlenih, prodaji, inventarju, računih
strank, opremi, davkih in drugem. Ti podatki so koristni le v primeru, ko jih
lahko organiziramo in predstavimo tako, da je njihov pomen jasen. Posledice
neupoštevanja podatkov so lahko hude. Veliko bank je izgubilo na milijarde
dolarjev pri nedovoljenih špekulacijah njihovih zaposlenih, ki so ostale
skrite med goro podatkov, ki jih odgovorni niso dovolj pozorno pregledali.
Verjetnost: matematika naključij
Ste se kdaj vprašali, zakaj so igre na srečo, ki so za nekatere rekreacija
ali pa droga, tako dober posel za igralnice? Vsak uspešen posel mora iz
uslug, ki jih ponuja, kovati napovedljive dobičke.
To velja tudi v primeru, ko so te usluge igre na srečo.
Posamezni hazarderji lahko zmagajo ali pa izgubijo.
Nikoli ne morejo vedeti, če se bo njihov obisk igralnice končal z
dobičkom ali z izgubo. Igralnica pa ne kocka, pač pa dosledno dobiva in
država lepo služi na račun loterij in drugih oblik iger na srečo.
Presenetljivo je, da lahko skupni rezultat več tisoč naključnih
izidov poznamo s skoraj popolno gotovostjo. Igralnici ni potrebno
obtežiti kock, označiti kart ali spremeniti kolesa rulete.
Ve, da ji bo na dolgi rok vsak stavljeni evro prinesel
priblično pet centov dobička. Splača se ji torej osredotočiti
na brezplačne predstave ali poceni avtobusne vozovnice, da bi
privabili več gostov in tako povečali število stavljenega denarja.
Posledica bo večji dobiček.
Igralnice niso edine, ki se okoriščajo z dejstvom, da so velikokratne
ponovitve slučajnih izidov napovedljive. Na primer, čeprav zavarovalnica
ne ve, kateri od njenih zavarovancev bodo umrli v prihodnjem
letu, lahko precej natančno napove, koliko jih bo umrlo.
Premije življenjskih zavarovanj postavi v skladu s tem znanjem,
ravno tako kot igralnica določi glavne dobitke.
Statistično sklepanje
Sklepanje je proces, pri katerem pridemo do zaključkov na podlagi
danih dokazov. Dokazi so lahko v mnogo različnih oblikah. V sojenju
zaradi umora jih lahko predstavljajo izjave prič, posnetki telefonskih
pogovorov, analize DNK iz vzorcev krvi in podobno. Pri statističnem
sklepanju nam dokaze priskrbijo podatki. Po domače statistično sklepanje
velikokrat temelji na grafični predstavitvi podatkov.
Formalno sklepanje, tema tega predmeta, uporablja verjetnost, da pove,
do kakšne mere smo lahko prepričani, da so naši zaključki pravilni.
Nekaj statističnih izzivov za začetnike
Trgovec je vašemu podjetju prodal 10.000 sodov rjavega fižola.
Cena le-tega je na trgu za 10% višja od sivega
(bolj obstojen in večja hranljiva vrednost).
Še predno plačamo, odidemo do skladišča in odpremo
naključno izban sod, ugotovimo, da je res napolnjen do
vrha s fižolom, vendar pa so zrna rjava ali siva.
Kako najhitreje ugotovimo, za koliko moramo znižati plačilo,
če se odločimo, da bomo fižol vseeno prevzeli?
Dal bi vam toliko "odpustkov", kolikor las imam na glavi.
Koliko las pa imamo na glavi?
Napisali smo diplomo, ki je dolga 100 strani, kolega pa ima
za 20 strani daljšo diplomo. Če za trenutek pustimo ob strani
samo vsebino (kvaliteto), je še vedno vprašanje ali je bil res
boljši od nas v kvantiteti.
Uporabljal je drugačen font, njegov rob je nekoliko večji,...
Kako lahko na hitro ocenimo dejansko stanje
(brez da bi primerjali sami datoteki)?
Nadaljujmo z branjem časopisov
Napoved vremena predstavlja naslednje področje statistike za množice,
s svojimi napovedmi za dnevne najvišje in najnižje temperature
(kako se lahko odločijo za 10 stopinj ne pa za 9 stopinj?).
(Kako pridejo do teh številk? Z jemanjem vzorcev?
Koliko vzorcev morajo zbrati in kje jih zbirajo?
Najdete tudi napovedi za 3 dni naprej, morda celo teden, mesec in leto!
Kako natančne so vremenske napovedi v današnjem času?
Glede na to kolikokrat nas je ujel dež, ali kolikokrat so napovedali
sonce, lahko zaključite, da morajo nadaljevati z raziskovanjem na
tem področju.
Verjetnost in računalniško modeliranja igrata pomembno vlogo pri
napovedovanju vremena. Posebej uspešni so pri večjih dogodkih kot so
orkani, potresi in vulkanski izbruhi. Seveda pa so računalniki le tako
pametni kot ljudje, ki so napisali programsko opremo, ki jih poganja.
Raziskovalci bodo imeli še veliko dela, predno bodo uspeli napovedati
tornade še pred njihovim začetkom.
Poglejmo tisti del časopisa, ki se je posvečen filmom, ki jih
trenutno vrtijo v kinematografih. Vsaka reklama vsebuje citate
izbranih kritikov, npr.
"Nepozabno!",
"Vrhunska predstava našega časa",
"Zares osupljivo", ali
"En izmed 10 najboljših filmov tega leta!"
Ali vam kritike kaj pomenijo?
Kako se odločite katere filme si želite ogledati?
Strokovnjaki so mnenja, da čeprav lahko vplivamo na popularnost filma
s kritikami (dober ali slab) na samem začetku, pa je v celoti najbolj
pomembno za film ustno izročilo.
Študije so pokazale tudi, da bolj ko je dramatičen film,
več kokic je prodanih. Res je, zabavna industrija beleži celo
koliko hrustanja opravite med gledanjem.
Kako v resnici zberejo vse te informacije in kako to vpliva na
zvrsti filmov, ki jih delajo?
Tudi to je del statistike: načrtovanje in izdelava študij,
ki pomagajo določiti gledalce in ugotoviti kaj imajo radi,
ter uporabiti informacijo za pomoč pri vodenju izdelave
produkta/izdelka.
Če Vas naslednjič nekdo ustavi z anketo in želi nekaj Vašega časa,
si ga boste morda res vzeli v upanju, da bo upoštevana tudi Vaša volja.
Loterija in stave. Ko opazujemo zlorabo številk v vsakdanjem življenju,
ne moremo mimo športnih stavnic, več milijardno industrijo (letno)
ki prevzame tako občasnega stavca, kakor tudi profesionalnega igralca in
impulzivnega zasvojenca z igrami na srečo. Na kaj lahko stavimo?
Pravzaprav na takorekoč vse kar se konča na dva različna načina.
Številkam se ni mogoče izogniti niti s skokom v sekcijo potovanja.
Tam najdemo tudi najbolj pogosto vprašanje naslovljeno na
Urad za odzivni center transporta in varnosti,
ki prejme tedensko povprečno 2.000 telefonskih klicev, 2.500 e-sporočil
in 200 pisem (Bi želeli biti en izmed tistih, ki mora vse to prešteti?):
"Ali lahko nesem to-in-to na letalo?", pri čemer se "to-in-to" nanaša
na takorekoč karkoli od živali do velikanske konzerve kokic
(slednjega ne priporočam, saj je konzervo potrebno shraniti v vodoravni
legi, med letom pa se stvari običajno premaknejo, pokrov se odpre in
po pristanku vse skupaj pade na Vaše sopotnike - to se je enkrat
celo v resnici zgodilo).
To nas pripelje do zanimivega statističnega vprašanja: koliko
telefonistov je potrebno v razičnih časovnih obdobjih tokom dneva,
da obdelajo vse klice? Ocena števila klicev je samo prvi korak,
in če nismo zadeli prave vrednosti, nas bo to bodisi drago stalo
(v primeru, če je bila ocena prevelika) ali pa bomo prišli na slab
glas (če je bila ocena prenizka).
Naslednja stvar, ki zbudi našo pozornost, je poročilo o povečanem
številu mrtvih na naših cestah. Strokovnjaki nas opozarjajo, da se je
število povečalo za več kot 50% od leta 1997 in nihče ne zna ugotoviti
zakaj. Statistika nam pove zanimivo zgodbo. V letu 1997 je umrlo 2,116
motoristov, v letu 2001 pa je statistični urad (National Highway
Traffic Safety Administration - NHTSA) poročal o 3,181 žrtvah.
V članku je obdelanih več možnih razlogov za povečanje števila žrtev,
vključno z dejstvom, da so danes motoristi starejši (povprečna starost
ponesrečenih motoristov se je povzpela z 29 let v letu 1990 na 36 let
v letu 2001). Velikost dvokolesnikov je opisana kot druga možnost.
Prostornina se je v povprečju povečala za skoraj 25% (iz 769 kubičnih
centimeterov v letu 1990 na 959 kubičnih centimeters v letu 2001.
Naslednja možnost je, da nekatere države ne izvajajo več tako strog
nadzor nad zakonom o čeladah. V članku citirajo strokovnjake, da je
potrebna veliko natančnejša študija, vendar pa najverjetneje ne bo
opravljena, saj bi stala med 2 in 3 milijoni. En aspekt, ki v članku
ni omenjen, je število motoristov v letu 2001 v primerjavi s številom
v letu 1997. Večje število ljudi na cesti v glavnem pomeni tudi več
žrtev, če vsi ostali faktorji ostanejo nespremenjeni. Kljub temu pa
je v članku prikazan tudi graf, ki predstavi število smrtnih žrtev
na 100 milijonov prepotovanih km od leta 1997 do 2001;
ali ta podatek odgovori na vprašanje glede števila ljudi na cesti?
Predstavljen je tudi stolpčni graf (diagram), ki primerja število
smrtnih žrtev motoristov s številom nezgod s smrtnim izidom, ki so se
pripetile z drugimi vozili. Le-ta prikaže 21 ponesrečenih motoristov
na 100 milijonov prepotovanih km v primerjavi s samo 1,7 nezgodami s
smrtnim izidom pri enakem številu prepotovanih km z avtom. Ta članek
vsebuje veliko številk in statistike, toda kaj vse to sploh pomeni?
Za konec pa še tole.
Matematika je dobra osnova, odličen temelj.
Če pri konkretnem računalniškem ustvarjanju
(pri tem mislim na razvoj programske opreme in reševanje logističnih
problemov, ne pa prodajo in popravilo računalniške opreme)
nimamo matematične izobrazbe/znanja, potem je skoraj tako kot
če bi postavili hišo na blatu. Lahko izgleda lepo,
vendar pa se bo začela pogrezati pri naslednjem nalivu.
Predznanje: Analiza 1 in 2.
Vsebina tečaja:
(45 ur predavanj in 30 ur vaj, po tri uri prvih in dve uri drugih na teden)
- Definicija verjetnosti,
- slučjne spremenljivke in vektorji,
- diskretne in zvezne porazdelitve,
- matematično upanje, varianca (disperzija) in višji momenti,
- karakteristične funkcije in centralni limitni izreki,
- zaporedja slučajnih spremenljivk in slučajni procesi,
- osnovna naloga statistike,
- ocenjevanje parametrov (intervali zaupanja),
- testiranje statističnih hipotez,
- analiza variance, kovariance in linearne regresije.
Učbeniki:
- J. Čibej, Matematika, kombinatorika, Verjetnostni račun, statistika,
DZS, 2004.
[Zelo berljiva knjiga, ki je primerna za začetnike, saj
je pisana za srednješolsko populacijo.]
- W. Mendenhall and T. Sincich: Statistics for engineering and the sciences,
4th edition, Prentice Hall, 1995.
[Obsežna knjiga o
za dvosemetralni tečaj statistike z nešteto primeri in konkretnimi navodili
za uporabo računalnika.
Nekaj poglavij za vzorec.
Uvod (cilj: identificirati vlogo statistike pri analiziranju podatkov iz tehnologije in znanosti),
Opisna statistika (cilj: predstaviti grafične in numerične metode za raziskovanje, povzemanje in opis
podatkov),
Verjetnost (cilj: uvod v teorijo verjetnosti in opis vloge, ki jo ima verjetnosti v inferenčni statistiki),
Diskretne slučajne spremenljivke (cilj: opis, porazdelitve verjetnosti, primeri in uporaba v praksi),
Zvezne slučajne spremenljivke (cilj: opis, razlikovati med zvezno in diskretno slučajno spremenljivko,
primeri in uporaba za reševanje praktičnih problemov),
Bivariantna analiza (cilj: vpeljava konceptov bivariantne porazdelitve, kovariance in neodvistnosti,
izračunati pričakovano vrednost in varianco linearne kombinacije slučajnih spremenljivk.]
- Anuška Ferligoj, Osnove statistike (na prosojnicah), 1995.
- M. Hladnik: Verjetnostni račun in statistika,
zapiski predavanj, Ljubljana, 2002.
- R. Jamnik: Verjetnostni račun in statistika, Ljubljana, 1995.
- R. Jamnik: Verjetnostni račun, Ljubljana, 1987.
- R. Jamnik: Matematična statistika, Ljubljana, 1980.
- E. Kramar: Zbirka nalog iz verjetnostnega računa, Ljubljana, 1979.
- R. Drnovšek, T. Košir, E. Kramar, G. Lešnjak:
Zbirka rešenih nalog iz verjetnostnega računa. Ljubljana, 1998.
- J. Mališić : Zbirka zadataka iz teorije verovatnoće s primenama.
Beograd, 1970.
- P. M. Vasić: Zadaci i problemi iz teorije verovatnoće.
Beograd, 1974.
- N. A. Rahman: Exercises in probability and statistics for
mathematics undergraduates with answers and hints on solutions.
London, 1967.
- M. Fogiel: The statistics problem solver: a complete solution
guide to any textbook. REA's Problem Solvers.
Piscataway (New Jersey), 1994.
- A. A. Svešnikova: Sbornik zadač po teorii verojatnostej,
matematičeskoj statistike i teorii slučajnyh funkcij.
Moskva, 1965.
- M. Blejec, Uvod v statistiko, EF 1992.
- B. Košmelj, Statistika II, EF 1992.
- J. Rovan, B. Košmelj, Analiza odvisnosti, EF 1992.
- M. Blejec, M. Lovrečič-Saražin, M. Perman, M. Trobec,
Poslovna statistika, Visoka strokovna šola za podjetništvo Portorož,
1997.
- J. Van Maanen, Qualitative Methodology, Sage Publication.
- B. Bowerman, R. O'Conell, Time Series Forcasting, Duxbury Press.
- D. Freedman, R. Pisani, R. Purves, A. Adhikari, Statistics, 2nd. ed.,
New York, London, Norton, cop. 1991. (SIG. 11625/1a)
Domače naloge:
nekaj setov domačih nalog (rešitve nalog bodo morale biti lično
napisane do prihodnjega predavanja).
Pogoji:
Ocena pri predmetu je sestavljena iz dveh delov: računskega in
teoretičnega. Računski del je mogoče opraviti bodisi s kolokviji
bodisi s pisnim izpitom, kjer je potrebno zbrati vsaj 50% točk.
Kriterij za posamezne ocene določi predavatelj, za vsak izpit oz.
kolokvije posebej. Teoretični del izpita je prav tako v pisni obliki.
Študent dobi 4 vprašanja, piše pa se 45 minut.
Izpiti:
pisni/praksa (lahko ga opravite s kolokviji) in teorija.
Roki za pisne izpite:
zimski: ponedeljek, 9. februar 2009, v P1 ob 12h-15h,
poletni: 16. junij 2009, v P1 ob 14:00-16:00,
jesenski: 15. september 2009, v P1 ob 12:00-14:00.
Roki za teorijo so:
(a) zimski: petek, 13. februar 2009, v P1 ob 17h-19h
(b) poletni: 23. junij 2009, v P2 ob 16:00-18:00,
(c) jesenski: 18. september 2009, v P1 ob 8:00-10:00.
(Opozorilo! Na izpit pisni/teorijo se je potrebno prijaviti
vsaj dva dni vnaprej!)
Na kolokviju in pisnih izpitih je dovoljeno je imeti
EN na roke napisan list A4 formata,
en list s tabelo funkcije \Phi,
en list s tabelo Studentove porazdelitve,
en list s tabelo hi-kvadrat porazdelitve
ter en kalkulator z osnovnimi funkcijami
(seštevanje, množenje, korenjenje), torej tak, ki ni zmožen
npr. risanja grafov.
Na teoriji pa je ni dovoljena niti uporaba vseh teh pripomočkov.
Iskrice:
Benjamin Disraeli
There are three kinds of lies: lies, damned lies and statistics.
Mark Twain, Autobiography.
Lang, Andrew (1844-1912)
He uses statistics as a drunken man uses lamp posts --
for support rather than illumination.
Treasury of Humorous Quotations.
Bjarne Stroustrup (avtor programskega jezika C++):
Do I see any value in modern algebra as part of the education of
a computer science student today?
Sure. I'm originally a Math major and wouldn't have missed it for the
world. I subscribe to the ancient view that there is nothing that
really compares to mathematics to give people a taste of rigorous
thinking. I don't actually use much math in my work, but the habits
of thinking installed by studying Math are key to much 1st rate work.
Brian Kernighan (slaven po programskem jeziku C in UNIX
pri Bell Labs, sedaj v Princetonu), when asked if he supported
my colleague's view that abstract algebra is valuable for student
of computer science. Here is part of his reply:
The curriculum is a zero-sum game at some level, however, so if
you make room for algebra at one end, something equally interesting
and useful falls off at the other -- statistics, maybe, or numerical
analysis. If I look at my own life, I wish I had spent more
time on, or at least learned more of, probability and statistics
in particular, and several other branches of mathematics like
game theory and logic that show up from time to time.
But at the same time, and definitely on the record for your
students, I don't regret any of the mathematics I took; it just
would have been nice if more of it stuck. Almost all of it has
been useful in some way or another, maybe just in talking to a
colleague who is deeper into it. And once in a while, one can
see the structure and realize how really beautiful some of it is
-- complex variables are the example that comes to mind most
often. Not that I could ever do it myself, but there was a dim
appreciation of how people could see patterns and structures and
make order and uniformity out of things that might otherwise have
appeared isolated.
So to give a sweeping generality of an answer to your specific
question, I don't think you can ever study too much mathematics,
and in a real sense, it doesn't matter a lot what kind.
It's all worth while.
Janez Demšar (ki ga verjetno ni potrebno posebej predstavljati na FRI):
Statistiko v resnici uporabljamo vsak dan, ko na podlagi ure dneva
("neodvisna spremenljivka") in preteklih izkušenj ("vzorec")
sklepamo o tem, koliko bo gneče na avtobusu ali ko pob na podlagi
enega pogleda na punco oceni verjetnost, da se potencialno zanima
(tudi) za špeglarje, kot je on; pri predmetu statistika se te reči
le postavi na trdne matematične temelje in tako poveča možnosti
za pravilnost dobljene ocene.