I Spis treści:
0. Statystyka opisowa
https://essntial.blogspot.com/2018/12/statystyka-opisowa.html
https://essntial.blogspot.com/2018/12/statystyka-opisowa.html
1. Statystyka jako narzędzie badawcze nauk przyrodniczych
2. Populacja generalna a próbna
3. Miary tendencji centralnej a próba
4. Miary tendencji centralnej i rozproszenia
5. Miary zmienności
6. Weryfikacja hipotez statycstycznych
7. Przedziały ufności dla średnich
8. Testy parametryczne i nieparametryczne różnic między dwoma próbami
9. Statystyczna analiza wyników - ANOVA
10. Układy czynnikowe i hierarchiczne
11. Badanie zależności między zmiennymi - analiza regresji i korelacji
12. Analiza podobieństwa
12. Analiza podobieństwa
13. Analiza składowych głównych (PCA)
14. Analiza dyskryminacyjna
15. Obsługa współczesnych programów statystycznych
I Treść:
I Treść:
0. Statystyka opisowa
https://essntial.blogspot.com/2018/12/statystyka-opisowa.html
https://essntial.blogspot.com/2018/12/statystyka-opisowa.html
1. Statystyka jako narzędzie badawcze nauk przyrodniczych
2. Populacja generalna a próbna
3. Miary tendencji centralnej a próba
4. Miary tendencji centralnej i rozproszenia
5. Miary zmienności
6. Weryfikacja hipotez statycstycznych
7. Przedziały ufności dla średnich
8. Testy parametryczne i nieparametryczne różnic między dwoma próbami
Wnioskowanie statystycznie nigdy nie jest prowadzone ze 100% pewnoscia, lecz zawsze z pewnym prawdopodobienstwem popelnienia bledu.
Każda test statystyczny rozpoczyna się od sformułowania hipotez:
H0 – Hipoteza zerowa – zakłada brak różnicy (nieistotność różnicy)
HA – Hipoteza alternatywna jest przeciwieństwem hipotezy zerowej
H0: długość skrzydła schwytanego brodźca piskliwego nie różni się istotnie od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego różni się istotnie od średniej z populacji
Obszar krytyczny może być jednostronny (prawostronny lub lewostronny), gdy hipoteza zerowa i alternatywna badają zależność „większe niż”, „mniejsze niż”
H0: długość skrzydła schwytanego brodźca piskliwego nie jest istotnie mniejsza od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego jest istotnie mniejsza od średniej z populacji
Obszar krytyczny może być dwustronny, gdy hipoteza zerowa i alternatywna badają zależność „równy”, „nie równy”
H0: długość skrzydła schwytanego brodźca piskliwego nie różni się istotnie od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego różni się istotnie od średniej z populacji
a) parametryczne
-dotyczą parametrów populacji (np. średniej, wariancji)
- rozkład badanej cechy w populacji musi mieć rozkład normalny przy małych próbach określenie normalności rozkładu jest problematyczne
- są silniejsze od testów nieparametrycznych
- stosuje się je do danych w skali ilorazowej i interwałowej
- Ich stosowanie wymaga by spełnione były założenia dotyczące rozkładów zmiennych w badanych populacjach, np. zgodności rozkładu z rozkładem normalnym (tzw. normalność rozkładu) lub równości wariancji w testowanych próbach.
-Na podstawie testów parametrycznych wnioskujemy o parametrach populacji, np. o średniej arytmetycznej lub o wariancji.
b) nieparametryczne czyli niezalezne od rozkladu
- dotyczą rozkładu cech w populacji (nie parametrów populacji)
- można ich używać do danych w skali nominalnej i porządkowej
- stosujemy je gdy:
*chcemy porównać rozkłady cech, a nie parametry rozkładów
*rozkład badanej cechy wyraźnie odbiega od rozkładu normalnego
*liczebność próby jest mała
- Ich stosowanie nie wymaga spełnienia założeń koniecznych przy stosowaniu testów parametrycznych.
- Warunki do ich stosowania są łatwiejsze do spełnienia niż w przypadku testów parametrycznych.
- Jeśli są spełnione wymagania dotyczące stosowania testów parametrycznych, to test nieparametryczny będzie zawsze testem słabszym niż jego parametryczny odpowiednik.
- Na podstawie testów nieparametrycznych wnioskujemy najczęściej o postaci rozkładu, a nie o jego parametrach.
- W praktyce stosujemy je gdy nie są spełnione założenia wymagane przez testy parametryczne, lub gdy z powodu małej liczebności próby nie można tych założeń sprawdzić.
c) testy dla prob zaleznych
-dotyczą sytuacji, gdy porównuje się dwa pomiary wykonane na tym samym elemencie próby, np. przed i po eksperymencie lub szuka się różnic miedzy elementami sparowanymi w określony sposób.
-Przykład:
*Porównanie ciśnienia krwi przed i po podaniu lekarstwa
*Porównanie siły lewej i prawej ręki (para pomiarów u tej samej osoby)
d) testy dla prob niezaleznych
- dotyczą sytuacji, gdy porównuje się dwie grupy pomiarów wykonanych niezależnie od siebie.
-Przykład:
* Porównanie wielkości zniesienia u wróbla i sikory
* Porównanie ilości dni z opadami w dwóch sezonach badawczych
Próby muszą być losowe i niezależne - każdy element populacji musi mieć taka samą szansę znalezienia się w próbie i wybór jednego elementu nie zmienia szansy wylosowania innego elementu
PODAWANIE WYNIKÓW TESTU
- nazwa stosowanego testu,
- wartość testu,
- prawdopodobieństwo popełnienia błędu I rodzaju
Podawanie dokładnego prawdopodobieństwa
ANOVA; F2,48=4,40; p=0,02 test t-Studenta; t=1,01; p=0,12
Podawanie przybliżonego prawdopodobieństwa
ANOVA; F2,48=4,40; p<0,05 test Wilcoxona; T=12,15; p<0,001
Większość pomiarów w biologii ma rozkład zbliżony do rozkładu normalnego. Rozkład normalny o średniej arytmetycznej 0 i odchyleniu standardowym 1 nazywa się rozkładem normalnym standaryzowanym.
Najczesciej w naukach biologicznych przyjmuje sie wartosc takiego granicznego prawdopodobienstwa 0,05. Prawdopodobienstwo to nazywa sie poziomem istotnosci.
10.
Wnioskowanie statystycznie nigdy nie jest prowadzone ze 100% pewnoscia, lecz zawsze z pewnym prawdopodobienstwem popelnienia bledu.
Każda test statystyczny rozpoczyna się od sformułowania hipotez:
H0 – Hipoteza zerowa – zakłada brak różnicy (nieistotność różnicy)
HA – Hipoteza alternatywna jest przeciwieństwem hipotezy zerowej
H0: długość skrzydła schwytanego brodźca piskliwego nie różni się istotnie od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego różni się istotnie od średniej z populacji
Obszar krytyczny może być jednostronny (prawostronny lub lewostronny), gdy hipoteza zerowa i alternatywna badają zależność „większe niż”, „mniejsze niż”
H0: długość skrzydła schwytanego brodźca piskliwego nie jest istotnie mniejsza od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego jest istotnie mniejsza od średniej z populacji
Obszar krytyczny może być dwustronny, gdy hipoteza zerowa i alternatywna badają zależność „równy”, „nie równy”
H0: długość skrzydła schwytanego brodźca piskliwego nie różni się istotnie od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego różni się istotnie od średniej z populacji
a) parametryczne
-dotyczą parametrów populacji (np. średniej, wariancji)
- rozkład badanej cechy w populacji musi mieć rozkład normalny przy małych próbach określenie normalności rozkładu jest problematyczne
- są silniejsze od testów nieparametrycznych
- stosuje się je do danych w skali ilorazowej i interwałowej
- Ich stosowanie wymaga by spełnione były założenia dotyczące rozkładów zmiennych w badanych populacjach, np. zgodności rozkładu z rozkładem normalnym (tzw. normalność rozkładu) lub równości wariancji w testowanych próbach.
-Na podstawie testów parametrycznych wnioskujemy o parametrach populacji, np. o średniej arytmetycznej lub o wariancji.
b) nieparametryczne czyli niezalezne od rozkladu
- dotyczą rozkładu cech w populacji (nie parametrów populacji)
- można ich używać do danych w skali nominalnej i porządkowej
- stosujemy je gdy:
*chcemy porównać rozkłady cech, a nie parametry rozkładów
*rozkład badanej cechy wyraźnie odbiega od rozkładu normalnego
*liczebność próby jest mała
- Ich stosowanie nie wymaga spełnienia założeń koniecznych przy stosowaniu testów parametrycznych.
- Warunki do ich stosowania są łatwiejsze do spełnienia niż w przypadku testów parametrycznych.
- Jeśli są spełnione wymagania dotyczące stosowania testów parametrycznych, to test nieparametryczny będzie zawsze testem słabszym niż jego parametryczny odpowiednik.
- Na podstawie testów nieparametrycznych wnioskujemy najczęściej o postaci rozkładu, a nie o jego parametrach.
- W praktyce stosujemy je gdy nie są spełnione założenia wymagane przez testy parametryczne, lub gdy z powodu małej liczebności próby nie można tych założeń sprawdzić.
c) testy dla prob zaleznych
-dotyczą sytuacji, gdy porównuje się dwa pomiary wykonane na tym samym elemencie próby, np. przed i po eksperymencie lub szuka się różnic miedzy elementami sparowanymi w określony sposób.
-Przykład:
*Porównanie ciśnienia krwi przed i po podaniu lekarstwa
*Porównanie siły lewej i prawej ręki (para pomiarów u tej samej osoby)
d) testy dla prob niezaleznych
- dotyczą sytuacji, gdy porównuje się dwie grupy pomiarów wykonanych niezależnie od siebie.
-Przykład:
* Porównanie wielkości zniesienia u wróbla i sikory
* Porównanie ilości dni z opadami w dwóch sezonach badawczych
Próby muszą być losowe i niezależne - każdy element populacji musi mieć taka samą szansę znalezienia się w próbie i wybór jednego elementu nie zmienia szansy wylosowania innego elementu
PODAWANIE WYNIKÓW TESTU
- nazwa stosowanego testu,
- wartość testu,
- prawdopodobieństwo popełnienia błędu I rodzaju
Podawanie dokładnego prawdopodobieństwa
ANOVA; F2,48=4,40; p=0,02 test t-Studenta; t=1,01; p=0,12
Podawanie przybliżonego prawdopodobieństwa
ANOVA; F2,48=4,40; p<0,05 test Wilcoxona; T=12,15; p<0,001
1) Test Shapiro-Wilka - preferowany
-np. W = 0,99; p =0,0002
-jeśli wartość W jest istotna to odrzucamy hipotezę zgodność z rozkładem normalnym
2) Test Lillieforsa (pow. 5000 obserwacji)
-gdy p>0,05 -> rozkład nrormalny
3) Rozkład t-studenta
-dla małych prób
-parameterem charakteryzującym jest df (stopnie swobody)
- jest metodą statystyczną służąca do porównywania dwóch średnich między sobą jeśli znamy liczbę badanych osób, średnią artmetyczną oraz wartość odchylenia standardowego lub wariacji.
-jest to jeden z mniej skomplikowanych i bardzo częśto wykorzystywanych testów statystycznych używanych do weryfikacji hipotez. Dzieki niemu możemy dowiedzieć się czy dwie różne średnie są rózne "niechcący" ( w wyniku przypadku) czy są różne istotnie statystycznie (np. z uwagi na naszą manipulację eksperymentalna).
Testy t-Studenta opisujey dokładniej dla każdej jego wersji:
1. test t-Studenta dla jednej próby
2. test t-Studenta dla prób niezależnych
3. test t-Studenta dla prób zależnych
-jest to jeden z mniej skomplikowanych i bardzo częśto wykorzystywanych testów statystycznych używanych do weryfikacji hipotez. Dzieki niemu możemy dowiedzieć się czy dwie różne średnie są rózne "niechcący" ( w wyniku przypadku) czy są różne istotnie statystycznie (np. z uwagi na naszą manipulację eksperymentalna).
Testy t-Studenta opisujey dokładniej dla każdej jego wersji:
1. test t-Studenta dla jednej próby
2. test t-Studenta dla prób niezależnych
3. test t-Studenta dla prób zależnych
4) Rozkład chi-kwadrat
-prawoskośny, ciągły , wartości dodatnie
-określany przez ilość stopni swobody
-wraz ze wzrostem df zbliża się do rozkładu normalnego
-przydatny przy skali nominalnej (kategorie) z użyciem analizy frekwencji
5) Rozkład F-Fishera
-prawoskośny ciągły
-określony przez dwa parametry df dwóch wariacji (licznik i mianownik proporcji)
-szczególnie ważny przy porównaniu
*dwóch wariacji
*więcej niż dwóch średnich (ANOVA)
6) Rozkład normalny
7) Rozkład dwumianowy
8) Rozkład Poissiona
H_0 Zakłada brak różnic w populacji H_0: μ_1 = μ_1 p>α
H_1 Zakłada różnic w populacji H_1: μ_1 ≠ μ_1 p<α
9) Test Dixona (testQ)
-test na wykrycie wyniku obarczonego błędem grubym
-Przed wykonaniem testu zbiór wyników eksperymentalnych (próbka statystyczna) zostaje uszeregowany według wzrastających wartości. Błędem grubym może być obarczona największa lub najmniejsza wartość wyniku w próbce. Dla tych wyników obliczane są odpowiednio prarmetry Q_max i Q_min.
-Parametr o większej wartości porównywany jest nastęnie z parametrem krytycznym testu Dixona (Q lub r_10 w wariancie dustronnym) odpowiadającym rozmiarowi próbki statystycznej i wybranemu poziomoi ufności. Jeśli wartość eksperymentalna jest większa od wartości krytycznej, wówczas podejrzany wynik obarczany jest błędem i można go odrzucić z zadanym poziomem ufności.
Zakłada on rozkład normalny w populacji , z klasy wcięto dane zakład, że od najm do najwyż. Dla skrajnych
Q_min (x_2-x_1)/(x_n - x_1)
Q_max = (x_n - x_(n-1))/(x_n -x_1)
jak Q=> Q krytyczny (z tab najmniejszy punkt
9. Poziom istotnosci
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
///////////////////
-do porównywania średnich z dwóch grup (jeśli takie same podajemy -> lub Brown - Forsaicha)
-wymagania
*jednorodność wariacji - test Levene'a
*rozkłady zmiennych , w każdej z grup, normalne
-zaleca się stosować poziom istotności α <0,01
-test Coachrana -Coxa ( z odzielną oceną wariacji) dla nierównych wariacji) dla nierównych wariacji
-gdy znaczne odstępstwa od założeń
*transformacja danych
*lub test nieparametryczny Manna - Whitneya
-nieparametryczny odpowiednik testu t dla prób niezależnych
-stosujemy gdy dane nie spełniają wymagań testu t
-stosaowany do prób o małej liczebności
-statystyka μ gdy n < 20 , z gdy n>20
-bada kolejność pojawia nia się elementów w próbie (test serii stevensa)
-nieprarmetryczny
-H_0 dobór elemnetów jest losowy, H_1 dobór elementów nie jest losowy
-porównujemy rozkłady dwóch zmiennych tj. rozrzut cechy, skośność, kurtozę
-H_0: rozkład _1 ≠ rozkład_2
H_1: rozkład_1 = rozkład _2
-występuje w dwóch odmianach dla zm. ciągłych i skategoryzowanych
-wymagania
*pomiar z pierwszego zbioru danych jest powiązanych tylko z jednym pomiarem zb. drugiego
*rozkład różnic między powiązanymi obserwacjami jest zbliżony do normalnego
-H_0: średnica różnica = 0
H_1 : średnica różnica ≠ 0
-nieparametryczny odpowiednik testu + dla prób zależnych (kolejności par)
- rozkład różnic między pomaiarami musi być symetryczny wz. mediany
-gdy n< 25 statystyka Z
n> 25 statystyka T
-test ten ma większą moc niż test znaków
-stosowany zawias + testu Wilcoxona, gdy rozkład różnic jest asymetryczny
-bierze pod uwagę znak różnicy dla pary wyników, a nie jej wielkość
Przykłady
-wykres normalny histo.
-Wrowna-Fors i Levena
-normalność
p>0,05 są jednorodne H_0 takie same Brown Rors
czerwone znaczy H_A dla t-Studenta
podsumowanie + test
t_(150,0) = 9,0
df = 150
p=0
Odp. H_A
średnia (bo jest parametryczny) dł skrzy różni się w 2 gr. wiekowych.
Jak założenie o jednorodność war nie sp to test Cochrona Coxa
Jak 2 lub 3 zał (jednor. war. i rozk. nie są norm) niespełnione to jest Manna-Whitneya (w stat) nieparametryczne
nieważne A > 20
C>20
Z = 10,96, p=0
Odp: H_A
Anowa -> wiele prób
-> spełnione zał parametry (testy post hoc , 1 czynnik)
-> niespełnione Cruskala- Wallesa
Dla prób zależnych Anova Friedmana
Założenia:
-addyktywność
-rozkład norm (słupki)
Statystyka opisowa
-histogramy
-Leven, Persaicl
-wykres średnie wzg. odchylenia standardowego (mają być rozżucone) -> war. spełnionuy
analiza wariacji w tej samej zakł
F_(3,337) 90,62 p=0 . Odp. H_A
Anowa + grupa kontrolna
////////////
nazwa testu ( wartość z odpowiednią dokładnością)
test t, t _(2,250) = 28.84, p=0,0012 (dokładne prawdopodobieństwo)
test t,t _(a,b)
a - liczba stopni swobody
b-wielkość próby
9. Statystyczna analiza wyników - ANOVA
10. Układy czynnikowe i hierarchiczne
11. Badanie zależności między zmiennymi - analiza regresji i korelacji
a) Kowariancja
-liczba określająca zależność liniową między zmiennymi losowymi X i Y.
-jeżeli między zmiennymi losowymi X i Y nie istnieje żadna zauważalna korelacja liniowa i istnieją ich wartości oczeikwane, to kowariancja przyjmuje wartość 0 (nie musi to być prawda dla kowariancji w próbie losowej z tych zmiennych).
- cov(X, Y) = E(X*Y)-(E(X)*E(Y))
cox(X, Y) - kowariancja pomiędzy parą zmiennych X i Y
E - wartość oczekiwana
X - wyniki dla jednej zmiennej
Y - wyniki dla jednej zmiennej
-Aby obliczyć kowariancję pomiędzy dwiema zmiennymi należy obliczyć iloczyn pomiędzy wynikami jednej i drugiej zmiennej, wyciągnąć z otrzymanych wyników wartość oczekiwaną (średnia artmosferyczną) z wyliczonych iloczynów i również wartość oczekiwaną (średnią) dla wyników jedenj i drugiej zmiennej. Następnie odjąć iloczyn wartości oczekiwanych dla X i Y od wartości oczekiwanej iloczynów tych zmiennych.
cov =0 -> gdy między zw. nie ma korelacji ... i istnieją ich war. dzie..
cov(X, Y) = covr (X, Y) σx σy
b) Współczynnik korelacji
-liczba określająca w jakim stopniu zmienne są wspólzależne. Jest to miara korelacji dwóch (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od -1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).
Najczęsciej stosowany jest współczynnik korelacji r Pearsona. W przypadku rozkładu dalekiego od dwuwymiarowego normalnego lub istnienia w próbie obserwacji odstajcych współczynnik korelacji Pearsona może fałszywie wskazywać na nieistniejącą korelację (zjawisko to widać na przykładzie kwartetu Anscombe'a). Wady tej nie mają współczynniki rangowe, które z kolei mają mniejszą efektywność dla rozkładów bliskich normalnemu.
-wskaźnik liczbowy mierzący siłę związku pomiedzy zmiennymi, oznacza się r
r = (E_xv - (E_x*E_y)/(n))/((E_x^2 - (E_x)^2/n)(E_y^2 - (E_y)^2/n))^1/2
x,y pierw i z zmiennych
wsp. przyjmuje wartą od -1 do 1, r=0 -> cork
brak współzmienności (zmienne są zależne)
Im bardziej (r) bliższe t tym silniejsze wzajemne zależności między zmiennymi
r>0 => ze wzrostem x rośnie y
r<0 => ze wzrostem x maleje y
c) współczynnik determinacji R^2
-jedna z podstawowych miar jakości dopasowania modelu. Powiązany z tym współczynnikiem jest współczynnik zbieżności.
0,0 - 0,5 - dopasowanie niezadowalające
0,5 - 0,6 - dopasowanie słabe
0,6 - 0,8 - dopasowanie zadowalające
0,8 - 0,9 - dopadsowanie dobre
0,9 - 1,0 - dopasowanie bardzodobre
Informują otym , jaką część zmienności zmiennej objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Współczynnik determinacji przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowani modelu jest tym lepsze, im wartość R^2 jest bliższa jedności. Wyraża się on wzorem:
R^2 = (Σ_(t=1)^n (y_t - mod(y))^2)/(Σ_(t=1)^n (y_t - mod(y))^2)
-to kwadrat wsp. korekty.
Wyraża on ułamek ogólnej zmienności (wariancji) jednej zmiennej wyp... przez zmiany drugiej iumiejącej
-współczynnik d jest lepszą miarą siły związku niż r, zbyt optymistyczny
dobre skraty gdy r=0,1
Kwartet Anscombe'a
12. Analiza podobieństwa
a) przygotowanie danych
-macierz
*elimyczny cera?
- transformacja
*transfer specyficzny
centrową i autoskalny -> pozbycie się jednostek
z_ij = (x_ij - mod(x_j))/ s_j
s_j - macierz danych standardowej
b) metody
-prof. Ciekazy ?
-hirachia anliza wiązkowa (HCA)
-dendryt
analiza Chernoffe
c) Dualizm analizy podobieństwa
-podobieństwo obiektów w przestrzeni zmiennych
-podobieństwo zmiennych w przestrzeni obiektów
d) analiza wiązkowa
-wstępna obróbka danych
*brask danych
*punkty odbiegające
*autoskalny
auto mod(x) =0, s = 1
-obliczamy macierz odległości
-2 obiekty nabliżej siebie znajdujemy
-przyjmujemy, że te dwie obiekty tworzą jeden (nowy) obiekt x
e) obieramy drzewo na 2.3 wysokości
- najmniejszy sąsiad
d_ij = ((1-r^2)/r^2)^0,5
a) Kowariancja
-liczba określająca zależność liniową między zmiennymi losowymi X i Y.
-jeżeli między zmiennymi losowymi X i Y nie istnieje żadna zauważalna korelacja liniowa i istnieją ich wartości oczeikwane, to kowariancja przyjmuje wartość 0 (nie musi to być prawda dla kowariancji w próbie losowej z tych zmiennych).
- cov(X, Y) = E(X*Y)-(E(X)*E(Y))
cox(X, Y) - kowariancja pomiędzy parą zmiennych X i Y
E - wartość oczekiwana
X - wyniki dla jednej zmiennej
Y - wyniki dla jednej zmiennej
-Aby obliczyć kowariancję pomiędzy dwiema zmiennymi należy obliczyć iloczyn pomiędzy wynikami jednej i drugiej zmiennej, wyciągnąć z otrzymanych wyników wartość oczekiwaną (średnia artmosferyczną) z wyliczonych iloczynów i również wartość oczekiwaną (średnią) dla wyników jedenj i drugiej zmiennej. Następnie odjąć iloczyn wartości oczekiwanych dla X i Y od wartości oczekiwanej iloczynów tych zmiennych.
cov =0 -> gdy między zw. nie ma korelacji ... i istnieją ich war. dzie..
cov(X, Y) = covr (X, Y) σx σy
b) Współczynnik korelacji
-liczba określająca w jakim stopniu zmienne są wspólzależne. Jest to miara korelacji dwóch (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od -1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).
Najczęsciej stosowany jest współczynnik korelacji r Pearsona. W przypadku rozkładu dalekiego od dwuwymiarowego normalnego lub istnienia w próbie obserwacji odstajcych współczynnik korelacji Pearsona może fałszywie wskazywać na nieistniejącą korelację (zjawisko to widać na przykładzie kwartetu Anscombe'a). Wady tej nie mają współczynniki rangowe, które z kolei mają mniejszą efektywność dla rozkładów bliskich normalnemu.
-wskaźnik liczbowy mierzący siłę związku pomiedzy zmiennymi, oznacza się r
r = (E_xv - (E_x*E_y)/(n))/((E_x^2 - (E_x)^2/n)(E_y^2 - (E_y)^2/n))^1/2
x,y pierw i z zmiennych
wsp. przyjmuje wartą od -1 do 1, r=0 -> cork
brak współzmienności (zmienne są zależne)
Im bardziej (r) bliższe t tym silniejsze wzajemne zależności między zmiennymi
r>0 => ze wzrostem x rośnie y
r<0 => ze wzrostem x maleje y
c) współczynnik determinacji R^2
-jedna z podstawowych miar jakości dopasowania modelu. Powiązany z tym współczynnikiem jest współczynnik zbieżności.
0,0 - 0,5 - dopasowanie niezadowalające
0,5 - 0,6 - dopasowanie słabe
0,6 - 0,8 - dopasowanie zadowalające
0,8 - 0,9 - dopadsowanie dobre
0,9 - 1,0 - dopasowanie bardzodobre
Informują otym , jaką część zmienności zmiennej objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Współczynnik determinacji przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowani modelu jest tym lepsze, im wartość R^2 jest bliższa jedności. Wyraża się on wzorem:
R^2 = (Σ_(t=1)^n (y_t - mod(y))^2)/(Σ_(t=1)^n (y_t - mod(y))^2)
-to kwadrat wsp. korekty.
Wyraża on ułamek ogólnej zmienności (wariancji) jednej zmiennej wyp... przez zmiany drugiej iumiejącej
-współczynnik d jest lepszą miarą siły związku niż r, zbyt optymistyczny
dobre skraty gdy r=0,1
Kwartet Anscombe'a
12. Analiza podobieństwa
a) przygotowanie danych
-macierz
*elimyczny cera?
- transformacja
*transfer specyficzny
centrową i autoskalny -> pozbycie się jednostek
z_ij = (x_ij - mod(x_j))/ s_j
s_j - macierz danych standardowej
b) metody
-prof. Ciekazy ?
-hirachia anliza wiązkowa (HCA)
-dendryt
analiza Chernoffe
c) Dualizm analizy podobieństwa
-podobieństwo obiektów w przestrzeni zmiennych
-podobieństwo zmiennych w przestrzeni obiektów
d) analiza wiązkowa
-wstępna obróbka danych
*brask danych
*punkty odbiegające
*autoskalny
auto mod(x) =0, s = 1
-obliczamy macierz odległości
-2 obiekty nabliżej siebie znajdujemy
-przyjmujemy, że te dwie obiekty tworzą jeden (nowy) obiekt x
e) obieramy drzewo na 2.3 wysokości
- najmniejszy sąsiad
d_ij = ((1-r^2)/r^2)^0,5
13. Analiza składowych głównych (PCA)
Statystyka PCA
Przygotowanie danych
-Dane muszę być wycentrowane (średnia = 0)
-często stosuje autoskalowanie (średnia = 0 i odchylenie standarowe = 1) - gdy zmieenne istotne mają różne rzędy wielkości, różne jeednostki
Wybór istotnej liczby składowych
-%opisanej wariacji
-rysunek wartości własnych
-kroswalidacja
PCA -informuje o różnicach w śród próbek
macierz danych (zmienne x próbki ) x -> (algorytm PCA) -> macierz "scores", opisuje zależność pomiędzy próbkami war. czynnikowe T + macierz "loadings" opisy zależności pomiędzy zmiennymi ładunki czynnikowe p^T + reszta od modem E reszta (zmienne x x)
Algorytm:
a. Wyznaczenie średnich dla wierszy
2. Wyznaczanie macierz oddchyleń
3. Wyznaczanie macierzy kowariancji (czasem to zwykła transpozycja)
4. Obliczanie wartości własnych macierzy konwariancji
5. Wybór wartości własnych (wybieramy największe)
6. Wyznaczenie wektorów własnych (alg. eliminacji Gaussa)
7. Rzutowanie na wektory własne, wektor nowej przestrzeni y = V^T * x
Konstruowanie głównych składowych:
1. Pierwsza wyznaczana jest w kierunku maksymalizującym wariację w danych
2. Druga musi być prostopadła (ortogonalna) do pierwszej i wyznaczana w kierunku ajwiększek wariancji, której nie wyjaśnia pierwsza
3. Kolejne są protopadłe do poprzednich i wyjaśniają największy zasób informacji (wariancji) nie wyjaśnionych przez poprzeednie
4. Maksymalna liczba gł. składowych jest równa liczbie pierwotnych zmiennych w macierzy danych (x)
macierz danych (mxn) -> STANDARYZACJA(1) -> macierz standaryzowana (mxn) ->(2)-> macierz korelacji-kowariancji (mxm)
(3)-> wartości własne macierzy korelacji i kowariancji (mx1) λ
(3)-> w wektory własne macierzy korelacji-kowariancji (mxm)
(4) sortujemy wartości własne i odpowiadające im wektory własne malejąco
(5) decydujemy ile nieistotnych wartości własnych "odcinamy"
((m+k)xm) ->(kxm)
p ładunki czynnikowe
Kryterium poglądowości - graficznie możemy przedstawić maksymalnie trójmiarową przestrzeń
Kryterrium zasoby zmienności
a)łączna wartość zmienności wyjaśniana przez
K pierwsze główne składowe (90-95%)
b) kryterium Keisera - wszystkie gł składowe posiadające wartość własną > 1 (niepowtarzalny nowy zbiór informacji)
Kryterium osypiska wybieramy taki punkt w którym wykres zaczyna się spłaszczać. Te gdzie spadek nie jest płaski, wybieramy jako czynniki. np.
Metoda Varimax -taka rotacja układem wsp. , aby suma wariancji składowych wektorów kierunkowych osiągnęła max.
-wariancja wektora kierunku osiąga max, gdy tylko 1 z gł. składowych ma dużą wartość, a reszta odcinka O
-suma wariancji osiąga max, gdy możliwie duża liczba wektorów ma dużą wariancję
-w wyniku wariancko Varimax nowe osie znajduje się możliwie blisko skupień wektorów kierunkowych przedstawiających zmienne objaśniające
-gł. składowe po wykonaniu rotacji oznaczane czasem się vasiwektorami "VM"
*PCA jest czuła na punkty odbiegające
Zad 1.
Przygotowanie danych do analizy głównych składowych. Zasada działania metody. Kryteria wyboru optymalnej liczby głównych składowych (kryterium poglądowości, minimalnej wartości własnej, kryterium osypiska). Macierz ładunków i interpretacja głównych składowych. Wartości czynnikowe oraz sporządzanie mapy liniowej obiektów w przestrzeni głównych składowych. Rotacje typu Varimax.
Proszę pobrać dane i wykonać następujące zadania:
1) Metodą PCA proszę wyodrębnić główne składowe opisujące kongenery PCN emitowane do środowiska z tych źródeł. Jaką część ogólnej zmienności w danych wyjaśniają wyodrębnianiu istotnych głównych składowych?
1.1 Korzystając z funkcji eigen, wyznacz wektory własne i odpowiadające tym wektorom wartosci własne.
1.2 Oblicz sumę elementu - wektory własne, korzystając z funkcji sum. Czy suma elementów tego wektora jest równa liczbie wyznaczonych wartości własnych?
1.3 Narysuj, korzystając z funkcji plot, wykres wartości własnych w funkcji numeru tego elementu.
1.4 W oparciu o odpowienie kryteria odetnij nieistotne wektory własne, korzystając z funkcji eig$vectors[, 1:n]
2) Sporzącdzić wykres ładunków czynnikowych, korzystając z funkcji plot i na jego podstawie przypisz interpretację wyodrębionym głównym składowym.
3) Obliczyć wartości czynnikowe. Sporządzić mapę liniową i na jej podstawie proszę porównać profile znieczyszczeń w poszczególnych próbkach. W których próbkach występują kongenery pochodzące ze źródłem termicznych, a w których z preparatów technicznych? Które z tych źródeł domniuje?
1. A. Łomnicki, "Wprowadzenie do statystyki dla przyrodników", Wydanie trzecie uzupełnione, Wyd. Naukowe PWN, Warszawa, 2005
2. A. Mazerski, "Podstawowy chemometrii", Wydawnictwo Politechniki Gdańskiej, Gdańsk, 2000
Statystyka PCA
Przygotowanie danych
-Dane muszę być wycentrowane (średnia = 0)
-często stosuje autoskalowanie (średnia = 0 i odchylenie standarowe = 1) - gdy zmieenne istotne mają różne rzędy wielkości, różne jeednostki
Wybór istotnej liczby składowych
-%opisanej wariacji
-rysunek wartości własnych
-kroswalidacja
PCA -informuje o różnicach w śród próbek
macierz danych (zmienne x próbki ) x -> (algorytm PCA) -> macierz "scores", opisuje zależność pomiędzy próbkami war. czynnikowe T + macierz "loadings" opisy zależności pomiędzy zmiennymi ładunki czynnikowe p^T + reszta od modem E reszta (zmienne x x)
Algorytm:
a. Wyznaczenie średnich dla wierszy
2. Wyznaczanie macierz oddchyleń
3. Wyznaczanie macierzy kowariancji (czasem to zwykła transpozycja)
4. Obliczanie wartości własnych macierzy konwariancji
5. Wybór wartości własnych (wybieramy największe)
6. Wyznaczenie wektorów własnych (alg. eliminacji Gaussa)
7. Rzutowanie na wektory własne, wektor nowej przestrzeni y = V^T * x
Konstruowanie głównych składowych:
1. Pierwsza wyznaczana jest w kierunku maksymalizującym wariację w danych
2. Druga musi być prostopadła (ortogonalna) do pierwszej i wyznaczana w kierunku ajwiększek wariancji, której nie wyjaśnia pierwsza
3. Kolejne są protopadłe do poprzednich i wyjaśniają największy zasób informacji (wariancji) nie wyjaśnionych przez poprzeednie
4. Maksymalna liczba gł. składowych jest równa liczbie pierwotnych zmiennych w macierzy danych (x)
macierz danych (mxn) -> STANDARYZACJA(1) -> macierz standaryzowana (mxn) ->(2)-> macierz korelacji-kowariancji (mxm)
(3)-> wartości własne macierzy korelacji i kowariancji (mx1) λ
(3)-> w wektory własne macierzy korelacji-kowariancji (mxm)
(4) sortujemy wartości własne i odpowiadające im wektory własne malejąco
(5) decydujemy ile nieistotnych wartości własnych "odcinamy"
((m+k)xm) ->(kxm)
p ładunki czynnikowe
Kryterium poglądowości - graficznie możemy przedstawić maksymalnie trójmiarową przestrzeń
Kryterrium zasoby zmienności
a)łączna wartość zmienności wyjaśniana przez
K pierwsze główne składowe (90-95%)
b) kryterium Keisera - wszystkie gł składowe posiadające wartość własną > 1 (niepowtarzalny nowy zbiór informacji)
Kryterium osypiska wybieramy taki punkt w którym wykres zaczyna się spłaszczać. Te gdzie spadek nie jest płaski, wybieramy jako czynniki. np.
Metoda Varimax -taka rotacja układem wsp. , aby suma wariancji składowych wektorów kierunkowych osiągnęła max.
-wariancja wektora kierunku osiąga max, gdy tylko 1 z gł. składowych ma dużą wartość, a reszta odcinka O
-suma wariancji osiąga max, gdy możliwie duża liczba wektorów ma dużą wariancję
-w wyniku wariancko Varimax nowe osie znajduje się możliwie blisko skupień wektorów kierunkowych przedstawiających zmienne objaśniające
-gł. składowe po wykonaniu rotacji oznaczane czasem się vasiwektorami "VM"
*PCA jest czuła na punkty odbiegające
Zad 1.
Przygotowanie danych do analizy głównych składowych. Zasada działania metody. Kryteria wyboru optymalnej liczby głównych składowych (kryterium poglądowości, minimalnej wartości własnej, kryterium osypiska). Macierz ładunków i interpretacja głównych składowych. Wartości czynnikowe oraz sporządzanie mapy liniowej obiektów w przestrzeni głównych składowych. Rotacje typu Varimax.
Proszę pobrać dane i wykonać następujące zadania:
1) Metodą PCA proszę wyodrębnić główne składowe opisujące kongenery PCN emitowane do środowiska z tych źródeł. Jaką część ogólnej zmienności w danych wyjaśniają wyodrębnianiu istotnych głównych składowych?
1.1 Korzystając z funkcji eigen, wyznacz wektory własne i odpowiadające tym wektorom wartosci własne.
1.2 Oblicz sumę elementu - wektory własne, korzystając z funkcji sum. Czy suma elementów tego wektora jest równa liczbie wyznaczonych wartości własnych?
1.3 Narysuj, korzystając z funkcji plot, wykres wartości własnych w funkcji numeru tego elementu.
1.4 W oparciu o odpowienie kryteria odetnij nieistotne wektory własne, korzystając z funkcji eig$vectors[, 1:n]
2) Sporzącdzić wykres ładunków czynnikowych, korzystając z funkcji plot i na jego podstawie przypisz interpretację wyodrębionym głównym składowym.
3) Obliczyć wartości czynnikowe. Sporządzić mapę liniową i na jej podstawie proszę porównać profile znieczyszczeń w poszczególnych próbkach. W których próbkach występują kongenery pochodzące ze źródłem termicznych, a w których z preparatów technicznych? Które z tych źródeł domniuje?
1. A. Łomnicki, "Wprowadzenie do statystyki dla przyrodników", Wydanie trzecie uzupełnione, Wyd. Naukowe PWN, Warszawa, 2005
2. A. Mazerski, "Podstawowy chemometrii", Wydawnictwo Politechniki Gdańskiej, Gdańsk, 2000
14. Analiza dyskryminacyjna
15. Obsługa współczesnych programów statystycznych
////////////////////
////////////////////
III Literatura :
1. Łomnicki A. 2007 "Wprowadzenie do statystyki dla przyrodników" Wyd III, PWN, Warszawa
2. Meissner W. 2009 "Przewodnik do ćwiczeń z przedmiotu metiody statystyczne w biologii" Wyd UC
3. Stanisz A. 2006 "Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny" Tom 1, 2, 3 StatSoft Polska, Kraków
3. Stanisz A. 2006 "Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny" Tom 1, 2, 3 StatSoft Polska, Kraków


Komentarze
Prześlij komentarz