SOS 3003 Anvendt statistisk dataanalyse i samfunnsvitenskap
Semesteroppgåva
Semesteroppgåva er obligatorisk og er ein integrert del av eksamen der den tel 50% av samla karakter
Krav til semesteroppgåva (in Norwegian)
Requirements for the term paper (på engelsk)
List of variables in ESS/ Liste av variablar i ESS (berre på engelsk)
Framlegg til disposisjon for semesteroppgåva
Almenne feil og mistydingar i semesteroppgåvene
Om å velje variabel til semesteroppgåva:
Allment tilgjengelege data er frå European Social Survey 2002, og er henta frå
heimesidene deira
Alternativt kan ein gå inn via ESS-sidene til NSD
Sjå også nedanfor der dei viktigaste filene er gjort klar for nedlasting.
Data for skriving av semesteroppgåve
Datasettet som er stilt til disposisjon for å skrive semesteroppgåve er lagt til rette slik at
Norsk samfunns-vitenskapelig datatjeneste og Datatilsynet kan godta at personvernet er tilstrekkeleg
teke vare på.
Det er eit mål at alle skal ha ulike avhengige variablar. Grunnen til dette er at vi tidlegare har sett
at når to studentar skriv om det same blir oppgåvene nær sagt identiske. Dette skaper problem for
eksamenskommisjonen. For å få til ulike variablar for alle må vi styre prosessen. Vi gjer dette på
følgjande måte:
1) Dei som har eigne data får sjølvsagt nytte desse dersom den avhengige variabel stettar dei krava
vi set (sjå nedanfor).
2) Dei som har nytta ein variabel i tidlegare semester og no ønskje å ta kurset om igjen, får
sjølvsagt nytte same variabelen om igjen.
3) Dei som ikkje har eigne data og heller ikkje har skrive om ein bestemt variabel i eit tidlegare
kurs få no velje seg nokre framlegg til avhengig variabel frå European Social Survey 2002.
Ut frå dokumentasjonen som er tilgjengeleg nedanfor (start med den enkle
variabellista)
bør kvar einskild velje 3-4 variablar det kan vere interessant å skrive eit essay rundt.
Første runde med tildelinga av variabel skjer onsdag 1 september med registrering av dei som
har eigne data dei vil nytte eller som har arbeidd med ein variabel i tidlegare kurs og som vil fortsetje
med same variabelen. Onsdag 8 september vert det tildeling av nye variablar frå ESS datamaterialet.
Sidan nokon må få tildelt variabel først, og sidan dei som kjem etter ikkje kan få same variabelen, ønskjer
vi å lage ein mest mogeleg rettferdig prosedyre. Vil vi trekkje eit tilfeldig tal mellom 1 og n (der n er
talet av registrerte kursdeltakarar). Dette gir startnummer i den alfabetiske lista over kursdeltakarane.
Vi følgjer så denne lista alfabetisk til alle har fått registrert sin variabel. For dei som ikkje er til
stades eller som ikkje klarer å bestemme seg vil det i tida etterpå gjelde at den som kjem først får velje
først mellom dei ledige variablane. Det er også mogeleg å byte variabel om ein skulle finne ein noko meir
interessant variabel som enno ikkje er teken i bruk.
Krav til ein avhengig variabel
For å kunne gjennomføre ein regresjonsanalyse bør det veljast ein variabel med høveleg skalanivå og
nok variasjon. Sjølv om det ikkje er vanskelegare å nytte ordinalskalavariable som avhengig variabel enn
nominalskalavariable, vil vi tilrå å forenkle problemstillinga slik at enkel logistisk regresjon vert
nytta der vi ikkje kan forsvare ordinær OLS regresjon.
Ordinær OLS-regresjon
krev at den avhengige variabelen er ein intervallskala eller forholdstalskala (måletalskala).
Svært mange variablar i sosiologi og statsvitskap har formelt sett ordinalskala, men kan med visse
føresetnader (og for våre formål) handsamast som intervallskala. Dette gjeld typisk svar på spørsmål
der det er spurt etter styrken eller intensiteten i ein person sine meiningar, vurderingar eller
kjensler. Dersom spørsmålet har 7 eller fleire rangerte svarkategoriar, og dersom det er nok variasjon,
dvs. dersom det finst nok personar utanom dei 2-3 modale kategoriane, så kan vi truleg nytte variabelen
som ein intervallskala. Dersom vi gjer dette må vi kunne argumentere for at avstanden i meiningsintensitet
mellom dei som svarar t.d. 1 og 2 er om lag den same som mellom dei som svarar t.d. 5 og 6 (eller 2 og 3,
osv). Dersom det kan reisast innvendingar mot ei slik tolking av den underliggjande meiningsdimensjonen
gjer vi best i å nytte logistisk regresjon.
Logistisk regresjon
krev at den avhengige variabelen har nett 2 verdiar. Dersom ein variabel ikkje har to verdiar i
utgangspunktet vil vi alltids kunne konstruere ein ny variabel med berre to verdiar ved omkoding.
Ved omkodinga bør ein ta utgangspunkt i ein teoretisk interessant og tydeleg definert svarkategori
med nok personar. Denne kategorien kodar vi 1 (ja), alle dei andre kategoriane kodar vi 0 (nei). Kva som
er ”mange nok” i ja-kategorien er avhengig både av storleiken på datamaterialet og kompleksiteten i
modellen. I store survey som dette bør nok ca 100 personar vere ei nedre grense. Det bør heller ikkje
vere ”for mange” i denne kategorien. Truleg bør det ikkje vere mye meir enn ein tredjedel av datamaterialet.
Data: SPSS-fil (zip-arkiv) for nedlasting (22 land 7.3 MB)
Data: SPSS-fil (zip-arkiv) for nedlasting (Norge 1.9 MB)
Data: Detaljert variabelbeskrivelse - pdf-fil 1,8 MB
Data: Spørreskjema, hoveddelen
Data: Spørreskjema, tillegg
Bakgrunnsstoff om utviklinga av spørreskjemaet