semesteroppgave

SOS 3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Semesteroppgåva
Semesteroppgåva er obligatorisk og er ein integrert del av eksamen der den tel 50% av samla karakter

Krav til semesteroppgåva (in Norwegian) Requirements for the term paper (på engelsk)
List of variables in ESS/ Liste av variablar i ESS (berre på engelsk)
Framlegg til disposisjon for semesteroppgåva
Almenne feil og mistydingar i semesteroppgåvene

Om å velje variabel til semesteroppgåva:
Allment tilgjengelege data er frå European Social Survey 2002, og er henta frå heimesidene deira
Alternativt kan ein gå inn via ESS-sidene til NSD
Sjå også nedanfor der dei viktigaste filene er gjort klar for nedlasting.

Data for skriving av semesteroppgåve
Datasettet som er stilt til disposisjon for å skrive semesteroppgåve er lagt til rette slik at Norsk samfunns-vitenskapelig datatjeneste og Datatilsynet kan godta at personvernet er tilstrekkeleg teke vare på.

Det er eit mål at alle skal ha ulike avhengige variablar. Grunnen til dette er at vi tidlegare har sett at når to studentar skriv om det same blir oppgåvene nær sagt identiske. Dette skaper problem for eksamenskommisjonen. For å få til ulike variablar for alle må vi styre prosessen. Vi gjer dette på følgjande måte:

1) Dei som har eigne data får sjølvsagt nytte desse dersom den avhengige variabel stettar dei krava vi set (sjå nedanfor).
2) Dei som har nytta ein variabel i tidlegare semester og no ønskje å ta kurset om igjen, får sjølvsagt nytte same variabelen om igjen.
3) Dei som ikkje har eigne data og heller ikkje har skrive om ein bestemt variabel i eit tidlegare kurs få no velje seg nokre framlegg til avhengig variabel frå European Social Survey 2002. Ut frå dokumentasjonen som er tilgjengeleg nedanfor (start med den enkle variabellista) bør kvar einskild velje 3-4 variablar det kan vere interessant å skrive eit essay rundt.

Første runde med tildelinga av variabel skjer onsdag 1 september med registrering av dei som har eigne data dei vil nytte eller som har arbeidd med ein variabel i tidlegare kurs og som vil fortsetje med same variabelen. Onsdag 8 september vert det tildeling av nye variablar frå ESS datamaterialet.

Sidan nokon må få tildelt variabel først, og sidan dei som kjem etter ikkje kan få same variabelen, ønskjer vi å lage ein mest mogeleg rettferdig prosedyre. Vil vi trekkje eit tilfeldig tal mellom 1 og n (der n er talet av registrerte kursdeltakarar). Dette gir startnummer i den alfabetiske lista over kursdeltakarane. Vi følgjer så denne lista alfabetisk til alle har fått registrert sin variabel. For dei som ikkje er til stades eller som ikkje klarer å bestemme seg vil det i tida etterpå gjelde at den som kjem først får velje først mellom dei ledige variablane. Det er også mogeleg å byte variabel om ein skulle finne ein noko meir interessant variabel som enno ikkje er teken i bruk.

Krav til ein avhengig variabel
For å kunne gjennomføre ein regresjonsanalyse bør det veljast ein variabel med høveleg skalanivå og nok variasjon. Sjølv om det ikkje er vanskelegare å nytte ordinalskalavariable som avhengig variabel enn nominalskalavariable, vil vi tilrå å forenkle problemstillinga slik at enkel logistisk regresjon vert nytta der vi ikkje kan forsvare ordinær OLS regresjon.

Ordinær OLS-regresjon krev at den avhengige variabelen er ein intervallskala eller forholdstalskala (måletalskala). Svært mange variablar i sosiologi og statsvitskap har formelt sett ordinalskala, men kan med visse føresetnader (og for våre formål) handsamast som intervallskala. Dette gjeld typisk svar på spørsmål der det er spurt etter styrken eller intensiteten i ein person sine meiningar, vurderingar eller kjensler. Dersom spørsmålet har 7 eller fleire rangerte svarkategoriar, og dersom det er nok variasjon, dvs. dersom det finst nok personar utanom dei 2-3 modale kategoriane, så kan vi truleg nytte variabelen som ein intervallskala. Dersom vi gjer dette må vi kunne argumentere for at avstanden i meiningsintensitet mellom dei som svarar t.d. 1 og 2 er om lag den same som mellom dei som svarar t.d. 5 og 6 (eller 2 og 3, osv). Dersom det kan reisast innvendingar mot ei slik tolking av den underliggjande meiningsdimensjonen gjer vi best i å nytte logistisk regresjon.

Logistisk regresjon krev at den avhengige variabelen har nett 2 verdiar. Dersom ein variabel ikkje har to verdiar i utgangspunktet vil vi alltids kunne konstruere ein ny variabel med berre to verdiar ved omkoding. Ved omkodinga bør ein ta utgangspunkt i ein teoretisk interessant og tydeleg definert svarkategori med nok personar. Denne kategorien kodar vi 1 (ja), alle dei andre kategoriane kodar vi 0 (nei). Kva som er ”mange nok” i ja-kategorien er avhengig både av storleiken på datamaterialet og kompleksiteten i modellen. I store survey som dette bør nok ca 100 personar vere ei nedre grense. Det bør heller ikkje vere ”for mange” i denne kategorien. Truleg bør det ikkje vere mye meir enn ein tredjedel av datamaterialet.
Data: SPSS-fil (zip-arkiv) for nedlasting (22 land 7.3 MB)
Data: SPSS-fil (zip-arkiv) for nedlasting (Norge 1.9 MB)
Data: Detaljert variabelbeskrivelse - pdf-fil 1,8 MB
Data: Spørreskjema, hoveddelen
Data: Spørreskjema, tillegg
Bakgrunnsstoff om utviklinga av spørreskjemaet