AI och framtida examinationer

22 september 2025

AI har förändrat villkoren för hemtentamen och ställer idag nya krav på lärare på alla nivåer. Inte ens de mest reflekterande och analytiska hemtentor, som tidigare ansågs säkra för universitetsstudenter, är skyddade mot AI-fusk. Vi kan slå knut på oss själva för att formulera frågor som tar avstamp i studenternas egna erfarenheter, i specifik kurslitteratur eller i seminarie- och föreläsningsinnehåll. Men det spelar ingen roll. Språkmodeller kan fabricera erfarenheter, väva in kurslitteratur i sina svar och till och med använda studenternas egna uppladdade anteckningar. Med så avancerade verktyg blir det avsevärt svårare, för att inte säga omöjligt, att avgöra om inlämnade svar är studenternas egna.

Men handen på hjärtat: har hemtentor någonsin varit helt säkra? Har vi alltid vetat vem som skrivit texten som lämnas in? Att studenter kunnat anlita en spökskrivare är inget nytt problem. Skillnaden är att AI är skrupelfri och alltid tillgänglig. Den arbetar snabbt, billigt och kan dessutom producera texter som ibland överträffar vad många studenter själva kan prestera. Eftersom alla har tillgång till dessa språkmodeller är problemet i dag betydligt större än tidigare och frestelsen att fuska större. Men grundproblemet är inte nytt.

Låt oss därför stanna upp och fundera: Vad vill vi egentligen uppnå med hemtentamen som examinationsform? Är syftet att träna studenternas skrivförmåga, eller är hemtentan främst ett verktyg för att pröva de mer komplexa lärandemål som inte låter sig testas genom salstenta? Om inte kursplanen uttryckligen anger att vi ska examinera skrivförmågan då måste värdet med hemtentan ligga i att pröva just de komplexa lärandemålen. Problemet är alltså inte att studenterna tar med sig frågorna hem under ett par dagar. Problemet är att vi förväxlar formen för kunskapsredovisningen med kunskapen som ska examineras.

Ett försök till lösning

Förra året började jag experimentera med hemtentamen och omdefiniera hur svaren skulle redovisas. Jag konstaterade tidigt att jag aldrig kan hindra studenter från att använda AI – de kan både ta fram svar och formulera dem i text. Lika omöjligt var det för mig att avgöra om en text skrivits av studenten själv eller av en språkmodell. Att lägga arbetstid på att sätta upp och bevaka restriktioner framstod som utsiktslöst. Skulle jag dessutom läsa varje text med misstanken att den var AI-genererad, skulle det bli omöjligt att koncentrera mig på innehållet.

Så varför inte utgå ifrån att alla använder AI? Precis som studenter tidigare använt uppslagsverk och facklitteratur. Varför inte räkna med att de tar till alla medel för att komma fram till svar på mina frågor? Detta utgör inget problem så länge jag examinerar hur väl de har integrerat kunskapen själva. Om studenterna använder AI för att ta fram ett svar, men sedan lär sig det svaret, vad är då problemet om man bara ser till förvärvad kunskap? Om en färdig analys från AI gör att studenterna bättre förstår hur en analys kan byggas upp, finns det då inte ett värde i det? Det är studenternas kunskap jag bedömer, inte vägen dit. Men på universitetsnivå behöver man testa kunskaper på en djupare nivå, och då behöver vi förvissa oss om att studenterna inte bara lärt sig svar utantill utan att de också kan resonera och diskutera.

Genomförande

Jag behöll alltså hemtentamen som form, i den bemärkelsen att studenterna arbetade hemma med de examinerande frågorna. För att konstruera tentafrågorna tog jag hjälp av ChatGPT. Mest för att det är ganska tidsödande (och i ärlighetens namn ganska oinspirerande) att komma på olika examinationsfrågor. Jag matade in information om kursnivå, studentgrupp och kursplan; jag laddade upp kurslitteratur, föreläsningsmanus och PowerPoint-presentationer. Jag laddade även upp foton som jag tagit på mina whiteboardanteckningar. Därefter bad jag AI ta fram fyrtio frågor, tio till varje centralt moment i kursen, där varje fråga skulle ha en beskrivande, en analyserande och en diskuterande del. Resultatet var imponerande. Jag gick igenom frågorna manuellt, justerade och anpassade dem, och valde sedan ut de tre bästa per kursmål och bearbetade dem ytterligare. Kvar blev tolv frågor som jag finputsade tills de var ungefär likvärdiga med avseende på svårighetsgrad.

ChatGPT hjälpte mig också att förbereda två seminarier. Studenterna skulle läsa två metodorienterade texter och två källtexter. Jag laddade upp materialet till ChatGPT och bad om trettio flervalsfrågor per text. Efter manuell granskning och redigering bad jag AI skapa AIKEN-filer av dessa frågor som jag sedan laddade upp till lärplattformen Moodle. Med dessa som grund skapade jag fyra quiz (ett till varje seminarietext) med 6–8 frågor som slumpades från min frågebank. Studenterna fick göra varje quiz tre gånger och bästa resultatet räknades. Testerna var tidsbegränsade och kunde göras hemma, men tidsramen för varje testtillfälle var för snäv för att de skulle kunna slå upp svar. På så sätt säkerställdes att de faktiskt hade arbetat igenom texterna. Vid seminarierna kunde vi därför gå direkt på fördjupade resonemang.

Poängen från quizzerna skulle sedan adderades till poängen från den muntliga hemtentamen. Det var emellertid viktat så att hemtentan var mera avgörande för skursbetyget än quizzerna. Även här tog jag hjälp av ChatGPT, denna gång för att formulera rimliga förväntningar på hemtentasvaren. Jag laddade upp mina tolv slutgiltiga frågor, kursmål och information om kursens nivå i utbildningen. Jag betonade att beskrivande svar skulle ge lägre poäng än analyserande och reflekterande svar. Resultatet blev en detaljerad lista med bedömningskriterier till varje tentafråga som jag, efter ytterligare justeringar, kunde använda som stöd vid examinationen.

Den muntliga tentamen

Redan vid kursstart informerade jag studenterna om upplägget på examinationsformerna. Quizztesterna föranledde inte många frågor men hemtentan behövde jag förklara lite mer ingående. Studenterna skulle få frågorna en vecka i förväg men själva redovisningen skulle ske som ett enskilt samtal med mig. Jag betonade att de gärna fick använda AI, kurslitteratur eller andra hjälpmedel under förberedelserna – mitt fokus var deras faktiska kunskap, inte metoden de använt för att förvärva den. Vid själva samtalet fick de dra en fråga ur en skål, förbereda sig kort, och sedan redovisa muntligt. Anteckningar fick de ha som stöd om de tappade tråden, men inte läsa innantill.

Upplägget gjorde det lätt att skilja mellan de som bara memorerat svar och de som verkligen förstått. De första fastnade snabbt i den redogörande delen, medan de som arbetat mer grundligt kunde resonera, analysera och utveckla sina svar. Samtalen tog cirka femton minuter och inkluderade både studentens redovisning och mina följdfrågor. Eftersom ingen visste vilken fråga som skulle dras hade alla förberett sig på samtliga hemtentafrågor. Jag såg väldigt omfattande anteckningar, understrykningar och bokmärken i åtskilliga böcker och stora mindmaps. Det var mycket glädjande att se hur väl förberedda de allra flesta var.

Erfarenheter

Fördelarna var många:

  • Tidsbesparing: Betygen kunde sättas direkt vid kursens slut, utan långdragen rättning.
  • Rättssäkerhet: Samtalet gav mig möjlighet att ställa följdfrågor och kontrollera förståelsen. 
  • Djup och bredd: Kombinationen av quiz och muntlig redovisning prövade både faktakunskaper och djupare förståelse.
  • Rättvisa: Upplägget gynnade både skrivstarka och muntligt starka studenter.

Nackdelarna var främst det tekniska beroendet i mitt förberedelsearbete. För studenternas del var det nervositet och känslan hos vissa att de fått en ”svårare fråga”, eller egentligen en fråga de inte önskat. Men bara vetskapen om att de fick kika i anteckningarna om de tappade bort sig verkade lugnande. För de allra flesta släppte nervositeten efter ett litet tag. Studenterna var också tämligen väl medvetna efteråt om hur pass väl de presterat. Fastän jag inte meddelade något betyg i samband med examinationen så visste de flesta om det hade gått bra eller dåligt för dem. 

Förberedelserna, det vill säga att skanna litteratur, ladda upp dokument och prompta ChatGPT, kan låta mödosamma. Men i praktiken tog de betydligt mindre tid än att rätta ett tjugotal traditionella hemtentor. Det som tog tid med avseende på förberedelser var den mänskliga handpåläggningen på ChatGPTs frågeförslag. Och detta är det som jag vill understryka som mycket nödvändigt för att detta experiment skulle fungera. AI:n kunde genererat en stor mängd frågor och bedömningskriterier, men dessa behövde jag gå igenom och justera och finputsa tills de var i linje med vad jag, som undervisande lärare och examinator, ansåg var meningsfulla och rimliga. 

Slutsats

Mitt experiment visade att det går att utforma examinationer som både tar hänsyn till AI, stärker studenternas lärande och prövar komplexa lärandemål rättssäkert. Samtalen blev mer levande och nyanserade än vanliga hemtentor och gav en tydlig bild av kunskapsnivån. Jag behövde aldrig gissa vad studenterna menade med sina svar. Var något oklart så frågade jag. Blev jag osäker på om de verkligen förstod vad de talade om så kunde jag pröva det med att be dem ge ett exempel eller ställa en kort uppföljande fråga. 

En iakttagelse som förtjänar att lyftas är att studenternas prestationer fördelade sig på ett sätt som påminde om en omvänd normalfördelningskurva. I stället för en stor grupp i mitten och färre i topp och botten, fann jag många starka prestationer och flera svaga, men förhållandevis få i mellanskiktet. En möjlig förklaring är att den muntliga formen förstärkte skillnaderna. Studenter som verkligen hade integrerat kunskapen kunde briljera i samtalet, medan de som förlitat sig på ytliga förberedelser eller memorerade svar snabbt kom till korta. Mellangruppen, som i en traditionell skriftlig hemtentamen ofta kan ”glida igenom” på halvbra resonemang, försvann i denna form. Antingen kunde studenterna omsätta kunskapen i analys och resonemang – eller så kunde de det inte. En annan tänkbar förklaring är att stress och nervositet spelade en utslagsgivande roll: vissa studenter växte av situationen, medan andra tappade fotfästet. I förekommande fall var många hjälpta av att ta en snabb titt i sina anteckningar. En annan lösning skulle kunna vara att studenterna fick dra flera frågor och välja en av dem. Resultatet blev i alla händelser en tydligare polarisering än vad jag sett vid traditionella hemtentor.

Om vi lyckas kombinera teknikens möjligheter med det personliga mötet i tentamenssituationer kan vi få det bästa av två världar. AI:n blir då inte ett problem som vi behöver lösa eller något som studenterna använder i hemlighet. Så länge vi säkerställer att studenterna integrerat kunskapen vi examinerar, och att den kunskapen är korrekt, är vägen dit inte ett lika stort bekymmer. I stället kan vi rikta vår uppmärksamhet mot att utforska nya möjligheter, där studenter uppmuntras att integrera AI som en av många resurser på vägen mot att göra ny kunskap till sin egen.

Johan Adetorp

GenAI-sommaren 2025. Några nedslag

4 september 2025

Sommar och semester betyder för min del total avkoppling från jobbet, för det mesta. Det inbegriper också avkoppling från AI, men bara delvis. Det går inte att helt koppla bort sig från att åtminstone hålla viss koll på utvecklingen. Som en service till läsare av denna blogg som liksom jag slappnat av lite, kommer här en kort sammanfattning av de nyheter som jag finner mest intressanta under perioden juni–augusti 2025, med reservation för att detta är en högst personlig värdering. 

OpenAIs uppdatering av GPT modellerna till version 5 (7 augusti) var hett emotsedd av många. De mest entusiastiska förväntade sig AGI, artificiell generell intelligens, ett begrepp vars definition är långt ifrån tydlig, men som signalerar något i stil med att artificiell intelligens kan utföra alla uppgifter som människor kan utföra. Det blev inte så. Därmed inte sagt att modellen inte innebär en förbättring. 

Den största förbättringen torde vara tillgängligheten. ChatGPT5 ger nu alla användare (gratisversionen såväl som betalversionerna) tillgång till vad som ofta kallas en “resonerande” modell, det vill säga en modell som “tänker efter” innan den ger svar.  Detta ökar vanligtvis tillförlitligheten (obs ÖKAR, inte GARANTERAR) i svaren. Det är färre så kallade hallucinationer (att modellen hittar på, eller killgissar), och ofta kan man följa hur modellen resonerar, vilket ger lite högre så kallad “förklarbarhet” till vad som händer i den “svarta lådan”. 

Den första lanseringen av ChatGPT5 innebar att användaren inte längre kunde välja nivå av resonerande, utan att modellen själv “valde” detta, beroende på uppgift. Det var inte så lyckat. Dessutom tog OpenAI bort möjligheten för användaren att välja tidigare modeller (GPT4o till exempel) Allt detta var man efter protester från användare tvungna att backa från. 

GPT5 är nu också integrerad i Miocrosofts Co-pilot, och man kan även här välja nivå av “tänkande” beroende på uppgift. Dock är det, som vanligt, oklart om Co-Pilot alltid använder den mest kraftfulla modellen för uppgiften. Skillnaderna i kvalitet mot att använda ChatGPT5 är ibland slående. 

I samband med lanseringen av ChatGPT5 släppte OpenAI också två “öppna” modeller, båda med namnet gpt-oss. Det hade man inte (trots namnet på företaget) gjort sedan GPT2 Dessa modeller kan alltså köras lokalt, på den egna datorn, även om den större versionen kräver ganska mycket datorkraft. Dessa modeller är inte lika kraftfulla, men de gör det möjligt att jobba med visst material som är känsligt och som man inte önskar ladda upp i molnet. 

Anthropic har under sommaren (5 augusti)  lanserat sin Claude 4.1 som också den ska vara bättre på “tänkande”, dvs använder mer tid på att lösa uppgifter i flera steg. Framför allt är det dock inom kodning som modellen är en förbättring mot tidigare, verkar det som. Mistral, den europeiska konkurrenten til de amerikanska jättarna, lanserade sin egen “resonerande modell” Magistral. Trenden verkar tydlig: bättre resultat, snarare än stärre modeller. 

Google har tagit bort “preview” från namnet på sina Gemini 2.5 flash och Geminis 2.5 Pro (juni).. Gemini hade under våren seglat upp som den främsta konkurrenten till ChatGPT, och integrerats i Google sök (AI-sammanfattningar i början av vissa sökningar har börjat dyka upp). Gemini integrerar på ett annat sätt än de andra olika modaliteter. Videogenereringsverktyget Veo är bland det bästa på marknaden, och i slutet av augusti introducerades något som verkar vara bland det bästa bildgenererings/bildredigeringsverktyget. Det gick först under kodnamnet “nano banana” men det officiella namnet nu är det något tråkigare Gemini 2.5 Flash image. Det som framför allt har imponerat är verktygets förmåga att följa instruktioner, och redigera detaljer i bilder utan att förändra helheten.

Visserligen är bättre video- och bildgenerering intressanta utvecklingar i sig, men än mer intressant är det som ligger under. Modellerna tränas nu bredare, för att nå en nivå av kunskap om världen som går utöver att kunna förutsäga nästa ord i en ordsekvens, till att skapa simuleringar av världen i vidare mening, inte minst med hänsyn till grundläggande fysik. Detta är en förutsättning för en artificiell intelligens som också ska kunna agera i den fysiska världen, till exempel integrerad i robotar. 

Området musikgenerering har under en tid dominerats av tjänsterna Suno och Udio som växlat sinsemellan i att kunna erbjuda de mest  högkvalitativa tjänsterna. Nu har de fått viss konkurrens av den etablerade talsyntestjänsten Elevenlabs som lanserade Eleven Music i början av augusti. Det intressanta med denna tjänst är att den bygger på licencierad träning, där rättighetsägare till musik ska få del av intäkterna. Detta är ett relativt nytt fenomen inom träning av modeller för generativ AI, där standarden annars har varit “be inte om tillåtelse, be om ursäkt”, för användning av upphovsrättsskyddat material. 

En för högskolevärlden (och lärande i stort) intressant funktion som introducerats i ChatGPT den 29 juli är “Study mode” (“Studera och lär mig” på svenska). Det är en modifiering av hur chatboten uppför sig i relation till frågor om fakta från användaren. I detta läge är modellens uppgift att guida användaren i en lärandeprocess. Modellen ger (oftast) inte direkt svar på en fråga (ett svar som kan kopieras och användas i till exempel en inlämningsuppgift) utan ställer istället motfrågor ämnade att stimulera till fördjupning och vidare kunskapsinhämtning. Den kan också skapa studieplaner och quiz för att testa de inhämtade kunskaperna. Vad innebär detta? Kanske är detta ett första steg bort från “fuskfrågan” och frågan om AI gör oss dummare, som har dominerat diskussionen om AI och lärande. Det har naturligtvis gått att prompta chatbotar till att agera lärare och studieguider även tidigare, men nu kan studenter och elever som tar ansvar för sitt eget lärande enkelt välja att själva utgångspunkten för interaktionen med modellen ska vara en lärandeprocess. Anthropic och Google har skapat motsvarande “lärolägen” för sina chatbotar Claude och Gemini. Detta är något som tål att utforskas närmare. 

Genomgången ovan av nya funktioner och utvecklingar i de vanligaste verktygen för generativ AI är selektiv. Den baseras på vad JAG har funnit intressant under de senaste två månaderna. En sak är säker, utvecklingen inom generativ AI står inte stilla, även om vi tar semester.

Jonas Svensson

KRITISKT AI litteracitet som ej går att mäta

1 september 2025

Nano Banana(Gemeni 2.5 Flash)-genererad illustration

Sedan mitt förra blogginlägg kring AI-litteracitet har tankarna snurrat vidare och jag har både lyssnat och läst på en massa kloka (och även okloka) personer kring frågor rörande AI. När det gäller just AI-litteracitet skulle jag vilja både revidera hur jag ser på begreppet AI-litteracitet så att det bättre motsvarar vad jag avser.

Likt andra förmågor har OECD gjort även AI litteracitet till något som går att mäta. Problemet med detta är att det då reduceras till aspekter som enligt mig är mindre viktiga i förhållande till användandet av generativ AI (läs digitalisering – appar, program, lärplattformar osv). Fokus blir istället på kunskaper som går att ”checka av” såsom användande av appar, skriva bra promptar osv. Risken finns när det reduceras till mätbarhet att utbildning i ett land styr mot att få bra resultat på testerna. Se exempelvis vilka effekter PISA mätningarna har fått för svensk skola.

Mitt förtydligande och kring min inställning till AI-litteracitet är att jag vill lägga till kritisk. En kan tycka att kritisk AI-litteracitet inte är så stor skillnad mot just AI-litteracitet men det gör att fokuset förskjuts mot just det kritiska i stället för själva litteraciteten och generativ AI. I det kritiska ligger att kunna diskutera om det är etiskt rätt att använda generativ AI och förstå på vilket sätt generativ AI spelar roll för hela samhället. Det innebär att kunna förstår hur det är maskiner och inget annat och att detta måste ställas i relation till både mitt eget användande och den globala användningen. På detta sätt utvecklas förmågan att bättre förstå vad tekniken också kan göra med (fake news osv). Det finns så många aspekter att börja lyfta på ett mer kritiskt sätt kring användande av generativ AI som kräver inte bara många olika blogginlägg utan också mycket mer både forskning och allmän debatt. Det gäller exempelvis miljöaspekter, det gäller techjättarnas narrativ som många av oss sväljer osv. För att väcka tankarna och förstå hur myter lever vidare kring generativ AI och även hur kritisk AI litteracitet kan förstås så rekommenderas att lyssna på Podden ”Teaching in higher education”.(jag fick själv upp ögonen för just kritisk AI litteracitet i detta avsnitt)

I mitt förra inlägg skrev jag om hur jag i en av mina kurser skulle använda mig av en metareflektion som metod. Med tanke på kritisk AI-litteracitet är det något jag kommer fortsätta utveckla då utfallet var mycket bra. Det var både ris och ros från studenterna men merparten av studenterna upplevde att det verkligen hjälpte dem att utvecklas under kursen. I utvärderingen som gjordes där jag hade ett fokusgruppsamtal var det olika sätt som studenterna upplevde det hade hjälpt. En av studenterna uttryckte att hen när jag presenterade det inte såg någon som helst mening med det men i slutet av kursen verkligen hade ändrat uppfattning. Det finns många delar att utveckla men ändå ett mycket spännande arbetssätt för att sätta fokus på studenternas tänkande processer där exempelvis generativ AI kunde vara helt frånvarande för att nå vidare i sina tankar. Jag både hoppas och tror att arbetssättet kan stötta mig i bedömningen av studenterna men framförallt att jag väckte så många positiva reaktioner från studenterna när de upptäckte vad det gav dem att få ”stanna” upp och på allvar reflektera.

Tobias Björklund