Generativ AI i högre utbildning. En kommentar till Ulf Danielsson

Postat den 19th januari, 2025, 15:58 av manniska-maskin-samhalle

An image of a physics professor fighting off cybernetic windmills with a blackboard

Det bär mig lite emot att skriva det här inlägget. Professor Ulf Danielsson är en auktoritet inom ett vetenskapsområde som jag hyser den största respekt för, fysik. Jag beundrar också Danielsson som folkbildare. Men i en artikel i Dagens Nyheter den 8/1-2025  för han fram åsikter och påståenden om generativ AI som behöver bemötas.  

Danielsson kommenterar generativ AI i högre utbildning och kritiserar vad han anser är svenska lärosätens alltför positiva och proaktiva hållning när det gäller integrering av den nya teknologin i verksamheten.

Jag håller med honom i en del. Vi kan till exempel inte överlåta bedömning av studentinsatser till stora AI-modeller. Den delen av vårt arbete är myndighetsutövning. Den måste vara transparent och möjlig att ifrågasätta. Han har också rätt i att vissa former av examination blir omöjlig i tider av generativ AI. Det är salstentor i slutna rum och muntliga examinationer som gäller.  

Det finns dock annat som jag inte håller med om. Jag delar inte hans uppfattning att lärosäten ägnar generativ AI för mycket uppmärksamhet. Snarare det motsatta. Om vi bortser från policydokument, centralt organiserade punktinsatser och interna utredningar, och ser universiteten som en helhet, med alla medarbetare inräknade, är den uppmärksamhet som riktas mot generativ AI för liten, skepsisen utbredd och experimentlustan låg. 

Jag uppskattar AI-skeptiker som Danielsson. De behövs verkligen. Men jag kan inte skaka av mig känslan att många kollegor, inte minst inom humaniora, ägnar för mycket tid åt att reflektera, “kritiskt granska” och debattera, och för lite tid åt att observera, kompetensutveckla sig och experimentera. Detta gör att kritiken ofta missar målet. Det läggs för stort fokus på vad AI-system inte kan, eller är dåliga på, att göra, och för lite åt vad de faktiskt kan göra, snabbt och med resultat som är “good enough”, ja ibland mer än så.

Danielsson utgår i sin text från filosofen Shannon Vallors bok The AI Mirror från 2024. Det är en mycket bra bok, även om delar av den beskrivande delen redan är överspelade. Danielsson tar fasta på ett rimligt argument hos Vallor. AI – främst i form av generativ AI – är tränad på historia, på det som har varit. På så sätt är systemen att likna vid speglar som bara reflekterar tillbaka på oss det vi redan vet eller föreställer oss veta (åtminstone som kollektiv). Vallors viktigaste slutsats är dock inte att systemen därmed saknar värde. Det är ganska kraftfullt att på detta sätt ha tillgång till all samlad (nedtecknad) mänsklig erfarenhet. Shannon’s argument är eftersom systemen är som speglar, kan de heller inte peka framåt.  Om vi förlitar oss på generativ AI för att tala om för oss vad vi ska ha AI till hamnar vi fel. Problem uppstår när vi överlåter åt artificiella system att besluta vad vi bör göra. Systemen kan leverera underlag, föreslå åtgärder, ofta väl underbyggda sådana, men det är vi som måste fatta besluten, beslut som vi därmed också kan hållas ansvariga för. AI system kan visserligen fatta beslut åt oss. Det är dock inte, givet just att de är tränade vår historia, en särskilt bra idé att låta dem göra det. 

Danielssons slutsats, utifrån Vallors metafor om systemen som speglar, är dock inte moralisk. Hans slutsats är att AI system inte kan skapa, bara reproducera och plagiera, och att de därmed är av ringa värde. Argumentet bygger på att mänskligt skapande sker ex nihilo, en nästan religiös utgångspunkt. Om vi ser till mänsklig kultur är så ingalunda fallet. Det mesta i mänskligt skapande är resultat av medveten eller omedveten sampling av sådant som andra människor har skapat tidigare, med något nytt som växer fram i processen. Denna process av “blending” är vad Mark Turner och andra har identifierat som både grundläggande och unikt i det mänskliga tänkandet, ja själva grunden för kreativitet.

Alla som har lekt lite med generativ AI inom musik- och bildgenerering och kreativt skrivande vet att detta något som generativa AI-modeller excellerar i. De skapar nytt genom att kombinera gammalt på ett sätt som är oförutsägbart och ofta överraskande. Den som tvivlar kan ju be ChatGPT skapa lite nya svenska ord, och redogöra för deras etymologi. Eller varför inte komponera ett musikstycke i Suno? Egen erfarenhet kanske inte är den bästa utgångspunkten här. Bättre då att ta del resultat av forskning på stora språkmodeller som använder sig av etablerade måttstockar för mänsklig kreativitet, eller läsa matematikern Marcus du Sautoys bok The Creativity Code (2019), skriven flera år innan de stora språk-, bild-, video- och musikmodeller som vi idag har tillgång till lanserades. 

Danielsson hänvisar vidare till resonemang om att AI-system som tränas på AI-genererat material med tiden kollapsar. Argumentet ter sig teoretiskt rimligt, men verkar inte stämma i praktiken. Det sker idag träning av modeller på syntetisk, AI genererad data, med till synes goda resultat. Dessutom gäller argumentet om kollaps framtida modeller, inte de redan mycket potenta system som vi har tillgång till idag, och vars förmågor vi bara har börjat utforska. Det pågår en kapprustning mellan de stora bolagen (och andra) att skapa mer och mer kapabla system, som kan mätas mot olika måttstockar (benchmarks). Detta sker samtidigt som människor i olika verksamheter dagligen hittar nya, revolutionerande tillämpningar av de system som redan finns tillgängliga. Problemet är att för få, inte minst inom akademin, experimenterar.

Kanske är det så att träningsdatan för att skapa stora modeller (Internet) håller på att ta slut. Förutom syntetisk data, har de stora bolagen börjat rikta uppmärksamheten åt arkiven, och ännu ej digitaliserade kulturyttringar i mänsklighetens historia. Allt mer avancerade AI-drivna system kan snabba på digitaliseringen, till inte minst den humanistiska forskningens fromma. Kanske är det bara en tidsfråga innan alla bevarade mänskliga kulturyttringar, och inte bara de som nu råkar finnas tillgänglig i digital form på Internat, ingår i de stora språkmodellernas träningsdata. 

Men kanske viktigare: mängden träningsdata verkar inte vara allt. Det finns indikationer på att systemen börjar bli mättade: att tillförandet av färsk data inte leder till signifikanta förbättringar. Danielsson verkar här helt ha missat den senaste utvecklingen inom generativ AI, ämnat att göra modellerna bättre på områden där de är bevisat svaga: logiska resonemang och, ja, sunt ”mänskligt” förnuft. 

På fackspråk talar man om att öka systemens “test-time compute”. Det är ett försök att undkomma antropomorfiseringen det skulle innebära att säga att modellerna ges möjlighet att “tänka efter”, eller “överväga olika alternativ” innan de levererar sin output. Det har visat sig att om man lägger mer kraft på den så kallade inferensdelen när modeller levererar output på en given input, så förbättras resultaten avsevärt.

Open AI lanserade tekniken i och med sin “resonerande” modell o1 den 12 september 2024, och har förfinat den ytterligare med den efterföljande modellen o3, som presenterades lagom till jul. Andra jättar på marknaden verkar följa efter. Modellen är i skrivande stund inte tillgänglig för allmänheten, men OpenAI har släppt en del testresultat som är häpnadsväckande, om de stämmer. 

Ett av de områden som stora språkmodeller excellerar i är att skriva programmeringskod. Detta är något som flera av oss mediokra programmerare har upptäckt under det senaste året, och som vi har haft stor nytta av. Det blir mer och mer så att “alla kan koda”, vare sig det handlar om att skapa kod för att analysera texter, eller kod för att skapa hemsidor, appar och spel. De stora chatbotarna (ChatGPT, Claude, Gemini etc) levererar snabbt och enkelt fungerande kod i flera av de stora kodspråken om man bara kan beskriva vad man vill ha tillräckligt tydligt. Vi har nått en nivå där om man “klippa och klistra”, så kan man koda. 

Också professionella kodare vittnar om att de har stor nytta av verktygen. Det går mycket snabbare att koda nu. Det verkar dock som om o3 har tagit det hela ett steg längre. Det finns mätverktyg och tävlingar för att avgöra vem som är världens bästa kodare. Ett av de mest framträdande är Codforces. När o3 testades presterade modellen bättre än 99,8% av mänskliga kodare. Den tog position 175 i listan över världens bästa programmerare. 

Testet ARC-AGI är speciellt framtaget för att mäta förmågor hos stora språkmodeller inom områden som anses enkla för människor, men svåra för artificiella system. Det handlar framför allt om abstrakt tänkande. De flesta allmänt tillgängliga toppmodeller har presterat uselt på testet. GPT-3 klarade 0% av frågorna, och GPT4o (det som de flesta idag använder) 9%. Den första  “resonerande” modellen, GPT4-o1, klarade som bäst 39%. O3 klarade i december 76%, vilket är i nivå med genomsnittet för människor. Detta var dock när det sattes begränsningar för den beräkningskraft som OpenAI fick använda. Utan dessa begränsningar presterade O3 88%, alltså en bra bit över det mänskliga genomsnittet. Det kostade förmodligen miljoner dollar (den exakta summan är okänd), men det är inte poängen. Poängen är att det är möjligt för ett artificiellt system att prestera bättre än människor inom ett område som man länge trott var reserverat för människor och där de modeller som var ledande bara för ett halvår sedan helt misslyckas. 

Kanske mer intressant är att o3 presterar på nivå av experter, också inom Ulf Danielssons domän, naturvetenskap.  GPQA, eller Graduate-Level Google-Proof Q&A Benchmark, är ett test utformat särskilt för att utvärdera kapaciteten hos stora språkmodeller. Introducerat i november 2023, består GPQA av 448 flervalsfrågor inom biologi, fysik och kemi, alla skapade av ämnesexperter för att säkerställa hög kvalitet och svårighetsgrad. Experter med doktorsgrad eller under forskarutbildning  uppnår i genomsnitt 65%. Högt kvalificerade icke-experter, med obegränsad tillgång till Internet och tillåtelse att ägna mer än 30 minuter per fråga, når i genomsnitt 34%. Avancerade AI-system, såsom GPT-4o, har nått 39% När o3 testades på GPQA uppnådde modellen 87,7%.

Diskussionen går het bland de som följer AI utvecklingen. Är det så att o3 indikerar att vi är på väg mot, eller kanske redan nu har uppnått, det som benämns AGI, eller artificiell generell intelligens, när AI systemen presterar likvärdigt med människor inom alla (kognitiva) domäner, inklusive abstrakt tänkande och “sunt förnuft”? Den frågan är jag absolut inte kompetent att svara på, så jag nöjer mig att igen återknyta till Danielssons artikel, och dess grundfråga.

Vad innebär generativ AI för utbildning vid våra universitet och högskolor? Danielsson är skeptisk till fördelarna, åtminstone om man låter generativ AI bli ett alltför stort inslag i undervisning och annan verksamhet. “Lite” AI kan vara bra, men bäst vore om vi höll fast vid böcker, papper och penna, i slutna undervisningssalar där kritdammet från svarta tavlan ligger tungt. Annars är risken att hamnar i en ond spiral av reproduktion och plagiat. Ingen ny kunskap produceras. 

Jag delar inte Danielssons skepticism. Det vore fel av oss utbildare vid universitet och högskolor att aktivt verka för att minimera inslaget av generativ AI i studenters kunskapssökande. Det är heller inte fruktbart att konsekvent undvika att utveckla vår egen grundkompetens inom området. Sådan kompetens krävs för att kunna vägleda studenter i hur systemen kan användas på bästa sätt. Om vi väljer begränsning och avvisande är risken att vi aktivt bidrar till att studenterna inte utvecklar kunskap, utan istället ett gravt handikapp i en värld där AI-förstärkt mänsklig kognition förmodligen kommer att vara normen i så gott som alla verksamheter. 

Jonas Svensson, professor i religionsvetenskap, Linnéuniversitetet

Det här inlägget postades den januari 19th, 2025, 15:58 och fylls under Okategoriserade

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *