Treningssett og instruksjoner er grunnleggende begreper innen kunstig intelligens (KI). I denne artikkelen ønsker vi å gi en enkel og tydelig forklaring på hvordan data, instruksjoner og potensielle skjevheter i treningsmaterialet påvirker hvordan KI-systemer lærer og tar beslutninger. Målet er å gi deg bedre innsikt i teknologien, slik at du kan bedre forstå både mulighetene og begrensningene ved KI.
Et treningssett er en viktig komponent innen statistikk, dataanalyse og datavitenskap, og brukes primært som et datasett i utviklingen av maskinlæringsmodeller. Det består av en samling datapunkter som brukes til å trene algoritmer slik at de kan lære mønstre og gjøre predikasjoner. Vanligvis deles treningssett opp slik at omtrent 80% av dataene brukes til å trene modellen, mens de resterende 20% brukes til å validere resultatene fra treningen.
Training data poisoning (kan oversettes som forgiftning av treningsdata) er en type cyberangrep hvor angripere manipulerer og ødelegger treningsdataene som brukes til å utvikle KI- og maskinlæringsmodeller.
Parametere er som innstillinger eller justeringer i en KI-modell som bestemmer hvordan den jobber med informasjonen den får. Når modellen lærer, endrer den disse innstillingene litt etter litt for å bli bedre til å forstå dataene og ta riktige beslutninger. På den måten kan KI-systemet forbedre seg over tid og løse oppgaver mer nøyaktig.
Ground truth (kan oversettes til sannhetsdata) referer til verifiserte, korrekte data som brukes til trening, validering og testing av KI-modeller. Å «grounde» en KI-modell betyr å gi den fakta om den virkelige verden slik at den produserer mer nøyaktig og nyttig informasjon.
RAG er et KI-rammeverk som henter fakta fra en ekstern kunnskapsbase for å forankre store språkmodeller til mest mulig nøyaktig og oppdatert informasjon, samtidig som det gir brukerne innsikt i språkmodellens genereringsprosess. Dette er et effektivt verktøy for å redusere hallusinasjoner.
Syntetisk data er kunstig data designet for å etterligne virkelig data. De genereres gjennom statistiske metoder eller ved bruk av KI-teknikker som dyp læring og generativ KI. Syntetisk data er et nyttig verktøy for bedrifter for å sikre at ingen sensitiv informasjon brukes i KI-modellen.
Differensielt personvern er en matematisk teknikk som brukes for å tilføre en kontrollert mengde tilfeldighet til et datasett for å forhindre at noen kan hente ut informasjon om enkeltpersoner i datasett. Systemer som Googles VaultGemma er en differensielt privat LLM utviklet for å sikre at sensitiv data ikke kan lekkes eller huskes av LLM-en.
Algoritmisk diskriminering oppstår når systematiske feil i maskinlæringsalgoritmer gir urettferdige eller diskriminerende resultater. Dette reflekterer ofte eller forsterker eksisterende sosioøkonomiske, etniske og kjønnsrelaterte skjevheter.
Bias mitigation (kan oversettes til reduksjon av diskriminering) referer til den proaktive prosessen med å identifisere, adressere og redusere skjevheter som kan eksistere i organisasjoner eller samfunnet. For KI spesielt handler dette om systematisk diskriminering innebygd i KI-systemer som kan forsterke eksisterende fordommer, diskriminering og stereotyper.
KI-hallusinasjoner er et fenomen der store språkmodeller (LLMs) oppfatter mønstre eller sammenhenger som ikke eksisterer eller som er usynlige for mennesker. Dette fører til resultater som kan være meningsløse eller helt unøyaktige. Slike feil kan være vanskelige å oppdage, noe som understreker viktigheten av å både dobbeltsjekke og kvalitetssikre viktige data generert av KI.
Et prompt er instruksjoner gitt til en KI av et menneske, formulert i naturlig språk i stedet for programmeringskode. Prompter er avgjørende for å oppnå gode KI-resultater, og kan på norsk oversettes til «instruks».
Instruks konstruksjon er prosessen med å utforme instrukser som gir best mulig resultater eller svar. Dette er en nyttig metode for å sikre optimal bruk av KI-verktøy.
Vibe-koding er uformell koding som baserer seg på store språkmodeller (LLM) i stedet for tradisjonelle programmeringsferdigheter. Det gjør det mulig for mennesker å genere fungerende kode gjennom bruk av naturlig språk/instrukser, noe som kan hjelpe mennesker med å bygge applikasjoner raskt, og uten omfattende erfaring med koding. Dette har imidlertid sine ulemper. Applikasjoner bygget med vibekoding har problemer med implementerte feil, tapt sikkerhet og problemer med skalering.
Om du ønsker å lære mer om vibekoding har Deloitte laget en rask introduksjonsvideo til begrepet her.
Instruks injeksjon er en type cyberangrep mot store språkmodeller, hvor hackere skjuler ondsinnede innspill som legitime prompter, og manipulerer generativ KI til å lekke sensitiv informasjon, spre feilinformasjon eller oppnå andre personlige fordeler.
Tokens er datamengder som KI-modeller, og som muliggjør prediksjon, generering og resonnering. Når en transformer-basert KI-modell (som ChatGPT) behandler tekst, bilder, lydklipp, videoer eller andre datatyper, oversettes disse til en prosess kalt «tokenisering».
Modalitet handler om hvilken type informasjon eller data en KI-modell jobber med. Det kan for eksempel være tekst, bilder, lyd eller video. Når en KI kan bruke flere modaliteter samtidig, betyr det at den kan forstå og kombinere forskjellige typer informasjon, som å se på et bilde og samtidig lese teksten som hører til. Dette gjør KI-systemet bedre på å forstå verden på en mer helhetlig måte.
Denne artikkelen har introdusert sentrale begreper knyttet til KI. Vi vil fortsette å oppdatere listen etter hvert som nye buzzwords og konsepter dukker opp, slik at du alltid får tilgang til enkle og forståelige beskrivelser av relativt komplekse begreper.
Ønsker du å vite mer om vår KI-ekspertise i Deloitte så kan du lese mer her, eller ta kontakt med oss direkte.
Se også våre andre artikler: