Sammenlign modeller Sammenlign bildemodeller AI-verktøy Modeller AI-bildemodeller AI-nyheter Søk Prøv gratis
Veiledning 9 min lesing

Slik får du AI til å forklare bilder

Av Chatday Editorial Team ·

aiveiledningbilderproduktivitet
Slik får du AI til å forklare bilder

Her er et triks de fleste fortsatt ikke har prøvd: du kan gi et bilde til en AI og rett og slett spørre hva som foregår. Ikke søke etter det, ikke beskjære det, ikke skrive ut en beskrivelse. Vis den bildet og snakk med den som med en venn som tilfeldigvis kan litt om alt. Innholdslisten på en snacks du ikke klarer å uttale, en rar feilmelding som frøs fast laptopen, en plante i naboens hage, et diagram i en artikkel som mistet deg halvveis. Pek med kameraet, still spørsmålet ditt, få et enkelt svar tilbake. Bildegalleriet ditt ble stille og rolig til en søkeboks, og nesten ingen bruker det sånn ennå.

Hva det betyr at AI kan “se” et bilde

I årevis kunne en chatbot bare jobbe med ordene du skrev. De nyere modellene er annerledes. De er “multimodale”, som er en fancy måte å si at de tar inn mer enn bare tekst. Du kan slippe inn et bilde, og AI-en leser det slik den leser en setning, og svarer så på spørsmål om det. Google bygde Gemini-modellene sine for å håndtere tekst, bilder, lyd og video på én gang, og de nyeste modellene fra OpenAI og Anthropic tar imot bilder også. De store navnene du allerede hører om, kan alle se på et bilde nå.

I praksis betyr det at du slutter å være oversetteren. Før måtte du myse på en etikett, skrive ut det du så, og håpe du beskrev det godt nok. Nå viser du bare etiketten til AI-en. Den gjør mysingen. Endringen høres liten ut, men den fjerner det mest irriterende steget, nemlig å gjøre om det du ser på til ord før du i det hele tatt kan stille spørsmålet ditt.

De beste tingene å peke kameraet mot

Den raskeste måten å forstå poenget på er å se bredden. Her er de hverdagslige oppgavene folk strekker seg etter oftest, hva du skal spørre om, og hva du får tilbake.

Ta et bilde av…Spør…Hva du får tilbake
En næringsdeklarasjon eller innholdsliste”Er det noe her en med nøtteallergi bør unngå?”En enkel gjennomgang av den lille skriften
En plante, et insekt eller en sopp”Hva er dette, og er det trygt å ta på?”Et best mulig anslag, med en oppfordring til å bekrefte
En feilmelding som frøs fast skjermen”Hva betyr dette, og hvordan fikser jeg det?”Feilsøking steg for steg
En håndskrevet lapp eller et gammelt oppskriftskort”Skriv dette ut for meg”Teksten, transkribert
Et diagram eller en graf du ikke henger med på”Forklar hva dette viser på én linje”Trenden i klare ord
En meny på et annet språk”Hva er vegetarisk her?”En oversatt, filtrert kortliste
En lekse eller et matteproblem”Forklar meg hvordan jeg løser dette”Stegene, ikke bare svaret
Et antrekk, et rom, et lysbilde”Hva ville du endret på her?”Ærlig, konkret tilbakemelding

Ingen av disse trenger noen spesiell app eller innstilling. Du laster opp bildet i chatten, skriver spørsmålet ditt ved siden av, og det er hele greia.

Best til hverdagslige “hva er dette?”-øyeblikk

Den klassiske bruken er nysgjerrighet. Et insekt på vinduskarmen, et rart symbol på et klesmerke, en bygning du gikk forbi på ferie. Knips det, spør “hva er dette?”, og du får et utgangspunkt på sekunder. Behandle svaret som et smart anslag heller enn fasit, særlig for alt du skal spise, ta på eller stole på med sikkerheten din. For sånt ber du AI-en si hvor sikker den er, og så bekrefter du.

Best til å lese det som er for lite eller for rotete

Dette er den stille nyttige. AI er god til å hente tekst ut av et bilde, inkludert håndskrift, som er den delen som pleide å være vanskelig. Et legekråkebol, en oppskrift i bestemors håndskrift, en kvittering, en tavle etter et møte. Be den om å “transkribere dette nøyaktig”, og du får skrevet tekst du kan søke i, lime inn eller rydde opp i. Den blir ikke perfekt på virkelig rotete håndskrift, men den er raskere enn å skrive det selv, og du fikser bare de få ordene den bommet på.

Best til skjermbilder og teknikk du står fast på

Skjermbilder er bilder også, og det er her det skinner for en ikke-teknisk person. Møtt på en forvirrende feilmelding, en innstillingsskjerm du ikke forstår, eller en app som ikke vil oppføre seg? Ta et skjermbilde, lim det inn, og spør hva du skal gjøre. Fordi AI-en kan lese tette skjermer, kan den peke på akkurat den knappen du mangler i stedet for å gi deg et generisk “har du prøvd å starte på nytt”. Vil du prøve den enkleste varianten, er Chatdays bildeanalyseverktøy bygget for nettopp dette: slipp inn bildet, still spørsmålet.

Slik får du et tydelig, nyttig svar

Som med alt med AI får du ut det du legger inn. To ting avgjør kvaliteten på svaret, og du styrer begge.

For det første bildet. Et skarpt, godt belyst, nært bilde slår et mørkt og skjevt et. Hvis du bare bryr deg om innholdsdeklarasjonen, beskjær til innholdsdeklarasjonen. Gjenskinn på en skjerm eller en etikett er den vanlige synderen når en AI leser tekst feil, så vipp telefonen for å bli kvitt refleksen. AI-en kan bare jobbe med det som faktisk er synlig i pikslene.

For det andre spørsmålet. “Hva er dette?” gir deg et vagt svar. “Hva er dette, og ville det vært trygt for en hund å spise?” gir deg svaret du egentlig ville ha. Fortell den hvem du er og hvorfor du spør. “Jeg er allergisk mot melk, er det noe på denne menyen jeg bør unngå?” gjør en vegg av utenlandsk tekst om til en kortliste på to linjer. Jo mer konkret du spør, jo mer nyttig blir svaret.

Der AI-syn fortsatt tar feil

Her kommer den ærlige delen, for et verktøy du stoler blindt på er et verktøy som før eller siden vil svi deg. AI-bildelesing er virkelig nyttig, men den har reelle blindsoner.

Den kan ta feil med stor selvtillit. AI-en gir deg et ryddig, sikkert svar selv når den har lest bildet feil, og den sier nesten aldri “jeg er ikke sikker” med mindre du spør. Dette er den samme overselvsikkerheten som får chatboter til å finne på ting med stor selvtillit i tekst, og det gjelder like mye for bilder. Presise tall er en vanlig felle: den kan lese trenden i et diagram riktig, men bomme på en bestemt verdi, så ikke kopier eksakte tall ut av et bilde uten å sjekke dem selv.

Den har også grenser du bør respektere. Den kan lese slurvete håndskrift eller et uskarpt bilde feil. Den er ikke lege, advokat eller regnskapsfører, så et bilde av et utslett, en kontrakt eller en medisinsk skanning fortjener en ekte fagperson, ikke en chatbots gjetning. Og av personvernhensyn vil ikke de gode modellene gjenkjenne en bestemt fremmed fra et bilde, noe som er en funksjon, ikke en feil.

Hvilken AI er best til å lese bilder?

Ærlig talt er de store modellene alle solide på dette nå, og den største vektstangen er bildet ditt og spørsmålet ditt, ikke merket. Når det er sagt, har de litt ulike styrker. Noen er sterkere på tette skjermbilder og dokumenter, andre på raske “hva er dette?” fra virkeligheten. Den eneste måten å vite hvilken som passer deg på, er å gi det samme bildet til et par av dem og sammenligne. Vil du sette to opp mot hverandre, kan du se modellene side om side i sammenligneren.

En kort kommentar om slektningene til dette trikset. Hvis “bildet” ditt egentlig er et langt dokument, som en kontrakt eller en forskningsartikkel, får du et bedre resultat ved å laste opp filen og bruke chat med en PDF i stedet, siden den kan lese hver side i stedet for ett bilde. Og hvis selve bildet er problemet, falmet, ripete eller lavoppløselig, er det en annen jobb: AI kan også restaurere og rydde opp i gamle bilder i stedet for bare å lese dem.

Nei. Enhver AI-chat som tar imot bildeopplastinger duger. Du åpner en chat, legger ved eller limer inn bildet, skriver spørsmålet ditt og sender. På en telefon kan du som regel laste opp rett fra bildegalleriet.
Ofte ja, særlig ryddig håndskrift. Den transkriberer trykt tekst veldig pålitelig og gjør en god jobb på det meste av skrivebokstaver også. Rotete eller falmet skrift snubler den på, så sjekk resultatet og fiks de få ordene den gjettet feil.
Bruk sunn fornuft. Unngå å laste opp ting med sensitive detaljer du ikke vil ha lagret, som fullstendige kortnumre eller passord. For hverdagslige etiketter, menyer og skjermbilder går det fint. Beskjær bort alt privat før du sender.
Som regel bildet. Gjenskinn, uskarphet, en skjev vinkel eller et bilde tatt langt unna skader nøyaktigheten. Ta det på nytt nærmere og tydeligere, beskjær til den delen du bryr deg om, og still et mer konkret spørsmål. Hvis en detalj virkelig betyr noe, bekreft den selv.
Nei, og det er med vilje. De vanlige modellene nekter å navngi privatpersoner fra bilder av personvernhensyn. De beskriver hva som er i bildet, men de setter ikke et navn på en fremmeds ansikt.

Oppsummeringen

Neste gang du myser på en etikett, står fast på en feilmelding eller stirrer på et diagram som like gjerne kunne vært på et annet språk, slutt å skrive ut det du ser. Bare vis AI-en bildet og spør. Den leser den lille skriften, tyder skjermbildet, transkriberer kråkebolet og forklarer grafen, alt i klare ord, på noen sekunder. Ha de ærlige grensene i bakhodet, dobbeltsjekk alt som betyr noe, og du har lagt til en virkelig nyttig ferdighet som ikke koster noe å prøve.