Come far spiegare all'AI qualsiasi foto
Di Chatday Editorial Team ·
Ecco un trucco che la maggior parte delle persone non ha ancora provato: puoi passare una foto a un’AI e chiederle semplicemente cosa sta succedendo. Senza cercarla, senza ritagliarla, senza scrivere una descrizione. Le mostri l’immagine e ci parli come faresti con un amico che, guarda caso, sa un po’ di tutto. La lista degli ingredienti di uno snack dal nome impronunciabile, una strana finestra di errore che ha bloccato il portatile, una pianta nel giardino del vicino, un grafico in un articolo che ti ha perso a metà strada. Punti la fotocamera, fai la tua domanda, ricevi una risposta chiara. La tua galleria si è trasformata in silenzio in una barra di ricerca, e quasi nessuno la usa ancora così.
Cosa significa che l’AI può “vedere” una foto
Per anni un chatbot poteva lavorare solo con le parole che scrivevi. I modelli più recenti sono diversi. Sono “multimodali”, che è un modo elegante per dire che ricevono molto più del testo. Puoi inserire un’immagine e l’AI la legge come legge una frase, poi risponde alle domande su di essa. Google ha costruito i suoi modelli Gemini per gestire testo, immagini, audio e video tutto insieme, e gli ultimi modelli di OpenAI e Anthropic accettano anch’essi le immagini. I grandi nomi di cui senti già parlare ora possono tutti guardare una foto.
In pratica significa che smetti di fare da traduttore. Prima dovevi sforzare gli occhi su un’etichetta, scrivere quello che vedevi e sperare di averlo descritto abbastanza bene. Ora mostri semplicemente l’etichetta all’AI. È lei a sforzare gli occhi. Il cambiamento sembra piccolo, ma elimina il passaggio più fastidioso, cioè trasformare in parole quello che stai guardando prima ancora di poter fare la tua domanda.
Le cose migliori da inquadrare con la fotocamera
Il modo più rapido per capire è vedere quanto è ampio il ventaglio. Ecco i lavori quotidiani per cui le persone la usano più spesso, cosa chiedere e cosa ottieni in risposta.
| Scatta una foto di… | Chiedi… | Cosa ottieni in risposta |
|---|---|---|
| Un’etichetta nutrizionale o una lista di ingredienti | ”C’è qualcosa qui che chi è allergico alla frutta a guscio dovrebbe evitare?” | Una lettura chiara del testo in piccolo |
| Una pianta, un insetto o un fungo | ”Cos’è questo, ed è sicuro toccarlo?” | Un’identificazione plausibile, con l’invito a confermare |
| Un messaggio di errore che ha bloccato lo schermo | ”Cosa significa e come lo risolvo?” | Una risoluzione dei problemi passo dopo passo |
| Un appunto scritto a mano o una vecchia ricetta | ”Trascrivimi questo testo” | Il testo, trascritto |
| Un grafico o un diagramma che non capisci | ”Spiegami in una riga cosa mostra” | L’andamento spiegato con parole semplici |
| Un menu in un’altra lingua | ”Cosa c’è di vegetariano qui?” | Una lista breve, tradotta e filtrata |
| Un compito o un problema di matematica | ”Guidami nel risolverlo” | I passaggi, non solo la risposta |
| Un outfit, una stanza, una slide | ”Cosa cambieresti?” | Un parere sincero e concreto |
Nessuna di queste richiede un’app o un’impostazione speciale. Carichi la foto nella chat, scrivi la tua domanda accanto, e questa è tutta la mossa.
Perfetta per i momenti di curiosità del tipo “cos’è questo?”
L’uso classico è la curiosità. Un insetto sul davanzale, uno strano simbolo sull’etichetta di un capo, un edificio davanti a cui sei passato in vacanza. Scattalo, chiedi “cos’è questo?”, e in pochi secondi hai un punto di partenza. Tratta la risposta come un’ipotesi intelligente più che come una verità assoluta, soprattutto per qualsiasi cosa che mangeresti, toccheresti o a cui affideresti la tua sicurezza. Per queste, chiedi all’AI di indicare quanto è sicura, poi verifica.
Perfetta per leggere ciò che è troppo piccolo o troppo confuso
Questo è l’uso silenziosamente utile. L’AI è brava a estrarre il testo da un’immagine, compresa la scrittura a mano, che era la parte un tempo difficile. Lo scarabocchio di un medico, una ricetta scritta dalla nonna, uno scontrino, una lavagna dopo una riunione. Chiedile di “trascrivere questo esattamente” e ottieni un testo digitato che puoi cercare, incollare o sistemare. Non sarà perfetta con una grafia davvero incomprensibile, ma è più veloce che scrivere tutto a mano e ti tocca correggere solo le poche parole che ha sbagliato.
Perfetta per gli screenshot e per la tecnologia che ti blocca
Anche gli screenshot sono immagini, ed è qui che brilla per chi non è un esperto di tecnologia. Ti imbatti in un messaggio di errore incomprensibile, in una schermata di impostazioni che non capisci o in un’app che non ne vuole sapere? Fai uno screenshot, incollalo e chiedi cosa fare. Dato che l’AI sa leggere schermate fitte, può indicarti il pulsante esatto che ti sfugge invece di darti un generico “hai provato a riavviare?”. Se vuoi provare la versione senza fronzoli, lo strumento di analisi immagini di Chatday è fatto esattamente per questo: inserisci la foto, fai la tua domanda.
Come ottenere una risposta chiara e utile
Come per tutto ciò che riguarda l’AI, ottieni in base a ciò che dai. Due cose decidono la qualità della risposta, e le controlli entrambe tu.
Prima, la foto. Uno scatto nitido, ben illuminato e ravvicinato vale più di uno buio e storto. Se ti interessa solo il pannello degli ingredienti, ritaglia il pannello degli ingredienti. Il riflesso su uno schermo o su un’etichetta è di solito il colpevole quando un’AI legge male il testo, quindi inclina per eliminare il riflesso. L’AI può lavorare solo con ciò che è davvero visibile nei pixel.
Seconda, la domanda. “Cos’è questo?” ti dà una risposta vaga. “Cos’è questo, e sarebbe sicuro da mangiare per un cane?” ti dà la risposta che volevi davvero. Dille chi sei e perché lo stai chiedendo. “Sono allergico ai latticini, c’è qualcosa in questo menu che dovrei evitare?” trasforma un muro di testo straniero in una lista breve di due righe. Più la tua richiesta è precisa, più la risposta è utile.
Dove l’AI che vede sbaglia ancora
Ecco la parte sincera, perché uno strumento di cui ti fidi alla cieca è uno strumento che prima o poi ti frega. La lettura delle immagini con l’AI è davvero utile, ma ha dei punti ciechi reali.
Può sbagliare con grande sicurezza. L’AI ti darà una risposta pulita e dal tono sicuro anche quando ha letto male l’immagine, e quasi mai dice “non sono certa” a meno che tu non glielo chieda. È la stessa eccessiva sicurezza che porta i chatbot a inventarsi le cose con grande sicurezza nel testo, e vale allo stesso modo per le foto. I numeri precisi sono una trappola frequente: potrebbe leggere correttamente l’andamento di un grafico ma sbagliare un valore specifico, quindi non copiare cifre esatte da un’immagine senza verificarle tu stesso.
Ha anche dei limiti che faresti bene a rispettare. Può leggere male una grafia disordinata o uno scatto sfocato. Non è un medico, un avvocato o un commercialista, quindi la foto di un’eruzione cutanea, di un contratto o di un esame medico merita un vero professionista, non l’intuizione di un chatbot. E per ragioni di privacy, i modelli validi non identificano uno sconosciuto specifico da una foto, e questa è una caratteristica voluta, non un difetto.
Quale AI legge meglio le immagini?
Sinceramente, i grandi modelli ormai se la cavano tutti bene in questo, e la leva più grande è la tua foto e la tua domanda, non la marca. Detto questo, hanno punti di forza leggermente diversi. Alcuni sono più forti su screenshot fitti e documenti, altri sul rapido “cos’è questo?” del mondo reale. L’unico modo per sapere quale fa per te è dare la stessa foto a un paio di loro e confrontare. Se vuoi metterne due a confronto diretto, puoi vedere i modelli affiancati nel comparatore.
Una nota veloce sui parenti di questo trucco. Se la tua “immagine” è in realtà un documento lungo, come un contratto o una ricerca, otterrai un risultato migliore caricando il file e usando la chat con un PDF, perché può leggere ogni pagina invece di una sola foto. E se è la foto stessa il problema, sbiadita, graffiata o a bassa risoluzione, è un altro lavoro: l’AI può anche restaurare e ripulire le vecchie foto invece di limitarsi a leggerle.
In sintesi
La prossima volta che strizzi gli occhi su un’etichetta, sei bloccato su un messaggio di errore o fissi un grafico che potrebbe essere in un’altra lingua, smetti di scrivere quello che vedi. Mostra semplicemente la foto all’AI e chiedi. Legge il testo in piccolo, decifra lo screenshot, trascrive lo scarabocchio e spiega il grafico, tutto con parole semplici, in pochi secondi. Tieni a mente i limiti sinceri, ricontrolla tutto ciò che conta, e avrai aggiunto un’abilità davvero utile che non costa nulla provare.