Analizzare Foto su Telegram con AI Vision

Su Telegram, @DoublegramAIBot può analizzare le foto che invii — descrivi scene, leggi il testo negli screenshot o rispondi a domande su qualsiasi immagine. Passa a un modello Gemini con /model, poi invia un'immagine con una didascalia tipo: Quale testo è scritto in questa immagine?

Vision permette al bot Telegram @DoublegramAIBot di vedere le immagini che invii — non solo di leggere le tue parole al riguardo. Nella tua chat privata con il bot, invia una foto, aggiungi una domanda nella didascalia, e il bot analizza l'immagine e risponde a testo.

Questo è diverso dal generare una nuova immagine (vedi Generare Immagini su Telegram dal Testo). Qui hai già una foto e vuoi che l'IA la capisca su Telegram.

Come analizzare un'immagine

Due modi semplici:

Invia una foto con didascalia

  1. Apri @DoublegramAIBot.
  2. Tocca l'icona dell'allegato e invia una foto (o uno screenshot salvato come foto).
  3. Nel campo della didascalia, scrivi la tua domanda — per esempio: Descrivi cosa vedi o Di che marca è questo logo?
  4. Invia. Il bot elabora l'immagine e risponde a testo.

Rispondi a una foto esistente

Se una foto è già nella chat, rispondi a quel messaggio con la tua domanda. Il bot capisce che stai facendo una domanda sull'immagine nel messaggio a cui hai risposto.

Provalo: Invia uno screenshot di una pagina web con la didascalia: Riassumi i punti principali mostrati in questo screenshot.

Usa un modello di testo Gemini

Per l'analisi completa delle immagini, il tuo modello di testo deve essere un modello Google Gemini. Gemini riceve i dati effettivi dell'immagine e può veramente vedere cosa hai inviato.

Per cambiare:

  1. Invia /model.
  2. Tocca Modello di TestoGoogle Gemini.
  3. Scegli un modello Gemini (per esempio Gemini 2.5 Flash per velocità, o Gemini 2.5 Pro per domande più difficili).

Se invii una foto mentre usi un modello di testo non Gemini, il bot non può elaborare l'immagine correttamente. Usa sempre Gemini per i compiti di Vision.

Suggerimento: Gemini 2.5 Flash è il modello predefinito per i nuovi utenti — puoi analizzare immagini fin da subito senza cambiare nulla.

Cosa puoi chiedere

Vision funziona per molti compiti quotidiani:

  • Descrivere una scenaCosa sta succedendo in questa foto?
  • Leggere il testo (OCR)Trascrivi tutto il testo in questa immagine. Utile per foto di documenti, cartelli o screenshot.
  • Identificare oggettiChe prodotto è questo? o Che animale c'è nella foto?
  • Analizzare screenshotSpiega questo messaggio di errore o Cosa mostra questo grafico?
  • Ottenere dettagliQuali colori dominano in questa immagine? o C'è una persona che indossa una giacca rossa?
  • Aiuto con i contenutiScrivi un testo alternativo (alt text) per questa immagine per un post social.

Crediti

Analizzare un'immagine costa il normale prezzo del tuo modello più 1 credito extra per l'immagine. Ad esempio, se Gemini 2.5 Flash costa 3 crediti per richiesta, una domanda con foto costa 4 crediti in totale.

Controlla il tuo saldo con /credits prima di inviare molte immagini. I crediti vengono addebitati solo per le risposte andate a buon fine.

Vision vs generazione di immagini

  • Vision (questa guida) — Invii una foto → il bot la analizza e risponde a testo.
  • Generazione di immagini — Descrivi qualcosa su Telegram → il bot crea una nuova foto (vedi Generare Immagini su Telegram dal Testo).

Invia una foto per analizzarla. Scrivi genera un'immagine di… per crearne una nuova.

Riferimento rapido

  • Invia foto + didascalia, oppure rispondi a una foto con la tua domanda
  • Usa un modello di testo Gemini (/model → Modello di Testo → Google Gemini)
  • Costo: crediti del modello + 1 credito per l'immagine
  • Il modello predefinito (Gemini 2.5 Flash) supporta già la Vision