Analizar Fotos en Telegram con AI Vision

En Telegram, @DoublegramAIBot puede analizar las fotos que envías — describe escenas, lee el texto en capturas de pantalla o responde preguntas sobre cualquier imagen. Cambia a un modelo Gemini con /model, luego envía una imagen con una descripción como: ¿Qué texto aparece en esta imagen?

Vision permite al bot de Telegram @DoublegramAIBot ver las imágenes que envías — no solo leer tus palabras al respecto. En tu chat privado con el bot, envía una foto, añade una pregunta en la descripción, y el bot analiza la imagen y responde en texto.

Esto es diferente a generar una nueva imagen (consulta Generar Imágenes en Telegram desde Texto). Aquí ya tienes una foto y quieres que la IA la comprenda en Telegram.

Cómo analizar una imagen

Dos formas sencillas:

Envía una foto con descripción

  1. Abre @DoublegramAIBot.
  2. Toca el icono de adjunto y envía una foto (o una captura de pantalla guardada como foto).
  3. En el campo de descripción, escribe tu pregunta — por ejemplo: Describe lo que ves o ¿De qué marca es este logo?
  4. Envía. El bot procesa la imagen y responde en texto.

Responde a una foto existente

Si ya hay una foto en el chat, responde a ese mensaje con tu pregunta. El bot entiende que estás preguntando sobre la imagen en el mensaje al que respondiste.

Pruébalo: Envía una captura de pantalla de una página web con la descripción: Resume los puntos principales que se muestran en esta captura de pantalla.

Usa un modelo de texto Gemini

Para el análisis completo de imágenes, tu modelo de texto debe ser un modelo Google Gemini. Gemini recibe los datos reales de la imagen y puede realmente ver lo que enviaste.

Para cambiar:

  1. Envía /model.
  2. Toca Modelo de TextoGoogle Gemini.
  3. Elige un modelo Gemini (por ejemplo Gemini 2.5 Flash para velocidad, o Gemini 2.5 Pro para preguntas más difíciles).

Si envías una foto mientras usas un modelo de texto que no es Gemini, el bot no puede procesar la imagen correctamente. Usa siempre Gemini para las tareas de Vision.

Sugerencia: Gemini 2.5 Flash es el modelo predeterminado para nuevos usuarios — puedes analizar imágenes desde el primer momento sin cambiar nada.

Qué puedes preguntar

Vision funciona para muchas tareas cotidianas:

  • Describir una escena¿Qué está pasando en esta foto?
  • Leer texto (OCR)Transcribe todo el texto de esta imagen. Útil para fotos de documentos, carteles o capturas de pantalla.
  • Identificar objetos¿Qué producto es este? o ¿Qué animal hay en la foto?
  • Analizar capturas de pantallaExplica este mensaje de error o ¿Qué muestra este gráfico?
  • Obtener detalles¿Qué colores predominan en esta imagen? o ¿Hay alguien que lleva una chaqueta roja?
  • Ayuda con contenidoEscribe un texto alternativo (alt text) para esta imagen para una publicación social.

Créditos

Analizar una imagen cuesta el precio normal de tu modelo más 1 crédito extra por la imagen. Por ejemplo, si Gemini 2.5 Flash cuesta 3 créditos por solicitud, una pregunta con foto cuesta 4 créditos en total.

Consulta tu saldo con /credits antes de enviar muchas imágenes. Los créditos solo se descuentan por respuestas exitosas.

Vision vs generación de imágenes

  • Vision (esta guía) — Envías una foto → el bot la analiza y responde en texto.
  • Generación de imágenes — Describes algo en Telegram → el bot crea una nueva foto (consulta Generar Imágenes en Telegram desde Texto).

Envía una foto para analizarla. Escribe genera una imagen de… para crear una nueva.

Referencia rápida

  • Envía foto + descripción, o responde a una foto con tu pregunta
  • Usa un modelo de texto Gemini (/model → Modelo de Texto → Google Gemini)
  • Coste: créditos del modelo + 1 crédito por la imagen
  • El modelo predeterminado (Gemini 2.5 Flash) ya admite Vision