Gemini comprend désormais les fichiers, les images et les vidéos... et interagit par la voix
Gemini comprend désormais les fichiers, les images et les vidéos... et interagit par la voix

Google continue de transformer Gemini d’un simple chatbot en un assistant intelligent multimodal avec lequel on peut interagir vocalement et partager tout ce qui s’affiche à l’écran.

Qu’y a-t-il de nouveau ?

C’est la fonctionnalité Gemini Live, désormais disponible pour tous les utilisateurs d’appareils Android, avec de nouvelles capacités basées sur la caméra et le partage d’écran.

Initialement réservée aux téléphones Pixel 9 et à la série Galaxy S24/S25, puis étendue aux Pixel 6 et modèles ultérieurs, cette fonction est maintenant largement disponible, modifiant en profondeur la façon dont les utilisateurs interagissent avec l’assistant intelligent.

Parlez à Gemini sans écrire

Alors que la plupart des outils d’intelligence artificielle reposent sur l’écriture, Gemini Live offre une expérience totalement nouvelle. Vous pouvez désormais partager ce qui s’affiche à l’écran avec Gemini et lui parler de vive voix, que vous regardiez une vidéo sur YouTube, consultiez un document ou montriez une image via la caméra de votre téléphone.

Grâce au nouveau bouton « Partager l’écran avec Live », Gemini peut voir le contenu de l’écran, le comprendre et y réagir, ouvrant la voie à une interaction plus fluide et naturelle.

Qu’est-ce qui distingue cette fonctionnalité ?

La plus grande force de Gemini Live réside dans sa capacité à offrir une interaction plus souple et réactive avec l’intelligence artificielle. Auparavant, Gemini ne pouvait comprendre les fichiers et images que s’ils étaient téléchargés manuellement avec des instructions précises. Aujourd’hui, il suffit d’ouvrir la caméra ou de partager l’écran et de parler.

Voici quelques exemples concrets :

  • Dirigez la caméra vers un plat et demandez s’il est compatible avec votre régime alimentaire.
  • Ouvrez votre armoire et demandez des idées de tenues.
  • Téléversez un document (PDF, Word, TXT) et demandez un résumé ou une explication d’un passage spécifique.
  • Collez un lien YouTube et discutez directement du contenu.

Vous pouvez également importer des fichiers depuis Google Drive, votre galerie ou gestionnaire de fichiers, dans divers formats comme PDF, DOCX, RTF, etc.

Fonction « Parler directement de ceci »

La nouveauté la plus marquante de cette mise à jour est la fonction « Parler directement de ceci » (Talk Live About), qui permet aux utilisateurs de discuter d’un contenu visuel ou textuel sans avoir à écrire. Lorsqu’une vidéo YouTube de moins de deux heures est lancée, Gemini s’appuie sur les sous-titres pour comprendre le contenu et fournir des réponses précises et instantanées.

Pour les fichiers, Gemini dispose d’un accès complet au contenu, ce qui lui permet de fournir des réponses plus approfondies et exactes que la simple lecture d’écran.

Les capacités de Gemini Pro 2.5

Cette mise à jour confirme l’orientation stratégique de Google : faire de Gemini un véritable assistant multimodal capable de comprendre simultanément texte, voix et image. La version Gemini Pro 2.5 qui alimente cette fonction a été conçue spécialement pour traiter différents types d’informations et offrir des réponses intelligentes et complètes.

Par défaut, Gemini Live fonctionne uniquement par la voix, ce qui en fait un outil idéal en déplacement ou pendant des activités. Plus besoin d’écrire ou de naviguer dans des menus complexes… il suffit de parler.

Pourquoi ce changement est-il important ?

L’intelligence artificielle multimodale n’est pas seulement une avancée technologique : elle représente un changement fondamental dans notre manière d’interagir avec la technologie. Gemini Live incarne cette transformation, en permettant à l’assistant intelligent de comprendre ce que vous voyez, entendez ou demandez, et d’y répondre de manière naturelle.

Cette capacité rend Gemini extrêmement utile pour les designers, étudiants, marketeurs, professionnels… ou tout simplement pour toute personne souhaitant simplifier son quotidien grâce à l’IA.

Il est clair que Google poursuit son ambition de faire de Gemini bien plus qu’un simple assistant numérique. Grâce à Gemini Pro 2.5 et à son intégration avec des applications comme Workspace et Photos, nous nous dirigeons vers une expérience d’IA riche, interactive et connectée.

Partager