Google dévoile Gemini, son intelligence artificielle multimodale pour enfin battre ChatGPT
Cela vous intéressera aussi
[EN VIDÉO] Une intelligence artificielle qui ajuste l’angle de prise de la photo Manipulation interactive basée sur des points du collecteur d’images génératives. © Projet DraGAN
Après une année difficile à essayer de rattraper son retard sur OpenAI et son chatbot ChatGPTChatGPT, GoogleGoogle pourrait bien avoir enfin réussi à prendre la tête de la course à l’intelligence artificielle. La firme vient d’annoncer sa nouvelle IA baptisée Gemini.
Gemini est une IA multimodale de manière native. Autrement dit, ce n’est pas un grand modèle de langage entraîné sur du texte et auquel il a été greffé d’autres modèles pour lui permettre de comprendre les images ou l’audio. Dès le début, Gemini a été conçu pour comprendre le texte, l’audio, la vidéo, et même le code de programmation. Cela lui permet par exemple de comprendre les actions d’un utilisateur, de faire des commentaires dessus et d’interagir avec lui, comme en témoigne une vidéo de démonstration. À noter que les dessous de cette vidéo sont expliqués sur cette page. La démonstration a été faite avec des images statiques et du texte, ce qui reste impressionnant, mais un peu moins sensationnaliste.
Démonstration de la capacité de Gemini à comprendre simultanément le texte et l’image. (En anglais, activez les sous-titres en français.) © Google
Gemini bat les humains sur un des principaux tests
Google indique que Gemini est capable de battre tous ses concurrents sur 30 des 32 principaux tests destinés à évaluer les grands modèles de langage. Il s’agit même du premier modèle à battre les humains sur le test MMLU (Massive Multitask Language Understanding). Là encore, il faut faire attention car il s’agit de la version Ultra de Gemini, qui ne sera pas celle utilisée pour Google Bard.
Car Google Gemini sera disponible en trois versions. La version de base est Gemini Pro, et sera intégrée dans les produits Google et notamment dans Bard. À noter qu’elle sera disponible dans un premier temps dans 170 pays en anglais uniquement, comme lors du lancement initial de Bard. Gemini Nano est une version allégée capable de fonctionner sur des appareils mobilesmobiles et sera intégrée au smartphone Pixel 8 Pro. Gemini Ultra est une version plus avancée, mais qui n’est pas encore prête pour un lancement grand public. Elle sera disponible pour les développeurs et entreprises en début d’année prochaine.
Google pourrait bientôt lancer Gemini AI, sa réponse à GPT-4 d’OpenAI
Article d’Edward BackEdward Back, publié le 16/09/2023
Google travaille actuellement sur une intelligence artificielle nouvelle génération baptisée Gemini, et attendue « pour l’automneautomne ». Selon le média The Information, Google aurait déjà ouvert l’accès à Gemini pour un petit nombre d’entreprises, ce qui signifie que le lancement grand public est proche.
ChatGPT d’OpenAI a pris Google de court, qui tente depuis de rattraper son retard. Après un lancement assez catastrophique de sa propre IA Bard, fonctionnant grâce au modèle de langage LaMDA, le chatbot a été basculé sur le modèle PaLM 2. Toutefois, il peine à rivaliser avec GPT-4GPT-4.
C’est pourquoi Google travaille sur une nouvelle intelligence artificielle (IA) baptisée Gemini, qui est prévue pour l’automne. D’après The Information, Google aurait autorisé un petit nombre d’entreprises à accéder à une préversion de Gemini, ce qui signifie que le lancement se rapproche. Google compterait proposer des versions de tailles différentes afin de vendre aux développeurs des accès à des divers prix, et la version testée actuellement serait plus petite que la version finale. Selon une des sources du site, la version finale serait d’une taille similaire à GPT-4. Cependant, cela ne signifie pas que ses performances seront similaires.
Une IA qui connaîtra les utilisateurs à travers les autres services Google
Gemini a la particularité d’être une IA véritablement multimodale, lui permettant d’analyser ou de générer des images, en plus de la génération de texte. Elle serait capable d’expliquer un graphique, par exemple, ou encore de comprendre les commandes vocales. De plus, sa capacité à générer du code de programmation serait largement améliorée, lui permettant notamment de concurrencer GitHub Copilot développé par OpenAI. Gemini aurait un avantage notable par rapport à ChatGPT, puisque l’IA aurait accès aux données des différents produits de Google, lui permettant de mieux comprendre les intentions des utilisateurs pour leur apporter des réponses plus précises. L’IA serait également moins sujette aux hallucinationshallucinations.
L’IA Gemini devrait être proposée aux entreprises via sa plateforme de cloud computing. Elle sera également utilisée pour ajouter de nouvelles fonctionnalités dans Google Workspace et pour propulser son chatbot Bard.
Google prépare pour la rentrée une puissante intelligence artificielle qui surpasse ChatGPT
Google compte aller bien au-delà de la simple concurrence avec ChatGPT, en développant une puissante IA. Baptisée Gemini, elle devrait arriver durant l’automne.
Article par Sylvain BigetSylvain Biget, publié le 16/08/2023
Malgré le lancement de son chatbot Bard, Google ne s’est pas vraiment remis du terrain occupé par OpenAI avec ChatGPT, puis son intégration dans Bing de Microsoft. Ce n’est pas pour autant que la firme baisse les bras, puisqu’elle développe depuis très longtemps déjà des intelligences artificielles (IA) et les intègre progressivement à ses produits. Mais, selon des sources internes anonymes qui ont témoigné pour le site The Information, les labos de Google seraient en train de préparer une grande nouveauté articulée autour de l’IA et qui pourrait être lancée cet automne. Le projet, qui porterait le nom de « Gemini », serait même développé par les équipes de Google Brain et DeepMind. Avec lui, Google ne se contenterait pas de concurrencer ChatGPT, mais de le dépasser allègrement avec un outil multifonction combinant les capacités propres à son grand modèle de langage (LLM) et de la génération d’images par IA.
Une IA qui concentre tous les talents des IA
Outre la création d’images contextuelles, Gemini pourrait permettre de contrôler un logiciel avec la voix, ou bien d’analyser un organigramme, selon les dires de l’informateur. Gemini serait en train de bâtir son apprentissage à partir de textes, d’images et également de transcriptionstranscriptions de vidéos YouTubeYouTube. Google aurait mis un point d’honneur à faire en sorte que l’IA n’assimile pas des données en enfreignant le droit d’auteur. À terme, l’IA devrait naturellement s’imbriquer dans les différents produits de Google et notamment sa suite bureautique en ligne. Gemini sera également accessible en tant qu’outil exploitable par les développeurs via un abonnement à Google Cloud.
Preuve de l’importance qu’a ce nouveau projet pour Google, Sergei Brin, le co-fondateur de la firme, serait personnellement impliqué et s’occuperait notamment du recrutement d’experts. Pour l’analyste de The Information, être candidat pour Gemini n’est peut-être pas une bonne idée, puisque le fait de mixer les différents types d’IA dans un seul produit pourrait aussi devenir la principale faiblesse de l’outil.