Skip links
intelligence artificialle

Google lance Gemini, le modèle d’IA qui vise à concurrencer GPT-4

Cela fait près de dix ans que Google est une « entreprise qui privilégie l’IA ». Aujourd’hui, un an après le début de l’ère de l’IA introduite par le ChatGPT, elle fait enfin un grand pas en avant.

C’est le début d’une nouvelle ère de l’IA chez Google, déclare le CEO Sundar Pichai : l’ère Gemini. Gemini est le dernier grand modèle de langage de Google, que M. Pichai a présenté pour la première fois lors de la conférence des développeurs I/O en juin et qu’il lance aujourd’hui au grand public.

À entendre M. Pichai et Demis Hassabis, CEO de Google DeepMind, il s’agit d’un énorme pas en avant dans un modèle d’IA qui finira par affecter pratiquement tous les produits de Google. « L’un des grands avantages de ce moment, explique M. Pichai, c’est qu’il est possible de travailler sur une technologie sous-jacente, de l’améliorer et d’en faire profiter immédiatement tous nos produits.

Gemini est plus qu’un simple modèle d’IA. Il existe une version plus légère appelée Gemini Nano, destinée à être exécutée en mode autonome et hors ligne sur les appareils Android. Il existe une version plus puissante, appelée Gemini Pro, qui alimentera bientôt de nombreux services d’IA de Google et qui constitue l’épine dorsale de Bard à partir d’aujourd’hui. Et il y a un modèle encore plus performant appelé Gemini Ultra qui est le LLM le plus puissant que Google ait encore créé et qui semble être principalement conçu pour les centres de données et les applications d’entreprise.

Google lance le modèle de plusieurs façons dès maintenant : Bard est désormais alimenté par Gemini Pro, et les utilisateurs de Pixel 8 Pro bénéficieront de quelques nouvelles fonctionnalités grâce à Gemini Nano (Gemini Ultra sera disponible l’année prochaine). Les développeurs et les entreprises clientes pourront accéder à Gemini Pro via Google Generative AI Studio ou Vertex AI dans Google Cloud à partir du 13 décembre. Gemini n’est disponible qu’en anglais pour l’instant, mais d’autres langues seront bientôt disponibles. Mais M. Pichai affirme que le modèle sera à terme intégré au moteur de recherche de Google, à ses produits publicitaires, au navigateur Chrome et à bien d’autres choses encore, dans le monde entier. C’est l’avenir de Google, et il n’est pas trop tôt.

Au départ, Gemini existe en trois tailles, destinées à trois usages différents. Image : Google

OpenAI a lancé ChatGPT il y a un an et une semaine, et l’entreprise et le produit sont immédiatement devenus les choses les plus importantes dans le domaine de l’IA. Aujourd’hui, Google – l’entreprise qui a créé une grande partie de la technologie fondamentale derrière le boom actuel de l’IA, qui s’est qualifiée d’organisation « AI-first » pendant près d’une décennie, et qui a été clairement et de manière embarrassante prise au dépourvu par la qualité de ChatGPT et la rapidité avec laquelle la technologie d’OpenAI a pris le contrôle de l’industrie – est enfin prête à répondre à l’appel.

Alors, venons-en à l’essentiel ? GPT-4 d’OpenAI contre Gemini de Google. Cette question préoccupe manifestement Google depuis un certain temps. « Nous avons procédé à une analyse très approfondie des systèmes côte à côte, ainsi qu’à des analyses comparatives », explique M. Hassabis. Google a effectué 32 tests de référence bien établis pour comparer les deux modèles, qu’il s’agisse de tests généraux tels que le test de référence Multi-task Language Understanding ou d’un test comparant la capacité de deux modèles à générer du code Python. « Je pense que nous avons une longueur d’avance sur 30 des 32 points de référence », déclare M. Hassabis, avec un petit sourire en coin. « Certains d’entre eux sont très étroits. D’autres sont plus larges.”

Google affirme que Gemini bat GPT-4 dans 30 des 32 benchmarks.

Dans ces critères (qui sont pour la plupart très proches), l’avantage le plus net de Gemini vient de sa capacité à comprendre et à interagir avec la vidéo et l’audio. C’est en grande partie une question de conception : la multimodalité fait partie du plan Gemini depuis le début. Google n’a pas formé des modèles distincts pour les images et la voix, comme OpenAI a créé DALL-E et Whisper ; il a construit un seul modèle multisensoriel dès le départ. « Nous nous sommes toujours intéressés aux systèmes très, très généraux », explique M. Hassabis. Il s’intéresse particulièrement à la manière de mélanger tous ces modes, de collecter autant de données que possible à partir de n’importe quel nombre d’entrées et de sens, puis de donner des réponses tout aussi variées.

Actuellement, les modèles les plus basiques de Gemini sont l’entrée et la sortie de texte, mais des modèles plus puissants comme Gemini Ultra peuvent travailler avec des images, de la vidéo et de l’audio. Et « ça va devenir encore plus général que ça », dit Hassabis. « Il y a encore des choses comme l’action et le toucher – plutôt des choses de type robotique. Au fil du temps”, explique-t-il, Gemini se dotera de plus de sens, deviendra plus conscient, plus précis et plus ancré dans le processus. « Ces modèles comprennent mieux le monde qui les entoure. Bien entendu, ces modèles continuent d’halluciner, de présenter des biais et d’autres problèmes. Mais plus ils en savent”, dit Hassabis, plus ils s’améliorent.

Ces modèles comprennent mieux le monde qui les entoure.

Cependant, les benchmarks ne sont que des benchmarks et, en fin de compte, le véritable test des capacités de Gemini viendra des utilisateurs quotidiens qui souhaitent l’utiliser pour lancer des idées, rechercher des informations, écrire du code, et bien plus encore. Google semble considérer le codage en particulier comme l’application phare de Gemini ; il utilise un nouveau système de génération de code appelé AlphaCode 2 qui, selon lui, est plus performant que 85 % des participants aux concours de codage, contre 50 % pour l’AlphaCode original. Mais M. Pichai affirme que les utilisateurs remarqueront une amélioration dans à peu près tout ce que le modèle touche.

Tout aussi important pour Google, Gemini est apparemment un modèle beaucoup plus efficace. Il a été formé sur les propres Tensor Processing Units de Google et est à la fois plus rapide et moins cher que les modèles précédents de Google tels que PaLM. Parallèlement à ce nouveau modèle, Google lance également une nouvelle version de son système TPU, le TPU v5p, un système informatique conçu pour être utilisé dans les centres de données pour l’entraînement et l’exécution de modèles à grande échelle. 

Google affirme avoir travaillé sans relâche pour garantir la sécurité et la responsabilité de Gemini, par le biais de tests internes et externes et d’un red-teaming. M. Pichai souligne qu’il est particulièrement important de garantir la sécurité et la fiabilité des données pour les produits destinés aux entreprises, car c’est là que l’IA générative gagne le plus d’argent. Mais M. Hassabis reconnaît que l’un des risques du lancement d’un système d’IA de pointe est qu’il présente des problèmes et des vecteurs d’attaque que personne n’aurait pu prévoir. « C’est la raison pour laquelle il faut lancer les choses, dit-il, pour voir et apprendre. Google prend son lancement d’Ultra particulièrement au ralenti ; Hassabis le compare à une version bêta contrôlée, avec une « zone d’expérimentation plus sûre » pour le modèle le plus performant et le plus libre de Google. En fait, s’il existe une personnalité alternative des Gémeaux qui détruit le mariage, Google essaie de la trouver avant vous.

Depuis des années, M. Pichai et d’autres dirigeants de Google évoquent avec poésie le potentiel de l’IA. Pichai lui-même a déclaré plus d’une fois que l’IA transformera davantage l’humanité que le feu ou l’électricité. Dans cette première génération, le modèle Gemini ne changera peut-être pas le monde. Dans le meilleur des cas, il pourrait aider Google à rattraper OpenAI dans la course à la construction d’une grande IA générative. (Dans le pire des cas, Bard reste ennuyeux et médiocre, et ChatGPT continue de gagner). Mais Pichai, Hassabis et tous les autres employés de Google semblent penser qu’il s’agit du début de quelque chose de vraiment énorme. Le web a fait de Google un géant de la technologie ; Gemini pourrait être encore plus grand.