ChatGPT devient multimodal

ChatGPT peut désormais voir, entendre et parler

Source : openai.com/blog le 25/09/2023

Nous commençons à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT. Ils offrent un nouveau type d’interface plus intuitif en vous permettant d’avoir une conversation vocale ou de montrer à ChatGPT de quoi vous parlez.

La voix et l’image vous offrent davantage de façons d’utiliser ChatGPT dans votre vie. Prenez une photo d’un point de repère pendant votre voyage et discutez en direct de ce qui est intéressant à ce sujet. Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu’il y a pour le dîner (et posez des questions de suivi pour une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en encerclant l’ensemble du problème et en lui demandant de partager des indices avec vous deux.

Nous déploierons la voix et les images dans ChatGPT auprès des utilisateurs Plus et Enterprise au cours des deux prochaines semaines. Voice arrive sur iOS et Android (opt-in dans vos paramètres) et les images seront disponibles sur toutes les plateformes.

Parlez avec ChatGPT et demandez-lui de répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez avec lui lors de vos déplacements, demandez une histoire au coucher pour votre famille ou réglez un débat à table.

Utilisez la voix pour engager une conversation avec votre assistant.

Pour démarrer avec la voix, accédez à Paramètres → Nouvelles fonctionnalités sur l’application mobile et activez les conversations vocales. Ensuite, appuyez sur le bouton du casque situé dans le coin supérieur droit de l’écran d’accueil et choisissez votre voix préférée parmi cinq voix différentes.

La nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir de seulement du texte et de quelques secondes d’échantillons de parole. Nous avons collaboré avec des comédiens professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open source, pour transcrire vos paroles en texte.

Montrez à ChatGPT une ou plusieurs images.

Pour commencer, appuyez sur le bouton photo pour capturer ou choisir une image. Si vous utilisez iOS ou Android, appuyez d’abord sur le bouton plus. Vous pouvez également discuter de plusieurs images ou utiliser notre outil de dessin pour guider votre assistant.

La compréhension des images est alimentée par GPT-3.5 et GPT-4 multimodaux. Ces modèles appliquent leurs capacités de raisonnement linguistique à un large éventail d’images, telles que des photographies, des captures d’écran et des documents contenant à la fois du texte et des images.

Nous déployons progressivement les capacités image et voix

L’objectif d’OpenAI est de créer une AGI sûre et bénéfique. Nous croyons qu’il est important de rendre nos outils disponibles progressivement, ce qui nous permet d’apporter des améliorations et d’affiner l’atténuation des risques au fil du temps tout en préparant chacun à des systèmes plus puissants à l’avenir. Cette stratégie devient encore plus importante avec des modèles avancés impliquant la voix et la vision.

Voix

La nouvelle technologie vocale, capable de créer des voix synthétiques réalistes à partir de quelques secondes seulement de parole réelle, ouvre les portes de nombreuses applications créatives et axées sur l’accessibilité. Cependant, ces capacités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants de se faire passer pour des personnalités publiques ou de commettre des fraudes.

C’est pourquoi nous utilisons cette technologie pour alimenter un cas d’utilisation spécifique : le chat vocal. Le chat vocal a été créé avec des acteurs vocaux avec lesquels nous avons directement travaillé. Nous collaborons également de la même manière avec d’autres. Par exemple, Spotify utilise la puissance de cette technologie pour le projet pilote de sa fonction de traduction vocale , qui aide les podcasteurs à étendre la portée de leur narration en traduisant les podcasts dans des langues supplémentaires avec leurs propres voix.

Saisie d’images

Les modèles basés sur la vision présentent également de nouveaux défis, allant des hallucinations sur les personnes à la dépendance à l’interprétation des images par le modèle dans des domaines à enjeux élevés. Avant un déploiement plus large, nous avons testé le modèle avec des équipes rouges pour évaluer les risques dans des domaines tels que l’extrémisme et la compétence scientifique, ainsi qu’avec un ensemble diversifié de testeurs alpha. Nos recherches nous ont permis de nous aligner sur quelques détails clés pour un usage responsable.

Rendre la vision à la fois utile et sûre

Comme les autres fonctionnalités de ChatGPT, la vision consiste à vous aider dans votre vie quotidienne. Il fait mieux lorsqu’il peut voir ce que vous voyez.

Cette approche s’inspire directement de notre travail avec Be My Eyes, une application mobile gratuite destinée aux personnes aveugles et malvoyantes, afin de comprendre les utilisations et les limites. Les utilisateurs nous ont dit qu’ils trouvaient utile d’avoir des conversations générales sur des images contenant des personnes en arrière-plan, comme si quelqu’un apparaît à la télévision pendant que vous essayez de comprendre les paramètres de votre télécommande.

Nous avons également pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.

L’utilisation dans le monde réel et les commentaires nous aideront à améliorer encore ces protections tout en gardant l’outil utile.

Transparence sur les limitations du modèle

Les utilisateurs peuvent compter sur ChatGPT pour des sujets spécialisés, par exemple dans des domaines comme la recherche. Nous sommes transparents sur les limites du modèle et décourageons les cas d’utilisation à plus haut risque sans vérification appropriée. De plus, le modèle maîtrise parfaitement la transcription de textes anglais, mais fonctionne mal avec certaines autres langues, en particulier celles dont l’écriture n’est pas romaine. Nous déconseillons à nos utilisateurs non anglophones d’utiliser ChatGPT à cette fin.

Vous pouvez en savoir plus sur notre approche de la sécurité et notre travail avec Be My Eyes dans la carte système de saisie d’images .

Nous élargirons l’accès

Les utilisateurs Plus et Enterprise bénéficieront de la voix et des images au cours des deux prochaines semaines. Nous sommes ravis de déployer ces fonctionnalités auprès d’autres groupes d’utilisateurs, y compris les développeurs, peu de temps après.