ChatGPT-4.5
La sortie de ChatGPT-4.5 le 27 février 2025 marque un moment charnière dans les efforts d’OpenAI pour affiner l’IA conversationnelle. Contrairement à ses homologues axés sur le raisonnement, o1 et o3, ce modèle est un LLM à usage général, s’appuyant sur les fondations de GPT-4 et GPT-4o. Il a été annoncé avec une phase de prévisualisation de la recherche, indiquant un statut bêta visant à recueillir les commentaires des utilisateurs avant un déploiement plus large. Cette approche s’aligne sur la stratégie d’OpenAI visant à équilibrer innovation et convivialité.
Caractéristiques clés et spécifications techniques
ChatGPT-4.5 est conçu pour donner l’impression de parler à une personne réfléchie, avec une intelligence émotionnelle et une nuance conversationnelle améliorées. Ses principales caractéristiques incluent :
- Intelligence émotionnelle et conversation naturelle : Le modèle excelle dans la compréhension du contexte et de l’intention de l’utilisateur, rendant les interactions plus intuitives. Les testeurs internes l’ont signalé comme chaleureux et naturel, en particulier dans les requêtes chargées d’émotion, sachant quand donner des conseils ou écouter, comme détaillé dans la carte système carte système OpenAI GPT-4,5 .
- Capacités multimodales : Il prend en charge les téléchargements de fichiers et d’images, permettant l’analyse de données supplémentaires, ce qui améliore son utilité pour diverses tâches.
- Maîtrise multilingue : Il est très performant dans 14 langues, dont l’arabe, le bengali, le chinois et l’espagnol, surpassant GPT-4o dans les benchmarks multilingues. Par exemple, il a obtenu un score de 85,1 % au test multilingue MMLU contre 81,5 % pour GPT-4o.
- Génération et synthèse de contenu : Il génère diverses formes de texte, de l’écriture créative aux résumés détaillés, avec un taux d’hallucination réduit de 37,1 % dans SimpleQA par rapport à 61,8 % de GPT-4o.
- Base de connaissances et fenêtre contextuelle : avec une limite de connaissances d’octobre 2024, elle garantit la pertinence des réponses. Sa fenêtre contextuelle de 128 000 jetons permet des conversations étendues et cohérentes, une mise à niveau significative pour gérer les interactions longues.
La formation du modèle impliquait un réglage fin supervisé (SFT), un apprentissage par renforcement à partir des commentaires humains (RLHF) et une formation à la hiérarchie des instructions, en utilisant divers ensembles de données pour maintenir la qualité et atténuer les risques. Il élargit davantage la pré-formation, en tirant parti des données publiques et propriétaires, comme indiqué dans la carte système.
Comparaison avec les modèles précédents
Par rapport à GPT-4o, ChatGPT-4.5 est plus grand et plus efficace sur le plan informatique, améliorant l’efficacité de GPT-4 de plus de 10 fois, selon un article X de Sam Altman ( Sam Altman sur X ). Cependant, il ne s’agit pas d’un modèle de raisonnement comme o1 et o3, se concentrant plutôt sur des tâches à usage général. Les comparaisons de référence montrent qu’il excelle dans des domaines comme GPQA (science) avec une précision de 71,4 % par rapport à 53,6 % de GPT-4o, mais les tests utilisateurs suggèrent des résultats mitigés. Par exemple, une comparaison utilisant 7 invites a révélé que GPT-4o était plus clair et plus engageant pour des tâches comme l’humour et la pensée critique, tandis que GPT-4,5 brillait dans la résolution de problèmes avec un raisonnement explicite.
Le tableau suivant résume la comparaison basée sur les tests utilisateurs :
Catégorie d’invite | GPT-4,5 Performance | GPT-4o Performance | Gagnant |
Résolution de problèmes | Structuré, étape par étape avec des explications entre parenthèses, met l’accent sur le raisonnement. | Transitions concises, directes, conversationnelles et fluides, évite les explications supplémentaires. | Dessiner (raisonnement vs efficacité). |
Personnalité IA | Technique, concis, humoristique avec effet boule de neige ; métaphore graine / arbre pour enfants, éducative. | Structuré, académique, humoristique avec “code de triche”, engageant ; tirelire magique pour enfants, ludique. | GPT-4o (lisibilité, engagement). |
Écriture créative | Détails atmosphériques, sensoriels, ouverture dystopique poétique. | Structure sociétale efficace et claire, récit à enjeux élevés. | Dessiner (immersion vs suspense). |
Précision factuelle | Des détails plus riches, des exemples variés, des avancées et des impacts IA plus denses. | Mentionne des projets spécifiques, axés sur les soins de santé, moins denses. | GPT-4,5 (détail). |
Humour | Métaphores relatables, punchline plus faible. | Absurdité croissante, punchline forte, structure de blague complète. | GPT-4o (structure, percutant). |
Pensée critique | Concis, démocratisation, contre-argument de saturation du marché. | Analogie historique, contre-argument nuancé, équilibre. | GPT-4o (nuance). |
Compréhension multimodale | Étapes claires, instructives, manque d’encouragement. | Les étiquettes se terminent, ton amical, conclusion engageante et rassurante. | GPT-4o (adapté aux débutants). |
Ce tableau met en évidence les différences nuancées, le GPT-4o étant souvent préféré pour sa convivialité, tandis que le GPT-4,5 offre de la profondeur dans des domaines spécifiques.
Disponibilité et accès
L’accès à ChatGPT-4.5 est initialement limité aux abonnés ChatGPT Pro à 200 $/ mois, avec un déploiement échelonné vers les niveaux Plus, Team, Enterprise et Edu à partir de début mars 2025. Pour les développeurs, l’accès à l’API est disponible à 75 $par million de jetons d’entrée et 150 $par million de jetons de sortie, reflétant son coût de calcul élevé. Le post X de Sam Altman a souligné les pénuries de GPU comme un défi, indiquant une croissance rapide de la demande ( Sam Altman sur X ).
Considérations éthiques et de sécurité
Les évaluations de sécurité, détaillées dans la carte système, ne montrent aucune augmentation significative du risque par rapport aux modèles existants. Il est classé comme risque moyen global dans le cadre de préparation d’OpenAI, avec des risques moyens en matière de menaces et de persuasion chimiques, biologiques, radiologiques et nucléaires (CBRN), et de faibles risques en matière de cybersécurité et d’autonomie du modèle. Les mesures spécifiques comprennent :
Évaluation de la sécurité | Métrique | Score GPT-4,5 | Notes |
Contenu non autorisé | Refus standard non _ dangereux | 0.99 | Taux de refus élevé pour les contenus dangereux. |
Refus multimodal | not _ overrefuse | 0.31 | Refus équilibré, évitant le rejet excessif. |
Hallucination | Précision PersonQA | 0.78 | Taux d’hallucinations inférieur à celui du GPT-4o (0,19 contre 0,618). |
Équité / partialité | Précision des questions ambiguës | 0.95 | Excellentes performances dans la gestion des requêtes ambiguës. |
Équipe rouge | not _ unsafe (Tableau 9) | 0,51 vs GPT-4o 0,50 | Légèrement mieux dans les évaluations difficiles. |
Ces mesures soulignent l’engagement d’OpenAI en matière de sécurité, avec un filtrage rigoureux des données et l’utilisation de l’API de modération pour éviter les contenus préjudiciables.
Expérience utilisateur et réception
Les expériences des utilisateurs avec ChatGPT 4.5 varient, certains le rapportant comme plus naturel et engageant, en particulier dans les tâches créatives et conversationnelles. Sam Altman l’a décrit comme “le premier modèle qui donne l’impression de parler à une personne réfléchie”, citant des moments d’étonnement face à ses conseils. Cependant, les comparaisons avec GPT-4o suggèrent des résultats mitigés, certains utilisateurs préférant GPT-4o pour plus de clarté et d’engagement dans des tâches comme l’humour et la pensée critique. Cela met en évidence un débat sur sa supériorité pratique, certains le considérant comme une “amélioration de l’ambiance” plutôt qu’un broyeur de référence.
ChatGPT-4.5 est un point de repère dans l’IA conversationnelle, offrant des progrès significatifs dans l’intelligence émotionnelle et l’interaction naturelle. Sa grande échelle et son efficacité informatique en font un outil puissant, bien que son coût élevé et son accès limité initial puissent poser des défis. Les commentaires mitigés des utilisateurs soulignent la complexité de l’évaluation de ces modèles, avec des discussions en cours susceptibles de façonner son adoption et son affinement dans les mois à venir.