Nvidia continue de distiller au compte-gouttes les détails de sa nouvelle gamme de cartes graphiques GeForce RTX 20. Après l’annonce des grandes lignes fin août, place désormais aux détails architecturaux. Le voile sera complètement ôté dans quelques jours (mercredi 19 septembre 2018) avec les tests des premières cartes.

Lorsque Nvidia nous a présenté son architecture Turing, nous avons pu voir que, finalement, elle n’était pas si proche que ça de Pascal — utilisée sur la série GeForce GTX 10. Le premier indice a notamment été la taille des puces dont la surface atteint 754 mm² sur la version la plus imposante (le GPU TU102) qui équipe la GeForce RTX 2080 Ti. À titre de comparaison, le GPU GP102 des GeForce GTX 1080 Ti et Titan Xp n’occupe que 471 mm². On ne s’étonne donc pas que le nombre de transistors explose, passant ainsi de 12 milliards à pas moins de 18,6 milliards (12,5 milliards sur la Radeon RX Vega 64 d’AMD).
 
Au passage, on remarquera que le nombre de transistors au mm² est réduit, passant de 25,48 Mtransistors/mm² à 24,67 Mtransistors/mm². Une densité en baisse donc, alors même que le procédé de gravure passe du 16 nm au 12 nm FFN de TSMC. Questionné à ce sujet, Nvidia ne nous a pas apporté de réponse. Attention tout de même, le 12 nm FFN est plutôt à voir comme un procédé 16 nm optimisé que comme un véritable nouveau procédé de gravure. Le gain entre les deux procédés ne doit donc pas être énorme, en atteste la faible montée en fréquence que nous notions lors de la présentation des caractéristiques techniques des GeForce RTX 20.

Nvidia Turing : une architecture finalement assez proche de Volta

Nvidia_Turing_GeForce_RTX_20_07.jpg
Représentation du GPU TU102 qui équipe la GeForce RTX 2080 Ti (un bloc SM est néanmoins désactivé sur cette carte). Cliquez pour agrandir. © Nvidia

Bref, Turing apporte donc beaucoup plus de transistors — ce qui n’est pas sans conséquence sur le coût de fabrication du GPU — et il y a bien une raison à cela. En effet, la puce est plutôt à voir comme une évolution de l’architecture Volta lancée en 2017 et qui a pris place sur des cartes professionnelles ainsi que sur la Titan V. On retrouve ainsi beaucoup de similitudes entre les deux architectures, à commencer par une nouvelle méthode de répartition des calculs.
 
Sur Pascal, les calculs étaient effectués par des unités d’exécution qui réalisaient des opérations sur des entiers et des flottants à la chaîne. Sur Turing, il est désormais possible d’effectuer ces opérations en parallèle (via des unités INT32 et FP32). Ce fonctionnement, introduit par l’architecture Volta, permettrait, selon Nvidia, de gagner jusqu’à 36 % sur le débit du calcul des flottants. À cela s’ajoute une nouvelle méthode de répartition du premier niveau de cache — la mémoire partagée est encore plus unifiée — ainsi qu’un doublement du second niveau de cache (L2). Encore une fois, ce changement est directement hérité de l’architecture Volta et permet à Nvidia de revendiquer une efficacité en hausse de 50 % de ses unités de calcul — appelés Cuda Cores par la firme.

Et ces éléments techniques de Turing ne sont pas les seules pièces rapportées de Volta. En effet, on retrouve également les Tensor Core, ces unités de calcul spécifiques destinées aux travaux de type apprentissage profond (deep learning) et autre intelligence artificielle. Initialement développées pour répondre à des besoins propres aux serveurs, ces unités seront utilisées sur les GPU Turing grand public pour soulager les unités de calcul conventionnelles lors de l’application de certains traitements d’image ; nous y reviendrons plus tard.

Nvidia_Turing_GeForce_RTX_20_06.jpg
Représentation d’un bloc SM par Nvidia. N’y figurent pas les deux unités FP64, bien présentes, et qui permettent d’assurer une compatibilité avec les programmes nécessitant un tel code. © Nvidia

Nvidia a également revu sa copie dans la manière d’organiser ses différentes unités de calcul. On retrouve, comme depuis quelques générations désormais, une organisation en blocs SM qui prennent part dans des blocs TPC qui, eux-mêmes font part d’un plus gros bloc nommé GPC. Les unités de calcul classiques (les Cuda Core) étant désormais scindées en deux, ils sont désormais moitié moins nombreux au sein de chaque bloc SM. On en dénombre ainsi 64 par SM (comme sur Volta) contre 128 auparavant. Ces blocs SM intègrent également 6 unités de calcul de type Tensor ainsi que 4 unités dédiées aux textures et 1 unité de calcul RTX (voir plus bas). C’est là que la surface assez importante des puces Turing entre en jeux, puisque Nvidia intègre jusqu’à 6 blocs GPC de manière à offrir un nombre d’unités de calcul supérieur à ce que l’on trouvait sur l’architecture Pascal.

La grande nouveauté : une accélération du rendu en ray-tracing

Évidemment, l’un des changements fondamentaux apportés par Turing — et qu’on ne trouve pas sur Volta — se situe au niveau des nouveaux blocs de calcul nommés RT Core (pour Ray-Tracing Core). Lors de la présentation des GeForce RTX 20, le CEO de Nvidia avait surtout mis l’accent sur la capacité de ses cartes à réaliser un rendu hybride, combinant méthode de rendu classique (rasterisation) et raytracing. Le raytracing peut ainsi être mis à contribution pour offrir un rendu amélioré, plus réaliste, de l’illumination d’une scène, de ses reflets et autres jeux d’ombre et de lumière.

Nvidia_Turing_GeForce_RTX_20_03.jpg
Grâce à son accélération matérielle, la GeForce RTX 2080 Ti serait 10 fois plus rapide que la GeForce GTX 1080 Ti pour réaliser un rendu ray-tracing. © Nvidia

Nvidia n’a bien entendu rien inventé en permettant de réaliser du raytracing en temps réel. On se souvient ainsi des nombreuses démos de ce type de rendu au fil des dernières années. Par ailleurs, le rendu hybride tel qu’il est désormais proposé est réalisable sur n’importe quelle carte graphique (AMD ou Nvidia), à condition qu’elle supporte la nouvelle API DirectX RT (DXRT) présentée par Microsoft en début d’année. Finalement, la nouveauté avec l’architecture Turing, c’est que Nvidia propose une accélération matérielle de la partie raytracing du rendu via des blocs RT Core — un bloc par SM. Ces blocs spécifiques permettraient, toujours selon selon Nvidia, de multiplier par dix les performances d’une GTX 1080 Ti en raytracing lorsqu’un jeu vidéo exploite un rendu hybride — nécessitant plusieurs milliers de calculs pour définir un seul rayon (ray), une scène comportant elle-même plusieurs milliers de rayons.
 
À ce stade, il reste néanmoins difficile de juger de l’impact du rendu hybride sur les cartes graphiques d’ancienne génération (AMD comme Nvidia) et sur les nouvelles GeForce RTX. Il faudra pour cela attendre que les développeurs de jeux proposent une intégration de ce type de rendu et que Microsoft mette à jour Windows 10 (Redstone 5) de manière à apporter le support de DXRT. Cela ne devrait vraisemblablement pas intervenir avant la mi-octobre 2018 et nous ne manquerons pas de réaliser nos propres mesures à ce moment.

Nvidia_Turing_GeForce_RTX_20_09.jpg
Battlefield V proposera un rendu hybride de manière à offrir un rendu des reflets et des transparences plus réaliste. © EA / Nvidia

GDDR6 : moins coûteuse que la HBM2, plus rapide et moins énergivore que la GDDR5X

Voilà donc pour la partie GPU. On note toutefois une autre nouveauté sur la partie mémoire avec l’utilisation — et c’est une première — de GDDR6. Sur ses GeForce GTX 10 haut de gamme, Nvidia avait été le premier — et le seul finalement — à utiliser de la mémoire de type GDDR5X. Sur les cartes professionnelles Volta, il suivait AMD en utilisant de la mémoire HBM2. Si celle-ci offre une bande passante très élevée, elle est également bien plus coûteuse et compliquée à mettre en place.
 
La firme a ainsi décidé de jeter son dévolu sur la GDDR6 pour ses nouvelles cartes graphiques grand public. La différence par rapport à la GDDR5X est comparable à la différence entre GDDR5 et GDDR5X : on y gagne en bande passante et en énergie. Le débit des puces utilisées est ainsi de 14 Gb/s, contre 11 Gb/s sur la GDDR5X, de quoi garantir une bande passante générale en nette hausse (616 Go/s sur RTX 2080 Ti contre 484 Go/s sur GTX 1080 Ti ), et ce, quand bien même le bus mémoire reste à 352 bits. L’efficacité énergétique serait par ailleurs 20 % meilleure.

Quelques optimisations pour améliorer les performances

Des unités de calcul réparties différemment, une mémoire cache repensée, la gestion d’un nouveau type de mémoire, l’accélération matérielle en raytracing et une puce plus grande, voici donc ce qui définit les grands changements apportés sur le plan physique par les puces Turing, et ce, même si tout cela semble grandement hérité de Volta. Nvidia ne s’est néanmoins pas limité à cela et apporte également quelques nouveautés sur la manière de gérer la puissance mise à disposition.

Nvidia_Turing_GeForce_RTX_20_08.jpg
Le VRS permet d’optimiser les performances dans certains cas de figure. © Nvidia

Il est ainsi tout d’abord question du “mesh shading”, un nouveau procédé de calcul permettant au GPU de réaliser certaines tâches auparavant dévolues au CPU. L’idée est de limiter le goulet d’étranglement dû à l’utilisation du CPU lorsque les images sont relativement riches en objets. Vient ensuite le VRS (Variable Rate Shading) qui permet aux développeurs de définir quelles parties de l’image peuvent être rendues à un degré de précision moindre sans que cela ne détériore la qualité perçue. Le TSS (Texture Space Shading) permet quant à lui de stocker certains calculs sur les shaders de manière à pouvoir les réexploiter plus tard. En évitant de calculer à nouveau certains points de l’image, les performances sont évidemment accrues. Le VRS et le TSS doivent néanmoins être supportés et intégrés par les jeux pour être exploités (via GameWorks).
 
Enfin, le MVR (multi-view rendering) est une amélioration du système déjà vu sur Pascal et qui permet de rendre l’image sous plusieurs points de vue. Limité à deux points de vue sur Pascal — parfait pour les casques de réalité virtuelle pour avoir un point de vue pour chaque œil —, il passe à quatre sur Turing. Cela peut être intéressant pour les casques VR à grand champ de vision.

Nvidia_Turing_GeForce_RTX_20_02.jpg
Une bande passante mémoire 50 % plus efficace grâce à une augmentation de la fréquence GDDR et  à un nouvel algorithme de compression des textures. © Nvidia

Comme pour chaque nouvelle architecture, Nvidia assure avoir revu son algorithme de compression des textures. Plus efficace, le nouvel algorithme permettrait de gagner environ 25 % sur le trafic mémoire, ce qui, conjointement à l’augmentation de la fréquence mémoire, déboucherait sur un gain d’environ 50 % en bande passante effective.

Un moteur vidéo prêt pour les écrans et téléviseurs 8K

Nvidia_Turing_GeForce_RTX_20_04.jpg
Les GeForce RTX 20 peuvent gérer les écrans et téléviseurs 8K à 60 Hz. © Nvidia

Le moteur vidéo a également été revu et gère désormais pleinement le protocole DisplayPort 1.4a. De quoi permettre de piloter des écrans 8K à 60 Hz via un seul câble et jusqu’à deux écrans 8K simultanément, le tout avec la gestion du HDR. Il est également question d’un support du protocole VirtualLink avec la présence d’un port USB-C sur les cartes graphiques de la série RTX 20. Il s’agit là de pouvoir piloter les casques VR qui utiliseront ce type de connectique. Enfin, le SLI évolue lui aussi et passe à un lien NVLink, plus rapide, comme c’est le cas sur certaines cartes professionnelles de la marque. Limité aux RTX 2080 et RTX 2080 Ti, le SLI se limite désormais à l’utilisation de deux cartes au maximum en parallèle.

DLSS : un nouveau filtre antialiasing spécifique à chaque jeu

Nvidia_Turing_GeForce_RTX_20_10.jpg
Le DLSS sera supporté par 15 jeux dans un premier temps. La promesse : un antialiasing de qualité qui diminue peu les performances puisque spécifique à chaque jeu (via apprentissage profond) et une exécution par des unités Tensor. © Nvidia

Bien évidemment, Nvidia reste fidèle à lui-même et propose, comme pour chaque nouvelle architecture, un nouveau type d’antialiasing. Avec Turing, il est question de DLSS pour Deep Learning Super Sampling. L’idée est assez simple : les développeurs peuvent envoyer leur jeu à Nvidia qui les exécutera sur ses serveurs. Là, un réseau neuronal va analyser le rendu — notamment les arêtes et autres contours des éléments — de manière à créer un algorithme d’antialiasing spécifique au jeu. Selon les dires de Nvidia, le rendu serait similaire à un traitement de type SSAA 64x tout en ayant une empreinte particulièrement limitée sur les performances. Ce faible impact sur les performances serait notamment le fruit de l’utilisation des unités Tensor pour l’application du filtrage de texture. Une quinzaine de titres sont d’ores et déjà sur les rails pour supporter le DLSS, dont notamment PUBG. À voir si Nvidia saura convaincre un nombre conséquent de studios de développement d’adopter son nouvel antialiasing.

Le résumé des caractéristiques techniques en attendant les premiers tests

Nvidia_Turing_GeForce_RTX_20_11.jpg
La GeForce RTX 2080 Ti est à l’épreuve dans notre laboratoire.

Nous en avons terminé avec ce tour d’horizon des nouveautés apportées par l’architecture GPU Turing de Nvidia. Pour rappel, Nvidia a pour l’instant dévoilé trois cartes, les GeForce RTX 2080 Ti, GeForce RTX 2080 et GeForce RTX 2070, exploitant toutes une puce Turing différente (voir résumé des caractéristiques ci-dessous). Il faudra se montrer relativement patient pour voir arriver le reste de la gamme, puisqu’il serait question d’un lancement au cours du premier trimestre 2019. Et, comme nous l’évoquions déjà il y a quelques semaines, rien ne dit que ces déclinaisons seront affublées du préfixe RTX — il est tout à fait envisageable que les performances de ces modèles ne soient pas suffisantes pour exécuter les jeux en rendu hybride, auquel cas l’utilisation du préfixe GTX pourrait avoir du sens.
 

  GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070 Titan Xp GeForce GTX 1080 Ti GeForce GTX 1080 GeForce GTX 1070
Architecture Turing Pascal
GPU TU102 TU104 TU106 GP102 GP104
Gravure 12 nm 16 nm
Unités de calcul 4352 2944 2304 3840 3584 2560 1920
Unités Tensor 544 368 288
Unités RT 68 46 36
Unités texture 272 184 144 240 224 160 120
Unités de rendu 88 64 96 88 64
Fréq. base 1350 MHz 1515 MHz 1410 MHz 1405 MHz 1480 MHz 1607 MHz 1506 MHz
Fréq. Boost 1545 – 1635 MHz 1710 – 1800 MHz 1620 – 1710 MHz 1582 MHz   1733 MHz 1582 MHz
Mémoire 11 Go GDDR6 8 Go GDDR6 12 Go GDDR5X 11 Go GDDR5X 8 Go GDDR5X 8 Go GDDR5
Fréq. mémoire 1750 MHz 1426 MHz 1375 MHz 1250 MHz 2000 MHz
Bus 352 bits 256 bits 384 bits 352 bits 256 bits
Bande passante 616 Go/s 448 Go/s 548 Go/s 484 Go/s 320 Go/s 256 Go/s
TDP 250 – 260 W 215 – 225 W 175 – 185 W 250 W 180 W 150 W
Tarif lancement 1259 € 849 € 639 € 1349 € 824 € 789 € 499 €

 
Il ne reste désormais plus qu’à patienter jusqu’à la publication des tests des GeForce RTX 2080 et GeForce RTX 2080 Ti pour se forger un avis sur cette nouvelle génération de cartes graphiques Nvidia. Nous publierons ces tests lorsque l’embargo sera levé, mercredi 19 septembre prochain. La GeForce RTX 2070 étant prévue pour le mois d’octobre, il faudra patienter encore quelques semaines avant de pouvoir lire son test.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.