Test : ASUS ROG Strix RTX 4070 Ti SUPER GAMING OC

    Architecture Ada Lovelace

    Face à Ampere que nous avions sur les cartes graphiques NVIDIA RTX 3000, nous avons de belles évolutions au niveau de l’architecture. En effet, pour commencer à parler avec les chiffres bruts, nous passons pour les plus gros GPU de ces générations de 7 à 12 GPS, de 42 à 72 TPC et de 84 à 144 SM. Quant aux CUDA Cores, nous passons de 10 752 à 18 432. Pour les RT Cores, nous passons de 84 à 144 en passant en plus de la seconde génération à la troisième. Pour les Tensor Cores ensuite, nous passons de 336 à 576 en passant de la troisième à la quatrième génération. Le nombre de transistors passe de 28 milliards à 76 milliards. Enfin, les GPU de cette génération ne sont plus gravés en 8 nm via Samsung Foundry, mais en 4 nm via TSMC.

    Processeur de Streaming

    L’un des aspects les plus importants de l’architecture Ada Lovelace repose sur les processeurs de streaming, alias les SM (streaming multiprocessors). Comme la génération précédente, alias Ampere, sur cette RTX 4070 Ti SUPER on trouve des SM au nombre de 66 et contenant chacun 4 Tensor Cores. On obtient donc les 264 Tensor Cores. Sur le schéma ci-dessous on peut voir de quoi est constitué un SM. On y voit les 4 Tensor Cores de 4e génération, mais également que chaque unité dispose de 32 cœurs FP32 ((32*4)*66) = les 8 448 cœurs CUDA. Notez que parmi les 32 cœurs présents dans chacune des quatre unités que compose un SM, 16 d’entre eux peuvent effectuer simultanément des calculs INT32 et FP32.

    Architecture Ada Lovelace SM

    RT Cores et Tensor Cores

    Face à la RTX 4070 Ti, le nombre de RT Cores de la 4070 Ti SUPER augmente légèrement puisque nous avons maintenant 66 SM contre 60. Ces RT Cores sont annoncés comme deux fois plus performants que la 3e génération que l’on trouvait sur Ampere. En effet, le débit d’intersection rayon-triangle est deux fois plus rapide que sur Ampere. Mais ces RT Cores comprennent également deux nouvelles unités matérielles. Nous avons en premier l’Opacity Micromap Engine et le deuxième est le Displaced Micro-Mesh Engine. Le premier permet par exemple aux développeurs de réaliser rapidement des effets d’opacités sur des objets de forme irrégulière (fougères et clôtures notamment) ou encore à des éléments translucides comme des flammes. Ce sont donc maintenant les RT Cores qui réalisent cet exercice et non plus le SM.

    Maintenant pour la seconde nouvelle unité matérielle Displaced Micro-Mesh Engine. Ici, le but est de réduire le temps de construction de BVH et les exigences de stockage qui sont traditionnellement nécessaires lorsqu’on traite des objets complexes avec des niveaux de détails géométriques élevés. Cette technologie permet de générer dynamiquement des micros-triangles supplémentaires au besoin lorsqu’un détail géométrique s’ajoute à un objet. Par rapport au rendu traditionnel de ces objets complexes, le Micro-Mesh Engine réduit le temps de construction de BVH par un facteur de 10 tout en réduisant les besoins de stockage de BVH par un facteur de 20.

    Ada Lovelace introduit également le SER (Shader Execution Reordering). Cette technologie réorganise les charges de travail à la volée afin qu’elles puissent être traitées plus efficacement par les noyaux SM et RT. Cela permet de multiplier dans certains cas par deux ou trois les performances en Ray Tracing en activant le RT Overdrive dans les titres compatibles.

    DLSS 3 : le Deep Learning Super Sampling de NVIDIA encore amélioré

    Nous avons donc une nouvelle itération de la technologie DLSS si cher à NVIDIA avec le DLSS 3. Ici, la marque au caméléon annonce un gain de performance de l’ordre de 4 fois à ce que nous avons sans DLSS. Pour en arriver là, l’entreprise se repose notamment sur des Tensors Cores de quatrième génération, mais aussi des OFA (Optical Flow Accelerator).

    Il faut aussi savoir que le DLSS 3 intègre directement la technologie NVIDIA Reflex permettant une latence diminuée dans les jeux compatibles. Est également pris en charge Frame Generation (via les OFA), une nouveauté du DLSS 3 ainsi que le Super Resolution, la nouveauté que nous avions dans le DLSS 2.

    Concrètement : DLSS 3 = DLSS 2 + Frame Generation (OFA) + Reflex

    Pour améliorer autant les performances, le DLSS 3 va analyser les images séquentielles et les données de mouvement à partir de ce nouvel accélérateur (OFA) afin de créer des images additionnelles. Par contre, ceci a pour effet d’augmenter la latence. C’est pour cette raison que l’activation du DLSS 3 active automatiquement Reflex, une technologie permettant de diminuer la latence en jeu. Vous verrez nos benchmarks sur ce point sur le titre Cyberpunk 2077 dans la page dédiée ainsi que sur le titre A Plague Tale: Requiem en conclusion.

    En revanche, puisque le DLSS 3 se base sur de l’Optical Flow que nous ne trouvons que sur les RTX 4000, cette technologie n’est pas disponible avec d’autres cartes graphiques. Du moins pour l’instant. En effet, Bryan Catanzaro, vice-président de la recherche appliquée sur l’apprentissage profond chez NVIDIA, a évoqué la question sur Twitter. Ce dernier annonce qu’un support du DLSS 3.0 par les GeForce RTX 2000 et 3000 n’est pas totalement impossible :

    « Il est théoriquement possible qu’avec des recherches et des développements supplémentaires, nous puissions faire fonctionner cette technologie sur d’autres cartes, mais cela n’apporterait pas autant d’avantages ».

    Passons à la suite et commençons avec les benchmarks.

    Lire la suite


    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici

    Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.