Architecture Ampere
L’architecture Ampere représente la deuxième génération de cartes graphiques RTX. Celle-ci améliore de l’ordre de 1,9 fois les performances par Watts comparativement à l’architecture précédente Turing. Voyons plus en détail comment cela a été réalisé. Nous avons un GPU GA104-300 de chez Samsung avec une finesse de gravure de 8 nm et qui intègre 28,3 milliards de transistors. Nous avons un TDP de 350 W et l’alimentation se fait avec pas moins de 3×8-pins. Mais avant de partir dans les détails, refaisons le point également sur les caractéristiques des RTX 3000 Series face à la RTX 2080 Ti. Notez qu’il s’agit ici des spécifications des Founders Edition. Les fréquences GPU varient selon les références customs.
ASUS ROG Strix RTX 3090 O24G GAMING | RTX 3080 FE | RTX 3070 FE | RTX 2080 Ti FE | |
---|---|---|---|---|
GPU | 8nm GA102-300 | 8nm GA102-200 | 8nm GA104-300 | 12nm TU102-300 |
Die Size |
628 mm2
|
628 mm2
|
392 mm2
|
754 mm2
|
Transistors |
28,3 B
|
28,3 B
|
17.4 B
|
18.6 B
|
Board | PG132 SKU 30 | PG132 SKU 10 | PG142 SKU 10 | PG150 SKU 32 |
CUDA Cores |
10 496
|
8 704
|
5 888
|
4 352
|
Tensor Cores |
328 (4 par SM)
|
272 (4 par SM)
|
184 (4 par SM)
|
544 (8 par SM)
|
RT Cores |
82
|
68
|
46
|
68
|
Base Clock |
1395 MHz
|
1440 MHz
|
1500 MHz
|
1350 MHz
|
Boost Clock | 1695 MHz référence — 1860 MHz Strix |
1710 MHz |
1725 MHz
|
1545 MHz
|
Shader Perf. |
35.6 TFLOPS
|
29.8 TFLOPS
|
20.3 TFLOPS
|
13.4 TFLOPS
|
RT Perf. |
285 TFLOPS
|
283 TFLOPS
|
163 TFLOPS
|
110 TFLOPS
|
Memory |
24 Go GDDR6X
|
10 Go GDDR6X
|
8 Go GDDR6
|
11 Go GDDR6
|
Memory Clock |
19.5 Gbps
|
19 Gbps
|
14 Gbps
|
14 Gbps
|
Memory Bus |
384-bit
|
320-bit
|
256-bit
|
352-bit
|
Bandwidth |
936 GB/s
|
760 GB/s
|
441 GB/s
|
616 GB/s
|
TDP | 350W |
320W
|
220W
|
250W
|
MSRP | 1549 euros référence – environ 2100 euros |
719 euros référence
– 1099 euros |
519 euros
|
1259 euros
|
Processeur de Streaming
L’un des aspects les plus importants de l’architecture Ampere repose sur les processeurs de streaming, alias les SM (streaming multiprocessors). Comparativement à la génération précédente, alias Turing, les nouveaux SM offrent le double les performances en FP32. D’ailleurs, sur cette RTX 3090 on trouve 82 SM contenant chacun 4 Tensor Cores. On obtient donc les 328 Tensor Cores. Sur le schéma ci-dessous on peut voir de quoi est constitué un SM. On y voit les 4 Tensor Cores, mais également que chaque unité dispose de 32 cœurs FP32 ((32*4)*82) = les 10 496 cœurs CUDA. Notez que parmi les 32 cœurs présents dans chacune des quatre unités qui composent un SM, 16 d’entre eux peuvent effectuer simultanément des calculs INT32 et FP32.
RT Cores et Tensor Cores
Il faut tout d’abord noter que le nombre de RT Cores augmente face à la RTX 2080 Ti puisqu’on passe de 68 à 82. Mais en plus de cela il faut prendre en compte que l’IPC a augmenté de 1,7 fois. La technologie Ray Tracing utilise tout particulièrement ces cœurs. Pour rappel, cette technologie qu’on appelle aussi souvent « RTX » consiste à traiter la lumière en temps réel dans les jeux pour apporter davantage de réalisme dans les ombres, reflets, etc. On en parle bien plus en détail dans notre test détaillé sur Minecraft RTX. Ce réalisme atteint un niveau impossible à égaler manuellement. Le contrecoup de cette technologie est sa très forte consommation en ressources graphiques et la chute inévitable des FPS.
Pour pallier à cela, les Tensor Cores entrent en jeu avec la technologie DLSS (Deep Learning Super Sampling) qui repose sur un réseau neuronal d’apprentissage et augmente les FPS. Cette technologie fonctionne via l’algorithme d’Intelligence Artificielle qui conserve, voire même améliore, la qualité d’image dans certains cas. Ces Tensor Cores sont issus de la troisième génération et bénéficient d’un IPC 2,7 fois plus important comparativement à l’architecture précédente. C’est aussi cette technologie qui permet, entre autres, de jouer jusqu’en 8K avec une RTX 3090 via un mode Ultra Performance.
RTX IO
RTX IO est une nouvelle architecture de stockage. Concrètement, jusqu’à présent la carte graphique communiquait avec le stockage via le processeur et la mémoire système. Cette charge étant de plus en plus forte sur le processeur, il peut y avoir un impact visible sur les performances. NVIDIA arrange la situation en faisant communiquer la carte graphique directement avec le stockage, sans intermédiaire, ce qui permet d’accélérer les débits. RTX IO apporte une décompression de données sans perte accélérée par GPU, ce qui signifie que les données restent compressées et regroupées avec moins d’en-têtes d’E/S, car elles sont déplacées du disque vers le GPU. NVIDIA annonce que cela permet de saturer la bande passante du PCIe 4.0 en atteignant le cap de 14 Go/s. À titre de comparaison, le système présenté sur la console de salon PlayStation 5 qui a fait beaucoup de bruit est à 9 Go/s.
À noter que cette technologie est annoncée comme compatible avec les cartes graphiques basées sur Turing également (RTX 2000 Series). Cela se fera via de prochaines mises à jour. Il faut aussi prendre en compte qu’un SSD PCIe 4.0 n’est pas obligatoire pour profiter de RTX IO. En effet, cela fonctionnera même avec un SSD NVMe en PCIe 3.0. Il faut simplement se dire que plus le SSD sera rapide, plus les débits seront élevés et les temps de chargement courts dans les jeux.
Selon les tests de NVIDIA, la lecture de données non compressées à partir d’un SSD à 7 Go/s comme le Samsung 980 Pro, nécessite l’utilisation complète de deux cœurs d’un processeur, puis le système d’exploitation répartit cette charge de travail entre les cœurs et threads disponibles. Le problème est que pour un jeu triple A récent, des centaines de milliers de ressources individuelles sont entassées dans des fichiers compressés.
Bien qu’au niveau d’E/S du disque, les uns et les zéros soient toujours déplacés jusqu’à 7 Go/s, le flux de données décompressées au niveau du processeur peut atteindre 14 Go/s dans le meilleur des cas. Ajoutez à cela le fait que chaque demande d’E/S arrive avec sa propre surcharge, soit un ensemble d’instructions permettant au CPU de récupérer « x » éléments de ressources du fichier « y » et le livrer au tampon « z », le tout avec des instructions pour décompresser ou décrypter la ressource, cela pourrait prendre énormément de puissance au processeur à une échelle de débit IO élevée, et NVIDIA fixe le nombre de cœurs de processeur requis à 24. C’est l’API DirectStorage qui permet aux périphériques de traiter directement la pile de stockage pour accéder aux ressources dont ils ont besoin.
Pour les cartes graphiques, on s’attend à ce que seules les RTX la supportent, y compris la génération précédente reposant sur Turing.
NVIDIA Reflex et Latency Analyzer
Durant l’annonce de cette génération de GPU, NVIDIA a également présenté la technologie Reflex. Celle-ci permet de réduire la latence des jeux (esports notamment) jusqu’à 50%. Les premiers jeux prenant en charge NVIDIA Reflex sont : Valorant, Apex Legends, Call of Duty Warzone, Destiny 2 et bien sûr Fortnite. Les développeurs disposent d’APIs fournies par NVIDIA pour l’intégrer à leurs jeux. Du côté des utilisateurs, cette technologie arrivera sous la forme d’une mise à jour du pilote GeForce. Notez que cela fonctionne non seulement avec les nouvelles RTX 3000 Series, mais également à partir des GTX 900, un aspect important à souligner. Pour rappel, la latence représente le laps de temps entre l’action, par exemple un clic sur la souris et le moment où l’action est affichée à l’écran.
Niveau fonctionnement, le pilote travaille de concert avec le moteur du jeu pour optimiser les débits de rendu 3D. La file d’attente de rendu est réduite dynamiquement et moins d’images sont laissées en file d’attente. NVIDIA déclare que cette technologie permet de garder le GPU parfaitement synchronisé avec le CPU (file d’attente de rendu 1: 1).
Sur le graphique ci-dessous, NVIDIA montre l’efficacité de sa technologie Reflex. Notez que sur la configuration de test il s’agit seulement d’une GTX 1660 SUPER avec un processeur Intel Core i9, le tout avec une définition 1080p. Dans les quatre jeux présentés, tous en profitent à plus ou moins grande échelle.
Avec NVIDIA Reflex, la marque a présenté un nouveau standard pour les moniteurs esports : les écrans G-Sync 360 Hz avec la technologie NVIDIA Reflex Latency Analyzer. Cette dernière est intégrée via le module G-Sync de l’écran et permet de mesurer la latence d’un écran, d’une souris et du PC dans un jeu. Accompagnés d’un taux de rafraîchissement à 360 Hz qui réduit déjà naturellement l’input lag, ces écrans garantissent une latence particulièrement basse, idéale pour les jeux esports. De plus, cette prouesse ne repose pas sur des dalles de types TN qui sont généralement les plus rapides, mais sur des dalles de types IPS qui ont un bien meilleur rendu des couleurs.
Sur les écrans G-Sync 360 Hz se trouve un HUB équipé de deux ports USB. On peut y brancher n’importe quel périphérique, mais c’est aussi là qu’il faudra brancher la souris certifiée NVIDIA pour profiter des fonctionnalités supplémentaires. Une fois branchée, la fonctionnalité s’activera depuis l’OSD de l’écran et à chaque action de la souris, sa latence sera mesurée et affichée. De même, la latence du système complet est mesurée. Ci-dessous notre test dédié à la technologie NVIDIA Reflex Latency Analyzer.
Test : ASUS ROG Swift PG259QNR et NVIDIA Reflex Latency Analyzer
Passons à la suite et commençons avec les benchmarks sous 3DMark et compagnie.
Lire la suite
- Introduction et caractéristiques techniques
- Architecture Ampere, NVIDIA Broadcast et Reflex
- Overclocking, 3DMark et Furmark
- Rendus 3D
- Far Cry 5 et Assassin’s Creed Valhalla
- Watch Dogs: Legion et Call of Duty: Black Ops Cold War
- Control et Fortnite
- Deliver us the Moon et Red Dead Redemption II
- Doom Eternal et Wolfenstein
- Grand Theft Auto V
- Températures, consommation, performances par Watts et latence
- Conclusion
- Shooting photo complet
Merci pour ce test Cyril . Ayant acquis cette carte il y a à peune 3 semaines j’en suis satisfait . Merci pour ton tuto montage PC , il m’a été très utile puisque j’ai monté mon premier pc il y a 3 semaines dans un boitier helios avec un i99900k sur une maximus XI CODE le ryujin 360 et 4 barrettes de 8 gigas de ram ballistix avec comme alimentation la thor 850 watts . Sur doom eternal la consommation globale de ma machine ne dépasse pas 517 W . Sur metro exodus pareil je n’ai jamais vu plus de 520 W . Je précise que ma carte est en mode QUIET . J’ai même baissé ma fréquence au debut pour voir ma consommation mais il ny avait aucun changement avec les frequences d’origines. Étonnamment le youtubeur Guillaume a monté en partenariat avec infomax un pc à doigby . Sur cyberpunk 2077 il avait une consommation globale dz 550 W avec une rtx strix 3080 . Ce que je veux dire c’est que même si cette 3090 est celle qui consomme le plus ce qui compte aussi c’est la consommation globale de la machine . Certains ont des 3090 qui consomment moins mais des processeurs ou autres composants qui tire plus donc … cette carte est avant tout pour un usage gaming pour ma part . Je voulais la 3080 strix mais impossible de mettre la main dessus . J’ai vu cette opportunité pour la 3090 et ayant eu marre d’attendre je l’ai acheté . Peut-être qu’un jour je ferais des montages video . Ils avaient annoncé la 3080 ti mais elle a été repoussée et vu l’inflation des prix je ne pense pas qu’elle soit en dessous des 1600 voir 1700 pour les customs donc bon … au moins comme tu l’as dit dans l’article avec les 24 gigas de Vram je suis tranquille pour la 4k dans le futur ? .
Je me retrouve complétement dans ce que vous diites et je valide, j’ai moi même acheté cette carte pour les mêmes raisons et je ne suis vraiment pas déçu malgré son prix…
Oé bah nique sa mere… Vous avez vu son prix comment il a augmenté ?
Bonjour,
Pour le test en OC avec 1925MHz (soit +65MHz sur le core si je ne m’abuse) de boost clock et 1366MHz sur la mémoire, quels étaient vos autres réglages : la power limit réglable dans afterburner était a 100% ou 123% ?
Bonjour, j’ai actuellement le même processeur et la carte mère et j’ai acheté aujourd’hui la carte graphique que vous avez aussi. Le problème c’est que je n’es pas garder mes câble de mon Alimentation qui est une ocz zx 1000w, et de se faite je ne trouve pas quel câble il me faut pour les brancher de mon alim a ma carte graphique . Si vous avez un lien pour cela merci. Si quelqu’un pouvez m’aider pour ça Merci.