Welcome to the forums, Skyye!
Not to confuse the different compute units or shader cores is actually a very good point.
I think there is much more to it than the amount of cores or CUs when comparing the different ASICs from NV, AMD and Intel in the future.
AMD's GCN was very strong in pure compute with for instance Fiji being faster than NVidia's Maxwell back in the day.
The problem with GCN's gaming performance seemed to be more at the front end as well as the geometry throughput.
The following was put together based on scattered memories of the chip schematics... if something seems wrong, by all means feel free to correct me
RDNA 2 now has just like RDNA 1 so called WGPs (Work Group Processors / 40 in total) each combining two CUs. One WGP group contains 4 blocks.
Each block as 32 Lanes for FP32, FP16 and INT32 as well as 2 Lanes for FP64. The results are way more memory bandwidth as well as compute power.
One Ampere CU (82 in total) contains 4 blocks. Each block has 16 ALUs and 16 FPs. Only block 1 has 2 DPs, the others don't. The 16 ALUs are accessible through port 0 and seem to handle FP16, FP32 and INT32. The remaining 16 FPs are accessible via port 1. Looks like the interesting part is that only FP32 instructions can be scheduled onto both issue ports 0 and 1 which gives them access to all 32 ALUs that can double their performance. That's probably why they talk about "10496 Shaders".
I'm very curious about what Intel might be able to pull off. I don't expect a killer chip that will compete in the high ranks with both AMD and NVidia.
However a solid start in the right direction is something I'm hoping for.
DEU:
Die verschiedenen shader cores und CUs nicht miteinenander zu verwechseln, ist ein guter Hinweis.
Ich denke auch, wenn man AMDs, NVidias und später Intels ASICs miteinander vergleicht, gilt es mehr zu beachten als die reine Anzahl der CUs.
AMDs GCN Architektur wer sehr stark im reinen Compute. Zum Beispiel Fiji vs. Maxwell damals.
Das Problem bei GCN schien damals am Front End und am Durchsatz der Geometry zu liegen.
Folgendes habe ich aus meiner nebulösen Erinnerung an die Blockdiagramme zusammengetippt... korrigiert's mich also bitte, falls ich wo falsch liege
Bei RDNA heißen die Dinger Work Group Processors (40 insgesamt), von denen jeder zwei CUs zusammenfasst. Ein WGP besteht aus 4 Blöcken, von denen jeder 32 Lanes hat, die FP32, FP16 und INT32 können. Für FP64 sind zwei DP Lanes pro Block vorhanden. Das Ergebnis sind mehr Speicherbandbreite und mehr Leistung.
Eine CU bei Ampere hat ebenfalls 4 Blöcke. Jeder Block besteht aus 16 ALUs und 16 FPs. Nur der erste der vier Blöcke hat zwei DPs. Auf die 16 ALUs kann über Port 0 zugegriffen werden, was Berechnungen in FP16, FP32 und INT32 erlaubt. Die übrigen 16 FPs sind erreichbar über Port 1, was angeblich nur den FP32 Instructionen vorbehalten ist.
So hat man für FP32 über beide Ports alle 32 ALUs zur Verfügung, was die Performance verdoppeln kann. Wahrscheinlich redet man deswegen von "10496 Shadern".
Ich bin sehr neugierig was Intel rausbringen wird. Ich erwarte keinen Killerchips, der es mit den großen von AMD und Nvidia aufnehmen kann.
Aber ich hoffe auf einen guten Start in die richtige Richtung.