Vulkan Benchmark - Entwicklung - Alpha Tester gesucht

  • Aber bei Voodoo5 und Fury MAXX hörst bei mir auf mit Multi GPU.

    Oder Voodoo 2 SLI. Dort zumindest konnte man höhere Grafikeinstellungen vornehmen (1024)

    Daher meine Frage.. :topmodel::spitze:

    Diskutiere niemals mit Idioten, sie ziehen dich auf ihr Niveau runter und schlagen dich mit ihrer Erfahrung.
    Mein Herzblut:
    AMD 5x86-P75, 64MB-Ram, Voodoo I, Win3.11
    AMD K6-2+ 550 @ 600MHz, 256 MB-Ram, Voodoo II SLI, Win98SE
    AMD 3700+, 3072MB-Ram, ATi FireGL X3-256
    , WinXP SP3 (Sockel 754)

  • Was ihr also eventuell nicht umgeht ist das Filesystemcaching. Soweit es mir bekannt ist, ist es auch programmatisch nicht trivial den Read Cache zu kübeln. Beim Schreibcache geht das z.B. mittels non-blocking Write::Flush oder auch blocking File::Sync_All. Ersteres triggered einfach die flush-Funktion des darunterliegenden Betriebssystems, also z.B. std::sys::unix::File::flush oder std::sys::windows::File::flush.

    Aber wie kübelt man den Read Cache? Ich wüßte gar nicht Mal wie man das unter Windows überhaupt macht, danach hatte ich selber schon Mal gesucht. Unter Linux geht es zumindest auf der Shell so: # echo 3 > /proc/sys/vm/drop_caches. Unter Windows geht das vielleicht gar nicht. Man könnte eben nur:

    1. Alles einlesen
    2. Mit allen Eingabedaten im RAM zu rechnen und zu messen beginnen (das macht ihr aber teilweise eh schon so, wenn ich das richtig verstehe?)
    3. Messung abschließen (Fraglich ob man den finalen Disk Flush mitmessen sollte oder nicht, je nachdem WAS man genau messen will)

    Alternativ könnte man das Mitmessen von Disk I/O auch akzeptieren, muß man nur dazuschreiben, daß das einen Einfluß hat. Ist ja auch ok. Bei einer realen Anwendung spielt's ja auch eine Rolle, also könnte man auch argumentieren, daß das beim Benchmark genauso sein darf. Mit einem Bench der beim Erststart etwas langsamer läuft als bei Folgestarts wärt ihr auch nicht alleine. Sowas habe ich schon oft gesehen.

    Was undertaker_2 da grade anspricht interessiert mich aber auch; Wahrscheinlich geht das nicht, aber: Könnte der Benchmark auch mehrere GPUs nutzen? Oder ist das Problem nicht so leicht aufteilbar? Bei manchen Sachen geht sowas ja; Einfach Daten in der Mitte auseinanderschneiden und zwei halbe Stücke auf zwei GPUs rechnen, Endergebnis wieder zusammensetzen. Ich weiß nur nicht ob es hier geht, weil ich kaum einen Tau davon habe was der Test echt rechnet, und wie genat. ;)


    Edit: Habe noch drei Durchläufe auf meiner RX 7900 XTX rennen lassen. Einmal ein Erststart nach kaltgestartetem System und Grafikkarte ohne Tweaks (Windows noch ein paar Minuten stehen lassen vor'm Start), dann ein Zweitstart mit gleichen Einstellungen, und nochmal drauf ein dritter Durchlauf mit GPU Tweaks, die jetzt aber irgendwie überhaupt nichts gebracht haben:


    Erststart ohne GPU Tweaks:

    Windows 11 Pro 22H2 x64 | AMD Ryzen 5 5600X | 16 GiB DDR4/3200 18-21-21-39-74-1T | AMD Radeon RX 7900 XTX | 16 GiB GDDR6/2500 | scored 1233!

    Zweiter Start gleich danach, auch ohne GPU Tweaks:

    Windows 11 Pro 22H2 x64 | AMD Ryzen 5 5600X | 16 GiB DDR4/3200 18-21-21-39-74-1T | AMD Radeon RX 7900 XTX | 16 GiB GDDR6/2500 | scored 1276!

    Nach Wiedereinschalten der GPU Tweaks:

    Windows 11 Pro 22H2 x64 | AMD Ryzen 5 5600X | 16 GiB DDR4/3200 18-21-21-39-74-1T | AMD Radeon RX 7900 XTX | 16 GiB GDDR6/2500 | scored 1280!


    Aber auf >1300 komme ich irgendwie nicht mehr, keine Ahnung wieso. Beim zweiten Run habe ich noch ein paar Aufzeichnungen durchgeführt:


    GPU-Z

    Weil der Screenshot nicht so ganz viel bringt habe ich noch eine Logdatei von GPU-Z über den gesamten Benchmarkverlauf angehängt: GPU-Z Sensor Log.txt

    Für die Ryzen 5 5600X CPU habe ich den Windows Performance Monitor benutzt, hier wurde die Aufzeichnung kurz nach Benchmarkstart angestoßen, bildet also nur beinahe den Gesamtverlauf ab:


    Obere Reihe v.l.n.r: CPUs 0-5, untere Reihe ebenso: CPUs 6-11 (Klicken zum Vergrößern)

    Beim Takt hat sich nicht viel verändert, die Board Power tänzelt fast immer so zwischen 95 - 103 Watt herum. Nur einen kurzen Spike auf 143 Watt habe ich sehen können, als die Karte doch Mal zumindest auf >1900 MHz hochgetaktet hatte, aber sonst ein recht ruhiges Bild:


    AMD Treiberpanel während des laufenden Tests (Klicken zum Vergrößern)

    Jetzt stellt sich nur die Frage, wie ich beim allerersten Versuch 1345 erreichen konnte?

    Ajo, eines habe ich noch versucht, nämlich der GPU einen Mindesttakt von einfach Mal 2300 MHz aufzuzwingen, um mehr Leistung herauszukitzeln, weil sie ja von selbst nicht ganz hochtaktet. Diese Einstellung akzeptiert der AMD Treiber aber scheinbar nicht. Die wird einfach ignoriert.


    Edit 2: Halt, ich habe meinen Leistungsfehler gefunden. Hatte vergessen das Power Target zu heben beim Versuch mit GPU Tuning. Obwohl der Benchmark hier nie die Decke erreicht, bringt das trotzdem was, ein paar Watt mehr genehmigt sich die Karte und die Taktfrequenzen sind im Mittel minimal höher. Damit sitze ich wieder da wo ich angefangen habe, so wie zu erwarten:

    Windows 11 Pro 22H2 x64 | AMD Ryzen 5 5600X | 16 GiB DDR4/3200 18-21-21-39-74-1T | AMD Radeon RX 7900 XTX | 16 GiB GDDR6/2500 | scored 1347!

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

    Edited 8 times, last by GrandAdmiralThrawn (November 4, 2023 at 11:29 PM).

  • Mein MSI GF63 Thin Laptop kann den Benchmark leider nicht durchlaufen.

    Core i7 8750H/ 16GB DDR4 2600 und GTX1050Ti Max Q. Windows 10Pro 22H2 und die Grafiktreiber sind auch nicht veraltet. Aber der Benchmark stürzt nach einer Weile ab. Es gibt keine thermischen Probleme.

  • Weiterhin denke ich, dass der 1. Run der Relevante ist. Da dieser meiner Meinung nach eher den Realworld Einsatz darlegt. Was bringt mir eine Grafikkarte, welche beim 2 mal doppelt so schnell ist, wenn ich ehh andauernd etwas am Modell verändere?

    Als Beispiel:

    GPU A: Erster Run 10 Sekunden zweiter Run 5 Sekunden
    GPU B: Erster Run 7 Sekunden zweiter run 6 Sekunden

    Hier wäre je nach Situation die GPU B die bessere Wahl.

  • Was undertaker_2 da grade anspricht interessiert mich aber auch; Wahrscheinlich geht das nicht, aber: Könnte der Benchmark auch mehrere GPUs nutzen? Oder ist das Problem nicht so leicht aufteilbar? Bei manchen Sachen geht sowas ja; Einfach Daten in der Mitte auseinanderschneiden und zwei halbe Stücke auf zwei GPUs rechnen, Endergebnis wieder zusammensetzen. Ich weiß nur nicht ob es hier geht, weil ich kaum einen Tau davon habe was der Test echt rechnet, und wie genat. ;)

    Ja der Job ist Teilbar. Sogar sehr einfach. So sollte sich als Ergebnis auch Punktezahl 1 + Punktezahl 2 als gesamtpunktezahl ergeben vorausgesetzt die RAM Geschwindigkeit limitiert nicht.

    Zum Ablauf-verständniss:

    Es wird eine 3D Datei in den Ram Geladen ich nenne diese einfach mal Objekt.

    Diese wird mit Positionsdaten abgelegt und dann die zusätzlichen Positionsdaten Vervielfältigt.

    Somit Liegt dann Ein Objekt beim Laden im Ram zusammen mit sagen wir mal 10.000 Positionsdaten.

    Dann wird das Objekt in Höhe durch eine Anzahl X Geteilt also sagen wir mal 100.

    Hier raus entstehen 100 Höhenabhängige Schichtdaten vom Objekt oder auch Schichten Genannt. Der Benchmark schiebt jetzt Das Objekt in den Vram und lässt die GPU die für die Jeweilige Höhe notwendige Vektordatei berechnen von 10.000 Objekten.

    Heißt es entsteht ein Schnittbild von 10.000 Objekten auf Schichthöhe 1 Dis dauert dann XXXX Millisekunden. Dieses 2D Vektorbild wird zurück in den Ram Geschrieben für die weitere Datenverarbeitung und die nächste Schicht (2) wird berechnet.

    Nachdem alle 100 Schichten berechnet sind Fängt der Benchmark wieder bei Schicht 1 an und Wiederholt das so lange bis 5 min abgelaufen sind und Zählt die Anzahl der Errechneten Schichten = Punktzahl.

    Genauere Details dazu muss ich mit der Programmierung absprechen wieviel zum Technischen Hintergrund ich Rausgeben darf.


    Demnach ist es einfach X Schichten von X Grafikkarten Gleichzeitig berechnen zu lassen.

    Lediglich das Rückspielen in den Ram ist hier natürlich von Relevanz. Daher auch der Aktuelle Ansatz die Zeitenmessung nochmal anzupassen und aufzuschlüsseln.

    Die Untersuchung des Overheads am Anfang des Benchmarks steht hoch in der Priorität soll aber durch das "Warmlaufen" eliminiert werden.

    Denn Schließlich wird auch nicht die Ladezeit von Crysis gemessen oder Ein Speedrun von Zelda auch nicht beim einschalten der Konsole.

    Das Gleiche gilt auch beim Einladen von CAD Daten oder dem Laden eines Projektes bei der Filmproduktion.

    Der Benchmark soll Grafikkarten orientiert bleiben und kein System Benchmark darstellen.

    Bier.jpg Klingt das logisch für dich?


    Weiterhin soll der Benchmark auch Purge unabhängig sein. demnach soll einfach der Durchlauf einer Schicht nach einladen in den Vram sowie das Rauspielen der Schicht gemessen werden. Dann ist es auch egal wie Gut oder Schlecht das OS oder das Programm das zeug wieder löscht.

    Bei meinem System konnte ich die Abhängigkeiten während des Laufes meistens bei so 15 ms / Schicht einsortieren.

    Es gab aber auch Ausreißer von durchaus 2 s. Das verfälscht natürlich das Ergebnis. Demnach der "Vorlade / Aufheiz Run" und auch die optimierte Zeitmessung.

    Ebenso können Die Ergebnisse unabhängig von "ich leg mal schnell nen Kühl Pack bereit und lass die GK eiskalt schnell durchrechnen" gemacht werden.

    Somit ist es Valider für eine stabile Konfiguration als ein Highscore Hunt mit Artefakten und Abstürzen.


    Konsistenz Beim Power Target hat einen hohen Einfluss da die Laufzeit der Einzelschichten sich schnell aufaddieren wenn der Takt ein bisschen einbricht so entstehen leicht mal bis zu 100 schichten weniger.

    Aber Danke fürs Validieren. Sieht sehr nach den Effekten aus die ich ebenfalls reproduzieren konnte.

    Mein MSI GF63 Thin Laptop kann den Benchmark leider nicht durchlaufen.

    Core i7 8750H/ 16GB DDR4 2600 und GTX1050Ti Max Q. Windows 10Pro 22H2 und die Grafiktreiber sind auch nicht veraltet. Aber der Benchmark stürzt nach einer Weile ab. Es gibt keine thermischen Probleme.

    Hmm Das kommt mir seltsam vor. Da eine 1050 eigentlich durchlaufen sollte. Wir müssten auch eine 1050 da haben und würden mal gegentesten

  • Ihr habt ja schon eine 1050Ti aufgelistet. Ich wollte das Ergebnis einer 1050Ti MaxQ mit einfügen, da beide GPU's sich im Grunde nur vom Vcore und Bootstakt unterscheiden.

    Aber ich probiere es bei Zeiten nochmal aus.

  • Weil gewünscht, noch ein paar Ergebnisse zu:

    2950X | 64GB DDR4-3000 14-14-14-28 | 6900XT (2165MHz, Boost: 2365MHz)

    Run 1 GraKa Auto-UV: 818

    Run 2 Auto-UV: 819

    Run 3 Normal: 826

    Run 4 Normal, Radeon-Settings zu: 834

    Run 5 Auto-UV, Radeon-Settings zu: 820


    Anderes System:

    1800X | 32GB DDR4-2400 17-17-17-39 | Vega64 (G1 Gaming 1630/945)

    Der Benchmark lief zwar, brachte kein Ergebnis. Es ist Win10 1809 installiert und der Treiber hatte Vulcan 1.1.***. Nach Update auf Vulcan 1.3.*** blieben die Ergebnisse auch aus. Das einzig ungewöhnliche im Log ist:

    Loader Message general information: Failed to find vkGetDeviceProcAddr in layer "C:\windows\System32\DriverStore\FileRepository\u0397033.inf_amd64_bf2b1fc18ba7195d\B396953\.\amdvlk64.dll"

  • Sodele...


    Jetzt kommen wir zur RX580


    Win10Pro | R7 1700 | 16 GB DDR4 3200 CL14-14-14-34** | RX580 | Scored = 341! (zwei weitere zur Kontrolle: 343! sowie 343! )

    Solch brachiale Unterschiede wie bei der Intel IGP gibt es bei Steckkarten offensichtlich nicht. :/

    Zumindest nicht bei mir. :topmodel:

    ** Falls es von Bedeutung ist: Alle vorherigen Ergebnissen mit den 1700er haben diese Speichertimings (G-Skill FlareX Samsung "B") gehabt. Der Bench wurde von einem USB3.0 Device gestartet (Seagate 3TB - mechanische Platte)

    Diskutiere niemals mit Idioten, sie ziehen dich auf ihr Niveau runter und schlagen dich mit ihrer Erfahrung.
    Mein Herzblut:
    AMD 5x86-P75, 64MB-Ram, Voodoo I, Win3.11
    AMD K6-2+ 550 @ 600MHz, 256 MB-Ram, Voodoo II SLI, Win98SE
    AMD 3700+, 3072MB-Ram, ATi FireGL X3-256
    , WinXP SP3 (Sockel 754)

  • In Spielen haben AMDs RX400/500 doch deutliche Vorteile gegenüber Pascal Karten.

    Wer weiß schon was hier gebencht wir? Eisfuchs hüllt sich ja in schweigen... ;)

    Diskutiere niemals mit Idioten, sie ziehen dich auf ihr Niveau runter und schlagen dich mit ihrer Erfahrung.
    Mein Herzblut:
    AMD 5x86-P75, 64MB-Ram, Voodoo I, Win3.11
    AMD K6-2+ 550 @ 600MHz, 256 MB-Ram, Voodoo II SLI, Win98SE
    AMD 3700+, 3072MB-Ram, ATi FireGL X3-256
    , WinXP SP3 (Sockel 754)

  • "In Schweigen" würde ich jetzt auch nicht sagen, er hat ein paar Posts weiter oben eh schon einiges dazu erklärt.

    Aber: Stimmt das wirklich bzgl. RX 400/500? Pascal ist doch sogar schneller als Vega. Meine Vega 64 hat sich damals immer so irgendwie mit einer 1080 (ohne Ti) matchen können, aber auch nur wenn die Radeon unterspannt war. Und die RX 500 Reihe liegt noch eine Generation weiter zurück, sind da nicht eher Kepler und Maxwell die Gegner? Ein kurzer Rundumblick im Netz scheint mir das zumindest zu bestätigen was Leistung in Spielen angeht, da liegt die RX 590 grade Mal irgendwo zwischen GTX 1060 und 1070..

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Ich denke das dies mit implementieren und den damit verbundenen Ressourcen zu tun hat. Als Weltmarktführer hat NiemalsVidia natürlich andere Ressourcen zur Verfügung als AMD, deren Hauptgeschäft natürlich auf CPUs liegt.

    ---> Ist allerdings reine Spekulation meinerseits.

    Diskutiere niemals mit Idioten, sie ziehen dich auf ihr Niveau runter und schlagen dich mit ihrer Erfahrung.
    Mein Herzblut:
    AMD 5x86-P75, 64MB-Ram, Voodoo I, Win3.11
    AMD K6-2+ 550 @ 600MHz, 256 MB-Ram, Voodoo II SLI, Win98SE
    AMD 3700+, 3072MB-Ram, ATi FireGL X3-256
    , WinXP SP3 (Sockel 754)

  • Jo, auf der anderen Seite zieht die 1070 an allem vorbei was die Polaris Architektur hergibt, auch an der Spitzenkarte, der RX 590. Und die 1070 ist alles andere als das Highend bei Pascal. Also wenn du Low End mit Low End, Mid Range mit Mid Range und High End mit High End vergleichst, dann sieht Polaris da doch kein Licht mehr. Weil dann müßte man z.B. die RX 590 mit der GTX 1080 Ti vergleichen. Oder zumindest mit der 1080.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"