Ah, und noch was: Zur NUMA-Geschichte: Das platzt, hutze. Grund ist, daß ich jetzt Statements von einem x265 Kernentwickler (Herrn Pradeep Ramachandran) bekommen habe, die klarstellen, daß dieses Verhalten zumindest unter Linux leider bekannt ist, also der Leistungsverlust beim Splitten von NUMA Pools. So gesehen ist der NUMA Support leistungstechnisch komplett sinnlos. Allerdings habe ich auch gelernt, daß man unter allen 64-bit Betriebssystemen nie mehr als 64 CPUs pro Prozess nutzen kann, es sei denn man erzeugt Prozessgruppen und/oder NUMA Pools. Für 32-bit sind's 32 CPUs. S.u.
Unter Windows gibt es das zusätzliche Problem, daß man bei aktivem NUMA scheinbar keinen Prozeß starten kann, der Threads über ALLE Numa Knoten (=Sockel!) spawned.
Hier muß eine Applikation also Threadgruppen bzw. NUMA Pools erzeugen. In jedem "Pool" gibt es einen separaten 32/64 Bits breiten Bitvektor, der die entsprechende Anzahl von CPUs innerhalb des Pools ansprechen kann. Darüber existiert ein weiterer Adressierer, der individuelle Pools bzw. Threadgruppen anspricht. Weil's im Pool ein Bitvektor ist, heißen 64 Bit hier eben nicht 264, sondern wirklich genau 64.
Die x265 Entwickler MUSSTEN also NUMA Pools unterstützen, um in der Zukunft überhaupt mehr als 64 CPUs ansprechen zu können, bzw. auf Windows auch, um überhaupt mehrere Sockel auf NUMA Systemen ansprechen zu können.
Laut Entwickler trifft x265 hierbei immer die bestmögliche Entscheidung, also NUMA Pools immer auf Windows, und niemals auf Linux, es sei denn es sind zuviele CPUs da, und es geht nicht mehr ohne.
Soviel dazu. Werde in diesem Bereich also NICHT eingreifen, mit Ausnahme von Haiku OS, weil dort muß ich, weil die Detektion der CPU Anzahl fehlschlägt.