Operator‑Faltung, Quantisierung und Layout‑Anpassungen verwandeln Trainings‑Modelle in lauffähige Pläne. Je nach NPU lohnt FP8, INT8 oder gemischte Präzision. Wir zeigen, wie sich Qualität messen lässt, Kompromisse dokumentiert werden und robuste Pipelines reproduzierbar entstehen – auch über Chip‑Generationen.
Zähler für Speicherzugriffe, Kernel‑Zeiten und Energie helfen, Heuristiken zu prüfen. Visualisierungen zeigen, ob Vorverarbeitung oder Inferenz bremst. Dadurch wird die nächste Optimierungsschleife planbar, statt zufällig. Ein Leitfaden hilft, Ursachen systematisch einzugrenzen und Quick‑Wins zuerst zu heben.