Нейросети — это в основе своей огромное число умножений и сложений над матрицами. Универсальное процессорное ядро делает их неэффективно. Поэтому появились специализированные ускорители: NPU (нейропроцессор) в смартфонах и TPU (тензорный процессор) в дата-центрах.
Их секрет — массив из тысяч простых умножителей-сумматоров, работающих параллельно (систолический массив), и поддержка вычислений пониженной точности (8-битные целые вместо 32-битных чисел с плавающей точкой). Для ИИ такая точность достаточна, а энергии и площади тратится в разы меньше. В результате NPU выполняет распознавание лиц, шумоподавление и работу языковых моделей на устройстве с КПД, недостижимым для обычного CPU. Это пример общей тенденции: рост производительности всё чаще достигается не универсальностью, а специализацией.