Но процессор то не 512-разрядный
Для современных процессоров термин "разрядность" не имеет смысла без указания блока процессора. Разные блоки имеют разную разрядность.
Возьмём обычные интеловские процессора. Они имеют 16 64-битных регистров общего назначения, которые позволяют выполнять арифметические целочисленные и логические операции, операции пересылки данных, условные переходы, специальные операции для поддержки многозадачности. Этот блок регистров и инструкций, связанных с этими регистрами, самодостаточен. С его помощью можно решать всевозможные задачи с числами любой разрядности и формата (целые, с плавающей точкой), но медленно.
В вычислительных задачах нередко возникает необходимо выполнять однотипные операции со множеством независимых данных. Например операции:
A0 + B0 = C0
A1 + B1 = C1
A2 + B2 = C2
A3 + B3 = C3
не зависят друг от друга и могут выполняться одновременно.
Для выполнения таких операции придумали SIMD инструкции: MMX, 3DNow!, SSE, AVX и прочие. Эти инструкции не самодостаточны, невозможно написать программу с использованием только этих операций. Без блока регистров общего назначения не обойтись.
Инструкции SSE есть в любом процессоре не старше 10 лет, поэтому их и рассмотрим. В процессоре есть 16 128-битных регистров SSE, данные в которых можно представить как:
16 8-битных целых
8 16-битных целых
4 32-битных целых
2 64-битных целых
4 одинарной точности с плавающей точкой
2 двойной точности с плавающей точкой
Одна инструкция SSE позволяет выполнить 4 операций сложения, приведённых выше, если An, Bn, Cn - 32-битные целые или с плавающей точкой одинарной точности.
Теперь главный вопрос - быстродействие. В
Intel® 64 and IA-32 Architectures Optimization Reference Manual расписано количество циклов для всех инструкций. Так например, инструкция сложения целых чисел, хранящихся в регистрах общего назначения, (ADD) выполняется за 1 такт, инструкция сложения целых чисел, хранящихся в SSE-регистрах, (PADDх) занимает также 1 такт (справедливо, по крайней мере, для Sandy Bridge). При этом, в первом случае происходит одна операция сложения, а во втором - от двух до шестнадцати, в зависимости от длины чисел.
Так какой же процессор стоит в вашем компе: 64-разрядный или 128-разрядный?
Для Xeon Phi я не нашёл такой же таблицы быстродействия, но исходя из вышеизложенного, думаю не так всё плохо, как вам представляется.