Можно реализовать salsa вообще без использования памяти. Ядра без памяти будут медленными сами по себе, у ядер же с ориентацией на 128кб скатчпад будет максимальное быстродействие в пересчете на штуку. Но оба варианта не являются единственно возможными, может быть реализовано произвольное множество промежуточных вариантов.
А вот здесь пожалуйста поподробнее...какие еще возможны варианты? И вдогонку еще вопрос - насколько хватит чипу, например, 18-битной шины памяти (для salsa) и насколько критично отсутствии аппаратной поддержки XOR и инструкций сдвига? Производительность чипа условно считаем избыточной, упор в скорость работы с памятью при заданных условиях.
Ну как, просто же: всего-то вычислений salsa8xor (см одну из программных реализаций): 1024+((0+1024)*/2+1)*1024 и расход памяти 3кбит: 1кбит - для хранения исходного значения, полученного после PBKDF2, 1кбит для текущего результата и 1кбит для перевычисления каждый раз когда надо "прочитать" "запомненное" значение