Комп'ютерні новини
Всі розділи
Інструкції AMD RDNA 3 VOPD забезпечують приріст продуктивності лише на 4% у сценах із трасуванням променів: але AMD обіцяють покращити з часом цей результат
AMD трохи перехвалила можливості своєї архітектури, а конкретно свій приріст у задачах с рейтрейсингом. Але, як завжди, пообіцяла все виправити у майбутніх оновленнях драйвера.
Одним із ключових моментів графічної архітектури RDNA 3 є можливість видавати подвійні інструкції Wave32 для подвійної пропускної здатності з плаваючою комою (точніше, FMA). Однак, судячи з результатів, маркетингова команда AMD, можливо, надміру розрекламувала цю функцію. Кожен обчислювальний блок RDNA 3 складається з 64 високоточних/багатоцільових ALU, розподілених між двома модулями SIMD32, а також прискорювачем векторної матриці та модулем SIMD8.
Один з модулів SIMD32 здатний виконувати обчислення як INT, так і FP, на додаток до матриці, а інший може обробляти лише інструкції FP та матриці. Кожна з векторних одиниць SIMD32 (пара) може виконувати одну групу інструкцій wave64 FMA або дві групи інструкцій wave32 за один такт.
Однак це абсолютний пік пропускної здатності, можливий лише на папері. У режимі Wave32 дві 32-широкі інструкції FMA мають доступ лише до одного регістра операндів vGPR замість двох і проміжного спільного значення. Навіть у режимі Wave64 можлива пікова продуктивність становить лише 5/6 від теоретично передбаченої цифри.
Hardwaretimes звернулися до AMD із цього приводу й отримали таку відповідь:
“Wave64 може отримати доступ до нових ALU для удвічі більшої швидкості виконання, щоб розблокувати продуктивність під час щільного виконання коду ALU. Для режиму Wave32 компілятор виконує локалізоване перевпорядкування та упаковку інструкцій у кодування VOPD. Тестова сцена RT із використанням кодувань VOPD забезпечила приблизно 4% збільшення кадрів за секунду завдяки усуненню вузького місця ALU. Ми очікуємо подальших удосконалень по мірі розробки компілятора з більшою кількістю оптимізацій для зіставлення послідовностей коду з кодуваннями VOPD. І з прогресом у використанні штучного інтелекту, RT і методів візуалізації, керованих обчисленнями, для більш реалістичного рендерингу, ми очікуємо побачити коди, пов’язані з ALU, які все більше використовуватимуть ці нові ALU.”
AMD визнає, що 64 ALU в обчислювальному блоці можуть лише подвоїти пропускну здатність у режимі Wave64 під час щільного виконання коду ALU. У режимі Wave32 компілятор обробляє локалізоване перевпорядкування та упаковку інструкцій у кодування VOPD. Однак сцена з трасуванням променів із використанням кодування VOPD забезпечує збільшення частоти кадрів на ¬4% за рахунок усунення вузького місця ALU.
Команда червоних очікує, що переваги від кодувань VOPD покращаться з часом, оскільки компілятор все ще оптимізується.