Пошук по сайту

up

Комп'ютерні новини

Всі розділи

Frontier суперкомп'ютер на базі AMD стикається з труднощами, а ні дня без проблем

Коли AMD оголосила, що поставить найшвидший у світі суперкомп'ютер Frontier, компанія також взяла на себе масштабне завдання побудувати машину, здатну виробляти один ExaFLOP із загальною стійкою здатністю виконувати обчислювальні завдання. Хоча система нарешті запрацювала, змусити машину такого розміру працювати належним чином непросто. У світі високопродуктивних обчислень поставка апаратного забезпечення є лише частиною роботи центру високопродуктивних обчислень. В інтерв'ю InsideHPC Джастін Вітт, директор програми Oak Ridge Leadership Computing Facility (OLCF), розповів, як це - управляти найшвидшим в світі суперкомп'ютером і з якими проблемами він стикається.

Система Frontier оснащена 64-ядерними процесорами AMD EPYC 7A53s «Тренто» з тактовою частотою 2,0 ГГц і графічними процесорами Instinct MI250X. Все це з'єднано 64-портовим (Cray) Slingshot Switch HPE, який відповідає за відправку даних на обчислювальні блейдиі і з них. Недавнє інтерв'ю вказує на досить цікавий висновок: саме графічні процесори Instinct MI250X від AMD і з'єднання Slingshot викликають апаратні проблеми для Frontier. «В основному це проблеми масштабних обчислень у поєднанні з різноманітністю додатків, тому проблеми, з якими ми стикаємося, в основному пов'язані з виконанням дуже і дуже великих завдань з використанням всієї системи і забезпеченням того, щоб все апаратне забезпечення працювало послідовно для цих завдань», - говорить Джастін Вітт. На додаток до обмежень масштабу, «Проблеми охоплюють багато різних категорій, графічні процесори є лише одними з них. Багато проблем зосереджено навколо них, але це не більшість проблем, які ми бачимо", - сказав він. "Це досить великий розкид варіацій серед поширених проблем в виході з ладу деталей, які складають більшість з них. Я не думаю, що на даний момент у нас є багато занепокоєнь щодо продуктів AMD. Ми маємо справу з великою кількістю обладнання в ранній період  роботи, таке завжди відбувається з новими рішеннями такого масштабу, які  ми попередньо розвернулиі та ввели в експлуатацію, так що нічого незвичайного в цьому немає ».

Багато додатків не можуть працювати на апаратному забезпеченні такого масштабу, тому потрібна унікальна конфігурація. Через апаратні проблеми з графічними процесорами AMD своєчасно встановити та налагодити операційну систему трохи складніше. Однак команда Oak Ridge впевнена в собі і не має проблем з дотриманням термінів. Більш детальну інформацію читайте в інтерв'ю InsideHPC.

https://www.techpowerup.com
Паровишник Валерій