Пошук по сайту

up
Banner

Комп'ютерні новини

Всі розділи

Intel та Інститут Вейцмана: прорив у ШІ-декодуванні прискорить роботу великих мовних моделей

На Міжнародній конференції з машинного навчання (ICML) дослідники з Intel Labs та Інституту наук Вейцмана представили значний прогрес у спекулятивному декодуванні. Нова техніка дозволяє будь-якій невеликій "чернетковій" моделі прискорювати будь-яку велику мовну модель (LLM) незалежно від відмінностей у словниковому запасі. 

"Ми вирішили основну неефективність генеративного ШІ. Наше дослідження показує, як перетворити спекулятивне прискорення на універсальний інструмент," — зазначив Орен Перег, старший науковий співробітник Групи обробки природної мови Intel Labs.

Що таке спекулятивне декодування та чому це важливо?

Спекулятивне декодування — це метод оптимізації логічного висновку, що робить LLM швидшими та ефективнішими без втрати точності. Він працює шляхом поєднання невеликої, швидкої моделі з більшою, точнішою.

Принцип роботи:

  1. Мала модель (асистентна) швидко генерує "чернетку" повної фрази.
  2. Велика модель потім перевіряє цю послідовність.

Це значно скорочує кількість циклів обчислення на вихідний токен. Наприклад, якщо традиційний LLM обчислює кожне слово фрази "Париж, відоме місто..." окремо, то зі спекулятивним декодуванням мала модель пропонує всю фразу одразу, а велика лише перевіряє її.

Універсальність та переваги прориву

Метод, розроблений Intel та Інститутом Вейцмана, усуває попередні обмеження, такі як необхідність спільних словників або спільно навчених сімейств моделей. Це робить спекулятивне декодування практичним для гетерогенних моделей (від різних розробників та екосистем).

Ключові переваги:

  • Прискорення: До 2,8 раза швидший вивід без втрати якості.
  • Універсальність: Працює з будь-якою невеликою чернетковою моделлю та будь-якою великою моделлю.
  • Незалежність від постачальника: Сумісність з моделями від різних розробників.
  • Відкритий код: Алгоритми вже інтегровані в бібліотеку Hugging Face Transformers, що дозволяє мільйонам розробників використовувати їх "з коробки" без написання власного коду.

Цей прорив сприяє відкритості, взаємодії та економічно ефективному розгортанню генеративного ШІ від хмари до периферії, дозволяючи розробникам та підприємствам оптимізувати свої рішення залежно від потреб у продуктивності та апаратних обмежень.

techpowerup.com
Павлик Олександр