Компания Tenstorrent, возглавляемая Джимом Келлером, выпустила процессор Wormhole следующего поколения для задач искусственного интеллекта, который, как ожидается, обеспечит хорошую производительность по доступной цене.В настоящее время компания предлагает две дополнительные карты PCIe, которые могут вмещать один или два процессора Wormhole, а также рабочие станции TT-LoudBox и TT-QuietBox для разработчиков программного обеспечения. Все сегодняшние объявления нацелены на разработчиков, а не на тех, кто использует платы Wormhole для коммерческих рабочих нагрузок.
«Всегда приятно передавать больше наших продуктов в руки разработчиков. Системы разработки релизов с использованием наших карт Wormhole™ могут помочь разработчикам масштабировать и разрабатывать многочиповое программное обеспечение ИИ», — сказал Джим Келлер, генеральный директор Tenstorrent.Помимо этого запуска, мы с нетерпением ждем прогресса, достигнутого в разработке и запуске нашего продукта второго поколения Blackhole».

Каждый процессор Wormhole содержит 72 ядра Tensix (пять из которых поддерживают ядра RISC-V в различных форматах данных) и 108 МБ SRAM, обеспечивая 262 FP8 TFLOPS на частоте 1 ГГц с тепловой мощностью 160 Вт. Одночиповая карта Wormhole n150 оснащена 12 ГБ видеопамяти GDDR6 и имеет пропускную способность 288 ГБ/с.
Процессоры Wormhole обеспечивают гибкую масштабируемость для удовлетворения разнообразных потребностей рабочих нагрузок. В стандартной настройке рабочей станции с четырьмя картами Wormhole n300 процессоры можно объединить в один блок, который отображается в программном обеспечении как единая широкая сеть ядер Tensix. Такая конфигурация позволяет ускорителю обрабатывать одну и ту же рабочую нагрузку, разделенную между четырьмя разработчиками или запускать до восьми различных моделей ИИ одновременно. Ключевой особенностью этой масштабируемости является то, что он может работать локально без необходимости виртуализации. В среде центра обработки данных процессоры Wormhole будут использовать PCIe для расширения внутри машины или Ethernet для внешнего расширения.
Что касается производительности, одночиповая карта Tenstorrent Wormhole n150 (72 ядра Tensix, частота 1 ГГц, 108 МБ SRAM, 12 ГБ GDDR6, пропускная способность 288 ГБ/с) достигла 262 FP8 TFLOPS при 160 Вт, в то время как двухчиповая плата Wormhole n300 (128 ядер Tensix, частота 1 ГГц, 192 МБ SRAM, агрегированные 24 ГБ GDDR6, пропускная способность 576 ГБ/с) обеспечивает до 466 FP8 TFLOPS при 300 Вт.
Чтобы поместить 300 Вт из 466 FP8 TFLOPS в контекст, сравним это с тем, что предлагает лидер рынка ИИ Nvidia при этой тепловой мощности. A100 от Nvidia не поддерживает FP8, но поддерживает INT8 с пиковой производительностью 624 TOPS (1248 TOPS в разреженном режиме). Для сравнения, H100 от Nvidia поддерживает FP8 и достигает пиковой производительности 1670 TFLOPS при 300 Вт (3341 TFLOPS в разреженном режиме), что значительно отличается от Wormhole n300 от Tenstorrent.
Однако есть одна серьезная проблема. Wormhole n150 от Tenstorrent продается за $999, а n300 — за $1399. Для сравнения, одна видеокарта Nvidia H100 продается за $30000, в зависимости от количества. Конечно, мы не знаем, могут ли четыре или восемь процессоров Wormhole на самом деле обеспечить производительность одного H300, но их TDP составляет 600 Вт и 1200 Вт соответственно.
Помимо карт Tenstorrent предлагает готовые рабочие станции для разработчиков, включая 4 карты n300 в более доступной модели TT-LoudBox на базе Xeon с активным охлаждением, а также усовершенствованную модель TT-QuietBox с функцией жидкостного охлаждения Xiaolong на базе EPYC.
Время публикации: 29 июля 2024 г.