Компания Tenstorrent, возглавляемая Джимом Келлером, выпустила процессор Wormhole следующего поколения для задач искусственного интеллекта, который, как ожидается, обеспечит хорошую производительность по доступной цене.В настоящее время компания предлагает две дополнительные карты PCIe, которые могут вмещать один или два процессора Wormhole, а также рабочие станции TT-LoudBox и TT-QuietBox для разработчиков программного обеспечения. Все сегодняшние анонсы ориентированы на разработчиков, а не на тех, кто использует платы Wormhole для коммерческих задач.
«Всегда приятно, когда все больше наших продуктов попадает в руки разработчиков. Системы разработки релизов, использующие наши карты Wormhole™, могут помочь разработчикам масштабировать и разрабатывать многочиповое программное обеспечение для искусственного интеллекта», — сказал Джим Келлер, генеральный директор Tenstorrent.Помимо этого запуска, мы рады видеть прогресс, которого мы добиваемся в процессе подготовки к выпуску и включении нашего продукта второго поколения, Blackhole».
Каждый процессор Wormhole содержит 72 ядра Tensix (пять из которых поддерживают ядра RISC-V в различных форматах данных) и 108 МБ SRAM, обеспечивая производительность 262 FP8 TFLOPS при частоте 1 ГГц и тепловой мощности 160 Вт. Однокристальная карта Wormhole n150 оснащена 12 ГБ видеопамяти GDDR6 и имеет пропускную способность 288 ГБ/с.
Процессоры Wormhole обеспечивают гибкую масштабируемость для удовлетворения разнообразных потребностей рабочих нагрузок. В стандартной конфигурации рабочей станции с четырьмя картами Wormhole n300 процессоры могут быть объединены в единый блок, который отображается в программном обеспечении как унифицированная, широкая сеть ядра Tensix. Такая конфигурация позволяет акселератору обрабатывать одну и ту же рабочую нагрузку, распределять ее между четырьмя разработчиками или запускать до восьми различных моделей ИИ одновременно. Ключевой особенностью этой масштабируемости является возможность локальной работы без необходимости виртуализации. В среде центра обработки данных процессоры Wormhole будут использовать PCIe для расширения внутри машины или Ethernet для внешнего расширения.
Что касается производительности, одночиповая карта Tenstorrent Wormhole n150 (72 ядра Tensix, частота 1 ГГц, 108 МБ SRAM, 12 ГБ GDDR6, пропускная способность 288 ГБ/с) достигла 262 FP8 TFLOPS при потреблении 160 Вт, в то время как двухчиповая плата Wormhole n300 (128 ядер Tensix, частота 1 ГГц, 192 МБ SRAM, суммарно 24 ГБ GDDR6, пропускная способность 576 ГБ/с) обеспечивает до 466 FP8 TFLOPS при потреблении 300 Вт.
Чтобы оценить производительность процессора Nvidia A100 при мощности 300 Вт и производительности 466 TFLOPS в режиме FP8, сравним её с тем, что предлагает лидер рынка ИИ Nvidia при той же тепловой мощности. Процессор Nvidia A100 не поддерживает FP8, но поддерживает INT8, достигая пиковой производительности в 624 TOPS (1248 TOPS при разреженном распределении). Для сравнения, процессор Nvidia H100 поддерживает FP8 и достигает пиковой производительности в 1670 TFLOPS при мощности 300 Вт (3341 TFLOPS при разреженном распределении), что значительно отличается от Tenstorrent Wormhole n300.
Однако есть одна серьезная проблема. Tenstorrent Wormhole n150 продается по цене 999 долларов, в то время как n300 — за 1399 долларов. Для сравнения, одна видеокарта Nvidia H100 стоит 30 000 долларов, в зависимости от количества. Конечно, мы не знаем, смогут ли четыре или восемь процессоров Wormhole обеспечить производительность, сравнимую с одним H300, но их TDP составляют 600 Вт и 1200 Вт соответственно.
Помимо видеокарт, Tenstorrent предлагает готовые рабочие станции для разработчиков, включая 4 карты n300 в более доступной модели TT-LoudBox на базе процессоров Xeon с активным охлаждением, а также усовершенствованную модель TT-QuietBox с функцией жидкостного охлаждения на базе процессоров EPYC (Xiaolong).
Дата публикации: 29 июля 2024 г.
