видеокарты тесла для чего нужна
Что такое видеокарты Tesla и Quadro и зачем они нужны
Стандартные компьютеры, даже самые мощные модели, рассчитаны на решение стандартных задач. Для более конкретных и сложных проектов нужно использовать разные дополнения. Если говорить про область разработки 3-D моделей или каких-то научных проектов, то для компьютера однозначно необходимо докупить мощную видеокарту. Если говорить о наилучших представителях данного рынка, то тут однозначно нужно обратить свое внимание на видеокарты карты Tesla и Quadro. В интернете есть множество разных ресурсов с детальным описанием их возможностей. Но, на самом деле, при их виде в сети, большинство пользователей сразу же удивляет не возможность конкретной карты, а ее цена.
Примерно такой вопрос может прозвучать, когда человек увидит их стоимость. Но, не возможности, которые появляются с использованием этих карт, действительно впечатляют. Все, кто начали использовать их в решении своих задач подтвердят, что такое вложение оправдано. Чаще всего видеокарты Tesla и Quadro нужны следующим людям:
1. Тем, кто занимается моделированием и графическим дизайном.
2. Тем, кто проводит масштабные анализы финансовых проектов.
3. Тем, кто занимается симуляцией свертывания белка и другими подобными научными проектами.
Любые масштабные проекты требуют мощной техники для их разработки и запуска. Современные видеокарты Tesla и Quadro сдают возможность создавать самые сложные 3-Д модели, работать с большими объемами информации и превращать их в консолидированные базы данных.
Обычная техника не потянет работы над такими проектами. Кроме этого, даже не всем дополнительные устройства помогают справиться с поставленными задачами. Можно отметить, что не всегда получается определить нужный тип видеокарты заранее. Иногда, нужно поработать с ней уже над конкретными проектами, чтобы подобрать для себя наилучший вариант. В таких случаях только в реальной работе на личном опыте можно понять, потянет ли выбранная видеокарта выполнение поставленных задач или нужно выбирать более мощный вариант. И никакие советы в интернете точно не помогут с этим нормально разобраться.
Профессиональные видеокарты против игровых — зачем нужна Nvidia Quadro?
Содержание
Содержание
Компании Nvidia и AMD выпускают не только геймерские и офисные видеокарты. Та же линейка Nvidia Tesla используется в суперкомпьютерах и мощных вычислительных системах, ориентированных на научные расчеты. А мы поговорим о профессиональных видеокартах для массовых пользователей — линейке Nvidia Quadro и аналогичных.
Зачем нужны профессиональные видеокарты
Все видеокарты выполняют общую задачу — отрисовывают на дисплее кадры, которые до этого подготавливает процессор. Графический чип получает исчерпывающую информацию о сцене: состав и расположение объектов относительно зрителя, цвет, уровень освещения, видимость и так далее. Пару десятилетий назад в играх была пиксельная графика, но сейчас для создания 3D- сцен используются объекты из множества полигонов.
Полигон — это плоскость в трехмерном пространстве. Как правило, в играх используются треугольные полигоны, на основе которых создают уже полноценные 3D-модели. Чем выше число этих треугольников, тем большую детализацию имеет выводимое изображение.
Именно поэтому в старых играх персонажи имеют угловатые формы — вычислительные мощности того времени позволяли оперировать лишь небольшим числом полигонов. По мере совершенствования видеокарт количество полигонов у моделей росло, персонажи становились более реалистичными, резкие углы сглаживались. Это можно хорошо заметить на примере различных ремастеров, например, Crash Bandicoot.
В среднем на одного персонажа приходится от 15 до 45 тысяч таких треугольников. Одним из рекордсменов в этой области является Нейтан Дрейк из Uncharted 4: A Thief’s End. В его модели более 80 тысяч полигонов.
А теперь представьте, что на экране несколько персонажей и еще различные объекты окружения. Игровым видеокартам приходится обрабатывать положение пары сотен тысяч полигонов, не говоря о наложении других эффектов.
Если говорить об игровой видеокарте, то ее задача — расположение всех полигонов в пространстве, прорисовка текстур, затенение, создание динамического освещения и сглаживание. В итоге мы видим на экране финальный кадр со всеми эффектами.
Профессиональные видеокарты чаще нужны для САПР, бизнес-приложений, визуализации, инженерных расчетах. Если вы занимаетесь моделированием и работаете в таких программах, как КОМПАС-3D, T-FLEX CAD, SOLIDWORKS, Autodesk 3ds Max и аналогичных, то предпочтительней именно профессиональная видеокарта.
Помимо этого, видеокарты NVIDIA Quadro используются при создании различных спецэффектов в фильмах.
Профессиональная видеокарта делает по сути тоже самое, что и игровая, но с небольшими нюансами. В узкоспециализированных 3D- моделях не нужно накладывать различные эффекты, которые делают графику фотореалистичной. При проектировании и разработке крайне важна точность, поскольку на основе созданных моделей обычно делают реальные вещи. Соответственно, число полигонов может в несколько раз превышать описанные ранее числа — до нескольких миллионов на сцену.
В чем отличия профессиональных и игровых видеокарт
Теперь давайте разберемся, чем конкретно профессиональные видеокарты отличаются от геймерских.
Больший объем видеопамяти. Для обработки огромного числа полигонов нужно много памяти. Для сравнения, видеокарта NVIDIA Quadro P6000 2016 года имеет 24 ГБ памяти. Если взять топовую геймерскую видеокарту на аналогичной архитектуре GTX 1080 Ti начала 2017-го, то у нее всего 11 ГБ памяти. Тенденция сохраняется и с текущим поколением: игровая RTX 3090 оснащается 24 ГБ, в то время ка профессиональная NVIDIA Quadro RTX 8000 имеет целых 48 ГБ.
Жесткая стандартизация. В геймерсих видеокартах существует нереференсные улучшенные модели от сторонних компаний — Asus, MSI, Palit и других. Профессиональные видеокарты выпускаются строго под контролем разработчиков и обычно не имеют нереференсных моделей. Это позволяет исключить ситуации, когда вмешательство вендора привело к неработоспособности устройства.
Использование ECC-памяти. Как мы сказали ранее, в профессиональных видеокартах определяющее значение имеет точность, и ошибки при расчетах недопустимы. В связи с этим используется специальная ECC-память, которая способна распознавать и исправлять спонтанные ошибки в битах. Однако память с коррекцией работает немного медленнее в сравнении с non-ECC, которая стоит на игровых видеокартах. Тесты энтузиастов показывают, что разница скорости между ECC и non-ECC в различных задачах не превышает 2 %.
Аппаратная поддержка OpenGL. Это программный интерфейс, используемый при написании различных приложений с 2D/3D графикой. Аппаратная поддержка ощутимо ускоряет вычисления, но ее реализация повышает стоимость продукта.
Специализированные драйверы и BIOS. Для профессиональной видеокарты нужен специальный драйвер. Он предлагает немного больше настроек, например, в панели Nvidia Control пользователи Quadro могут установить сглаживание граней объектов вплоть до 64Х, в то время как GeForce предлагает только 8X. Также спецдрайвер предоставляет более широкие возможности управления рабочими столами и их конфигурациями.
В установочный пакет драйверов для Quadro входит особое ПО — NVIDIA WMI (Windows Management Instrumentation) и специальный инструмент NVIDIA SMI для мониторинга. Для игровых GeForce GTX/RTX в стандартном пакете этого нет.
BIOS в Quadro разрабатывают непосредственно инженеры компании, а не специалисты сторонних брендов.
Сертификация от разработчиков ПО. В профессиональных моделях крайне важна корректная работа в узкоспециализированных программах без багов и зависаний, поэтому разработчики ПО проводят отдельную сертификацию.
Более длительный жизненный цикл. Обновление линеек геймерских видеокарт происходит в среднем один раз в 1,5-2 года. Профессиональные модели обновляются реже — раз в 2–4 года.
Специфика портов. В профессиональных моделях вы редко встретите HDMI и, тем более, VGA. В Nvidia Quadro последнего поколения используются порты DP1.4, а также Virtuallink. В более старых моделях присутствует DVI порт.
Цена. Рекомендованная цена Quadro RTX 8000 — 9 999 долларов. За топовую геймерскую RTX 3090 придется отдать 1499 доллара, что существенно дешевле.
Профессиональные карты имеют аппаратные и программные особенности, направленные на повышение производительности сугубо в специализированных приложениях для работы с 3D и 2D графикой, а также на общую стабильность и надежность.
Можно ли играть на профессиональных видеокартах?
Технически профессиональные модели имеют все то же, что и игровые: ядра CUDA, блоки растеризации, текстурные блоки, а новые Quadro RTX по аналогии с геймерскими RTX имеют и тензорные ядра. Именно поэтому вы без проблем сможете запустить игру на Quadro или аналогичных с комфортным FPS.
Проблема в том, что Quadro не ориентированы на отрисовку графических эффектов, которые актуальны для видеоигр. Именно поэтому при относительно равных параметрах профессиональные ускорители выдают меньший FPS. На этом сказывается и ориентация драйверов — для Quadro и аналогичных они просто не подогнаны под игры.
Несмотря на то, что профессиональные видеокарты могут показать неплохой результат в играх, с учетом их стоимости покупка будет актуальной только для узкоспециализированных задач.
Nvidia для профессиональных 3D приложений
Пол года назад я искал себе видеокарту, на которой я смог бы заниматься 3d моделированием, и рендерингом на GPU. В связи с появлением на рынке большого числе рендеров на CUDA мне не терпелось приобрести видеокарту с поддержкой CUDA, а именно Nvidia.
Как некоторые уже знают, Nvidia выставляет на продажу видеокарты нескольких моделей Geforce, Quadro, Tesla, ION, Tegra. В этом коротком сравнении упустим ION и Tegra, т.к. предназначены для мобильных устройств и слабые по производительности.
Нам нужна мощь!
Nvidia power.
ЧТО ГОВОРИТ ПРОИЗВОДИТЕЛЬ
Geforce — видеокарты, ориентированные на потребительский рынок и на геймеров, в частности.
Если вам интересны игры — Geforce лучший вариант для этого.
Видеокарты лучше всего показывают себя в играх, имеют высокие частоты, не дороги, наиболее прожорливы при нагрузке.
В качестве общих вычислительных задач (Cuda, OpenCL) жефорсы упоминаются достаточно редко.
Имеет PhysX, именуемый крутейшим аппаратным решением по ускорению физики.
Досуг обладателя Geforce (Battlefield 3).
Quadro — видеокарты для пользователей профессиональных приложений 2D и 3D.
Если вы занимаетесь с пакетами 3д моделирования, CAD, сложной векторной графикой — то Вам подойдет Квадра.
Сложные модели на экране рендерятся быстрее, меньше «рывков».
Квадры, сравнимые по производительности с Жефорсами в играх будут в несколько раз дороже.
На картинках сайта nvidia можно увидеть уже больше Куды, чем на жефорсах.
То бишь, видеокарты профессиональные, даже вычислениям общего назначения быть!
Работа обладателя Quadro (Autodesk Alias Studio).
Tesla — вычислительные системы для научных и технических вычислений общего назначения.
Тут во всю рекламируется CUDA, как крутейший инструмент вычислений общего назначения. Всюду плакаты с аэродинамическими вычислениями, воксельным сканнированием человеческого тела, графические модели нагрузок, и нереально быстрый рендеринг на iRay.
На Tesla отсутствуют видеовыходы, так же как и нету аппаратной растеризации: не работает ни OpenGL, ни DirectX.
Работа обладателя Quadro + Tesla (Quadro — 3d графика, Tesla — молекулярная динамика).
***
Когда начал разбираться в их различии, был удивлен тем фактом, что видеокарты GeForce, Quadro, Tesla используют одинаковые графические чипы.
Рассмотрим видеокарты с одинаковым, уже не самым новым, чипом GF100 имеет (512 CUDA ядер):
Одночиповые:
GeForce: GTX465, GTX470, GTX480
Quadro: 4000, 5000, 6000
Tesla: C2050, C2070, M2050, M2090
Рассмотрим по одному представителю с каждого семейства поподробнее.
GeForce GTX480
Некогда топовая игровая видеокарта.
Стоимость: на момент выпуска около 500$ (сейчас бу и за 300 видел), на данный момент не выпускается (на смену пришли GTX580 512 ядер, и GTX680 1536 ядер)
Количество ядер CUDA — 480.
Объем памяти 1.5 Gb.
Производительность float:
Одинарная точность: 1344,9 Гфлопс.
Двойная точность: 168,1 Гфлопс.
(Существует более урезанная версия GTX470, сейчас можно найти по цене меньше 250$, 448 ядер CUDA, 1.25 Gb)
Quadro 5000
Одна из лучших видеокарт для профессиональных приложений.
Стоимость: по данными Amazon около 1700$. Выпускается.
Количество ядер CUDA — 352.
Объем памяти 2.5 Gb.
Производительность float:
Одинарная точность: 718.08 Гфлопс.
Двойная точность: 359.04 Гфлопс.
(Стоит обратить внимание на Quadro 6000, 448 ядер, 515 Гфлопс двойной точности, 4000$)
Tesla C2075
Стоимость: по данными Amazon около 2200$. Тоже выпускается.
Количество ядер CUDA — 352.
Объем памяти 6 Gb.
Производительность float:
Одинарная точность: 1030 Гфлопс.
Двойная точность: 515 Гфлопс.
Что мы видим?
Заметим, что по float производительности выигрывает GeForce GTX480. Причиной тому самое большое количество рабочих ядер и самые высокие частоты среди аналогов. Это нужно для преобразования координат объектов в играх, расчета теней, расчета пиксельных и вершинных шейдеров. В конечном итоге — чтобы игра «летала».
Но, чтобы для научных исследований, моделирования динамики жидкостей и газов покупали Теслы и Квадры — в двойной точности производительность сильно урезана, и уступает аналогам.
Соотношение производительности:
GeForce: double/float — 1/8
Quadro и Tesla: double/float — 1/2
Кроме того, самым малым объемом памяти обладает тот же GTX480. Для игр достаточно, но если хотите провести расчет аэродинамики — покупайте что-то посерьезнее.
***
ЧЕГО НУЖНО?
(Людям, занимающимся 3d графикой)
1. Поменьше тормозов во время редактирования 3d модели.
2. Некоторых интересует возможность быстрого рендеринга на GPU.
3D производительность GeForce vs Quadro
Из информации изложенной выше может показаться, что профессиональными приложениями на GeForce не пользуются из-за того, что имеет малый объем памяти, но это не так.
Ролик покажет Вам, почему «плохая Квадра» лучше «хорошего Жефорса» в профессиональных приложениях.
Quadro 600: 1Gb, 96 ядер CUDA, 150у.е.
GTX560Ti: 1Gb, 384 ядра CUDA, 250у.е. (Цены взяты из Amazon)
Выходит, Nvidia тщательно следит, чтобы 3d производительность в профессиональных приложениях Geforce уступали Quadro при соизмеримых ценах.
Как могут быть реализованны тормоза во вьюпорте?
Дело в том, что количество полигонов в играх существенно меньше, чем у профессионалов в профессиональных приложениях. В играх редко доходит до одного млн полигонов, а в профессиональных — десятки миллионов.
Тут можно сделать так: урезать производительность при преобразовании координат вершин. Если вершин больше определенного количества — то поставить задержку перед отрисовкой последующих вершин.
Либо установить задержку при отрисовке треугольников. Если больше определенного количества — то поставить задержку перед отрисовкой каждого последующего треугольника.
Маленькое лирическое отступление, или Nitrous в 3ds Max.
Меня ввел в заблуждение Nitrous движок в 3ds Max, который стоит рядом с OpenGL и DirectX. Это как? В Autodesk есть что-то, что вызывает Нитрос, аппаратная поддержка которого, оказывается, есть на каждой уважающей себя видеокарте, но знает о ней только 3Д Макс?
Ну, можно составить небольшую логическую цепочку. Autodesk является богатой корпорацией, и в хороших партнерских отношениях с производителями ATI и Nvidia. Повышать нужно продажи своего детища же! А как бы заинтересовать потребителей? Производительностью же!
Итак, GeForce GTX580 (да, купил я именно её), 7.3 млн треугольников, 2560 Torus Knot-ов, без теней и без Adaptive degradation.
Nitrous — 42 fps; Direct3d — 13 fps; OpenGL — 2 fps.
OpenGL — тормозит. DirectX — намного лучше. А Nitrous — круче всех, оказывается! Что же нитрос тогда?
Два варианта:
1. Это OpenGL/DX в котором убраны дополнительные тормоза во вьюпорте, созданные умышленно в OpenGL/DX режимах.
2. Это OpenGL/DX, который умеет обращаться к аппаратным функциям игровых видеокарт, и проявлять в них квадровые способности!
И я склонен именно к 2 варианту, т.к. в Blender и в Rhino3D это же самое дико тормозит (2fps).
Выходит, пользователям 3ds Max и других продуктов Autodesk вовсе не так принципиально переходить на Квадру? К сожалению, у меня нету Квадры, чтобы проверить производительность Нитроса по сравнению с OpenGL.
Если же у Вас GeForce или Radeon, нет желания раскошелиться за Квадру, вы Не пользуетесь продуктами от Autodesk, и у Вас очень сложные модели, то:
1. Сложные объекты можно скрыть. Объекты можно показывать во вьюпорте с меньшей плотностью сетки.
2. Вместо объектов можно показывать «контейнеры», их содержащие.
То есть следить за количеством полигонов в вьюпорте, если у вас действительно «тяжелые» модели.
Зато в игры нормально поиграете.
GPU рендеринг
Поскольку коммерческие производители не рассказывают о том, какие типы данных (float или double) они используют — приходится только догадываться.
iRay везде показывают с Quadro и Tesla, может создаться впечатление, что iRay вообще не работает с GeForce.
Картинка с оф. сайта nvidia.
Но нет, работает, и еще как. Казалось бы, что может быть лучше для не-графических вычислений, чем видеокарта Tesla, специально заточенная под не-графические вычисления?
(Взято с поста: «V-Ray и Iray. Сравнение и обзор»)
GeForce GTX580 является самой быстрой одночиповой видеокартой в iRay рендеринге на GPU. И значительно дешевле «серьезных» аналогов такой же производительности. А если вам не хватает 1.5Гб, существуют GTX580 с 3Гб памяти.
При использовании V-RayRT, Octane, Cycles, Arion также лучше всех себя показывают видеокарты GTX570 и 580. Выходит, все эти рендеры не используют расчет двойной точности для рендеринга?
В любом случае, если вы хотите рендерить на GPU — на GeForce вы сможете хорошо сэкономить.
GTX680
Но корпорация заметила, что для вычислений все чаще начали брать GTX580, производительность double в GTX680 уступает float не в 8 раз, а в 24, что не могло не отразиться на некоторых тестах.
Известно, что в Octane Render производительность возросла на 64%.
ATI Radeon vs FirePro
Аналогично Nvidia, корпорация AMD тоже разделила модели видеокарт. Radeon (аналог GeForce), FirePro (аналог Quadro), FireStream (аналог Tesla). Производительность вычислений с плавающей точкой двойной точности уступает одинарной в 4 раза, во всех моделях ATI. Интересно, что производительность топовых игровых видеокарт ATI (Radeon HD 7970, float — 3.79 Тфлопс, double — 947 Гфлопс) превосходит в двойной точности даже одночиповые Tesla. Надо заметить, что производительность в флопсах, не всегда является показателем производительности железа в конкретных случаях.
Причина, по которой ATI сильно уступает Nvidia на рынке GPGPU мне пока не ясна. Может, игрового сегмента вполне хватает.
Выбор?
Я выбрал GTX580 3Gb. Видеокарта дает возможность насладиться новыми играми и производительностью GPU рендеров. А тормоза во вьюпорте пакетов 3d моделирования для меня не сильно критичны.
Автор статьи с уважением относится к этому производителю, и сам является счастливым обладателем карточки Nvidia.
Подобные маркетинговые ходы являются неотъемлемой частью рыночной экономики, к ним прибегают все производители без исключения.
Но все же, не будем же вестись на маркетинговые уловки корпораций, а вдумчиво покупать то, что действительно полезно для нас!
Разбираем редкого зверя от Nvidia — DGX A100
Крупные IT-компании располагают дорогими «игрушками», которые скрыты от взоров большинства пользователей. Сегодня мы приоткроем завесу тайны и расскажем про систему, которая оптимизирована для работы с искусственным интеллектом.
Задачи ИИ предъявляют высокие требования к вычислительным и сетевым ресурсам, поэтому наш сегодняшний «гость» приятно порадует своей конфигурацией. Встречайте: NVIDIA DGX A100.
Встречают по одежке
Техника безопасности предписывает использовать механический лифт для работы с сервером
NVIDIA DGX A100 — это стоечный сервер, высотой в 6U и массой более 130 килограмм. Сервер даже в коробке способен повергнуть в легкий трепет. Большой корпус и красивый золотистый цвет притягивают взгляды проходящих мимо коллег.
Сервер прибыл в сопровождении инженера, который оказывал нам как физическую, так и моральную поддержку. Пока наши сотрудники снимали упаковку и готовили инструменты для транспортировки сервера к месту установки, инженер рассказывал интересные факты об этом сервере. Так, техника безопасности предписывает использовать лифт для монтажа в стойку, а для разборки сервера нужно минимум два человека.
Количество портов ввода-вывода на этом сервере зашкаливает
Корпус сервера не открывается сверху. Вместо этого в задней части сервера есть два трея — это составные части сервера, которые содержат «начинку» сервера. Обратите внимание, что винты-фиксаторы треев в шасси окрашены в зеленый цвет, а фиксаторы крышки трея — в черный.
В глаза бросается шесть блоков питания по 3 КВт каждый с возможностью горячей замены. Интересно, что максимальное заявленное энергопотребление — 6.5 КВт. Разгадка проста: блоки питания работают по схеме 3+3, то есть резервирование 2N. Большинство обычных корпусов для GPU предоставляют 4 блока питания и схему 3+1.
На нижнем трее видно десять портов сетевых карт с пропускной способностью до 200 Гбит/с. По умолчанию двухпортовая карта сконфигурирована в режиме Ethernet, а остальные — в режиме Infiniband. Эти сетевые карты используются для объединения нескольких DGX в вычислительный кластер. У нас всего один DGX, поэтому порты не используются.
Один из суперкомпьютеров России, Кристофари, собран из 75 серверов DGX-2, в основе которого лежат графические ускорители предыдущего поколения.
Сперва мы хотели попытаться запустить DGX самостоятельно, но, к сожалению, столкнулись с неожиданной проблемой. Во время пуско-наладочных работ сервер вывел ошибку связи с BMC и раскрутил все вентиляторы до 18 000 оборотов в минуту. При помощи сопровождающего инженера ошибка была устранена, и сервер стал работать в штатном режиме. Даже в процессе стресс-тестирования на такие обороты он больше не выходил.
В ходе тестов было выявлено, что данная крышка не имеет значительного влияния на теплоотвод, вентиляторы сервера отлично справляются со своей работой.
После внешнего осмотра сервер был перенесен на прочный стол и разобран.
Филигранная техника
Специфические коннекторы GPU-трея
Как уже говорилось ранее, сервер состоит из двух треев: CPU и GPU. Каждый трей — это часть сервера, заключенная в свою железную коробку, которая установлена в шасси. Связь между треями, вентиляторами и корзинами на передней панели обеспечивает объединительная плата, установленная в корпусе. В некотором смысле DGX — это классическое blade-шасси, только вместо отдельных серверов (лезвий) устанавливаются части одного сервера.
GPU-трей. Много радиаторов
Вверху находится GPU-трей, занимающий 3U. Он тяжеловат даже для двух человек. На верхней крышке трея также есть предупреждающий знак о тяжести объекта и необходимости работать с ним вдвоем.
В этом трее установлены восемь видеокарт NVIDIA Tesla A100 в модификации 40 GB. Их особенностью является форм-фактор SXM4. Данная версия видеокарты отличается мезонинным исполнением и повышенным тепловыделением: 400 Вт против 300 у PCIe-версии.
Помимо восьми больших радиаторов видеокарт, на трее расположены шесть радиаторов поменьше. Эти радиаторы охлаждают микросхемы, которые реализуют интерконнект видеокарт. Технологии NVLINK и NVSWITCH соединяют восемь видеокарт многосвязной топологией (каждая видеокарта соединена с каждой) с пропускной способностью 600 Гбит/с.
CPU-трей. Здесь тоже много радиаторов
CPU-трей имеет два способа извлечения: полное и частичное.
Во втором случае трей выезжает из шасси чуть больше чем на длину части с PCIe-слотами и фиксируется, а крышка трея открывается вверх. Это позволяет провести работы с сетевыми картами или накопителем для ОС, не извлекая трей целиком.
Со стороны CPU-трей выглядит как обычный 2U сервер без блоков питания. Под большими радиаторами прячется пара процессоров AMD EPYC 7742, суммарно 128 физических ядер или 256 логических. Рядом стоят шестнадцать планок DDR4 с частотой 3200 МГц и объемом 64 ГБ каждая. Суммарный объем оперативной памяти 1 ТБ.
Интересно, что радиаторы процессоров расположены друг за другом, то есть второй процессор охлаждается теплом первого. Тем не менее, с системой охлаждения DGX это выглядит незначительно. Непривычно большие радиаторы заметны и на этом трее. Взаимодействие с GPU-треем создает большую нагрузку на PCIe-мосты, которые тоже требуют охлаждения.
Электронный город
Между слотами находится небольшая плата с максимальной плотностью электронных компонентов. Это выглядит как маленький электронный город. Здесь узнается чип ASPEED, который является «сердцем» BMC-модуля. Помимо этого, здесь есть модули доверенной загрузки, которые обеспечивают безопасность платформы.
Существует «старшая» модификация DGX A100 на 640 ГБ видеопамяти. В ней объем оперативной памяти расширен до 2 ТБ, а также увеличен объем постоянного хранилища.
На этом знакомство с внутренним миром DGX закончено. Давайте посмотрим на него в работе.
Душа титана
Для отображения всех ядер в htop разрешения 203×53 мало
В коробке с DGX лежит флешка, а на флешке — подготовленный образ операционной системы для начала работы. Основой образа является операционная система Ubuntu 20.04.3 LTS с предустановленными драйверами и специальными утилитами.
Сервер, который мы запускаем, прошел длинный путь, в ходе которого был разобран и собран. После транспортировки и манипуляций стоит проверить целостность систем сервера. По регламенту установки операции, сопряженные с первым запуском DGX, должен проводить сопровождающий инженер, но нам было очень любопытно, поэтому все операции проводились совместно.
Часть операций производится через утилиту nvsm, консольный интерфейс для nvidia system management. Всего одна команда проверит «теоретическое» состояние сервера:
Команда проверяет все, до чего может «дотянуться», а именно:
Следующий этап регламента — запуск стресс-теста. Это не только проверит систему в работе, но заодно предоставит нам информацию о максимальном практическом энергопотреблении и температуре на различных компонентах сервера. В этой задаче также помогает утилита nvsm.
Стресс-тест сделан достаточно удобно. Утилита нагружает процессор, видеокарты, оперативную память и постоянное хранилище и начинает отслеживать системные события, температуры, обороты вентиляторов и энергопотребление. Через 20 минут, в конце теста, выводится табличка статистики.
Здесь видно, что температура процессоров и видеокарт не превышала 69 градусов, при этом вентиляторы работали чуть меньше, чем в полсилы. Энергопотребление составило 4.7 КВт, что почти на два киловатта меньше заявленного в спецификации. Впрочем, данный стресс-тест не учитывает десяти внешних сетевых карт, да и наша версия DGX не старшая.
Теперь, когда сервер проверен и готов к работе, хочется провести тесты, чтобы узнать, на что способна эта машина для вычислений. Хотя данный сервер больше предназначен для задач ИИ, желания провести обычные тесты никто не отменял.
Мы начали с GeekBench 5 Compute. К сожалению, данный бенчмарк не задействует интерконнект между видеокартами и тестирует исключительно одно устройство за раз. Тем не менее, с его помощью можно сравнить, насколько SXM4-версия Tesla A100 лучше, чем PCIe-версия.
Категория | PCIe Tesla A100 40G | SXM4 Tesla A100 40G |
---|---|---|
OpenCL | 170137 | 188380 (+11%) |
CUDA | 213899 | 234890 (+10%) |
Категория | PCIe Tesla A100 40G | SXM4 Tesla A100 40G |
---|---|---|
Inference Score | 25177 | 30158 (+20%) |
Training Score | 23775 | 27837 (+17%) |
AI Score | 48952 | 57995 (+19%) |
В качестве тестирования задач ИИ был выбран MLPerf от MLCommons. На сайте NVIDIA упоминается этот тест, а в турнирных таблицах MLPerf встречаются результаты старшей версии DGX A100 за авторством производителя.
Несмотря на наличие инструкции и четкий регламент, большинство тестов не запускалось из-за ошибок в зависимостях Docker-контейнеров. Однако вместе с DGX A100 поставляется контракт на техническую поддержку, который включает в себя в том числе возможность пообщаться с экспертами в области ИИ, а также удаленную помощь с настройкой ПО.
На данный момент у нас нет возможности сравнить DGX A100 с сервером с восемью Tesla A100 без интерконнекта, поэтому тестирование MLPerf пока отложено до момента появления тестового стенда с необходимой конфигурацией.
Заключение
NVIDIA DGX A100 — мощный сервер, призванный ускорить решение задач, связанных с искусственным интеллектом. DGX имеет множество сложных технических нюансов и особенностей, но их нельзя прочувствовать на паре общих тестов производительности. Чтобы узреть настоящую мощь этого сервера, нужно «потрогать» его самостоятельно.
Сервер предоставлен компанией Forsite. Forsite — российский производитель суперкомпьютеров и провайдер решений NVIDIA уровня Elite.