Обзор видеокарты NVIDIA GeForce RTX 4090: время монстров / Видеокарты

С тех пор, как NVIDIA представила первые чипы с аппаратной трассировкой лучей, эволюция «зеленых» видеокарт вернулась на путь роста чистой производительности, в то время как основы логики и функциональности GPU уже были заложены на годы вперед. Кремний Ampere привнес существенные корректировки в архитектуру, и все-таки по сравнению с предыдущим поколением чипов, Turing, изменения носили уже преимущественно экстенсивный характер. Что касается семейства Ada Lovelace, которое легло в основу ускорителей 40-й серии, то главные нововведения, реализованные в этих кристаллах, связаны со специализированными блоками графического процессора. Приоритетом вновь стала энергоэффективность, а главное — быстродействие в абсолютных величинах, которое зиждется на количественных параметрах GPU.

Благодаря тому, что NVIDIA вновь получила доступ к передовой фотолитографии TSMC, ей удалось выпустить чипы с ранее немыслимым компонентным бюджетом и тактовыми частотами, стремящимися к отметке 3 ГГц. Результат — межпоколенческая разница в производительности GPU по золотому стандарту GeForce GTX 1080 Ti. Кроме того, 40-я серия GeForce появилась в более благоприятное время, чем 30-я, которой пришлось выдержать тройной удар: от глобального дефицита полупроводников, пандемии и криптовалютного бума, а значит, кризис доступности видеокарт уже не повторится — по крайней мере, в таком же масштабе.

Всем существующим позициям 30-й серии рано или поздно предстоит замена 40-ми эквивалентами, но пока NVIDIA ограничилась двумя старшими моделями — GeForce RTX 4080 и RTX 4090, которые оценены в $1 199 и $1 599 соответственно. Даже RTX 4080 сулит ощутимо большую производительность по сравнению со старшими представителями GeForce 30, но его релиз состоится 16 ноября. А флагманский GeForce RTX 4090 уже здесь и готов к обзору, пусть и с изрядной задержкой после того, как новинку успели оценить наши зарубежные коллеги.

⇡#Архитектура Ada Lovelace и графический процессор AD102

Структура чипов Ada, названных так в честь математика Ады Лавлейс, в общих чертах ничем не отличается от структуры Ampere. Крупнейшим блоком архитектуры, который позволяет масштабировать GPU в сторону большей или меньшей мощности, остается GPC (Graphics Processing Cluster): он состоит из растеризатора, выполняющего проекцию геометрии в пикселы, и 12 потоковых мультипроцессоров (SM), общее число которых издавна является наглядной характеристикой быстродействия «зеленых» чипов. Кроме того, начиная с Ampere частью GPC стали блоки операций растеризации (ROP) — благодаря этому пропускная способность растеризаторов и пиксельный филлрейт находятся в оптимальном соотношении 1:1.

Что касается потоковых мультипроцессоров, то в части работы с универсальным шейдерным кодом NVIDIA не сообщает о каких-либо изменениях по сравнению с логикой Ampere. Каждый SM содержит восемь секций по 16 FP32-совместимых CUDA-ядер, половина которых способна оперировать целочисленными данными INT32. Кроме того, в SM есть секция из четырех ALU специального назначения (SFU), предназначенных для выполнения тригонометрических операций, неопубликованное число скалярных ALU и пара CUDA-ядер двойной разрядности (FP64), которые гарантируют GPU базовую совместимость с подобным кодом. В свою очередь, операции над числами FP16 имеют значение не только в контексте вычислительных задач, но и для игрового рендеринга, когда шейдеру не требуется высокая точность данных. Они происходят в том же темпе, что и FP32-расчеты. Наконец, в состав SM входят четыре блока наложения текстур, четыре тензорных ядра и RT-блок. За более подробной информацией об основах архитектуры Ampere, которая полностью справедлива и в отношении Ada, рекомендуем обратиться к теоретической части нашего обзора GeForce RTX 3080.

Таким образом, Ada ничего не изменила в теоретических оценках пропускной способности шейдерного массива по сравнению с конкурирующими архитектурами RDNA и RDNA 2 от AMD. NVIDIA сохраняет за собой главное преимущество в виде параллельного исполнения расчетов FP32 и INT32 или попросту вдвое большего числа инструкций FP32 за такт GPU, что, замечу справедливости ради, можно полностью реализовать лишь в условиях равномерной нагрузки рабочих приложений, но не игр. С другой стороны, Compute Unit «красных» графических процессоров, очевидно, является более экономной конструкцией с позиции транзисторного бюджета, но кого это волнует с тех пор, как NVIDIA получила в свое распоряжение передовой техпроцесс 4N на линиях TSMC?

Для выпуска консьюмерской ветки чипов Ampere NVIDIA пришлось воспользоваться мощностями Samsung, в то время как 7-нанометровый узел TSMC был занят другими крупными заказчиками (в первую очередь Apple и AMD) и продуктами самой NVIDIA для дата-центров. Чипы Ada вновь производятся силами TSMC, теперь по норме 5 нм. Формальная классификация процесса — 4N — вызвала путаницу в новостях, ведь у TSMC есть линия с похожим названием N4. В действительности фотолитография 4N представляет собой разновидность N5, заточенную специально под кремний NVIDIA. Как бы то ни было, и N4, и 4N принадлежат к узлу 5 нм. NVIDIA не сообщает никаких подробностей о геометрии техпроцесса, но даже если ориентироваться на параметры стандартного N5, миграция с самсунговских 8 нм позволяет рассчитывать на увеличение плотности транзисторов сразу в 3,1 раза!

Если рассматривать флагманский процессор нового поколения, AD102, то при площади в 608,6 мм² он является не самым крупным из «зеленых» кристаллов потребительской категории (первенство принадлежит TU102), однако его компонентный бюджет составляет ни много ни мало 76,3 млрд транзисторов. По этому параметру AD102 в данный момент уступает лишь родственному серверному чипу H100, который состоит из 80 млрд транзисторов, а флагманский чип Ampere, GA102, содержит уже не столь впечатляющие 28,3 млрд. Львиная доля новых транзисторов была потрачена на то, чтобы увеличить количество SM с 84 у GA102 до 144 штук, а полная формула чипа включает 18 432 FP32-совместимых шейдерных ALU, 576 текстурных блоков и 192 ROP.

Легко заметить, что с учетом разницы между AD102 и GA102 в количестве SM компонентный бюджет увеличился непропорционально. Остальные транзисторы, не считая логики фиксированной функциональности и uncore-элементов, NVIDIA потратила на модификацию стека памяти. Дело в том, что уже в прошлом поколении графические процессоры столкнулись с дефицитом скорости VRAM, временным решением которого стали чипы GDDR6X, однако в масштабах AD102 и они едва ли обеспечивают достаточную пропускную способность. Ada пошла по такому же пути, как «красное» семейство Navi: задержку обращений к дальней памяти компенсирует раздувшаяся ближняя память, но в «зеленых» GPU идея реализована по-другому. AMD ввела третий уровень кеша, который уступает кешу L2 по совокупной пропускной способности каналов данных, но позволяет очень компактно упаковывать транзисторы. NVIDIA, в свою очередь, просто увеличила L2 с 6 Мбайт у GA102 до 96 Мбайт, что наверняка отразилось на площади кристалла, зато позволяет комбинировать высокий хитрейт массивного кеша с низкой латентностью.

Впрочем, опыт AMD показал, что, несмотря на большой кеш третьего уровня, чипы Navi все еще чувствительны к пропускной способности шины VRAM, а у младших моделей небольшой объем Infinity Cache является уязвимым местом при определенной вычислительной нагрузке (включая некоторые игры). NVIDIA застраховалась от этих проблем благодаря тому, что AD102 унаследовал от старшего Ampere 384-битную шину оперативной памяти. Заметим, что у чипа H100 родственной архитектуры Hopper объем L2 намного меньше, чем у AD100, — всего 50 Мбайт, однако Hopper использует несоизмеримо более производительную внешнюю память HBM3.

Производитель	NVIDIA
Название	AD104	AD103	AD102
Где используется	Н/Д	GeForce RTX 4080	GeForce RTX 4090
Микроархитектура	Ada Lovelace	Ada Lovelace	Ada Lovelace
Техпроцесс, нм	TSMC 4N	TSMC 4N	TSMC 4N
Число транзисторов, млрд	35,8	45,9	76,3
Площадь чипа, мм²	295	378,6	608,6
Число SM/TPC/GPC
Streaming Multiprocessors (SM)	60	80	144
Thread Processing Clusters (TPC)	30	40	72
Graphics Processing Clusters (GPC)	5	7	12
Конфигурация потокового мультипроцессора (SM)
CUDA-ядра FP16	Нет	Нет	Нет
CUDA-ядра FP32	4 × 32	4 × 32	4 × 32
CUDA-ядра FP64	2	2	2
CUDA-ядра INT32	4 × 16	4 × 16	4 × 16
ALU специального назначения (SFU)	4 × 4	4 × 4	4 × 4
Тензорные ядра	4 × 1	4 × 1	4 × 1
RT-ядра	1	1	1
Блоки наложения текстур (TMU)	4	4	4
Объем регистрового файла, Кбайт	256	256	256
Объем кеша L1/разделяемой памяти, Кбайт	128	128	128
Программируемые вычислительные блоки GPU
CUDA-ядра FP16	Нет	Нет	Нет
CUDA-ядра FP32	7 680	10 240	18 432
CUDA-ядра FP64	120	160	288
CUDA-ядра INT32	3 840	5 120	9 216
ALU специального назначения (SFU)	960	1 280	2 304
Тензорные ядра	240	320	576
RT-ядра	60	80	144
Блоки GPU фиксированной функциональности
Блоки наложения текстур (TMU)	240	320	576
Блоки операций растеризации (ROP)	80	112	192
Конфигурация памяти
Объем кеша L2, Мбайт	48	64	96
Разрядность шины RAM, бит	192	256	384
Тип микросхем RAM	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM

Интерфейс NVLINK	Нет	Нет	Нет
Интерфейс PCI Express	4.0 x16	4.0 x16	4.0 x16

Помимо AD102, NVIDIA опубликовала спецификации графических процессоров второго и третьего эшелона — AD103 и AD104. AD103 по формуле основных вычислительных блоков близок к GA102, однако, в отличие от старого флагмана, пользуется 256-битной шиной VRAM и несет 64 Мбайт кеша L2. AD104, в свою очередь, содержит 60 SM и, таким образом, занимает по этой характеристике промежуточную позицию между GA102 и чипом GA104, на котором стоит вся середина 30-й серии GeForce от RTX 3060 Ti до RTX 3070 Ti, но довольствуется уже 192-битной шиной памяти, а объем L2 составляет 48 Мбайт.

⇡#Рейтрейсинг в чипах Ada

Чипы Ada Lovelace не могут похвастаться таким же списком функциональных нововведений, как Ampere и тем более Turing. Однако немногочисленные качественные изменения, которыми характеризуется кремний Ada, обещают существенно увеличить быстродействие GPU в приоритетных для NVIDIA задачах — рейтрейсинге, глубинном обучении и масштабировании кадров при помощи DLSS.

Так, архитектура Ampere представила RT-блоки второго поколения, которые способны в параллельном режиме находить точку пересечения одного луча с боксом BVH и другого луча — с поверхностью полигона. Последняя операция в Ampere выполняется дважды за такт, а в Ada — уже четырежды. Таким образом, логика рейтрейсинга архитектуры RDNA 2, так же как Intel Arc, по этому показателю в четыре раза уступает RT-блокам Ada.

Помимо роста чистой пропускной способности, у RT-блоков появился дополнительный механизм оптимизации при взаимодействии с альфа-каналом текстур. Прозрачные текстуры в общем случае усложняют рейтрейсинг из-за того, что каждое пересечение луча с полигоном вызывает шейдер, который определяет, что делать с лучом дальше (остановить трассировку или продолжить поиск дальнейших пересечений). В случае, если разработчик игры хочет обеспечить физически корректный рейтрейсинг текстуры с прозрачными участками (такой как листья деревьев или пламя), соответствующий полигон целиком помечают как прозрачный, что вызывает предсказуемый удар по быстродействию. Функция Opacity Micromesh Engine в чипах Ada позволяет снять часть нагрузки с шейдерных ALU путем разбивки примитива на сеть микротреугольников. Метка каждого микротреугольника идентифицирует его как непрозрачный либо прозрачный, а дальнейшее поведение луча после того, как обнаружено пересечение с микро-треугольником, определяется внутри RT-блока без вызова дополнительных шейдеров. В ином случае, когда микротреугольник имеет «неизвестное» состояние, задача решается программно на CUDA-ядрах SM.

К сожалению, микрополигональные маски прозрачности, необходимые для работы OME, должны быть определены заранее, и подобная технология не является частью API Direct3D (впрочем, в последние годы Microsoft оперативно реагирует на появление новых функций GPU), а значит, вопрос применять ее или нет остается на усмотрение разработчиков игры. Пока OME используется только в трассированной модификации Portal.

Следующая аппаратная модификация RT-ядер Ada направлена на решение другой проблемы. Благодаря тому, как эффективно работают структуры BVH, многократное усложнение геометрии сцены несущественно увеличивает время, которое требуется для поиска пересечения луча с боксом BVH (кстати, в отличие от AMD и Intel, NVIDIA так и не раскрыла, сколько таких пересечений за такт GPU может найти один RT-блок). А вот время генерации BVH и объем, который она занимает в памяти, практически линейно зависит от количества полигонов в сцене. Чтобы сэкономить ресурсы видеокарты, NVIDIA предложила новый вид геометрического примитива (Displaced Micro-Mesh), который представляет собой единственный треугольник и ассоциированную с ним карту смещения. Последняя содержит барицентрические координаты множества дополнительных вершин, амплитуду их смещения относительно плоскости базового треугольника и, таким образом, выполняет компактное описание детализированной геометрии в пространстве отдельно взятого примитива, а не всей сцены. Как следствие, для трассировки сцены не требуется исчерпывающая предварительная тесселяция, переполняющая структуру BVH, а доступ к информации Displaced Micro-Mesh выполняется по требованию (при необходимости найти точку пересечения луча с поверхностью треугольника DMM дополнительная геометрия формируется на лету).

С таким же успехом Displaced Micro-Mesh можно использовать в контексте растеризации с произвольной точностью деталей при помощи вычислительных или mesh-шейдеров , которые появились в архитектуре Turing и с тех пор вошли в состав Direct3D. Алгоритм DMM также открыт для любых производителей софта и железа, хотя лишь чипы Ada в данный момент имеют аппаратные средства для его ускорения. Первыми партнерами NVIDIA, которые собираются внедрить DMM в собственных продуктах, стали Adobe и Simplygon (создатель одноименного инструментария для оптимизации 3D-графики).

Наконец, в работе Ada с шейдерами для трассировки лучей произошло изменение на уровне планирования потоков инструкций. В типичной ситуации рейтрейсинга сцены первичные лучи от источника света представляют собой несколько потоков одной и той же шейдерной программы, что гарантирует идеальный параллелизм вычислений и тесную локализацию необходимых ресурсов в стеке памяти GPU. А вот на этапе вторичных, отраженных лучей граф вычислений разбивается на отличные друг от друга шейдеры, исполнение которых зачастую происходит последовательно. Кроме того, шейдеры вторичных лучей неизбежно обращаются к разрозненным адресам памяти, что усложняет кеширование.

Чтобы компенсировать потерю быстродействия, вызванную расходящимися потоками инструкций, логика SM и памяти Ada подготовлена к возможности эффективно перегруппировывать потоки (Shader Execution Reordering) с целью повысить однородность вычислений. Впрочем, Ada — еще не настолько умный GPU, чтобы выполнять перегруппировку автоматически. Для этого разработчикам ПО придется использовать расширения проприетарного интерфейса NVAPI, хотя NVIDIA уже работает с Microsoft, чтобы стандартизировать SER в рамках Direct3D. По оценкам чипмейкера, в ситуациях с большим расхождением потоков (таких как Path Tracing) SER позволяет рассчитывать на двукратный рост производительности. Первой игрой с поддержкой SER станет Cyberpunk 2077. Грядущее обновление также принесет с собой режим RT: Overdrive, который увеличит плотность вычислений вплоть до 600 расчетов трассировки лучей на пиксель и больше, а главное DLSS 3.0.

⇡#Тензорные вычисления, DLSS 3.0 и кодирование видео

Процессоры Ada, как и серверные чипы Hopper, содержат массив тензорных ядер четвертого поколения, которые развивают вдвое большую пропускную способность за такт GPU по сравнению с тензорными ядрами Ampere. Кроме того, Ada позаимствовала у Hopper функцию Transformer Engine для ускорения тренировки т. н. трансформеров — разновидности нейросетей, получившей широкое распространение в таких задачах, как распознавание естественного языка и автореферирование, благодаря высокому параллелизму расчетов.

Однако в потребительских видеокартах главным потребителем тензорных вычислений было и остается масштабирование кадров с помощью DLSS. DLSS сам по себе является довольно ресурсоемким инструментом, которому пойдет на пользу высокая производительность тензорных ядер четвертого поколения, не говоря уже про общую массу тензорной логики в кристаллах Ada. Тем не менее наращивание вычислительной мощности в распоряжении DLSS не способно устранить фундаментальное ограничение всех существующих в играх методов апскейлинга. Дело в том, что, когда апскейлинг снимает нагрузку с GPU за счет рендеринга в пониженном разрешении, на первый план выходит быстродействие центрального процессора (это наглядно продемонстрируют тесты GeForce RTX 4090).

DLSS следующей, третьей версии решает эту проблему единственным возможным способом: теперь нейросеть не только выполняет масштабирование кадров, прошедших весь конвейер рендеринга, но и способна генерировать новые промежуточные кадры, опираясь на векторы движения внутри графического движка и Optical Flow. Последний представляет собой алгоритм аппроксимации движения пикселей, который издавна используется в обработке видео, VR/AR и машинном зрении. Графические процессоры Ampere как раз содержат аппаратный блок Optical Flow, отделенный от кодировщика видео NVENC, а в кремнии Ada его производительность возросла более чем вдвое. DLSS 3.0 также сулит вдвое большее быстродействие по сравнению с DLSS второй версии даже в условиях, когда фреймрейт ограничен ресурсами CPU.

Тот факт, что чипы Ampere умеют обрабатывать Optical Flow в железе, ставит под вопрос эксклюзивный характер DLSS 3.0, хотя формально третья версия алгоритма работает лишь на чипах Ada. Эксперименты моддеров с ранней версией грядущего патча Cypberpunk 2077 показали, что DLSS 3.0 с функцией генерации кадров можно запустить на видеокартах 30-й или даже 20-й серии и получить значительную прибавку фреймрейта. Однако апскейлинг работает нестабильно, так что ограничения, установленные NVIDIA, все-таки могут иметь под собой фактические основание. Как бы то ни было, DLSS 3.0 далеко не сразу приобретет широкую поддержку в играх.

Разумеется, интегрированным ASIC для вычислений Optical Flow может воспользоваться не только DLSS, но и рабочие приложения — в первую очередь связанные с обработкой видео. Кроме того, вслед за интеловскими графическими процессорами Arc, чипы NVIDIA научились кодировать в железе стандарт AV1. Чипы AD102 и AD103 и вовсе комплектуются двумя кодировщиками NVENC, однако пройдет какое-то время, прежде чем распространенные средства монтажа и конвертации видео получат доступ к этим функциям.

⇡#Технические характеристики видеокарт, цены

В данный момент линейка GeForce 40 представлена двумя моделями: RTX 4080 и RTX 4090. Флагманский ускоритель, о котором пойдет речь в данном обзоре, создан на основе чипа первого эшелона, AD102, но конфигурация GPU была урезана с целью увеличить поставки пригодных для эксплуатации кристаллов и оставить место для потенциального GeForce RTX 4090 Ti. Процессор утратил 16 SM, а общая формула чипа составляет 16 384 FP32-совместимых CUDA-ядра, 512 текстурных блоков и 176 ROP.

Старшая модель комплектуется 24 Гбайт памяти GDDR6X, работающей с пропускной способностью 21 Гбит/с на контакт 384-битной шины. Сам GPU по референсным спецификациям развивает тактовую частоту в 2 520 МГц при типичной игровой нагрузке, хотя, как покажут измерения, это весьма умеренная оценка. Даже исходя из референсных тактовых частот теоретическое быстродействие GeForce RTX 4090 оценивается в 2,3 раза выше по сравнению с GeForce RTX 3090 Ti, что, впрочем, является недостижимым ориентиром в реальных задачах (особенно играх). Как и GeForce RTX 3090 Ti, новый флагман рассчитан на энергопотребление вплоть до 450 Вт, однако NVIDIA наверняка не остановится на этом, если учесть, что полностью разблокированный AD102 еще не пошел в массы.

В свою очередь, GeForce RTX 4080, спроектирован по старой схеме NVIDIA, когда предтоповая видеокарта опирается на чип второго эшелона — в данном случае AD103. GPU также немного урезан (на 4 SM) и содержит 9 728 активных CUDA-ядер FP32, 304 блоков наложения текстур и 112 ROP. Шина памяти у RTX 4080 256-битная, но здесь используются микросхемы GDDR6X с общим объемом 16 Гбайт и пропускной способностью 22,4 Гбит/с на контакт. Хотя у GeForce RTX 4080 меньше шейдерных ALU, чем у GeForce RTX 3090 Ti, благодаря проектной тактовой частоте 2 505 МГц новинка на 33 % опережает бывший флагман по теоретическим оценкам быстродействия. Впрочем, при резерве мощности в 350 Вт аналогом RTX 4080 скорее является GeForce RTX 3080 Ti, а дистанция между этими устройствами по теоретической производительности составляет 43 %.

Изначально NVIDIA собиралась продолжить череду релизов 12-гигабайтной версией GeForce RTX 4080 на основе чипа GA104 с 192-битной шиной VRAM, но в ответ на критику релиз отменили. Эту видеокарту ждет ребрендинг и, возможно, коррекция спецификаций сообразно новому позиционированию.

До сих пор мы говорили о том, какими новшествами отличаются ускорители 40-й серии. Теперь перечислим функции, которых в Ada нет. Во-первых, потребительские GPU (как и ускорители для рабочих станций на базе Ada) окончательно лишились интерфейса NVLink, который стал прерогативой HPC-решений. Во-вторых, Ada, в отличие от Intel Arc, не поддерживает DisplayPort версии 2.0, что также вряд ли огорчит большинство пользователей. Наконец, хотя чипы Hopper уже освоили PCI Express пятого поколения, Ada довольствуется PCI Express 4.0 — вот это ограничение, может, и проявит себя в каких-то специфических задачах.

Производитель	NVIDIA
Модель	GeForce RTX 3080 Ti	GeForce RTX 3090 Ti	GeForce RTX 4080	GeForce RTX 4090
Графический процессор
Название	GA102	GA102	AD103	AD102
Микроархитектура	Ampere	Ampere	Ada Lovelace	Ada Lovelace
Техпроцесс	Samsung 8N	Samsung 8N	TSMC 4N	TSMC 4N
Число транзисторов, млрд	28,3	28,3	45,9	76,3
Тактовая частота, МГц: Base Clock / Boost Clock	1 365/1 665	1 395/1 695	2 210/2 505	2 230/2 520
Шейдерные ALU FP32	10 240	10 752	9 728	16 384
Блоки наложения текстур (TMU)	320	336	304	512
Блоки операций растеризации (ROP)	112	112	112	176
Тензорные ядра	320	336	304	512
RT-ядра	80	84	76	128
Оперативная память
Разрядность шины, бит	384	384	256	384
Тип микросхем	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с)	1 188 (19 000)	1 313 (21 000)	1 400 (22 400)	1 313 (21 000)
Объем, Мбайт	12 288	24 576	16 384	24 576
Объем кеша L2, Мбайт	6	6	64	96
Шина ввода/вывода	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты)	34 099	36 449	48 737	82 575
Производительность FP64/FP32	1/64	1/64	1/64	1/64
Производительность FP16/FP32	1/1	1/1	1/1	1/1
Пропускная способность оперативной памяти, Гбайт/с	912	1 008	717	1 008
Вывод изображения
Интерфейсы вывода изображения	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1
TBP/TDP, Вт	350	450	320	450
Розничная цена (США, без налога), $	1 199 (рекоменд. в момент выхода)	1 999 (рекоменд. в момент выхода)	1 199 (рекоменд. в момент выхода)	1 599 (рекоменд. в момент выхода)
Розничная цена (Россия), руб.	116 900 (рекоменд. в момент выхода)	Н/Д	Н/Д	Н/Д

Что касается цен старших моделей GeForce 40, то RTX 4080 назначили рекомендованную стоимость $1 199 (точно такую же, как у RTX 3080 Ti). Флагманский RTX 4090 оценивается в $1 599, что на $100 превышает релизную цену GeForce RTX 3090, однако RTX 3090 Ti стартовал с более высокой отметки $1 999.

В продажу пока поступил лишь GeForce RTX 4090, видеокарт сейчас не хватает на всех желающих, поэтому они продаются с большой накруткой. Так, на американских торговых площадках RTX 4090 отдают не меньше чем за $2 299, а у нас минимальная розничная цена составляет 156 232 руб.

⇡#GIGABYTE GeForce RTX 4090 Gaming OC: конструкция

Мы рассмотрим вариант GeForce RTX 4090 от GIGABYTE под маркой Gaming OC, который стоит дороже наиболее доступных версий RTX 4090: валютные цены устройства начинаются с $2 398, а рублевые — с 177 119 руб. Видеокарта имеет заводской разгон, правда, лишь номинальный: параметр Boost Clock увеличили с 2 520 до 2 535 МГц.

Gaming OC — просто громадная видеокарта, которая весит больше 2 кг и занимает в корпусе даже не три, а все четыре слота расширения. Ну а что вы хотели, когда устройство потребляет вплоть до 450 Вт мощности? Кожух ускорителя выполнен в обновленной строгой стилистике, а три вентилятора с диаметром крыльчатки 110 мм украшены RGB-подсветкой.

GIGABYTE продолжает тенденцию, начатую видеокартами Founders Edition 30-й серии: короткая PCB и вырез в задней панели обеспечивают сквозной продув радиатора одним из вентиляторов.

Массивный кулер и металлический бэкплейт уже придают печатной плате значительную жесткость, но при установке в стандартном горизонтальном положении лучше воспользоваться крепежным набором, который фиксирует хвост видеокарты к задней стенке корпуса ПК.

Теплосъемник GPU представляет собой гибридную конструкцию из небольшой испарительной камеры и восьми тепловых трубок. Множество пластин, соединенных с оребрением либо с краями испарительной камеры, отводят жар от микросхем видеопамяти и компонентов VRM.

Благодаря тому, что в GeForce RTX 4090 используются чипы GDDR6X объемом 16 Гбит, вся память расположена на передней стороне PCB, а задняя уже не требует усиленного охлаждения. Тем не менее между текстолитом и бэкплейтом Gaming OC проложено несколько термопрокладок.

⇡#GIGABYTE GeForce RTX 4090 Gaming OC: печатная плата

Графический процессор AD102, предположительно, обладает физической и электрической совместимостью с чипом GA102, что позволяет партнерам NVIDIA сэкономить на дизайне печатных плат. Однако GIGABYTE Gaming OC собрана на совершенно новой PCB.

Приметой всех печатных плат GeForce RTX 4090 является миниатюрный двенадцатиконтактный разъем питания 12VHPWR, предписанный спецификацией PCI Express 5.0, который начали использовать еще в GeForce RTX 3090 Ti. Коннектор рассчитан на передачу мощности вплоть до 600 Вт и снабжен дополнительной группой из четырех сигнальных контактов. Одна из этих линий сообщает электронике БП о том, что разъем 12VHPWR задействован, а вторая является каналом обратной связи от видеокарты, который подтверждает стабильность питания.

Заметим, что форма и распиновка силовой колодки 12VHPWR идентичны тому разъему, которым NVIDIA оснащала ускорители 30-й серии до появления GeForce RTX 3090 Ti, — не удивительно в свете того, что NVIDIA входит в группу PCI-SIG, которая стандартизирует новые версии протокола и сопутствующие характеристики PCI Express. Как следствие, старые видеокарты Founders Edition тоже можно запитать кабелем 12VHPWR.

А вот у GeForce RTX 4090, в свою очередь, есть проблемы обратной совместимости. Ко всем модификациям ускорителя прилагается адаптер с одного 12VHPWR на четыре привычных восьмиконтактных разъема питания. Подключение видеокарты через адаптер, в отличие от 12VHPWR, не гарантирует одинаковый ток по всем шести разъемам, что может привести к перегреву и отгоранию контактов. Тем более, если уж приходится использовать переходник, не рекомендуем сажать два восьмиконтактных разъема на один кабель БП — в таком случае даже жилы с хорошим сечением на открытом тестовом стенде ощутимо нагреваются. А лучше сразу купите в довесок к RTX 4090 блок питания хотя бы ATX 2.0 c разъемами 12VHPWR.

Однако вернемся к печатной плате GIGABYTE Gaming OC. Разводка VRM предусматривает в общей сложности 23 фазы питания графического процессора, но площадки для компонентов трех фаз пустуют. Регулятор напряжения устроен по очень экономному принципу: силовые каскады Vishay SIC653A характеризуются номинальным током в 50 А, а управляет ими ШИМ-контроллер uPI uP9512U. Это восьмифазный чип, так что фазы VRM пришлось соединить параллельно. Для сравнения в ранних Founders Edition 30-й серии NVIDIA использовала пару ШИМ-контроллеров на 10 и 6 фаз, а дорогие версии RTX 3090 Ti перешли на 16-фазный контроллер Monolithic Power Systems MP2891. Питание микросхем видеопамяти в GIGABYTE Gaming OC четырехфазное, на основе таких же 50-амперных силовых каскадов и контроллера uPI uP9512R.

Скорость самих чипов GDDR6X соответствует их номиналу 21 Гбит/с. Кроме того, отметим, что на плате Gaming OC есть переключатель BIOS, который позволяет задействовать либо «оверклокерскую», либо «тихую» прошивку. Наконец, нельзя не обратить внимание на закрытые сплошным слоем лака контактные площадки в левом верхнем углу PCB, которые представляют собой не что иное, как похороненный разъем NVLink. Быть может, поддержка прямой коммуникации между GPU все-таки имеется в архитектуре Ada, но была отключена по дороге к релизу. А может, это всего лишь рудимент унификации дизайна PCB между процессорами Ada и Ampere.

⇡#Тестовый стенд, методика тестирования

Тестовый стенд
CPU	AMD Ryzen 9 5950X (4,4 ГГц, фиксированная тактовая частота всех ядер)
Материнская плата	ASUS ROG Strix X570-E Gaming (Resizable BAR вкл.)
Оперативная память	G.Skill Trident Z RGB F4-3200C14D-16GTZR, 4 × 8 Гбайт (3600 МТ/с, CL17)
ПЗУ	Intel SSD 760p, 2048 Гбайт
Блок питания	Corsair AX1200i, 1200 Вт
Система охлаждения CPU	Corsair iCUE H115i RGB PRO XT
Корпус	Открытый стенд
Операционная система	Windows 10 Pro x64
ПО для GPU AMD
Все видеокарты	AMD Radeon Software Adrenalin 2020 Edition 22.10.1
ПО для GPU NVIDIA
Все видеокарты	NVIDIA GeForce Game Ready Driver 522.25

Игры без трассировки лучей
Игра	API	Метод тестирования	Настройки графики	Полноэкранное сглаживание
Assassin's Creed Valhalla	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA High
Borderlands 3	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA
Cyberpunk 2077	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA
DOOM Eternal	Vulkan	OCAT, начало миссии Mars Core	Макс. качество графики	TSSAA
Far Cry 6	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA
Metro Exodus	DirectX 12	Встроенный бенчмарк	Макс. качество графики; Shading Rate 100%	TAA
Red Dead Redemption 2	Vulkan	Встроенный бенчмарк	Макс. качество графики	TAA High
Total War: WARHAMMER III	DirectX 11	Встроенный бенчмарк (Battle Benchmark)	Макс. качество графики	TAA High
Watch Dogs: Legion	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA

Игры с трассировкой лучей
Игра	API	Метод тестирования	Настройки графики	Полноэкранное сглаживание/масштабирование
Cyberpunk 2077	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA/DLSS Balanced/FSR Balanced
DOOM Eternal	Vulkan	OCAT, начало миссии Mars Core	Макс. качество графики	TSSAA/DLSS Balanced
Far Cry 6	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA/FSR Balanced
Metro Exodus Enchanced Edition	DirectX 12	Встроенный бенчмарк	Макс. качество графики; Ray Tracing: Ultra; Reflections: Raytaced; VRS: 1x	TAA/DLSS Balanced
Minecraft with RTX Beta	DirectX 12	OCAT, бенчмарк в мире Portal Pioneers	Макс. дальность рендеринга	Н/Д / DLSS (коэффициент масштабирования зависит от целевого разрешения)
Quake II RTX	Vulkan (расширения VK_KHR)	Timedemo, demo1.dm2	Макс. качество графики	TAA/FSR Balanced
Watch Dogs: Legion	DirectX 12	Встроенный бенчмарк	Макс. качество графики	TAA/DLSS Balanced

В большинстве тестовых игр показатели средней и минимальной кадровых частот выводятся из массива времени рендеринга индивидуальных кадров, который записывает встроенный бенчмарк (или утилита OCAT, если бенчмарка нет).

Средняя частота смены кадров на диаграммах является величиной, обратной среднему времени кадра. Для оценки минимальной кадровой частоты вычисляется количество кадров, сформированных в каждую секунду теста. Из этого массива чисел берется значение, соответствующее 1-му процентилю распределения. Red Dead Redemption 2 является исключением: ее встроенный бенчмарк самостоятельно регистрирует 1-й процентиль времени рендеринга кадра, из которого выводится соответствующая кадровая частота. В Assassin’s Creed Valhalla мы вынуждены ориентироваться на минимальный фреймрейт по данным интегрированного бенчмарка.

Рабочие приложения
Приложение		Настройки	API
Приложение		Настройки	AMD	Intel	NVIDIA
Adobe Premiere Pro 2022 (22.x)	PugetBench for Premiere Pro 0.95.4 (состав тестов по ссылке)	Воспроизведение MultiCam H.264, ProRes 422, RED R3D (4K@59,94 FPS)	OpenCL	OpenCL	CUDA
Adobe Premiere Pro 2022 (22.x)		Heavy GPU Effects: экспорт в ProRes 422HQ (4K@59,94 FPS)	OpenCL	OpenCL	CUDA
Blender 3.x	Демо Agent 327 Barbershop с сайта Blender	Рендерер Cycles	HIP	oneAPI	CUDA/OptX
Blackmagic Design DaVinci Resolve Studio 18.x	Puget Systems DaVinci Resolve Studio Benchmark 0.93.1 (состав тестов по ссылке)	Standard Benchmark (4K GPU Effects, 4K Media). Use GPU for RED R3D: Debayer	OpenCL	OpenCL	CUDA

Кодирование/декодирование видео (ffmpeg 5.x)
Задача		Настройки			API
Задача		AMD	Intel	NVIDIA	AMD	Intel	NVIDIA
Декодирование	H.264	1920 × 1080 (High Profile, L4.1); 3840 × 2160 (High Profile, L5.1)			D3D11VA
	HEVC	1920 × 1080 (Main Profile, L4.0); 3840 × 2160 (Main Profile, L5.0); 7680 × 4320 (Main Profile, L6.0)
	VP9	1920 × 1080; 3840 × 2160; 7680 × 4320
	AV1	1920 × 1080; 3840 × 2160; 7680 × 4320
Кодирование H.264	1920 × 1080	-c:v h264_amf -quality speed -coder cabac -level 4.1 -refs 1 -b:v 3M	-c:v h264_qsv -preset veryfast -cavlc 0 -level 4.1 -b:v 3M	-c:v h264_nvenc -preset fast -coder cabac -level 4.1 -refs 1 -b:v 3M	AMF	Intel Media SDK	NVENC
Кодирование H.264	3840 × 2160	-c:v h264_amf -quality speed -coder cabac -level 5.1 -refs 1 -b:v 7.5M	-c:v h264_qsv -preset veryfast -cavlc 0 -level 5.1 -b:v 7.5M	-c:v h264_nvenc -preset fast -coder cabac -level 5.1 -refs 1 -b:v 7.5M
Кодирование HEVC	1920 × 1080	-c:v hevc_amf -quality speed -level 4 -b:v 3M	-c:v hevc_qsv -preset veryfast -b:v 3M	-c:v hevc_nvenc -preset fast -level 4 -b:v 3M
	3840 × 2160	-c:v hevc_amf -quality speed -level 5 -b:v 7.5M	-c:v hevc_qsv -preset veryfast -b:v 7.5M	-c:v hevc_nvenc -preset fast -level 5 -b:v 7.5M
	7680 × 4320	-c:v hevc_amf -quality speed -level 6 -b:v 20M	-c:v hevc_qsv -preset veryfast -b:v 20M	-c:v hevc_nvenc -preset fast -level 6 -refs 1 -b:v 20M

Мощность видеокарт регистрируется отдельно от CPU и прочих компонентов ПК с помощью устройства NVIDIA PCAT. В качестве тестовой нагрузки для тестов мощности и уровня шума используется игра Cyberpunk 2077 при разрешении 3840 × 2160 и максимальных параметрах качества графики (без трассировки лучей), а также стресс-тест FurMark с наиболее агрессивными настройками (разрешение 3840 × 2160, MSAA 8x). Замеры всех параметров выполняются после прогрева видеокарты, когда температура GPU и тактовые частоты стабилизируются.

⇡#Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

NVIDIA GeForce RTX 4090 (2235/2535 МГц, 21 Гбит/с, 24 Гбайт);
NVIDIA GeForce RTX 3090 (1395/1695 МГц, 19,5 Гбит/с, 24 Гбайт);
NVIDIA GeForce RTX 3080 Ti (1365/1665 МГц, 19 Гбит/с, 12 Гбайт);
NVIDIA GeForce RTX 2080 Ti Founders Edition (1350/1635 МГц, 14 Гбит/с, 11 Гбайт);
AMD Radeon RX 6900 XT (1825/2250 МГц, 16 Гбит/с, 16 Гбайт).

Прим. В скобках после названий видеокарт указаны базовая и boost-частота согласно спецификациям каждого устройства. Видеокарты с заводским разгоном приведены в соответствие с референсными параметрами (или приближены к последним) при условии, что это можно сделать без ручной правки кривой тактовых частот. В противном случае (ускорители серии NVIDIA GeForce 16, а также GeForce RTX 2070/2080/2080 Ti Founders Edition) используются настройки производителя.

⇡#Тактовые частоты, энергопотребление, температура, уровень шума и разгон

Миграция кремния NVIDIA с нормы 8 нм на 5 нм привела к значительному росту тактовых частот. Как и в предыдущих поколениях «зеленых» GPU, Boost Clock 2 520 МГц оказался весьма консервативной оценкой возможностей чипа. На самом деле даже в такой ресурсоемкой игре, как Cyperpunk 2077, процессор AD102 поддерживает частоту выше 2,7 МГц, а если сравнить ее с параметрами GA102 на плате GeForce RTX 3090, прибавка составляет ни много ни мало 913 МГц, или ровно 50 %! При этом чип довольствуется питающим напряжением 1,05 В, которое является нормой для многих партнерских ускорителей 30-й серии.

Рабочие параметры под нагрузкой (Cyberpunk 2077)
Видеокарта	Настройки	Тактовая частота GPU, МГц		Напряжение питания GPU, В		Частота вращения вентиляторов, об/мин (% от макс.)	Частота вращения вентиляторов 2, об/мин (% от макс.)
Видеокарта	Настройки	Средн.	Макс.	Средн.	Макс.	Средн.	Средн.
GIGABYTE GeForce RTX 4090 Gaming OC (+200 МГц, 23 Гбит/с, 24 Гбайт)	OC BIOS	2925	2925	1,05	1,05	2026 (77%)	1824 (80%)
GIGABYTE GeForce RTX 4090 Gaming OC (2235/2535 МГц, 21 Гбит/с, 24 Гбайт)	OC BIOS	2730	2730	1,05	1,05	1914 (75%)	1744 (78%)
GIGABYTE GeForce RTX 4090 Gaming OC (2235/2535 МГц, 21 Гбит/с, 24 Гбайт)	Silent BIOS	2730	2730	1,05	1,05	1610 (75%)	1481 (82%)
NVIDIA GeForce RTX 3090 FE (1395/1695 МГц, 19,5 Гбит/с, 24 Гбайт)		1817	1830	0,90	0,91	1141 (43%)	1141 (43%)
NVIDIA GeForce RTX 3080 Ti FE (1365/1665 МГц, 19 Гбит/с, 12 Гбайт)	Термопрокладки GELID GP-Extreme	1726	1740	0,89	0,91	2108 (58%)	2108 (62%)
NVIDIA GeForce RTX 3080 FE (1440/1710 МГц, 19 Гбит/с, 10 Гбайт)		1822	1830	1,00	1,01	1747 (49%)	1747 (52%)
AMD Radeon RX 6900 XT (1825/2250 МГц, 16 Гбит/с, 16 Гбайт)		2267	2282	1,02	1,04	1331 (40%)	Н/Д

Прим. Измерение всех параметров выполняется после прогрева GPU и стабилизации тактовых частот.

Кстати, об играх: GeForce RTX 4090 стал видеокартой, окончательно сломавшей Crysis 3 в качестве нагрузочного теста, которым мы пользовались десять лет подряд. Любопытно, что Crysis 3 даже на GeForce RTX 4090 выдает немногим больше 60 FPS при разрешении 4К и сглаживании MSAA 4x, тем не менее уже не загружает GPU таким образом, чтобы видеокарта приблизилась к лимиту потребляемой мощности. Штатная TBP GeForce RTX 4090, напомним, составляет 450 Вт, а у слегка разогнанной модификации GIGABYTE Gaming OC энергопотребление под стрессовой нагрузкой достигает 459 Вт. В Cyberpunk 2077 жор поменьше — 410–411 Вт. Впрочем, если сравнить с GeForce RTX 3090, который расходует в играх 390 Вт, оказывается, что мощность выросла не так уж сильно.

Неспроста GIGABYTE пришлось использовать кулер монументальных размеров, чтобы обеспечить безопасную температуру GPU и одновременно удовлетворительный уровень шума. Но приоритетной характеристикой все-таки является температура: кристалл не нагревается выше 68 °С ценой достаточно высокого звукового давления (около 44 дБА). К счастью, у GeForce RTX 4090 Gaming OC есть «тихий» BIOS, который снижает уровень шума до 39 дБА. При этом не происходит заметных изменений в энергопотреблении, тактовых частотах GPU и почти не страдает температура чипа: существенный рост — с 79 до 89 °С по датчику горячей точки — наблюдается только в стресс-тесте. Рады отметить, что и новые чипы GDDR6X объемом 16 Гбит нагреваются куда меньше по сравнению со своими предшественниками: если для ускорителей 30-й серии, оборудованных 8-гигабитной памятью, привычны температуры от 90 °С, температура VRAM на плате RTX 4090 не превышает 64 °С.

Как и следовало ожидать от флагманской модели, графический процессор GeForce RTX 4090 посредственно разгоняется. При увеличенном на 33 % резерве мощности (то есть до 600 Вт) нам удалось поднять планку Boost Clock на 200 МГц, а в действительности частота увеличилась на 195 МГц, что составляет 7 % от исходного значения. Впрочем, теперь лишь 75 МГц отделяют чип AD102 от психологического рубежа 3 ГГц, который наверняка еще покорится другим версиям RTX 4090. С другой стороны, оперативная память GDDR6X разгоняется превосходно — со штатной пропускной способности 21 вплоть до 23 Гбит/с.

⇡#Игровые тесты (1920 × 1080)

Игры при разрешении 1080p без трассировки лучей уже давно не способны полностью загрузить мощные GPU, и в результате кадровую частоту сдерживает производительность центрального процессора. GeForce RTX 4090 довел эту тенденцию до предела, а результаты нескольких тестов в режимах 1080p и 1440p настолько похожи, что и в 1440p потенциал RTX 4090 наверняка упирается в CPU. Более мощные процессоры, нежели Ryzen 9 5950X, который мы используем для тестов, помогут добиться большего от RTX 4090, но вряд ли в корне изменят ситуацию. Дело в том, что среднего фреймрейта большинства игр при разрешении 1080p и так за глаза хватает для казуального гейминга (как минимум 127 FPS в самых сложных случаях), однако лишь самые легкие тайтлы способны приблизиться к частоте обновления современных игровых мониторов. Вот 442 FPS в DOOM Eternal — это, безусловно, впечатляет.

Как следствие «процессорозависимости», RTX 4090 в режиме 1080p не так уж далеко ушел от старших видеокарт прошлого поколения: среднее преимущество новинки перед GeForce RTX 3090 составляет 25 % FPS, а по сравнению с GeForce RTX 3080 Ti и Radeon RX 6900 XT — 30 и 26 % соответственно. С другой стороны, владельцы GeForce RTX 2080 Ti могут рассчитывать на очень существенную прибавку игрового быстродействия даже при разрешении 1080p — в среднем 73 % FPS.

⇡#Игровые тесты (2560 × 1440)

Игры при разрешении 1440p — опять-таки не лучшее применение ресурсов GeForce RTX 4090. И все же в каждом тестовом тайтле новинка гарантирует средний фреймрейт не меньше 123 FPS, чем не может похвастаться ни одно устройство предшествующего поколения, да и процентное соотношение результатов резко увеличилось по сравнению с тестами в 1080p. Так, GeForce RTX 4090 превосходит GeForce RTX 3090 на 43 % средней кадровой частоты, а отрыв от RTX 3080 Ti и Radeon RX 6900 XT достиг 51 и 49 % соответственно. Что касается GeForce RTX 2080 Ti, то новый флагман превосходит старый более чем вдвое.

⇡#Игровые тесты (3840 × 2160)

При разрешении 2160p GeForce RTX 4090 наконец заработал в полную силу. Более того, оказывается, NVIDIA выпустила первую видеокарту, которая справляется с 4К на максималках без каких-либо ограничений. Большинство тестовых игр развивают средний фреймрейт даже не в 60, а свыше 90 FPS. Только Cyberpunk 2077 оказался крепким орешком: здесь результат RTX 4090 составляет 79 FPS.

Бенчмарки в 4К продемонстрировали максимальную дистанцию между сравниваемыми устройствами. Теперь GeForce RTX 4090 на 62 % опережает GeForce RTX 3090, а по сравнению с GeForce RTX 3080 Ti и Radeon RX 6900 XT новинка оказалась быстрее на 70 и 84 % соответственно. Наконец, смена GeForce RTX 2080 Ti на RTX 4090 приведет к росту фреймрейта в 2,5 раза.

⇡#Игровые тесты с трассировкой лучей

Выводы о том, что GeForce RTX 4090 едва ли отрабатывает свое энергопотребление и стоимость при условно-низком разрешении экрана 1080p, распространяются даже на игры с трассировкой лучей. Так, апгрейд GeForce RTX 3080 Ti или GeForce RTX 3090 на RTX 4090 выражается в приросте фреймрейта лишь на 40 % или 32 %. Только по сравнению с GeForce RTX 2080 Ti и его «красным» эквивалентом в данных условиях — Radeon RX 6900 XT — новинка обеспечивает громадный бонус в 95 и 81 % FPS соответственно.

Без применения апскейлинга идеальной ситуацией для RTX 4090 является разрешение 1440p, когда средняя кадровая частота не падает ниже 76 FPS, а превосходство над старшими моделями 30-й серии (GeForce RTX 3080 Ti и RTX 3090) достигает 54–64 %. В свою очередь, преимущество RTX 4090 перед GeForce RTX 2080 Ti и Radeon RX 6900 XT возрастает до 141 и 118 % соответственно.

Наконец, в режиме 4К флагман 40-й серии превосходит GeForce RTX 3080 Ti и RTX 3090 на 72–83 % среднего фреймрейта. По сравнению с Radeon RX 6900 XT он быстрее на 166 %, а производительность GeForce RTX 2080 Ti ровно в три раза ниже, чем у RTX 4090.

Самое интересное, что даже в играх на экране 4К с максимальными параметрами графики и трассировкой лучей GeForce RTX 4090, по большому счету, не нуждается в масштабировании кадров, что является очередной исторической вехой на пути развития графических процессоров. Если не считать Cyberpunk 2077, где средний фреймрейт упал до 39 FPS, RTX 4090 позволяет рассчитывать на твердые 60 FPS.

Более того, в ряде случаев апскейлинг не дает RTX 4090 ровным счетом никакого преимущества. При разрешении 1080p только в Quake II RTX кадровая частота отреагировала на масштабирование FSR, и даже при разрешении 1440p средний прирост фреймрейта благодаря DLSS либо FSR оценивается в 26 % FPS. Другое дело — 4К, здесь масштабирование добавило RTX 4090 в среднем 73 % частоты смены кадров, а минимальное абсолютное значение составляет 84 FPS.

Сравнение видеокарт NVIDIA при использовании DLSS наглядно иллюстрирует, почему вам, скорее всего, не нужен GeForce RTX 4090 без монитора с высоким разрешением. В режиме 1080p новинка лишь на 6–11 % превосходит GeForce RTX 3090 и RTX 3080 Ti, а GeForce RTX 2080 Ti — на 48 % средней кадровой частоты. В 1440p процентное соотношение увеличивается до 21, 28 и 86 % соответственно и только в 4К достигает 61, 70 и 162 % FPS.

⇡#Игровые тесты в разгоне

Как и следовало ожидать, разгон GeForce RTX 4090 оказался довольно бессмысленным занятием с практической точки зрения. В лучшем случае оверклокинг дает 7 % бонусного фреймрейта, а усредненный прирост кадровой частоты составляет 4 % FPS.

⇡#Тесты в рабочих приложениях

GeForce RTX 4090 по всем признакам является не только игровой, но и просьюмерской видеокартой, которая в номенклатуре продуктов NVIDIA занимает место серии TITAN. В качестве ускорителя задач GP-GPU флагман 40-й серии не ограничен разрешением экрана и обладает практически двукратным преимуществом перед GeForce RTX 3090 или GeForce RTX 3080 Ti в таких приложениях, как Blender. А если взять для сравнения GeForce RTX 2080 Ti, переход на RTX 4090 позволяет сократить время рендеринга почти в три раза. То же относится к Radeon RX 6900 XT.

Бенчмарк Premiere Pro, с другой стороны, преподнес довольно неожиданные результаты. GeForce RTX 4090 не имеет никаких преимуществ перед старыми видеокартами NVIDIA в скорости воспроизведения ресурсов RED R3D и даже немного уступает им при использовании футажей ProRes 422, а вот работа с наиболее распространенным форматом доставки контента H.264 ускорилась в два раза.

Производительность GPU в Premiere Pro более консистентно масштабируется при экспорте проекта, причем чем сложнее графические эффекты, тем больше разница между GeForce RTX 4090 и старшими моделями 30-й серии. Что касается «красных» видеокарт, то Radeon RX 6900 XT может соперничать разве что с GeForce RTX 2080 Ti — не в последнюю очередь из-за того, что Premiere Pro задействует аппаратный кодировщик NVENC чипов NVIDIA, но игнорирует соответствующую функцию чипов AMD.

GeForce RTX 4090 также значительно ускоряет эффекты постобработки в DaVinci Resolve по сравнению с RTX 3090 и вернул NVIDIA лидерство в скорости экспорта, которое ранее принадлежало Radeon RX 6900 XT.

⇡#Кодирование/декодирование видео

Чипы Ada позаимствовали аппаратный декодер NVDEC у архитектуры Ampere, а разница в пропускной способности связана лишь с повышенными тактовыми частотами. Как бы то ни было, GeForce RTX 4090 развивает громадную скорость декодирования всех распространенных форматов доставки видео, включая AV1 при разрешении 8К с кадровой частотой выше 120 FPS.

Новая версия кодировщика NVENC также продемонстрировала умеренное преимущество перед предыдущими чипами при кодировании форматов H.264 и HEVC. Ключевые нововведения архитектуры Ada состоят в том, что чипы AD103 и AD102 имеют сразу два аппаратных кодировщика и могут работать с AV1. Но, к сожалению, поддержка этих функций еще не появилась в распространенном ПО, а для выполнения соответствующих тестов нам придется дождаться обновленной сборки ffmpeg или возможности компилировать его с нужной библиотекой.

⇡#Производительность на ватт

Хотя GeForce RTX 4090 отличился чрезвычайно высокой потребляемой мощностью, по игровому быстродействию на ватт новинка на 43–44 % превосходит топовые модели 30-й серии — GeForce RTX 3080 Ti и GeForce RTX 3090. По сравнению с GeForce RTX 2080 Ti энергоэффективность выросла на 64 %, и только Radeon RX 6900 XT выделяется среди ускорителей прошлого поколения: GeForce RTX 4090 опередил его «всего» на 36 % удельной производительности.

При этом стоит заметить, что RTX 4090 уступает своим предшественникам 34–40 % игровых FPS в пересчете на число транзисторов графического процессора, что, безусловно, связано с громадным объемом кеша L2.

Производитель	NVIDIA				AMD
Модель	GeForce RTX 4090	GeForce RTX 2080 Ti FE	GeForce RTX 3080 Ti	GeForce RTX 3090	Radeon RX 6900 XT	GeForce RTX 3080	GeForce RTX 3090
Графический процессор	GA102	TU102	GA102	GA102	Navi 21 XT	GA102	GA102
Микроархитектура	Ada Lovelace	Turing	Ampere	Ampere	RDNA 2	Ampere	Ampere
Техпроцесс, нм	5 нм (4N)	12 нм FFN	8 нм (8N)	8 нм (8N)	7 нм FinFET	8 нм (8N)	8 нм (8N)
Число транзисторов, млрд	76,3	18,6	28,3	28,3	26,8	28 300	28 300
Площадь чипа, кв. мм	608,6	754	628	628	519,8	628	628
Средняя потребляемая мощность (Cyberpunk 2077), Вт	411	263	348	367	303	317	344
Производительность/Вт	100%	−39%	−30%	−30%	−27%	+30%	+19%
Производительность/млн транзисторов	100%	+60%	+59%	+67%	+54%	−100%	−100%
Производительность/кв. мм	100%	−69%	−43%	−40%	−37%	−3%	−3%

Производительность/Вт (обратное сравнение)	100%	+64%	+43%	+44%	+36%	−23%	−16%
Производительность/млн транзисторов (обратное сравнение)	100%	−37%	−37%	−40%	−35%	+36990%	+36990%
Производительность/кв. мм (обратное сравнение)	100%	+218%	+75%	+66%	+58%	+3%	+3%

⇡#Результаты игровых тестов и цены

1920 × 1080
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Assassin's Creed Valhalla	TAA High	87 / 189	55 / 103	67 / 135	60 / 141	49 / 161
Borderlands 3	TAA	126 / 222	85 / 109	125 / 161	144 / 170	83 / 175
Cyberpunk 2077	TAA	113 / 172	74 / 94	101 / 141	100 / 140	119 / 148
DOOM Eternal	TSSAA	277 / 442	169 / 268	222 / 366	241 / 393	242 / 365
Far Cry 6	TAA	89 / 132	91 / 121	93 / 129	93 / 132	92 / 130
Metro Exodus	TAA	75 / 148	46 / 81	58 / 106	63 / 113	56 / 96
Red Dead Redemption 2	TAA High	88 / 149	33 / 63	48 / 89	52 / 95	76 / 80
Total War: WARHAMMER III	TAA High	150 / 188	73 / 88	106 / 126	110 / 131	91 / 108
Watch Dogs: Legion	TAA	87 / 127	60 / 85	78 / 109	80 / 114	90 / 134
Макс.			−8%	−2%	0%	+6%
Средн.			−42%	−23%	−20%	−21%
Мин.			−58%	−40%	−36%	−46%

2560 × 1440
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Assassin's Creed Valhalla	TAA High	75 / 166	40 / 81	53 / 110	63 / 115	46 / 123
Borderlands 3	TAA	165 / 207	69 / 78	103 / 119	114 / 129	117 / 131
Cyberpunk 2077	TAA	114 / 154	49 / 62	74 / 94	78 / 99	69 / 92
DOOM Eternal	TSSAA	277 / 443	139 / 205	190 / 297	207 / 322	204 / 290
Far Cry 6	TAA	89 / 127	89 / 98	90 / 121	92 / 124	90 / 125
Metro Exodus	TAA	73 / 142	39 / 66	52 / 89	56 / 95	49 / 81
Red Dead Redemption 2	TAA High	70 / 131	28 / 53	42 / 76	42 / 80	66 / 70
Total War: WARHAMMER III	TAA High	135 / 160	50 / 62	74 / 91	78 / 96	61 / 76
Watch Dogs: Legion	TAA	89 / 124	50 / 66	67 / 88	70 / 94	75 / 104
Макс.			−23%	−5%	−2%	−2%
Средн.			−52%	−34%	−30%	−33%
Мин.			−62%	−43%	−40%	−53%

3840 × 2160
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Assassin's Creed Valhalla	TAA High	52 / 110	32 / 48	41 / 70	42 / 72	36 / 69
Borderlands 3	TAA	109 / 126	39 / 43	61 / 69	65 / 74	63 / 70
Cyberpunk 2077	TAA	60 / 79	25 / 31	37 / 47	39 / 50	29 / 40
DOOM Eternal	TSSAA	242 / 337	88 / 115	131 / 179	141 / 193	123 / 159
Far Cry 6	TAA	91 / 115	50 / 57	75 / 81	79 / 85	73 / 80
Metro Exodus	TAA	67 / 113	28 / 44	40 / 63	42 / 66	37 / 56
Red Dead Redemption 2	TAA High	53 / 97	19 / 37	30 / 56	29 / 58	49 / 52
Total War: WARHAMMER III	TAA High	73 / 92	27 / 35	41 / 53	43 / 55	32 / 39
Watch Dogs: Legion	TAA	80 / 104	32 / 40	47 / 58	50 / 61	47 / 60
Макс.			−50%	−30%	−26%	−30%
Средн.			−61%	−41%	−38%	−46%
Мин.			−66%	−47%	−43%	−58%

⇡#Результаты игровых тестов с трассировкой лучей

1920 × 1080
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Cyberpunk 2077	TAA	89 / 109	31 / 37	53 / 61	56 / 65	30 / 37
DOOM Eternal	TSSAA	239 / 353	121 / 177	175 / 263	188 / 282	131 / 196
Far Cry 6	TAA	81 / 102	82 / 97	81 / 104	82 / 103	81 / 108
Metro Exodus Enchanced Edition	TAA	73 / 129	38 / 58	51 / 80	55 / 85	46 / 68
Minecraft with RTX Beta	TAA	64 / 175	77 / 86	110 / 131	117 / 144	50 / 58
Quake II RTX	TAA	Н/Д / 273	Н/Д / 83	Н/Д / 134	Н/Д / 146	Н/Д / 83
Watch Dogs: Legion	TAA	70 / 90	40 / 50	58 / 74	62 / 79	49 / 67
Макс.			−5%	+2%	+1%	+6%
Средн.			−49%	−28%	−24%	−45%
Мин.			−70%	−51%	−47%	−70%

1920 × 1080 (DLSS)
	Режим DLSS	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090
Cyberpunk 2077	Balanced	92 / 115	57 / 67	87 / 106	91 / 111
DOOM Eternal	Balanced	239 / 352	146 / 212	198 / 298	211 / 317
Metro Exodus Enchanced Edition	Balanced	74 / 133	46 / 78	57 / 102	60 / 109
Minecraft with RTX Beta	Quality	64 / 172	123 / 140	68 / 170	65 / 172
Watch Dogs: Legion	Balanced	70 / 89	54 / 71	66 / 87	70 / 91
Макс.			−19%	−1%	+2%
Средн.			−32%	−10%	−6%
Мин.			−42%	−23%	−18%

2560 × 1440
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Cyberpunk 2077	TAA	66 / 76	20 / 24	34 / 40	36 / 43	18 / 23
DOOM Eternal	TSSAA	238 / 344	98 / 135	147 / 208	158 / 225	102 / 144
Far Cry 6	TAA	78 / 101	75 / 81	82 / 100	81 / 100	80 / 105
Metro Exodus Enchanced Edition	TAA	71 / 116	31 / 44	42 / 61	46 / 66	37 / 51
Minecraft with RTX Beta	TAA	125 / 159	47 / 53	76 / 82	82 / 90	31 / 35
Quake II RTX	TAA	Н/Д / 166	Н/Д / 44	Н/Д / 83	Н/Д / 88	Н/Д / 46
Watch Dogs: Legion	TAA	71 / 90	30 / 37	45 / 55	49 / 60	36 / 46
Макс.			−20%	−1%	−1%	+4%
Средн.			−59%	−39%	−35%	−54%
Мин.			−73%	−50%	−47%	−78%

2560 × 1440 (DLSS)
	Режим DLSS	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090
Cyberpunk 2077	Balanced	91 / 115	40 / 48	68 / 79	72 / 83
DOOM Eternal	Balanced	239 / 351	121 / 167	172 / 247	187 / 267
Metro Exodus Enchanced Edition	Balanced	73 / 131	41 / 66	54 / 89	58 / 95
Minecraft with RTX Beta	Balanced	64 / 172	97 / 109	117 / 160	146 / 172
Watch Dogs: Legion	Balanced	70 / 88	45 / 58	63 / 80	63 / 82
Макс.			−34%	−7%	0%
Средн.			−46%	−22%	−17%
Мин.			−58%	−32%	−28%

3840 × 2160
	Полноэкранное сглаживание	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090	AMD Radeon RX 6900 XT
Cyberpunk 2077	TAA	33 / 39	8 / 11	14 / 18	16 / 20	8 / 10
DOOM Eternal	TSSAA	180 / 232	60 / 77	98 / 127	105 / 137	57 / 79
Far Cry 6	TAA	79 / 93	46 / 50	65 / 71	69 / 74	63 / 70
Metro Exodus Enchanced Edition	TAA	53 / 73	17 / 25	27 / 37	29 / 39	21 / 28
Minecraft with RTX Beta	TAA	72 / 78	21 / 24	36 / 40	39 / 43	14 / 17
Quake II RTX	TAA	Н/Д / 76	Н/Д / 19	Н/Д / 39	Н/Д / 41	Н/Д / 22
Watch Dogs: Legion	TAA	51 / 61	17 / 20	27 / 32	29 / 34	19 / 24
Макс.			−46%	−24%	−20%	−25%
Средн.			−66%	−45%	−42%	−62%
Мин.			−75%	−54%	−49%	−78%

3840 × 2160 (DLSS)
	Режим DLSS	NVIDIA GeForce RTX 4090	NVIDIA GeForce RTX 2080 Ti FE	NVIDIA GeForce RTX 3080 Ti	NVIDIA GeForce RTX 3090
Cyberpunk 2077	Balanced	73 / 84	23 / 27	38 / 44	39 / 46
DOOM Eternal	Balanced	220 / 286	81 / 103	126 / 164	135 / 176
Metro Exodus Enchanced Edition	Balanced	71 / 116	31 / 45	45 / 64	47 / 68
Minecraft with RTX Beta	Performance	64 / 173	61 / 69	98 / 110	101 / 117
Watch Dogs: Legion	Balanced	69 / 89	32 / 39	49 / 58	50 / 61
Макс.			−56%	−35%	−31%
Средн.			−62%	−41%	−38%
Мин.			−68%	−48%	−45%

⇡#Выводы

Избалованные рекордными достижениями производителей GPU в прошлом десятилетии, мы не раз жаловались на то, что с тех пор рост быстродействия новых видеокарт замедлился. Однако благодаря архитектуре Ada Lovelace NVIDIA наконец удалось повторить достижения таких славных продуктов, как GeForce GTX 1080 Ti. По сравнению с аналогичной моделью прошлого поколения, GeForce RTX 3090, новый RTX 4090 развивает на 62 % большую производительность при разрешении 4К без трассировки лучей и уже на 72 % — с трассировкой.

В отличие от флагманских продуктов 20-й и 30-й серии, RTX 4090 настолько оторвался от своих предшественников, что даже апгрейд компьютеров, укомплектованных RTX 3080 Ti или RTX 3090, не лишен практического смысла, а старое правило замены видеокарты через одно поколение GPU теперь актуально как никогда. В подходящих условиях GeForce RTX 4090 опережает RTX 2080 Ti ни много ни мало в 2,5-3 раза по среднему игровому фреймрейту. Предтоповая модель AMD, Radeon RX 6900 XT, также выглядит бледно на фоне RTX 4090: если без трассировки лучей преимущество NVIDIA в 4К составляет 84 % FPS, то с рейтрейсингом речь идет о разнице в 166 %.

Впрочем, чрезвычайно высокое быстродействие означает, что в разрешениях до 4К видеокарта существенно ограничена возможностями центрального процессора и не способна работать в полную силу. Так, в 1080p и 1440p зазор между GeForce RTX 3090 и RTX 4090 сужается до 25 и 43 % FPS соответственно, что само по себе неплохо, но едва ли соответствует амбициям, энергопотреблению и стоимости новинки. На это можно возразить, что чип Ryzen 9 5950X в нашем тестовом стенде не является лучшим игровым CPU, но он сильно разогнан, а условные 10 % дополнительного фреймрейта в режиме 1080p, которые могла бы обеспечить миграция на платформу Intel, не меняют общей картины. В играх без трассировки лучей GeForce RTX 4090 и так развивает среднюю частоту смены кадров не меньше 124 FPS на мониторе 1440p, а этого более чем достаточно даже самым привередливым геймерам.

Что касается 4К, то GeForce RTX 4090, в отличие от прошлых флагманских решений, не только формально рассчитан на такое разрешение экрана, но и (впервые за неполные 10 лет!) развивает кадровую частоту от 60 FPS во всех до единого тестовых тайтлах, а чаще — 100 FPS и больше. Поразительно, но RTX 4090 удерживает планку 60 FPS в 4К даже в играх с рейтрейсингом — за исключением Cypberpunk 2077, но это легко исправить с помощью DLSS. При разрешении 1440p апскейлинг GeForce RTX 4090, во-первых, не нужен, во-вторых, в силу пресловутой «процессорозависимости», неэффективен (а в 1080p фактически мертв). Не зря NVIDIA представила третью версию алгоритма DLSS, которая выполняет не только масштабирование, но и генерацию промежуточных кадров. Похоже, с темпами прогресса, который задала NVIDIA, центральные процессоры уже не добьются адекватной мощным GPU производительности без подобных костылей.

Помимо игр, GeForce RTX 4090 в неменьшей степени ориентирован на вычисления общего назначения, среди которых первые места занимает глубинное обучение и профессиональная визуализация, но результат апгрейда разнится от приложения к приложению. Так, по скорости 3D-рендеринга RTX 4090 почти вдвое опережает старый флагман NVIDIA, а вот в ПО для видеомонтажа все зависит от сложности постобработки. Важно, что RTX 4090 имеет 24 Гбайт памяти и способен кодировать видео AV1 в железе.

С технической же точки зрения графические процессоры Ada представляют собой укрупненный Ampere с рядом точечных изменений, сфокусированных на производительности RT-блоков и тензорных ядер. Своими достижениями чип AD102 обязан в первую очередь переходу с производственной нормы 8 нм на условные 5 нм, позволившему раздуть компонентный бюджет до умопомрачительных 76 млрд транзисторов и поднять рабочие тактовые частоты сразу на 900 МГц. При этом GeForce RTX 4090 в полтора раза превосходит RTX 3080 Ti и RTX 3090 по энергоэффективности, но коль скоро NVIDIA уже нормализовала резерв мощности десктопных видеокарт в 450 Вт, не было никаких причин двигаться в обратном направлении. Как следствие, флагман нуждается в мощном блоке питания и требует особого внимания к качеству силовой проводки внутри компьютера (а лучше от греха подальше купить БП с кабелями 12VHPWR).

Однако производительность — не единственная дисциплина, в которой GeForce RTX 4090 установил новый рекорд. Нельзя проигнорировать тот факт, что с легкой руки NVIDIA топовые видеокарты в очередной раз стали дороже, чем прежде. Впрочем, если взять за точку отсчета GeForce RTX 3090, то RTX 4090 при цене в $1 599 предлагает на 51 % больше игровых FSP за доллар и на 27 % больше, чем RTX 3080 Ti (в 4К без рейтрейсинга). А по сравнению с GeForce RTX 2080 Ti Founders Edition (видеокарты, которая повернула многолетнюю тенденцию удешевления FPS вспять) RTX 4090 оказался на 92 % выгоднее (в более подходящем RTX 2080 Ti режиме 1440p — на 56 %). Речь идет о рекомендованных розничных ценах, которые мало что значат в период ажиотажа, но для того, чтобы принять информированное решение о покупке, в любом случае разумно дождаться выхода следующих моделей серии, а лучше еще и конкурирующих продуктов от AMD.

Наконец, пара слов об устройстве GIGABYTE Gaming OC, которое представляет GeForce RTX 4090 в обзоре. Пусть вас не обманывают буквы OC в названии видеокарты: по сравнению с референсными спецификациями заводской разгон здесь гомеопатический. Вручную тактовую частоту чипа AD102 можно подвести вплотную к символической границе 3 ГГц, а видеопамять успешно разгоняется до 23 Гбит/с, но практического смысла в оверклокинге RTX 4090 мы не нашли. Главное, что огромный кулер Gaming OC с запасом перекрывает тепловыделение AD102, но лучше сразу активировать альтернативный BIOS: таким образом вы не потеряете в тактовых частотах, зато видеокарта будет работать тихо (в противном случае это неоправданно шумное устройство).