Обзор NVIDIA GeForce GTX 980: энергетическая революция

Архитектура Maxwell сулит удвоение производительности на ватт по сравнению с Kepler. Сможет ли благодаря этому новый флагманский адаптер с более компактным ядром GM204 и официальным TP 165 Вт заменить GeForce GTX 780 Ti на базе GK110?

Архитектура, технические характеристики

В номенклатуре дискретных видеоадаптеров NVIDIA произошло нечто необычное: видеокарты GeForce минуют 800-ю серию и сразу переходят к линейке GeForce 900. Сделано это для того, чтобы синхронизировать наименования десктопных и мобильных SKU. В ноутбуках уже используются адаптеры 800-й серии, большинство из которых оснащены GPU архитектуры Kepler, а поскольку новые десктопные видеокарты основаны на архитектуре Maxwell, эту разницу следовало подчеркнуть, сразу запустив серию GeForce 900.

Сегодня NVIDIA представила две модели, в основе которых лежит графический процессор GM204. Если судить по этому коду, чип принадлежит к той же категории, что и GK104, первенец архитектуры Kepler, — это GPU второго эшелона. За более производительным ядром должно быть зарезервировано наименование GM201 или GM210. Ну а пока NVIDIA предлагает GM204 в качестве полноценной замены GK110 — топового ядра предыдущей архитектуры — в игровых видеоадаптерах. Пример GeForce GTX 680 показал, что относительно компактное ядро нового поколения может справиться с такой задачей, но в прошлый раз GK104 поспособствовал переход с техпроцесса 40 на 28 нм.

Однако оба основных производителя GPU вот уже три года как пользуются узлом 28 нм на TSMC и не имеют возможности перейти на 20 нм в ближайшей перспективе. Такая линия уже действует на TSMC, но пока что зарезервирована для производства мобильных SoC. Поэтому сейчас NVIDIA полагается исключительно на архитектурные изменения, которые должны увеличить производительность, используя резерв технологии 28 нм. Это и есть краеугольный камень Maxwell — радикальное увеличение производительности на ватт. Вплоть до 100%, если верить NVIDIA.

Поставки GeForce GTX 770, 780 и 780 Ti с сегодняшнего дня официально прекращаются. На смену им приходят GeForce GTX 970 и GTX 980. Новые адаптеры изначально дешевле, чем их предшественники: $329 (14 990 р. для России) за GTX 970 и $549 (23 990 р.) за GTX 980. Осталось убедиться в том, что они обладают как минимум не худшей производительностью. Начнем с GTX 980. Обзор GeForce GTX 970 вы увидите в ближайшее время.

⇡#Архитектура Maxwell: общие принципы

С архитектурой Maxwell мы уже познакомились на примере процессора GM107, который был представлен ранее в составе карт GeForce GTX 750 и 750 Ti. В целом, как и следовало ожидать, GM204 представляет собой увеличенный аналог GM107, а устройство строительных блоков GPU осталось по большей части неизменным. Повторим описание архитектуры Maxwell, данное в обзоре GTX 750 Ti и дополненное той информацией, которую мы получили позднее.

Maxwell является первым плодом стратегии NVIDIA, в соответствии с которой новые архитектуры GPU создаются в первую очередь с расчетом на мобильные и ультрамобильные устройства, а во главе угла стоит энергоэффективность.

Если судить по представленным блок-схемам, основное новшество Maxwell заключается в эффективной реорганизации исполнительных компонентов GPU. На глобальном уровне GM204 следует принципам, заложенным еще в Kepler (подробнее о них можно прочитать в обзоре GeForce GTX 680). Вся вычислительная логика сосредоточена в структурах под названием Graphics Processing Cluster (GPC), которых в GM204 четыре. Вне GPC расположен весь back-end процессора в виде блоков ROP и нескольких 64-битных контроллеров памяти, а также Giga Thread Engine, выполняющий функции смены контекста, одновременного исполнения kernel’ов и распределения потоков нагрузки между GPC.

Блок-схема NVIDIA GM204

Первое количественное отличие от Kepler здесь состоит в кеше L2, увеличенном с 256 до 2048 Кбайт, что должно компенсировать узкую, 128-битную шину, а также сократить расход энергии на транзакции с весьма прожорливой памятью, каковой является GDDR5 SDRAM.

На уровне GPC значимых нововведений по сравнению с Kepler не заметно. Есть несколько Stream Multiprocessors (которые теперь называются аббревиатурой SMM, а не SMX), и есть единственный Raster Engine, выполняющий первоначальные стадии рендеринга: определение граней полигонов, проекцию и отсечение невидимых пикселов.

Главные изменения произошли внутри потоковых мультипроцессоров. Идея состоит в том, чтобы сместить соотношение управляющей и вычислительной логики в пользу первого компонента. Как и в Kepler, потоковый мультипроцессор содержит четыре планировщика, но число ядер CUDA уменьшилось с 192 до 128, а текстурных блоков — с 16 до 8.

Известно, что отдельно взятый планировщик за такт может обратиться к одному (а при наличии параллелизма в потоке — сразу к двум) из следующих массивов вычислительных блоков:

32 ядра CUDA;
8 блоков Load/Store;
8 SFU;
4 текстурных блока.

Ключевое нововведение Maxwell состоит в том, что исполнительные блоки теперь не являются одинаково доступными для адресации любому планировщику. Каждый планировщик теперь получил в свое распоряжение фиксированную часть ресурсов: 32 ядра CUDA, 8 блоков Load/Store и SFU (Special Function Units, выполняющие, к примеру, тригонометрические операции). Только текстурные блоки и ядра CUDA, совместимые с вычислениями FP64, по-прежнему являются общими ресурсами.

Какие преимущества по сравнению с Kepler дает такая организация? Во-первых, потоковый мультипроцессор Maxwell, избавившись от 64 ядер CUDA, меньше полагается на параллелизм инструкций: четыре планировщика даже в пессимистичном сценарии способны обслужить 128 ядер CUDA. Разделение исполнительных блоков на отдельные «домены» также позволило сократить логику, которая соединяет с ними планировщики (crossbars) и координирует действия самих планировщиков. Планировщики также оптимизированы с целью уменьшения латентности исполнения инструкций. В конечном счете эти изменения позволили сохранить 90% производительности отдельного потокового мультипроцессора при существенно меньшей площади SMM.

Maxwell базируется на оптимизациях энергопотребления, представленных в архитектуре Kepler. После архитектуры Fermi NVIDIA отказалась от динамических планировщиков внутри GPU, переложив всю работу по планированию внеочередного исполнения инструкций на компилятор в составе драйвера. Такой подход позволил существенно сократить мощность, к тому же он не оказывает большого негативного влияния на собственно шейдерные вычисления. Однако задачи общего назначения (GP-GPU), не связанные с графикой, не всегда предсказуемы для компилятора, поэтому, в то время как архитектура GCN от AMD наращивает производительность за счет дополнительного ILP (параллелизма на уровне инструкций), чипы Kepler/Maxwell достигают равной эффективности только за счет грубой силы в виде большого количества CUDA-ядер.

Что касается именно GM204, то, поскольку это чип второй категории, а более крупное ядро на базе Maxwell, возможно, ожидает нас в будущем, NVIDIA нашла приемлемым оставить в каждом SMM только четыре ядра CUDA с поддержкой F64. В результате производительность GM204 в вычислениях двойной точности относительно производительности при работе с FP32 даже меньше, чем у GK104, — 1/32 против 1/24.

SMX (Kepler, GK104)

SMM (Maxwell, GM204)

⇡#GM204: вторая итерация Maxwell

Рассмотрим конфигурацию GM204 более внимательно. Цифра два в названи чипа указывает на вторую версию архитектуры Maxwel. И действительно, GM204 имеет несколько отличий от предтсавленных ранее GPU GM107 и GM108. Во-первых, на блок-схемах геометрический движок Polymorph Engine имеет версию 3.0, в то время как в GM107 — 2.0. Апгрейд обесечивает работу некоторых из новых аппаратных функций GM204.

Представленные в GM204 функции рендеринга делают его совместимым с наиболее полным feature level, официально существующим в стандарте DirectX — 11_1. Подробнее о них — в разделе ниже.

Другим дополнением архитектуры Maxwell второй волны стал усовершенствованный аппаратный кодек H.264 — NVENC. В Maxwell первой волны GPU уже был способен кодировать видео 1080p на скорости в 6-8 раз быстрее реального времени (4х для Kepler) и декодировать в 8-10 раз быстрее. Поддерживаются и 4K-разрешения. Кроме того, в Maxwell предусмотрен новый режим энергопотребления GC5, предназначенный для снижения мощности при легкой нагрузке — такой как декодирование видео силами NVENC. NVIDIA еще не внедрила в кремний декодер стандарта H.265 — он ускорятся лишь частично, с выполнением доли операций на CPU. Чем в этом плане отличается GM204, так это поддержкой полностью аппаратного кодирования видео стандарта H.265. Необходимая для этого производительность используется функцией NVIDIA ShadowPlay, которая позволяет на GM204 делать запись игрового процесса в разрешении Ultra HD с частотой 60 кадров/с. Увы, дела с поддержкой fixed-function-логики для кодирования видео в других, даже профессиональных приложениях, обстоят из рук вон плохо, хотя само железо давно присутствует в чипах NVIDIA и AMD.

GK104

GK110

GM204

По числу вычислительных блоков чип представляет собой промежуточный вариант между GK104 и GK110. В нем нет такого количества ядер CUDA, как в GK110. Но, принимая во внимание разную архитектуру, нельзя сравнивать чипы на базе Kepler и Maxwell напрямую по количеству исполнительных блоков. NVIDIA утверждает, что благодаря реогранизации логики GPU удалось увеличить эффективность ядра CUDA на 40%.

Наконец, GM204 имеет больше ROP, чем топовый Kepler, — 64 против 48. Это явно пойдет на пользу видеоадаптеру в 4К-разрешении, как показывает пример GPU AMD Hawaii, который также несет 64 ROP. Однако для того, чтобы реализовать потенциально столь большую скорость заполнения пикселов, требуется достаточная пропускная способность DRAM.

Между тем, конфигурация шины памяти адаптеров на GM204 такая же, как у GeForce GTX 770: разрядность 256 бит и эффективная частота 7 ГГц, в то время как GK110 и Hawaii используют, соответственно, 384- и 512-битные шины. Создателям GM204 пришлось принять меры для экономии пропускной способности интерфейса, которые, помимо увеличенного кеша L2, состоят в новом алгоритме цветовой компрессии. Это третья версия алгоритма, впервые представленного в чипе NV40, позволяющая сжимать данные с соотношением вплоть до 8:1 без потери информации.

⇡#GeForce GTX 970/980: технические характеристики

На основе GM204 NVIDIA выпустила два видеоадаптера — GeForce GTX 970 и GTX 980, которые различаются числом активных вычислительных блоков и тактовыми частотами. Флагманский адаптер имеет 1126 МГц базовой частоты по штатным спецификациям — это, прямо скажем, внушительное значение для техпроцесса 28 нм и 5,2 млрд транзисторов.

Новинки имеют беспрецедентно низкий TDP для своего класса: 145 и 165 Вт соответственно. Также весьма впечатляет, если учесть, что новинки заменяют в линейке GeForce модели с энергопотреблением от 230 до 250 Вт. Впрочем, забегая вперед, отметим, что в реальности запросы GM204 оказались повыше.

Поскольку GPU имеет 256-битную шину памяти, объем DRAM обеих моделей составляет 4 Гбайта. В этом плане GTX 970/980 превзошел модели GTX 780/780 Ti, имеющие 3 Гбайт RAM по референсным спецификациям, и не уступает топовым видеокартам AMD, которые также комплектуются 4 Гбайт видеопамяти на ядро.

Большие изменения GTX 980 принес в конфигурации видеовыходов. NVIDIA удалила один из портов DVI, зато теперь карта несет три разъема DisplayPort и HDMI стандарта 2.0 (что означает поддержку 4К-разрешений при частоте 60 Гц).

Модель	Графический процессор							Видеопамять				Шина ввода/ вывода	TDP, Вт
	Кодовое название	Число транзисторов, млн	Техпроцесс, нм	Тактовая частота, МГц: High State /Boost State	Число шейдерных потоковых процессоров	Число текстурных блоков	Число ROP	Разрядность шины, бит	Тип микросхем	Тактовая частота: реальная (эффективная), МГц	Объем, Мбайт
GeForce GTX 980	GM204	5200	28	1126/1216	2048	128	64	256	GDDR5 SDRAM	1750 (7000)	4096	PCI-Express 3.0 x16	165
GeForce GTX 970	GM204	5200	28	1050/1178	1664	104	64	256	GDDR5 SDRAM	1750 (7000)	4096	PCI-Express 3.0 x16	145
GeForce GTX 780 Ti	GK110	7100	28	875/928	2880	240	48	384	GDDR5 SDRAM	1750 (7000)	3072	PCI-Express 3.0 x16	250
GeForce GTX 780	GK110	7100	28	863/900	2304	192	48	384	GDDR5 SDRAM	1502 (6008)	3072	PCI-Express 3.0 x16	250
GeForce GTX 770	GK104	3540	28	1046/1085	1536	128	32	256	GDDR5 SDRAM	1502 (7010)	2048	PCI-Express 3.0 x16	230

Новые технологии рендеринга

Помимо оптимизаций, направленных на повышение производительности и энергоэффективности, Maxwell принес несколько дополнительных функций графичекого конвейера. Некоторые опираются на аппаратные средства GPU, другие – чисто программные. Кое-что из этого, как уже известно, войдет в набор новых функций API DirectX 12.

Dynamic Super Resolution (DSR)

Эта опция поначалу будет эксклюзивной для Maxwell, но затем в драйвере появится поддержка других GPU. DSR – простая в основе своей функция, которая состоит в том, что изображение рендерится в повышенном разрешении, а затем масштабируется к родному разрешению экрана при помощи гауссовского фильтра. Выглядит как старый добрый антиалиасинг методом суперсемплинга (SSAA). Фактически это он и есть, только — в отличие от «истинного» SSAA — DSR применяется к итоговому кадру на выходе с конвейера рендеринга. Следовательно, а) DSR можно форсировать в любой игре, б) всегда корректно применяются эффекты пост-обработки. С другой стороны, GUI в играх также отрисовывается в повышенном разрешении и масштабируется, из-за чего может выглядеть слишком мелко.

Драйвер позволяет выбрать множитель повышенного разрешения – от 1,2 до 4,0, а также резкость фильтрации.

Multi-Frame Anti-Aliasing (MFAA)

Очередная фирменная технология полноэкранного сглаживания от NVIDIA представляет собой вариацию на тему мультисемплинга, которая увеличивает производительность по сравнению с традиционной реализацией MSAA. При использовании MSAA с мощностью, допустим, 4х происходит выборка четырех точек в проекции пиксела. Вместо этого MFAA 4x делает выборку по две точки в двух соседних кадрах, но со смещением паттерна, а затем комбинирует результат. Вычислительная нагрузка, таким образом, снижается (максимум на 30%) по сравнению с MSAA.

Для MFAA требуется GPU Maxwell, поскольку только он позволяет программировать позиции внутри пиксела, из которых происходит выборка. Технология пока находится в разработке и еще не включена в публичный драйвер NVIDIA.

Voxel Global Illumination (VXGI)

Самое интересное – это созданная NVIDIA реализация глобального освещения, обеспечивающая относительно нетребовательную к ресурсам и качественную аппроксимацию метода трассировки лучей (Ray Tracing) и других схожих алгоритмов, которые используются в производстве медиаконтента – компьютерной графики в кино и фотореалистичных изображений, но для исполнения в реальном времени требует колоссальных вычислительных мощностей. Скажем, отлично подходит кластер из 200 ускорителей Quadro на базе GK110 в установках NVIDIA VCA.

Типичная трассировка лучей строится на следующем алгоритме: из точки обзора прослеживается множество линий, исходящих во все стороны. Если линия (луч) наталкивается на геометрический примитив, уже из этой точки выпускается множество лучей (с учетом отражающих свойств материала) и так далее. Таким образом, источником колоссальной вычислительной нагрузки при трассировке лучей является сложность геометрии сцены, от которой зависит количество порождаемых лучей второго, третьего и последующих порядков.

В отличие от Ray Tracing (Path Tracing, Ray Casting), VXGI не является сам по себе методом рендеринга, но представляет собой дополнение к конвейеру растеризации, который ускоряется блоками фиксированной функциональности в GPU (T&L, текстурные модули, ROP) и применяется в компьютерных играх. Множественные отражения света от элементов геометрии сцены вычисляются при помощи аппроксимированной модели, благодаря чему соблюдается скорость обработки, необходимая для рендеринга в реальном времени.

На первом этапе VXGI формируется модель сцены, состоящая из вокселов – кубических квантов пространства. Отрисовывая сцену с позиции каждой грани воксела, для воксела вычисляется доля объема, которая пересекается с объектами геометрии.

На втором этапе сцена отрисовывается множество раз с точки каждого воксела из тех, которые не оказались пустыми на предыдущем этапе. Записываются параметры света, падающего на воксел от прямых источников (включая направление и яркость) и свойства материала объектов, находящихся внутри.

Третий этап является частью конвейера растеризации. Когда пиксел проецируется на участок полигона, из этой «точки» испускаются конусы во всех направлениях. Вот первое ключевое отличие VXGI от Ray Tracing: вместо тысяч вторичных лучей используются немногочисленные конусы. Второе отличие: регистрируется пересечение конуса не с геометрией сцены как таковой, а с воксельной сеткой, которая аппроксимирует геометрию. Варьируя размер конусов, можно задавать оптические свойства материала. Широкие конусы дадут эффект поверхности, рассеивающей свет, узкие конусы – глянцевой.

В принципе, VXGI может использоваться и на других GPU, помимо Maxwell, однако именно в Maxwell есть аппаратные функции, которые ускоряют необходимые вычисления и приводят к приросту частоты смены кадров вплоть до 200% по сравнению с полностью софтверной реализацией VXGI.

Viewport Multicast. Позволяет рендерить сцену с множественных точек обзора, предварительно только один раз загрузив геометрию без необходимости каждый раз проходить конвейер от начала до конца. Необходимо для ускорения первого этапа VXGI – вокселизации сцены.
Volume Tiled Resources. GM204 получил поддержку Tiled Resources версии Tier 2. Эта технология аналогична том, что в железе AMD называется Partially Resident Textures. Смысл ее состоит в том, чтобы при использовании больших текстур не держать их целиком в памяти видеоадаптера в каждый момент времени. Вместо этого текстура разделяется на части (tiles), из которых загружаются в память только те, которые необходимы, и в необходимом разрешении. Volume Tiled Resources распространяет эту идею на трехмерные текстуры, в качестве которых могут выступать карты теней (shadowmaps) — традиционное средство в моделях статического освещения, как и воксельные сетки в DXGI.
Conservative Raster. Также используется на этапе вокселизации и обеспечивает более точное определение пересечений воксела с полигонами сцены. Без поддержки этой функции в железе приходится прибегать к более затратным с позиции вычислительных ресурсов методам. Считается, что эта технология войдет в feature set ныне еще незавершенного API DirectX 12.

В сочетании с прямым освещением VXGI производит реалистичную сцену, свет в которой распространяется как от прямых источников, так и путем отражений от объектов, которые сами не светятся.

Внешний вид, конструкция

В отличие от большинства референсных образцов, GeForce GTX 980 прибыл к нам не в простом антистатическом пакете, а в стильной подарочной коробке. Любо-дорого взглянуть.

Сама видеокарта следует стилистике предшествующих топовых продуктов от NVIDIA, но есть нововведение: задняя поверхность PCB покрыта рифленой алюминиевой пластиной, как у GTX TITAN Z. Только в отличие от двухпроцессорного монстра, здесь пластина имеет лишь декоративную и защитную функции: на задней поверхности нет чипов DRAM. Пластина увеличивает толщину устройства на пару миллиметров. Поэтому для того, чтобы в режиме SLI видеокарта не перкрывала доступ воздуха к системе охлаждения соседки, установленной вплотную, в пластине сделали разрез напротив горловины турбинки. Закрепленный винтом фрагмент легко удаляется.

NVIDIA сконструировала практически идеальный радиальный кулер («турбинку», или blower), эффективность и высокие акустические качества которого были проверены не раз. Ну а в дополнение к практическим достоинствам увесистую видеокарту в цельнометаллическом кожухе просто приятно взять в руки. Однако система охлаждения GeForce GTX 980 кое в чем отличается от тех образцов, которые были представлены в референсных версиях GeForce GTX 770 и GTX TITAN.

Массивная крыльчатка продувает большую часть забираемого воздуха через радиатор GPU и выбрасывает за пределы корпуса ПК. В основание радиатора вмонтированы три тепловые трубки, а не испарительная камера, как прежде, — и это главное изменение. Кроме того, с времен GeForce GTX 780 Ti и TITAN Black — последних однопроцессорных адаптеров на базе GK110 — NVIDIA поменяла форму крепежной планки и расположение видеовыходов. Решетка имеет более крупные ячейки и распространилась на площадь, которую в предшествующих продуктах занимал второй разъем DVI. Часть воздуха исходит в противоположном от планки направлении, охлаждая небольшой блок ребер, смонтированных на раме, которая покрывает печатную плату.

Алюминиевая рама отводит тепло от микросхем памяти, которые в полном составе находятся на лицевой поверхности платы, и от мощных транзисторов системы питания.

⇡#Плата

Видеопамять объемом 4 Гбайт набрана микросхемами Samsung K4G41325FC-HC28, для которых 7 ГГц являются штатной эффективной частотой. Система питания довольно скромная для видеоадаптера такого класса: она включает четыре фазы для питания GPU, одну — для видеопамяти и еще одну — для PLL. Производителя и модель контроллера питания по маркировке определить не удалось.

Тестирование: тактовые частоты, температура, разгон, игровая производительность

⇡#Тестовый стенд, методика тестирования

Конфигурация тестовых стендов
CPU	Intel Core i7-3960X @ 4,6 ГГц (100x46)	Intel Core i7-3970X @ 4,6 ГГц (100x46)
Материнская плата	ASUS P9X79 Pro
Оперативная память	DDR3 Kingston HyperX 4x2 Гбайт @ 1600 МГц, CL9
ПЗУ	Intel SSD 520 240 Гбайт
Блок питания	Corsair AX1200i, 1200 Вт	Seasonic Platinum-1000, 1000 Вт
Охлаждение CPU	Thermalright Archon
Корпус	CoolerMaster Test Bench V1.0
Операционная система	Windows 7 Ultimate X64 Service Pack 1
ПО для GPU AMD	AMD Catalyst 13.4
ПО для GPU NVIDIA	344.07

Для измерения мощности системы используется стенд с блоком питания Corsair AX1200i. Энергосберегающие технологии CPU во всех тестах отключены. Шина PCI-Express работает в режиме 3.0. Для активации PCI-E 3.0 на видеокартах серий GeForce 600 и 700 в системе на чипсете X79 применяется патч от NVIDIA.

Тестирование проводилось на мониторах NEC MultiSync EA244UHD (разрешение 3840х2160) и ASUS ROG SWIFT PG278Q (2560х1440). Последний оснащен технологией NVIDIA G-SYNC, о которой подробно написано в обзоре этого продукта. Обзор 4К-монитора NEC мы представим в ближайшее время.

NEC MultiSync EA244UHD

ASUS ROG SWIFT PG278Q

В настройках драйвера NVIDIA всегда в качестве процессора для вычисления PhysX выбирается CPU. В настройках AMD всегда настройка Tessellation переводится из состояния AMD Optimized в Use application settings. В CrossFire-конфигурациях остается включенной опция Frame Pacing.

Бенчмаркии: синтетические
Программа	API	Настройки	Анизотропная фильтрация, полноэкранное сглаживание	Разрешение
3DMark 2011	DirectX 11	Профиль Extreme
3DMark	DirectX 11	Тест Fire Strike (не Extreme)
TessMark	DirectX 11	Set 4 (2048x2048), tessellation x8/x16/x32/x64	AF Off	1920x1080
Unigine Heaven 4	DirectX 11	DirectX 11, макс. качество, тесселяция в режиме Extreme	AF 16x, MSAA 4x	2560х1440 / 3840x2160

Бенчмаркии: игры
Программа	API	Настройки	Анизотропная фильтрация, полноэкранное сглаживание	Разрешение
Far Cry 3 + FRAPS	DirectX 11	DirectX 11, макс. качество, HDAO. Начало миссии Secure the Outpost	AF, MSAA 4x	2560х1440 / 3840x2160
Tomb Raider. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, SSAA 4x	2560х1440 / 3840x2160
Bioshock Infinite. Встроенный бенчмарк	DirectX 11	Макс. качество. Postprocessing: Normal	AF 16x, FXAA	2560х1440 / 3840x2160
Crysis 3 + FRAPS	DirectX 11	Макс. качество. Начало миссии Post Human	AF 16x, MSAA 4x	2560х1440 / 3840x2160
Metro: Last Light. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, SSAA 4x	2560х1440 / 3840x2160
Company of Heroes 2. Встроенный бенчмарк	DirectX 11	Макс. качество	AF, SSAA 4x	2560х1440 / 3840x2160
Batman: Arkham Origins. Встроенный бенчмарк	DirectX 11	Макс. качество	AF, MSAA 4x	2560х1440 / 3840x2160
Battlefield 4 + FRAPS	DirectX 11	Макс. качество. Начало миссии Tashgar	AF 16x, MSAA 4x + FXAA	2560х1440 / 3840x2160
Thief. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, SSAA 4x + FXAA	2560х1440 / 3840x2160

Бенчмарки: вычисления
Программа	Настройки
DXVA Checker	Decode benchmark. H.264, декодер LAV, 1920х804@24FPS / 4096x1716@24FPS / 3840x2160@60FPS. Ускорение на аппаратном кодеке GPU
LuxMark 2.0 X64	Сцена Room (Complex Benchmark)
Sony Vegas Pro 13	Бенчмарк Sony для Vegas Pro 11, рендеринг в XDCAM EX, 1920х1080@30
CompuBench CL Desktop Edition X64, Ocean Surface Simulation	–
CompuBench CL Desktop Edition X64, Particle Simulation — 64K	–
SiSoftware Sandra 2014 SP3, Scientific Analysis	Open CL / CUDA, FP64

Участники тестирования

В тестировании приняли участие следующие видеокарты:

AMD Radeon R9 290X (1000/5000 МГц, 4 Гбайт), Uber Mode
AMD Radeon R9 290 (947/5000 МГц, 4 Гбайт)
AMD Radeon R9 285 (918/5500 МГц, 2 Гбайт)
NVIDIA GeForce GTX 980 (1127/7012 МГц, 4 Гбайт)
NVIDIA GeForce GTX TITAN Black (889/7000 МГц, 6 Гбайт)
NVIDIA GeForce GTX 780 Ti (875/7000 МГц, 3 Гбайт)
NVIDIA GeForce GTX 780 (863/6008 МГц, 3 Гбайт)
NVIDIA GeForce GTX 770 (1046/7012 МГц, 2 Гбайт)

⇡#Тактовые частоты, энергопотребление, температура, разгон

Механизм авторазгона/троттлинга GPU Boost в GTX 980 работает в диапазоне от 1127 МГц (базовая частота) до 1253 МГц (максимальная частота, зарегистрированная в бенчмарках). В играх после прогрева системы частота близка к максимуму и колеблется вокруг отметки 1240 МГц.

В принципе, таких частот достигали и процессоры архитектуры Kepler – GK104, и даже GK110 – при успешном разгоне, но ценой радикального увеличения мощности. К тому же у GM204 тоже имеется резерв для повышения частот сверх штатных значений, и немаленький.

BIOS платы позволяет увеличить лимит мощности до 125%. Штатный максимум напряжения на GPU под нагрузкой составляет 1,225 В – несколько выше, чем у GK104 в составе адаптера GeForce GTX 770 референсного дизайна и GK110 в большинстве продуктов на основе этого GPU (1,2 В). GPU Boost позволяет без проблем увеличить его до 1,25 В. Попутно открываются две более высокие ступеньки частоты/VID, так что потолок частоты GPU поднимается еще на 23 МГц.

В результате экспериментов по разгону видеокарта осталась абсолютно стабильной при базовой частоте ядра 1387 МГц (на 260 МГц выше номинала!). В динамике частота GPU достигала еще более невероятных 1526 МГц. Для Kepler такие результаты доступны разве что при водяном охлаждении.

Чипы памяти позволили увеличить эффективную частоту на 1 ГГц – до 8012 МГц.

	Base Clock, МГц	Макс. Boost Clock, МГц	Base Clock, МГц (разгон)	Макс. зарегистрированная Boost Clock, МГц (разгон)
GeForce GTX 980	1127	1253 (+126)	1387	1526 (+139)
GeForce GTX TITAN Black	889	1032 (+143)	1100	1262 (+162)
GeForce GTX TITAN	836	1006 (+145)	966	1150 (+184)
GeForce GTX 780 Ti	876	1020 (+144)	986	1130 (+144)
GeForce GTX 780	863	1006 (+143)	1053	1215 (+162)
GeForce GTX 770	1046	1176 (+130)	1190	1333 (+143)

Хотя формально GTX 980 функционирует в рамках теплового пакета 165 Вт, в играх система с новым флагманом на борту потребляет энергии немного больше, чем если бы GTX 770 (TDP 230 Вт) был установлен вместо него, но меньше, чем если бы это был GTX 780 (TDP 250 Вт). Впрочем, нельзя пожаловаться и на такой результат, ведь при близкой к показателям GTX 770 потребляемой мощности GTX 980 имеет более крупный кристалл, работает на более высоких частотах и даже под более высоким напряжением. И при этом быстрее на 30-100%, как показали тесты.

GeForce GTX 780 Ti и продукты на базе AMD Hawaii существенно более прожорливы по сравнению с новинкой.

В FurMark система с платой GTX 980 опять-таки развивает такую же мощность, как и система с GTX 770, а по сравнению с топовыми адаптерами на базе GK110 и Hawaii новый флагман NVIDIA куда более экономичен.

С того момента, когда производители GPU ввели в своих продуктах такую опцию, как целевая температура, тесты нагрева при штатных настройках вентилятора перестали быть информативными. GTX 980 имеет лимит температуры 79 °C, в который и упирается под нагрузкой. На максимальных оборотах кулер видеоадаптера может удерживать температуру GPU в пределах 67 °C, несмотря на оверклокинг. В штатном режиме система охлаждения, как и на других референсных адаптерах NVIDIA, работает весьма тихо.

⇡#Производительность: синтетические тесты

3DMark 2011

В синтетике GTX 980 превосходит топовые адаптеры на базе GK110, причем намного.
Еще больше разница между GTX 980 и Radeon R9 290X.
По сравнению с GTX 770 новый флагман быстрее ни много ни мало на 64%.

3DMark

В новой версии 3DMark GTX 980 по-прежнему лидирует, хотя не столь драматически отличается от GTX 780 Ti и TITAN Black.
R9 290 и 290X выглядят более крепко, но преимущество GTX 980 по-прежнему велико.
GTX 980 на 70% быстрее, чем GTX 770.

TessMark

GM204 обладает 16 блоками обработки геометрии, в то время как GK110 имеет 15 (производительность 8 и 7,5 примитивов за такт соответственно). Неудивительно, что по производительности в TessMark GTX 980 нисколько не уступил GTX 780 Ti, но, впрочем, разница в пользу новинки минимальна.
GTX 770 с заведомо более слабой конфигурацией (8 блоков Polymorph Engine) не идет ни в какое сравнение с GTX 980.
Графический процессор AMD Hawaii может обработать только четыре примитива за такт, отсюда и отставание, особенно выраженное при 64-кратной тесселяции.
GPU Tonga в составе Radeon R9 285 имеет оптимизации по геометрической части, но их достаточно лишь для того, чтобы составить конкуренцию GTX 770, — продуктивность GTX 980 для AMD недостижима.

Unigine Heaven 4

GTX 980 лидирует в разрешении WQHD, хотя, по правде сказать, разница между ним и GTX 780 Ti мизерная. В 4K, напротив, бывший флагман чуть-чуть быстрее нового.
Благодаря геометрической мощи GTX 980 в пух и прах разбил Radeon R9 290 и 290X при разрешении 2560x1440, но в Ultra HD флагману AMD удалось сократить разрыв: сказываются более высокие пропускная способность шины памяти, число ROP и текстурных блоков.
По сравнению с GTX 770 новый адаптер почти что в два раза быстрее в обоих режимах.

⇡#Производительность: игры

Far Cry 3

GTX 980 лидирует, хотя разница в количестве FPS по сравнению с GTX 780 Ti на практике незначительна.
Вслед за адаптерами на базе GK110 новинка сохраняет отрыв от продуктов AMD в режиме WQHD. В Ultra HD красные предсказуемо компенсируют отставание.
В WQHD GTX 980 примерно на 50% превосходит GTX 770. В Ultra HD разница двукратная.

Tomb Raider

И вновь GTX 980 лишь на волосок опережает GTX 780 Ti.
Зато превосходство над Radeon R9 290X несомненно — вне зависимости от разрешения.
GTX 980 вновь приблизился к двукратной производительности GeForce GTX 770 при разрешении WQHD. В режиме Ultra HD слайд-шоу на GTX 770 объясняется нехваткой памяти (2 Гбайт явно недостаточно).

Bioshock Infinite

GTX 980 превосходит GTX 780 Ti, но разница по-прежнему практически несущественна.
Расстояние между GTX 980 и Radeon R9 290X намного больше.
Новинка не так сильно опережает GTX 770, как в предыдущих тестах. К тому же объема памяти последнего вполне достаточно, чтобы потянуть такую нетребовательную по современным стандартам игру, как Bioshock Infinite, в 4K-разрешении.

Crysis 3

В Crysis 3 новый флагман игровой линейки NVIDIA имеет лишь формальное преимущество перед GTX 780 Ti.
Сохраняется стабильный отрыв топовых адаптеров NVIDIA от продукции AMD, который сокращается при переходе от WQHD к Ultra HD.
GTX 980 лишь на 30% превосходит GTX 770, но в режиме Ultra HD последний испытывает катастрофическое падение производительности в связи с нехваткой видеопамяти.

Metro: Last Light

Вновь GTX 980 превосходит с GTX 780 Ti лишь настолько, чтобы дотянуться до первого места.
В силу высокой нагрузки и низкого фреймрейта наиболее мощные соперники прижались друг к другу. Соответственно, и Radeon R9 290X, хотя формально имеет третье место после GTX 780 Ti и GTX 980, по практическим критериям ничем не хуже.
GTX 980 имеет производительность минимум на 50% больше, чем у GTX 770, — в зависимости от разрешения.

Company of Heroes 2

GTX 780 Ti и продукты AMD получили близкие оценки, с разницей в пользу Radeon R9 290X.
По результатам тестов в двух разрешениях можно говорить о паритете GTX 980 и R9 290X.
В WQHD GTX 980 стремится к двукратному превосходству над GTX 770. В Ultra HD требовательная к памяти игра поставила «старую» карту NVIDIA на колени.

Batman: Arkham Origins

Ощутимой разницы между GTX 780 Ti и GTX 980 не обнаружено.
Radeon R9 290X существенно отстает от лидирующей группы адаптеров NVIDIA, в особенности при разрешении WQHD.
По сравнению с GTX 770 новинка дает прирост производительности в районе 50%.

Battlefield 4

GTX 980 лидирует, и отрыв от GTX 780 Ti наконец-то более выражен, чем в предыдущих тестах.
В режиме WQHD GTX 980 имеет немалое преимущество перед Radeon R9 290X, но в Ultra HD флагман AMD подбирается ближе.
Наблюдается практически двукратная разница между GTX 770 и GTX 980.

Thief

Вновь GTX 980 имеет лишь формальное преимущество перед GTX 780 Ti.
Разница между GTX 980 и флагманом AMD довольно-таки велика при разрешении WQHD, но изрядно сокращается в Ultra HD.
В WHQD GTX 980 превосходит GTX 770 более чем на 30%. В Ultra HD GTX 770 выдает слайд-шоу все по той же причине.

⇡#Производительность: разгон

Эффективность разгона хорошо заметна по результатам синтетических тестов. В обеих версиях 3DMark наблюдается ощутимый прирост.

3DMark 2011

3DMark

Игровые тесты + Unigine Heaven 4

В последнее время польза от разгона видеокарт нередко заканчивалась на синтетических тестах. В этот раз, однако, и в играх наблюдается существенный прирост частоты кадров.

Тестирование: вычисления. Выводы

⇡#Производительность: вычисления

DXVA Checker, Decode Benchmark

Этот тест использует для декодирования видео, сжатого в H.264, отдельный блок фиксированной функциональности в составе GPU и освобождает как CPU, так и шейдерные процессоры.
Благодаря новому декодеру GM204 запросто справится с обработкой нескольких потоков в разрешении 1080p. Что еще важнее, производительности более чем достаточно для воспроизведения 4К-видео с частотой 24 и даже 60 кадров в секунду.
Блок NVENC в чипах архитектуры Kepler позволяет просматривать 4К без тормозов при частоте кадров 24 Гц, но не справляется с записью 60 FPS.
Процессоры AMD Hawaii и Tonga демонстрируют многократно меньшую производительность при декодировании потока 1080p. Tonga намного быстрее благодаря усовершенствованному кодеку и также способна расшифровывать 4К-видео в формате H.264, но декодер LAV в текущей версии не использует эту возможность.

Luxmark: Room (Complex Benchmark)

Такая высокая производительность GTX 980 в бенчмарке с трассировкой лучей – достаточно неожиданный результат. Адаптеры на базе GK110 и Hawaii все-таки не отставали настолько в игровых тестах. Но что есть, то есть. Расстояние между картами на GK110 от новинкой весьма велико, продукты AMD держатся лучше.
Производительность GTX 770 составляет приблизительно одну треть от того, на что способен GTX 980.

Sony Vegas Pro 13

В тесте, который использует GPU главным образом для наложения эффектов при рендеринге видеоролика, а кодирование выполняет на CPU, GTX 980 имеет производительность на уровне GTX 780 Ti или GTX TITAN Black.
GPU AMD тут вне конкуренции.
Но и преимущество перед GTX 770 у GTX 980 весьма велико.

CompuBench CL: Ocean Surface Simulation

GTX 980 лишь ненамного опережает GTX 770, а продукты на базе GK110 расположились на более высоких местах в соответствии с числом активных CUDA-ядер в кристалле.
Адаптерам AMD принадлежит безоговорочное лидерство.

CompuBench CL: Particle Simulation

Этот тип физических вычислений стал еще одним тестом, который приносит GTX 980 неожиданно высокую оценку.
Ни один из соперников не идет ни в какое сравнение с GTX 980, и только TITAN Black выделяется из общей массы отстающих.

SiSoftware Sandra: Scientific Analysis (FP64)

Поскольку производительность GM204 в расчетах двойной точности составляет 1/32 от FP32 – хуже, чем у всех остальных участников теста, GTX 980 занял место в хвосте. Еще медленнее работает только GeForce GTX 770 – из-за меньшего количество CUDA-ядер.

⇡#Выводы

Поразительная энергетическая эффективность архитектуры Maxwell, которую ранее продемонстрировал GeForce GTX 750 Ti, в полной мере свойственна и GeForce GTX 980. Шутка ли, при реальном энергопотреблении на уровне GTX 770 флагман 900-й линейки стабильно превосходит его по производительности на 30-50%, а иногда — и на все 100%. Благодаря этим оптимизациям GTX 980 практически эквивалентен по производительности в играх старшим адаптерам на базе GPU GK110 — GTX 780 Ti и GTX TITAN Black. Последние потребляют больше энергии, дороже в производстве и, как следствие, в рознице. А $549 за GTX 980 — это как раз та цена для топового однопроцессорного адаптера, которая считалась приемлемой до появления серии чрезвычайно дорогих продуктов на GK110.

Хотя Maxwell не предложил больших нововведений по части аппаратных функций рендеринга, те специфические функции, которыми наделен GM204, важны в контексте ускорения программных технологий, представленных NVIDIA. Метод Global Illumination на базе вокселов чрезвычайно впечатляет. Подобное решение во всем великолепии можно наблюдать в демо Elemental на базе Unreal Engine 4. Зная, как убедительно NVIDIA работает с разработчиками, можно ожидать, что когда-нибудь мы увидим применение воксельного глобального освещения в реальных играх. Правда широкое распространение упирается в ту же проблему, что и любые технологии, привязанные к определенному железу. Делу поможет, если необходимые для ускорения VXGI аппаратные функции Maxwell будут приняты в новый feature level DX12. Но в конечном счете многое зависит от того, потянут ли GPU архитектуры, отличной от Maxwell, VXGI с приемлемым быстродействием.

GeForce GTX 980 таже не уступил своим предшественникам на посту флагманского игрового видеоадаптера NVIDIA в GP-GPU-вычислениях. За редкими исключениями GM204 в полной конфигурации и на частотах GTX 980 ничуть не хуже, а то и намного лучше подходит для расчетных задач, чем GTX 780 Ti или TITAN Black. Проблемным местом стала производительность операций с двойной точностью. NVIDIA постепенно выдавливает из игровых GPU эту мало востребованную функцию, поэтому GTX 980 выполняет соответствующие задачи даже более медленно, чем адаптеры архитектуры Kepler, на принадлежащие к семейству GTX TITAN. Последние по этой самой причине не уходят в отставку в связи с появлением 900-й линейки, и остаются единственными ускорителями NVIDIA, эффективно работающими с FP64.

В контексте конкуренции NVIDIA с AMD повторилась ситуация GeForce GTX 680 и Radeon HD 7970, когда адаптер на экономичном и компактном GPU архитектуры Kepler предложил лучшую производительность, чем более мощный соперник. Лидерство на этом этапе без оговорок принадлежит NVIDIA, но от AMD можно ожидать того, что она всегда делала в таких ситуациях — снижения цен. Кроме того, продукты на базе AMD Hawaii по-прежнему сильны в GP-GPU-вычислениях, которые являются коньком архитектуры GCN.

В итоге, пусть затянувшаяся эра техпроцесса 28 нм не позволяет рвануть к новым вершинам скорости по сравнению с достижениями Kepler, новая архитектура принесла сдвиг цены и энергопотребления в уже существующем диапазоне производительности, наблюдавшийся как раз при переходах на более «тонкий» производственный узел. Впрочем, эффективность Maxwell внушает надежду на появление более крупного ядра — по-прежнему в рамках техпроцесса 28 нм, которое вновь выйдет на уровень мощности 200+ Вт.