Оригинал материала: https://3dnews.ru./580351

Заметки на полях. Что быстрее, CPU или GPU?

Время идет, процессоры становятся все мощнее и многоядернее. Видеокарты также наращивают количество вычислительных блоков и помимо создания 3D-изображения пытаются решать те задачи, которыми до сих пор занимались центральные процессоры. При этом разработчики видеокарт обещают значительное повышение производительности, что, в общем-то, подкрепляется цифрами. Но остается вопрос - на самом ли деле архитектура видеокарт лучше подходит для решения хорошо распараллеливаемых задач и потоковой обработки больших массивов данных? Если так, то зачем нам тогда многоядерные процессоры, может действительно стоит "переложить" нагрузку на видеокарты? Сегодня мы попытаемся ответить на вопрос - "кто кого поборет, кит или слон?", применительно к соревнованию CPU и GPU в части физических расчетов. Данный материал не претендует на полноту и всеохватность, более того - рассматриваемые здесь вопросы являются далеко не единственным примером "соревнования" CPU и GPU в области вычислений. Собственно, эти заметки и появились лишь в результате дискуссии с коллегами по поводу "кто сильнее, CPU или GPU". Не откладывая в долгий ящик, решено было проверить, а действительно - кто? Вы не поверите, но итог соревнования оказался не столь очевиден, и результаты удивили обе стороны. А почему так получилось, сейчас и увидим. В качестве тестового приложения мы решили взять 3DMark Vantage, а конкретно, один из входящих в пакет тестов - CPU Physics. Выбор, в общем-то, ничем особым не обусловлен, можно сказать - "что под руку попалось". Просто в 3DMark Vantage обычно мы тестируем видеокарты, а в него входит тест расчета "физики", который может выполнятся как на CPU, так и на видеоадаптерах NVIDIA. Вот давайте и посмотрим, кто считает "физику" быстрее.

Тестовое оборудование

Для сравнения мы взяли три процессора. Один из них уже довольно стар - Intel Core 2 Quad QX6850. Второй процессор более современный - AMD Phenom II X4 965. Третий еще современнее - AMD Athlon II X4 620. Конечно, надо было бы взять еще Core i7 или Core i5, но в это время они были заняты в других тестах. Впрочем, и трех имеющихся представителей "процессорного "лагеря будет вполне достаточно для получения качественных и количественных оценок.
Тестовый стенд 1
Центральный процессор Intel Core 2 Quad QX6850 @ 3600 МГц (400x9)
Материнская плата ASUS P5QC (Intel P45 + ICH10R)
Оперативная память DDR3 Kingston 2x1GB @ 1600 MHz, 7-7-7-20-2T
OS Windows 7 RTM
Тестовый стенд 2
Центральный процессор AMD Phenom II X4 965 @ 3600 МГц (200x18)
AMD Athlon II X4 620 @ 2600 МГц (200x13)
Материнская плата ASUS M4A79 Deluxe (AMD 790FX + SB750)
Оперативная память DDR2 Corsair 2x1GB @ 1066 MHz, 5-5-5-15-2T
OS Windows 7 RTM
Что касается видеокарт, то мы использовали три следующие модели NVIDIA:
  • GeForce 9500GT (32 унифицированных процессора)
  • GeForce 9600GT (64 унифицированных процессора)
  • GeForce GTX260 (216 унифицированных процессоров)
Мы не указываем частоты видеокарт, поскольку в процессе тестирования они постоянно менялись.

Тестирование

В качестве "удельной мощности" CPU или GPU мы будем рассматривать величину производительности в тесте 3DMark Vantage CPU Physics Test (которая измеряется в количестве кадров в секунду), поделенную на количество ядер или шейдерных блоков, а также частоту в мегагерцах. То есть, будем измерять "удельную мощность" в FPS/(МГц*количество вычислительных потоков). Собственно, для получения этой величины осталось измерить количество FPS в тесте при разных частотах процессоров и видеокарт, так как количество ядер CPU фиксировано, как и количество потоковых процессоров у видеокарт. Итак, приступим. Поскольку CPU до сих пор является "сердцем" компьютера, начнем именно с него. Мы решили немножко усложнить себе задачу и заодно выяснить, как масштабируется производительность CPU в данном тесте не только от частоты, но и от количества ядер. Ядра "отключались" путем задания соответствия на требуемое число ядер CPU для 3DMark Vantage в "Диспетчере задач". Данный метод неидеален, но для наших задач его вполне хватит. Кстати, несмотря на то, что процессор Intel Core 2 Quad QX6850 по сути состоит из двух ядер на одной подложке, какого либо влияния в данном тесте это не оказало. То есть, вариант, когда два ядра используют общий кэш объемом 4 Мб и случай, когда каждое из ядер использует кэш по 4 Мб, показали результаты, совпадающие в пределах погрешности. Ну а масштабирование по частоте осуществлялось путем изменения коэффициента умножения процессора в сторону понижения, прочие параметры системы оставались неизменными. Смотрим, что получилось.
 1-График 13DMark Vanta.png
Как видите, с увеличением частоты производительность в тесте растет практически линейно. Теоретически, прямые линии должны начинаться от начала координат, поскольку при нулевой частоте CPU мы просто не получим никаких результатов, то есть нулевой FPS. Давайте проведем прямые линии от начала координат и проверим, насколько они совпадут с экспериментальными кривыми.
 2-График 23DMark Vanta.png
Получаются весьма занятные результаты. Результаты Intel Core 2 Quad QX6850 практически идеально ложатся на прямые линии (за исключением случая для трех активных ядер, что может быть обусловлено как раз несимметричностью распределения кэш-памяти между ними в силу архитектуры). Результаты процессора AMD Athlon II X4 620 также хорошо ложатся на линию, проходящую через начало координат. А вот для AMD Phenom II X4 965 все несколько сложнее. Если проводить прямую от начала координат через точку, соответствующую минимальной частоте, то следующие точки отклоняются от этой прямой вниз (случай для одного и двух активных ядер). Если же проводить прямую через точки, соответствующие более высокой частоте CPU, то получается, что результаты на частоте 2000 МГц лежат сверху над прямой. Вероятно, такое поведение результатов можно объяснить наличием у AMD Phenom кэш-памяти третьего уровня. При частоте CPU равной 2000 МГц ядра и кэш-память L3 работают синхронно, поэтому результат максимален. При увеличении частоты ядер частота L3-кэш процессора остается неизменной, и он может вносить какие-то задержки, поэтому результаты "переходят" на прямую, коэффициент наклона которой ниже. Теперь давайте вычислим "удельную мощность" рассматриваемых процессоров в этом тесте. Напомним, что это по сути есть коэффициент наклона касательной, дополнительно разделенный на количество задействованных ядер CPU. Результаты приведены в таблице ниже.
"Удельная мощность" CPU, FPS/(МГц*кол-во ядер)
Кол-во ядер Core 2 Quad QX6850 Phenom II X4 965 Athlon II X4 620
1 0.001363 0.001467  
2 0.001252 0.001381  
3 0.001249 0.001331  
4 0.00124 0.001346 0.001348
Удивительно, но в при расчетах "физики" в 3DMark Vantage рассматриваемые процессоры AMD показывают чуть лучшие результаты, чем представитель архитектуры Intel Core 2 Quad. Теперь давайте посмотрим, какую "удельную мощность" продемонстрируют GPU производства NVIDIA. Поскольку видеопроцессор является довольно сложным устройством, возник вопрос - а как вообще эту "удельную мощность" считать? Поскольку вычислениями в основном занимаются шейдерные блоки, было решено строить графики результатов на основе именно этого параметра. Что касается частоты блоков ROP, то она выбиралась максимально возможной при данной частоте шейдеров. Как оказалось, минимальный коэффициент частоты шейдерных блоков по отношению к частоте ROP-блоков равен двум. Именно такое соотношение частот и сохранялось на протяжении всех тестов. Для этой части тестов использовался тестовый стенд на основе Core 2 Quad QX6850, рабочая частота процессора - 3600 МГц, все четыре ядра активны. Результаты показаны на графике ниже.
 3-График 33DMark Vanta.png
Как видите, в данном тесте по абсолютным показателям видеокарты значительно опережают центральные процессоры в производительности. Причем даже самая слабая из присутствующих модель на минимальных частотах оказывается быстрее четырехъядерного CPU с частотой 3600 МГц. Однако поведение линий результатов несколько отличается от того, что мы видели для центральных процессоров. Более подробно это видно на графике ниже.
 4-График 43DMark Vanta.png
На этом графике через точки, соответствующие минимальным рабочим частотам видеокарт, мы провели прямые линии. Как оказалось, они сходятся не в начале координат, а пересекают ось ординат на уровне примерно 20 FPS. Странно, не правда ли? Как оказалось, ничего странного нет, а поведение линий вполне закономерно. Для этого достаточно было посмотреть на загрузку CPU во время выполнения теста - она достигала 100% для каждого из ядер. Если вернуться к данным графика №1, то легко заметить, что результат теста на процессоре Intel Core 2 Quad QX6850 @ 3600 МГц как раз и составляет 18 FPS. Мы пробовали снижать частоту процессора и уменьшать количество активных ядер, и каждый раз уровень вертикального смещения линий результатов для GPU с хорошей точностью совпадал с производительностью центрального процессора в данном тесте. Что касается отклонения линий результатов от построенных прямых, то это объясняется проще - начиная с определенного момента часть шейдерных блоков, по всей видимости, загружены не полностью. Возможно, сказываются ограниченные возможности по распараллеливанию нагрузки самого теста, а может играют роль какие-то ограничения в архитектуре видеопроцессора. Как бы там ни было, давайте вычислим "удельную мощность" GPU, используя, как и прежде, коэффициент наклона построенных прямых, поделенный на количество потоковых процессоров. Полученные результаты отображены в таблице ниже. Также в ней указана "удельная мощность" Intel Core 2 Quad QX6850.
"Удельная мощность" Коэффициент "отставания"
GPU от CPU
Intel Core 2 Quad QX6850 0.00124  
9500GT (32 shaders) 0.00084 1.48
9600GT (64 shaders) 0.00063 1.97
GTX260 (216 shaders) 0.00050 2.46
В это трудно поверить, но в тесте 3DMark Vantage CPU Physics Test "удельная мощность" довольно старого, по нынешним меркам, центрального процессора оказывается как минимум в полтора раза больше "удельной мощности" современных видеопроцессоров NVIDIA. Такой вот парадоксальный результат. Впрочем, мы вовсе не предлагаем отказаться от расчетов на GPU в пользу центральных процессоров. У GPU есть еще один козырь - большая производительность на ватт потребляемой мощности. Эти прикидки сделать несложно, поэтому оставим эту возможность читателям. Ну а если сравнить абсолютные результаты CPU и GPU, полученные в рамках данного тестирования, то современные процессоры еще не скоро до них дорастут. Впрочем, и отрицать успехи процессоростроения не стоит. Не так давно были опубликованы результаты тестирования разогнанного шестиядерного процессора Intel Core i9 Gulftown. Разогнанный до частоты 5892 МГц, этот процессор в тесте 3DMark Vantage CPU Physics Test показал результат 63,01 FPS. Если подсчитать "удельную мощность" новинки, то получаем величину 0.00178 FPS/(МГц*кол-во ядер), что в 1.44 раза больше "удельной мощности" процессора Core 2 Quad QX6850. То есть 44% прибавки достигаются за счет преимуществ архитектуры Core i9 и технологии HyperThreading. И хотя прямого противостояния CPU и GPU по всему фронту решаемых задач пока не наблюдается, кто знает, где именно между ними развернется жестокая конкуренция. Стоит упомянуть AMD Radeon HD 5870, обладающий вычислительной мощностью 2,7 TFLOPS, а также Microsoft DirectX 11 с поддержкой технологии Compute Shader, позволяющей переложить расчеты на GPU. То ли еще будет...
- Обсудить материал в конференции




Оригинал материала: https://3dnews.ru./580351