Оригинал материала: https://3dnews.ru./170026

3D-звук.Часть 2

Что интересно, современный ученый может вам досконально показать и объяснить принципы работы органов слуха и зрения, но никто сейчас не сможет вам с точностью сказать, как ведет себя при обработке звуковой информации наш мозг. Открытие Фурье и догадка Ома, которые мы обсуждали в первой части этого материала, являются только адаптацией научных методов применительно к физике внешней среды и описывают лишь вершину айсберга. Потому как воспринимаем мы все абсолютно нелинейно. Ученые уже установили, что простые волны с одинаковыми амплитудами, но с разными частотами не будут для человеческого уха одинаковыми по ощущаемому уровню громкости, также наше частотное ощущение не находится в линейной зависимости от натуральной шкалы частот синусоидальных волн.

Хотя многие могут заметить, что для создания 3D-звукового поля вокруг слушателя применялись исследования, эмулирующие бинауральный слух человека… Но как это происходило? С помощью манекена, где вместо правого и левого уха были вставлены микрофоны. Идентичные! То есть опытная модель подразумевает абсолютно симметричного человека, а такие разве есть?

А как мозг может узнать о том, что слышимый источник звука находится спереди в центре, если даже форма ушных раковин, а они могут быть и есть у каждого человека чуть-чуть разные, влияет на входящий спектр звуковых волн? Ответ очевиден. При первых днях жизни дети учатся фокусировать взгляд на определенном объекте, совмещать это со слуховыми и тактильными ощущениями. Таким образом, у каждого человека формируется своя собственная равновесная система локализации "слух-зрение-осязание". При ее настройке в равной степени участвуют все три этих чувства, учитывая особенности строения органов. И, в качестве уникальности нашей локализационной системы можно назвать ее предельную точность. То есть, все здоровые люди могут определить, где находится предмет или источник звука.

HRTF

Хотя, у современных 3D-эмуляций есть свое преимущество, - они могут эмулировать только внешние воздействия (распространение звуковых волн во внешней среде - воздухе). Вложенные в них математические алгоритмы имеют погрешности относительно той информации, которая поступает в наш мозг, но они больше приближены к воздействию внешней среды и ее физике, которую мы изучили достаточно досконально.

Поэтому, говоря далее о 3D-звуке, мы исключим личностные особенности человека как фактор, выходящий за рамки современных опытов.


Объяснить это исключение можно следующим образом. Перед вами на рисунке изображена веселая схемка, описывающая опыты с функциями HRTF (Head-related transfer functions), которые считается самыми точными в мире.

Суть опытной модели: в одной комнате находится манекен с двумя микрофонами на месте правого и левого уха, во второй - слушатель (человек) с одетыми на голову наушниками. В комнате с манекеном есть реальный испускающий звуковую волну источник звука, которая преобразуется в аналоговый сигнал посредством микрофонов и соотвественнно передается на наушники (канал в канал). Но тут появляется сразу несколько моментов, которые делают данные опыты лишь приближенными к реальности. Как минимум мы имеем в итоге:

Погрешности, обусловленные разницей расстояния между микрофонами манекена и расстояния между правым и левым наушником слушателя (они никогда не совпадут идеально). В результате фазовый сдвиг, воспринимаемый слушателем будет отличен от привычного, если бы источник звука располагался в месте, идентичном координатному положению реального.

Погрешности, обусловленные неравномерностью АЧХ микрофона (идеальных микрофонов нет). Если необходимо увеличить чувствительность, то придется использовать конденсаторные микрофоны, которые требуют наличие предусилителя со своей погрешностью в линейности АЧХ. Хотя сейчас описывается идеальная модель, и мы не учитываем, что тракт усиления необходим вообще. Что интересно во многих работах, описывающих исследования функции HRTF (основная их часть проходила в начале-середине 90-х) вообще не указываются марки микрофонов и громкоговорителей. Это ставит под сомнение правильность опытов.

Погрешности, обусловленные неравномерностью АЧХ наушников (обычно они больше, чем у микрофонов)…

В результате, в рамках современных условий, слушатель получает такую искаженную картину, что непонятно, где у него исходный источник звука локализуется вообще - каждый человек почувствует разные ощущения. То есть самая идеальная на сегодня модель искусственной бинауральной локализации предусматривает погрешность, обусловленную несовершенством нашего технического прогресса и различием между людьми.

Если остановиться чисто на технических аспектах, то только в рамках начала XXI века мы можем говорить о возможности создания исследовательских моделей, которые будут иметь минимум погрешностей. И, если, вы читаете в какой-либо научной работе из 70-х - начала 90-х о проведении серьезных исследованиях в этой области, боюсь показаться модернистом, но это просто не могло было быть реализованным в рамках технических возможностей того времени.

Просто ли так появилась психоакустика?

В рамках опытов с HRTF мы имеем результаты, которые обуславливают усредненное ощущение всех людей в целом. HRTF предусматривает множество погрешностей и допусков. Поэтому 3D-звук сейчас находится на стадии субкультуры (исследования ведутся и сейчас), а в технологиях применяются вообще психоакустические модели, которые работают на уровне ассоциативности нашего восприятия. То есть, зрителю при просмотре кинофильма в домашнем кинотеатре или обычном кинотеатре совсем необязательно показывать в деталях как идет дождь или шумит ветер. Достаточно сэмпл (реальную запись) этого явления воспроизвести в виде "намека", обозначив присутствие в surround (пространственных) каналах, и наш ассоциативный ряд достроит все самостоятельно (!), до полноценной картины.

Нужно сказать, что и это явный прогресс в современной звукоиндустрии, потому как двести лет назад, для того, чтобы показать, например, звук водопада, композиторы использовали только музыкальные средства, и выражали свои ощущения от того либо иного явления в виде музыкального произведения. Этот метод привлекал фантазию слушателя и создавал свой ассоциативный ряд. Современный композитор или саундпродюсер предпочтет использовать записанный (отсэмплированный) шум водопада! Это экономит время, соответствует современной динамике и оказывает нужное воздействие на слушателя (что является главным). Пиком развития сейчас считается воссоздание звуковых картин в объеме, таким образом, чтобы слушатель ощутил себя в центре событий. Для этого используются многомикрофонные системы записи, например, которые могут работать как в стерео, так и в 5.1, а также звукорежиссерами активно используются эмуляции 3D-поля в виде фазовых задержек, специальной эквализации, применением специальных эффектов.


 SCHOEPS
Стереомикрофон SCHOEPS

Психоакустика использует еще одну важную особенность человеческого восприятия - акцентирование внимания на главном персонаже. То есть в каждый момент, мы обращаем особое внимание только на один элемент. Например, если звучит оркестр, то мы слушаем солирующий инструмент, если песня - на вокал либо на солирующий инструмент, если кино - на главного героя в рамках эпизода. Причем главных персонажей может быть много, но в психоакустике (особенно для кино) их чередование идет в последовательном режиме. Например, персонаж сказал фразу, а рядом проезжает машина. Внимание направлено сначала на персонажа, а потом на машину. В реальной жизни мы ведем себя так же - пытаемся акцентировать внимание сначала на одном, а потом на другом. Современная психоакустика в нынешней звукорежиссуре нам еще помогает это ощутить дополнительными средствами. Кстати, это можно проследить и в построении аранжировок классической музыки. Поэтому все объяснимо и имеет большие корни.

Нужно отметить!

Никогда не стоит путать психоакустику с многоканальной записью. Например, если звукорежиссер расставил систему микрофонов 5.1 и записал церковный хор, то он просто создал эффект близкий к алгоритму HRTF, что не имеет отношение к надстройке над человеческим восприятием. Звукорежиссер просто хочет зеркально перенести микрофонную систему 5.1 на вашу акустическую систему 5.1.

Большинство современных многоканальных систем рассчитаны на стерео с добавлением каналов спецэффектов - не больше (читайте материал Современные многоканальные системы). Надпись "3D" на коробках недорогих звуковых плат (на дорогих такое не пишут), говорит о возможности управления задержкой между правым и левым каналами.

Кстати, как вид современной психоакустики можно привести и нынешние алгоритмы синтеза живых инструментов и человеческого голоса. Даже лучший из них (физического моделирования) не позволяет воссоздать действительно "живое" звучание, но мозг слушателя все достраивает самостоятельно. Поэтому мы уже привыкли к звучанию синтетических скрипок, и не отличим натуральную бас-гитару от синтезированной. Это явление активно используется в современной музыке - инструменты-"намеки". То есть, психоакустика заменяет несовершенство современных алгоритмических моделей на усредненный для человеческого уха вариант. Отнюдь, в этом нет ничего плохого, за исключением того, что мы получили "Матрицу"!

Как результат крушения корабля исследований о существующий быт можно привести совместную деятельность HMI (Human Machine Interfaces) и WaveArts. Если несколько лет назад мы могли говорить о революционной программе HMI InMotion 3D (5.1), которая позволяла локализовать обычные моно PCM-файлы в заданном пространстве, то сегодня имеем только качественный плагин реверберации WaveArts MasterVerb, в котором реализовано часть результатов предыдущих опытов по пространственной локализации.

Что следует изучить…

Конечно, многим может показаться, что мои высказывания звучат сегодня как минимум странно, но есть определенные вопросы без ответов. Например, почему функция HRTF работает только в горизонтальной проекции, но нет локализации вверх-вниз? Почему люди летают в космос, но не могут технически эмулировать звучание обычной гитары? Я дам определенное количество ссылок, по которым вы сможете наглядно увидеть суть современных опытов…

Общие сведения:

Исследования:

  • http://www.isvr.soton.ac.uk/FDAG/vap/ - фундаментальная библиотека по исследованиям в области 3D-звука исследовательского института звука и вибраций при Соутемпском Университете (The Institute of Sound and Vibration Research (ISVR) at the University of Southampton). Последний раз обновлена в марте 2003 года. Доступные иллюстрации, звуковые примеры, файлы для MATLAB.
  • http://sound.media.mit.edu/KEMAR.html - результаты по исследованиям акустических моделей в исследовательской лаборатории Массачусетского университета (MIT Media Lab).

Промежуточные выводы

К сожалению, основные исследования в области звука пришлись на время нашей перестройки и так далее. То есть, фундаментальных работ советских и экс-советских ученых в этой области нет. Дело дошло даже до того, что мы только в 90-х узнали, что такое эксайтер (который разработан во времена "Битлз"), не говоря уже о других устройствах обработки. Но, я думаю, что это временный процесс. Пора становиться профессионалами или хотя бы грамотно разбираться в том, что нам пытаются продать.

Продолжение следует…



Оригинал материала: https://3dnews.ru./170026