От чего будет зависеть качество оцифрованного звука? Форматы: каким бывает цифровой звук От чего зависит качество записи звука

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Аудиодиски постепенно уходят в историю. Нет, конечно, они еще продаются в магазинах, но слушают и покупают их все меньше и меньше. Многие просто не видят в этом смысла, ведь даже если рассматривать легальный способ получения аудиофайлов, то одна песня в формате MP3 в музыкальном Интернет-магазине стоит гораздо дешевле одной песни, записанной на аудиодиск. Возникает резонный вопрос: зачем платить больше?

Конечно же, качество звука аудио CD гораздо выше, чем любого аудиофайла, где данные сжимаются, однако, для поразительного большинства людей эта разница некритична. Да что там! В наши дни даже самые большие меломаны задумываются о том, чтобы перевести свою коллекцию аудио CD в аудиофайлы, ведь вполне может наступить момент, когда спрос на диски будет настолько низкий, что проигрыватели аудио CD просто перестанут выпускать.

В этой статье мы рассмотрим некоторые программы для снятия данных с аудио CD и преобразования их в MP3 и другие форматы. Но сначала немного теории.

Компрессия звука и популярные аудиоформаты

Компрессия данных подразумевает анализ и упрощение записываемой информации, в результате которых на лазерный носитель можно записать больше аудиоданных, чем это возможно при записи аудио CD.

Чтобы было понятнее что такое компрессия данных, представьте себе, что вы должны пересказать содержимое листка бумаги на котором тысячу раз написана буква А своему другу по телефону. Вы можете просто тысячу раз произнести вслух «А» и ваш собеседник будет в курсе того, что же записано на листе. С другой стороны, вы можете предварительно подсчитать, сколько раз написана эта буква, после чего сообщить товарищу, что на листке тысяча раз записана буква «А». Результат будет тем же самым - ваш друг узнает содержание листа бумаги, но времени на передачу информации во втором случае у вас уйдет намного меньше. Иными словами вы провели компрессию данных, проанализировав сколько раз повторяется буква.

Сжатие цифрового аудио происходит приблизительно по такому же сценарию. Однако компрессия аудио данных имеет ряд особенностей. Так, например, для того чтобы вы узнали знакомую мелодию, достаточно проиграть ее в худшем качестве. При этом следует иметь в виду, что многие вкладывают в понятие «качественный звук» совершенно разные вещи. Так, например, если музыканту музыкальная запись режет слух из-за того, что щипок струны не был в строго определенной тональности, то простой обыватель может мириться и с гораздо более серьезными недостатками.

Эта особенность человеческого восприятия звука послужила толчком к созданию новых аудиоформатов, которые используют модель сжатия аудиоданных с потерей качества. Ухудшение звучания для большинства меломанов некритично, а в некоторых случаях, качеством и вовсе неважно, например, в паузах тишины, когда аудиоданные не представляют никакой ценности или в тех частотах, которые не воспринимает человеческое ухо.

Существует огромное количество форматов записи цифрового аудио. Их отличие в том, что они используют разные алгоритмы сжатия. Самые популярные на сегодняшний день форматы - это:

  • WMA (Windows Media Audio) - формат, разрабатываемый корпорацией Microsoft. Этот формат был создан на основе популярного в прошлом формата VQF, который сегодня уже почти забыт.
  • OGG Vorbis - бесплатный формат с открытыми кодами. В последнее время стал популярен настолько, что поддерживается производителями некоторых портативных проигрывателей.
  • MP3 (MPEG Layer III) - самый популярный формат, удерживающий лидирующие позиции уже в течение многих лет.

Особенности формата MP3

Привычное название MP3 - это сокращение от MPEG Layer III. MPEG, в свою очередь, расшифровывается как Moving Picture Coding Experts Group (Группа экспертов по кодированию движущихся изображений). Формат MP3 был разработан немецким институтом Фраунгофера в начале 90-х годов прошлого столетия. По-настоящему популярным формат стал после того, как им заинтересовалась компания Thomson.

Благодаря алгоритму сжатия, который использует формат MP3, аудиоданные можно сжимать в десять-двенадцать раз без заметных потерь в качестве. Высокая степень сжатия достигается благодаря тому, что MP3 использует особенности человеческого слуха. Человеческое ухо воспринимает звук в пределах диапазона от 20 Гц до 20 КГц, поэтому все звуки, которые не входят в этот диапазон, просто отбрасываются. Это значительно уменьшает объем данных.

Еще одна особенность MP3, благодаря которой можно получить аудиофайл меньшего размера, связана со стереозвуком и опять же, с особенностями человеческого слуха. Когда мы слушаем музыкальную композицию, записанную в стереорежиме, мы слышим основную разницу на средних частотах. Благодаря этой особенности к кодированию звука можно применить алгоритм сжатия, который бы кодировал отдельно для каждого канала только тот спектр частот, в котором наиболее слышна разница между каналами. А звук на тех частотах стереоканалов, на которых разница менее заметна, совмещается и кодируется в монорежиме. Такой совмещенный режим кодирования стереосигнала называется Joint Stereo.

Характеристики цифрового звука

При сжатии аудиоданных возникает необходимость управлять качеством оцифрованного звука. Так, например, если нужно оцифровать аудиокнигу, то высокое качество в этом случае не нужно. Главное - чтобы можно было разобрать слова. Если же оцифровывается музыкальное произведение, качество имеет большое значение.
Независимо от того, какой алгоритм сжатия звука используется, параметры, характеризующие качество звучания, одни и те же.

Одна из главных характеристик цифрового звука - это битрейт . Битрейтом называют скорость кодирования/раскодирования цифрового аудиопотока. Чем выше его значение, тем лучше качество звука и больше - размер файла. Нужно сказать, что битрейт является относительной величиной. Файлы, созданные с использованием разных алгоритмов сжатия и имеющие одинаковый битрейт, будут отличаться по качеству.

Кодирование можно производить с постоянным или переменным значением битрейта. Метод кодирования с переменным битрейтом дает возможность изменять качество аудиосигнала "на лету", то есть, в процессе проигрывания. Если программа определяет, что имеет дело со сложным звуковым потоком (например, звуками симфонического оркестра), качество возрастает, если же звук простой (к примеру, когда между композициями воцаряется пауза), качество автоматически ухудшается. Благодаря этому размер файла уменьшается.

Кодирование звука происходит с определенной частотой дискретизации . В процессе обработки аудиосигнал разделяется на большое количество частей (сэмплов), каждая из которых обрабатывается алгоритмом сжатия. Точность обработки сигнала и определяется частотой дискретизации, которая измеряется в килогерцах. В зависимости от количества сэмплов, приходящихся на единицу времени, различают такую характеристику звука, как разрядность. Нетрудно догадаться, что чем больше сэмплов обрабатывается, тем выше качество звука.

К звуковому сигналу, поступающему на аналогово-цифровой преобразователь (звуковую карту) применяется двойная дискретизация – по амплитуде и по времени.
Для математического описания формы сигнала используется теорема Котельникова, согласно которой любой непрерывный процесс с ограниченным спектром может быть представлен дискретной последовательностью его мгновенных значений. Частота такой последовательности должна как минимум вдвое превышать частоту наивысшей гармоники процесса. Частота, с которой берется выборка мгновенных значений (отсчетов) сигнала, называется частотой дискретизации.

Любое отклонение формы сигнала, поступающего на вход звуковой карты, от правильной формы синусоиды приводит к выходу спектра за пределы собственной частоты сигнала. Поэтому при дискретизации звукового сигнала по времени ограничиваются частоты входящего импульса ниже одной второй от частоты дискретизации, или берется спектр с избытком частоты. Вследствие того, что человеческое ухо может различать звуковые колебания с частотой до 20 кГц, получается, что частота дискретизации любого звукового сигнала должна быть не менее 40 кГц. Поэтому на практике можно встретить звуковые устройства с частотами дискретизации 44,1 кГц, 48 кГц и 96 кГц.

Для амплитудной дискретизации звука, например, на лазерном диске используется уровень квантования 2 в шестнадцатой степени (65536). Представление чисел от 0 до 2^16 необходимо 16 бит информации, поэтому удобнее использовать термин 16-битной разрядности сигнала. Разрядность звука зависит от динамического диапазона входного сигнала и допустимых шумов квантования.

Квантование по амплитуде и времени является причиной звуковых искажений по всей полосе частот, к которым прибавляются шумы и помехи звукового тракта аудиокарты.

Еще одна важная характеристика цифрового звука - это стереозвучание. Поэтому если звук записывается не в моно, а в стереоформате, количество аудиоданных удваивается, и, соответственно, увеличивается размер выходного файла.

Копирование музыки с аудиодисков при помощи Windows Media Player

Возможность копирования аудиоданных уже встроена в WindowsXP. Для того чтобы скопировать аудиоданные с помощью Windows Media Player, вставьте в привод для чтения дисков аудиодиск, запустите проигрыватель и нажмите кнопку "Копировать с диска" в верхней части окна программы. В окне проигрывателя отобразится содержимое вашего аудионосителя в виде отдельных треков. Напротив каждого из них установлен флажок. Это означает, что будут скопированы все композиции. Если вы не хотите копировать ту или иную песню, снимите флажок напротив ее названия.

По умолчанию в настройках программы установлено не очень высокое качество сжатия аудиоданных, поэтому если вы - поклонник качественного звука, необходимо изменить битрейт создаваемого файла. Для этого выполните команду "Сервис>Параметры" и в открывшемся окне перейдите на вкладку "Koпиpoвaние музыки с компакт-диска". Величина битрейта устанавливается ползунком "Kaчecтвo звука", причем крайнему правому положению соответствует максимальный размер выходного файла и соответственно наилучшее звучание.

Одна из особенностей стандартного проигрывателя - возможность защиты аудиофайлов от прослушивания на другом компьютере. Если вы желаете, чтобы созданные программой файлы WMA можно было проиграть только на этом компьютере, проверьте, установлен ли флажок напротив опции "Музыка с защитой от копирования".

Для начала копирования нажмите кнопку "Копировать музыку с компакт-диска" в верхней части окна программы. На экране появится окно, в котором вы сможете включить или отключить защиту содержимого, установив соответствующий флажок. Перед началом копирования вы также сможете изменить настройки копирования, если это необходимо.

За процессом сжатия можно наблюдать в столбце "Cocтoяниe кoпиpoвaния с компакт-диска". Как только операция по переносу трека на жесткий диск будет завершена, напротив копируемой композиции появится надпись "Скопированы в библиотеку".

Несмотря на кажущееся удобство рассмотренного способа копирования аудиоданных, во многих случаях использовать его неудобно. Во-первых, формат WMA поддерживается далеко не всеми портативными MP3-устройствами, во-вторых, на кодирование в этот формат уходит больше времени, если сравнивать с другими форматами. Наконец, при использовании Windows Media Player нет возможности гибко управлять настройками сжатия.

Одним словом, если вы приобрели MP3 плеер и планируете регулярно пополнять свою цифровую фонотеку, копируя данные с аудиодисков, необходимо позаботиться о том, чтобы под рукой был качественный и многофункциональный звуковой кодер. Некоторые из таких программ мы рассмотрим во второй части статьи.

От каких параметров зависит качество цифрового звука

  • Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно меняющейся интенсивностью и частотой.

    Человек воспринимает звуковые волны (колебания воздуха) с помощью слуха в форме звука различных громкости и тона. Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука (рис. 1.1).

    Рис. 1.1. Зависимость громкости и высоты тона звука от интенсивности и частоты звуковой волны

    Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

    Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 1014 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица “децибел” (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

    Таблица 5.1. Громкость звука
    Звук Громкость в децибелах
    Нижний предел чувствительности человеческого уха 0
    Шорох листьев 10
    Разговор 60
    Гудок автомобиля 90
    Реактивный двигатель 120
    Болевой порог 140
    Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

    Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность “ступенек” (рис. 1.2).

    Рис. 1.2. Временная дискретизация звука

    Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее “лесенка” цифрового звукового сигнала повторяет кривую диалогового сигнала.

    Частота дискретизации звука – это количество измерений громкости звука за одну секунду.

    Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

    Глубина кодирования звука. Каждой “ступеньке” присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

    Глубина кодирования звука – это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

    Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2I. Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

    N = 2I = 216 = 65 536.

    В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему – 1111111111111111.

    Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим “моно”). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим “стерео”).

    Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

    16 бит 24 000 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

    Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

От чего будет зависеть качество оцифрованного звука?

    Для качества цифрового звука существенны две вещи: качество исходной фонограммы и качество аналого-цифрового преобразователя.

    С качеством исходной фонограммы вс примерно понятно. Если она кривая (с искажениями) или шумная, то никакая оцифровка е не улучшит. Ну то есть можно, путм разных обработок, в том числе и цифровых, выделить полезный сигнал, что и применяется при выделении речи на фоне внешних шумов или при выделении регулярного сигнала на фоне случайного шума (фильмы про шпинов все смотрели, да?), но если речь о музыкальной фонограмме, то есть фонограмме с широким спектром, то тут уже всякие ухищрения не помогут.

    Так что будем исходить из того, что фонограмма качественная.

    Тогда остатся АЦП.

    Основной показатель тут - разрядность кодирования. Ясен пень, что чем она больше - тем лучше, но с другой стороны - тем сложнее и дороже такой преобразователь. На заре цифровых технологий (что не так давно и было...) оптимальным по соотношению цена/качество была признана 16-разрядная конечная запись. При меньшей разрядности страдает динамический диапазон цифровой копии фонограммы - на звуки низкого уровня (пианиссимо) приходится лишь малая часть всех разрядов, а значит - становится заметным ступенчатый характер изменения сигнала. И фильтрация по НЧ тут уже не сильно поможет (упоминания теоремы Котельникова приветствуются, но не надо забывать, что в ней молчаливо предполагается идеальное аналого-цифровое преобразование, то есть с бесконечно большой разрядностью). Поскольку всякая обработка, даже в цифровом виде, может только уменьшать эффективную разрядность, оцифровка на студиях велась и ведтся по сей день с бльшим числом разрядов.

    Сейчас уже не редкость цифровые фонограммы, которые готовятся с разрядностью 24 бита (super-Audio CD, Audio-DVD). При такой разрядности удатся полностью передать динамический диапазон любого музыклального произведения, даже Болеро Равеля, которое начинается с едва слышной партии малых барабанов, а заканчивается фортиссимо всего оркестра.

    Ну вот. Помимо разрядности, важное значение имеют и другие параметры АЦП, в первую очередь нелинейность и шумы. Особенно шумы. Потому что они ограничивают эффективную разрядность преобразователя. Толку от этих 24 разрядов, если последние 8 из них шумят и поэтому не несут никакой полезной информации... Уровень шума современных 24-разрядных АЦП может достигать -115 дБ при частоте выборок выше 100 кГц, это уже вполне приличный, а дифференциальная нелинейность измеряется десятитысячными долями процента. То есть такие решения запросто перекрывают возможности человеческого уха.

  • Оно будет зависеть от трех основных параметров:

    1. Частота дискретизации (sampling rate). Она ограничивает полосу передаваемых частот: максимальная частота передаваемого сигнала ниже половины частоты дискретизации. В телефонии чаще всего применяется частота дискретизации 8 кГц, что дает теоретическую полосу немного уже 4 кГц (практически используют полосу 300-3000 Гц). А в стандарте компакт-диска используется частота 44,1 кГц, что дает возможность полностью передать спектр 20 Гц - 20 кГц. Повышение частоты дискретизации сверх этих значений не имеет смысла с точки зрения диапазона передаваемых частот, но снижает уровень интермодуляционных искажений. В стандарте DVD Audio максимальная частота дискретизации составляет 192 кГц, такую частоту дискретизации поддерживают и некоторые хорошие аудиоплаты для компьютеров (при этом полоса воспроизводимых и записываемых частот отличается от модели к модели). Другие стандартные значения -- 96, 48, 32, 22,05, 11,025 кГц.
    2. Разрядность кодирования. От нее зависит динамический диапазон -- при линейном кодировании разница между полным размахом и минимальной ступенькой составляет для 8 бит 256 раз, а для 16 бит -- 65536 раз, что составляет, соответственно, 48 и 96 дБ. 48 дБ -- откровенно мало, это уровень динамического диапазона компакт-кассеты, и к тому же, кроме узкого динамического диапазона возникают неприятные искажения, особенно хорошо слышные в тихих местах -- следствие превращения гладкого сигнала в ступенчатый. При разрядности 16 бит качество звучания получается уже вполне хорошее (такую разрядность использует компакт-диск), но не идеальное во многих реальных случаях -- многие классические произведения, а также тяжелая музыка требуют большего ДД. В высококачественных системах используют 24-разрядное кодирование, хотя реальное число значащих бит не превышает 18-20. Смысла в дальнейшем наращивании разрядности нет.
    3. Способ кодирования. Здесь есть две стороны. Первая -- это собственно шкала дискретизации. Она обычно линейная, но может быть и логарифмической. Это дает увеличение динамического диапазона при той же разрядности, но уровень искажений при этом выше, чем при том же динамическом диапазоне с линейной шкалой и большей разрядностью. Вторая -- это применение всевозможных алгоритмов сжатия с потерями. В связи с последними появляется понятие битрейт. Последний -- это количество бит, необходимых для кодирования одной секунды звука. Естественно, битрейт зависит от частоты дискретизации и разрядности, но также и от степени сжатия. Сжатие может быть с потерями и без них. Сжатие без потерь -- это по сути обычная архивация и на звук она не влияет. А с потерями -- на то они и потери. Кодер анализирует звуковую информацию и выбрасывает данные, руководствуясь психоакустическими соображениями: потеря чего будет меньше всего слышна. То есть слабый звук на фоне сильного, слабые высокочастотные звуки на фоне сильных среднечастотных, и так далее. На средних и высоких частотах может отбрасываться фазовая информация. В результате при сжатии записи с качеством компакт-диска в 4,5 раза (битрейт 320 kbps, mp3/Lame) воспринимаемое на слух ухудшение записи настолько незначительно, что не имея хорошей аппаратуры, разницу уловить очень сложно. А при битрейте 128 ухудшение качества звука уже очевидно и многие записи звучат просто неприятно. Но с пластмассовыми колоночками или встроенными в ноутбук динамиками и этой разницы не услышишь.

Очень часто мы слышим такие определения, как «цифровой» или «дискретный» сигнал, в чем его отличие от «аналогового»?

Суть различия в том, что аналоговый сигнал непрерывный во времени (голубая линия), в то время как цифровой сигнал состоит из ограниченного набора координат (красные точки). Если все сводить к координатам, то любой отрезок аналогового сигнала состоит из бесконечного количества координат.

У цифрового сигнала координаты по горизонтальной оси расположены через равные промежутки времени, в соответствии с частотой дискретизации. В распространенном формате Audio-CD это 44100 точек в секунду. По вертикали точность высоты координаты соответствует разрядности цифрового сигнала, для 8 бит это 256 уровней, для 16 бит = 65536 и для 24 бит = 16777216 уровней. Чем выше разрядность (количество уровней), тем ближе координаты по вертикали к исходной волне.

Аналоговыми источниками являются: винил и аудиокассеты. Цифровыми источниками являются: CD-Audio, DVD-Audio, SA-CD (DSD) и файлы в WAVE и DSD форматах (включая производные APE, Flac, Mp3, Ogg и т.п.).

Преимущества и недостатки аналогового сигнала

Преимуществом аналогового сигнала является то, что именно в аналоговом виде мы воспринимаем звук своими ушами. И хотя наша слуховая система переводит воспринимаемый звуковой поток в цифровой вид и передает в таком виде в мозг, наука и техника пока не дошла до возможности именно в таком виде подключать плееры и другие источники звука напрямик. Подобные исследования сейчас активно ведутся для людей с ограниченными возможностями, а мы наслаждаемся исключительно аналоговым звуком.

Недостатком аналогового сигнала являются возможности по хранению, передаче и тиражированию сигнала. При записи на магнитную ленту или винил, качество сигнала будет зависеть от свойств ленты или винила. Со временем лента размагничивается и качество записанного сигнала ухудшается. Каждое считывание постепенно разрушает носитель, а перезапись вносит дополнительные искажения, где дополнительные отклонения добавляет следующий носитель (лента или винил), устройства считывания, записи и передачи сигнала.

Делать копию аналогового сигнала, это все равно, что для копирования фотографии ее еще раз сфотографировать.

Преимущества и недостатки цифрового сигнала

К преимуществам цифрового сигнала относится точность при копировании и передачи звукового потока, где оригинал ничем не отличается от копии.

Основным недостатком можно считать то, что сигнал в цифровом виде является промежуточной стадией и точность конечного аналогового сигнала будет зависеть от того, насколько подробно и точно будет описана координатами звуковая волна. Вполне логично, что чем больше будет точек и чем точнее будут координаты, тем более точной будет волна. Но до сих пор нет единого мнения, какое количество координат и точность данных является достаточным для того, что бы сказать, что цифровое представление сигнала достаточно для точного восстановления аналогового сигнала, неотличимого от оригинала нашими ушами.

Если оперировать объемами данных, то вместимость обычной аналоговой аудиокассеты составляет всего около 700-1,1 Мб, в то время как обычный компакт диск вмещает 700 Мб. Это дает представление о необходимости носителей большой емкости. И это рождает отдельную войну компромиссов с разными требованиями по количеству описывающих точек и по точности координат.

На сегодняшний день считается вполне достаточным представление звуковой волны с частотой дискретизации 44,1 кГц и разрядности 16 бит. При частоте дискретизации 44,1 кГц можно восстановить сигнал с частотой до 22 кГц. Как показывают психоакустические исследования, дальнейшее повышение частоты дискретизации мало заметно, а вот повышение разрядности дает субъективное улучшение.

Как ЦАП строят волну

ЦАП – это цифро-аналоговый преобразователь, элемент, переводящий цифровой звук в аналоговый. Мы рассмотрим поверхностно основные принципы. Если по комментариям будет виден интерес более подробно рассмотреть ряд моментов, то будет выпущен отдельный материал.

Мультибитные ЦАП

Очень часто волну представляют в виде ступенек, что обусловлено архитектурой первого поколения мультибитных ЦАП R-2R, работающих аналогично переключателю из реле.

На вход ЦАП поступает значение очередной координаты по вертикали и в каждый свой такт он переключает уровень тока (напряжения) на соответствующий уровень до следующего изменения.

Хотя считается, что ухо человека слышит не выше 20 кГц, и по теории Найквиста можно восстановить сигнал до 22 кГц, остается вопрос качества этого сигнала после восстановления. В области высоких частот форма полученной «ступенчатой» волны обычно далека от оригинальной. Самый простой выход из ситуации – это увеличивать частоту дискретизации при записи, но это приводит к существенному и нежелательному росту объема файла.

Альтернативный вариант – искусственно увеличить частоту дискретизации при воспроизведении в ЦАП, добавляя промежуточные значения. Т.е. мы представляем путь непрерывной волны (серая пунктирная линия), плавно соединяющий исходные координаты (красные точки) и добавляем промежуточные точки на этой линии (темно фиолетовые).

При увеличении частоты дискретизации обычно необходимо повышать и разрядность, чтобы координаты были ближе к аппроксимированной волне.

Благодаря промежуточным координатам удается уменьшить «ступеньки» и построить волну ближе к оригиналу.

Когда вы видите функцию повышения частоты с 44.1 до 192 кГц в плеере или внешнем ЦАП, то это функция добавления промежуточных координат, а не восстановления или создание звука в области выше 20 кГц.

Изначально это были отдельные SRC микросхемы до ЦАП, которые потом перекочевали непосредственно в сами микросхемы ЦАП. Сегодня можно встретить решения, где к современным ЦАП добавляется такая микросхема, это сделано для того, чтобы обеспечить альтернативу встроенным алгоритмам в ЦАП и порой получить еще более лучший звук (как например это сделано в Hidizs AP100).

Основной отказ в индустрии от мультибитных ЦАП произошел из-за невозможности дальнейшего технологического развития качественных показателей при текущих технологиях производства и более высокой стоимости против «импульсных» ЦАП-ов с сопоставимыми характеристиками. Тем не менее, в Hi-End продуктах предпочтение отдают зачастую старым мультибитным ЦАП-ам, нежели новым решениям с технически более хорошими характеристиками.

Импульсные ЦАП

В конце 70-тых широкое распространение получил альтернативный вариант ЦАП-ов, основанный на «импульсной» архитектуре – «дельта-сигма». Технология импульсных ЦАП-ов стала возможной появлению сверх-быстрых ключей и позволила использовать высокую несущую частоту.

Амплитуда сигнала является средним значением амплитуд импульсов (зеленым показаны импульсы равной амплитуды, а белым итоговая звуковая волна).

Например последовательность в восемь тактов пяти импульсов даст усредненную амплитуду (1+1+1+0+0+1+1+0)/8=0,625. Чем выше несущая частота, тем больше импульсов попадает под сглаживание и получается более точное значение амплитуды. Это позволило представить звуковой поток в однобитном виде с широким динамическим диапазоном.

Усреднение возможно делать обычным аналоговым фильтром и если такой набор импульсов подать напрямую на динамик, то на выходе мы получим звук, а ультра высокие частоты не будут воспроизведены из-за большой инертности излучателя. По этому принципу работают ШИМ усилители в классе D, где плотность энергии импульсов создается не их количеством, а длительностью каждого импульса (что проще в реализации, но невозможно описать простым двоичным кодом).

Мультибитный ЦАП можно представить как принтер, способный наносить цвет пантоновыми красками. Дельта-Сигма – это струйный принтер с ограниченным набором цветов, но благодаря возможности нанесению очень мелких точек (в сравнении с пантовым принтером), за счет разной плотности точек на единицу поверхности дает больше оттенков.

На изображении мы обычно не видим отдельных точек из-за низкой разрешающей способности глаза, а только средний тон. Аналогично и ухо не слышит импульсов по отдельности.

В конечном итоге при текущих технологиях в импульсных ЦАП можно получить волну, близкую к той, что теоретически должна получится при аппроксимации промежуточных координат.

Надо отметить, что после появления дельта-сигма ЦАП исчезла актуальность рисовать «цифровую волну» ступеньками, т.к. так ступеньками волну современные ЦАП не строят. Правильно дискретный сигнал строить точками соединенной плавной линией.

Являются ли идеальными импульсные ЦАП?

Но на практике не все безоблачно, и существует ряд проблем и ограничений.

Т.к. подавляющее количество записей сохранено в многоразрядном сигнале, то перевод в импульсный сигнал по принципу «бит в бит» требует излишне высокую несущую частоту, которую современные ЦАП не поддерживают.

Основной функцией современных импульсных ЦАП является перевод многоразрядного сигнала в однобитный с относительно невысокой несущей частотой с прореживанием данных. В основном именно эти алгоритмы и определяют конечное качество звучания импульсных ЦАП-ов.

Чтобы уменьшить проблему высокой несущей частоты, звуковой поток разбивается на несколько однобитных потоков, где каждый поток отвечает за свою группу разряда, что эквивалентно кратному увеличению несущей частоты от числа потоков. Такие ЦАП называются мультибитными дельта-сигма.

Сегодня импульсные ЦАП-ы получили второе дыхание в быстродействующих микросхемах общего назначения в продуктах компаний NAD и Chord за счет возможности гибко программировать алгоритмы преобразования.

Формат DSD

После широкого распространения дельта-сигма ЦАП-ов вполне логичным было и появления формата записи двоичного кода напрямую дельта-сигма кодировке. Этот формат получил название DSD (Direct Stream Digital).

Широкого распространения формат не получил по нескольким причинам. Редактирование файлов в этом формате оказалось излишне ограниченным: нельзя микшировать потоки, регулировать громкость и применять эквализацию. А это значит, что без потери качества можно лишь архивировать аналоговые записи и производить двухмикрофонную запись живых выступлений без последующей обработки. Одним словом – денег толком не заработать.

В борьбе с пиратством диски формата SA-CD не поддерживались (и не поддерживаются до сих пор) компьютерами, что не позволяет делать их копии. Нет копий – нет широкой аудитории. Воспроизвести DSD аудиоконтент можно было только с отдельного SA-CD проигрывателя с фирменного диска. Если для PCM формата есть стандарт SPDIF для цифровой передачи данных от источника к отдельному ЦАП, то для DSD формата стандарта нет и первые пиратские копии SA-CD дисков были оцифровками с аналоговых выходов SA-CD проигрывателей (хоть ситуация и кажется глупой, но на деле некоторые записи выходили только на SA-CD, либо та же запись на Audio-CD специально была сделана некачественно для продвижения SA-CD).

Переломный момент произошел с выходом игровых приставок SONY, где SA-CD диск до воспроизведения автоматически копировался на жесткий диск приставки. Этим воспользовались поклонники формата DSD. Появление пиратских записей простимулировало рынок на выпуск отдельных ЦАП для воспроизведения DSD потока. Большинство внешних ЦАП с поддержкой DSD на сегодняшний день поддерживает передачу данных по USB используя формат DoP в виде отдельного кодирования цифрового сигнала через SPDIF.

Несущие частоты для DSD сравнительно небольшие, 2.8 и 5.6 МГц, но этот звуковой поток не требует никаких преобразований с прореживанием данных и вполне конкурентно-способен с форматами высокого разрешения, такими как DVD-Audio.

На вопрос что лучше, DSP или PCM однозначного ответа нет. Все упирается в качество реализации конкретного ЦАП и таланта звукорежиссера при записи конечного файла.

Общий вывод

Аналоговый звук – это то, что мы слышим и воспринимаем, как окружающий мир глазами. Цифровой звук, это набор координат, описывающих звуковую волну, и который мы напрямую услышать не можем без преобразования в аналоговый сигнал.

Аналоговый сигнал, записанный напрямую на аудиокассету или винил нельзя без потери качества перезаписать, в то время как волну в цифровом представлении можно копировать бит в бит.

Цифровые форматы записи являются постоянным компромиссом между количеством точностью координат против объема файла и любой цифровой сигнал является лишь приближением к исходному аналоговому сигналу. Однако при этом разный уровень технологий записи и воспроизведения цифрового сигнала и хранения на носителях для аналогового сигнала дают больше преимуществ цифровому представлению сигнала, аналогично цифровой фотокамере против пленочного фотоаппарата.