Wat zal de kwaliteit van gedigitaliseerd geluid bepalen? Formaten: wat is digitaal geluid Wat bepaalt de kwaliteit van geluidsopname

Bits, hertz, gevormde dithering...

Wat gaat er schuil achter deze concepten? Bij het ontwikkelen van de CD Audio-standaard zijn de volgende waarden gehanteerd: 44 kHz, 16 beetje en 2 kanaal (d.w.z. stereo). Waarom precies zoveel? Wat is de reden van deze keuze, en ook waarom er pogingen worden ondernomen om deze waarden te verhogen naar bijvoorbeeld 96 kHz en 24 of zelfs 32 bits...

Laten we eerst kijken naar de bemonsteringsresolutie, dat wil zeggen de bitdiepte. Het gebeurt nu eenmaal dat je moet kiezen tussen de cijfers 16, 24 en 32. Tussenwaarden zouden uiteraard handiger zijn qua klank, maar zijn te onaangenaam voor gebruik in de digitale technologie (een zeer controversiële uitspraak, gezien het feit dat veel ADC's 11 of 12 bit digitale uitgang hebben (staatsopmerking).

Wat doet deze parameter? In een notendop: voor dynamisch bereik. Het bereik van gelijktijdig gereproduceerde volumes loopt van de maximale amplitude (0 decibel) tot de kleinste die de resolutie toelaat, bijvoorbeeld ongeveer minus 93 decibel voor 16-bits audio. Vreemd genoeg hangt dit sterk samen met het ruisniveau van de soundtrack. In principe is het voor 16-bits audio heel goed mogelijk om signalen met een vermogen van -120 dB over te dragen, maar deze signalen zullen in de praktijk moeilijk te gebruiken zijn vanwege een dergelijk fundamenteel concept als bemonsteringsgeluid. Het is een feit dat we bij het nemen van digitale waarden voortdurend fouten maken, waarbij we de echte analoge waarde afronden naar de dichtstbijzijnde digitale waarde. De kleinst mogelijke fout is nul, maar de maximale fout die we maken is de helft van het laatste bit (bit, voortaan wordt de term minst significante bit afgekort tot MB). Deze fout geeft ons de zogenaamde bemonsteringsruis: een willekeurige discrepantie tussen het gedigitaliseerde signaal en het origineel. Deze ruis is constant en heeft een maximale amplitude die gelijk is aan de helft van het minst significante cijfer. Dit kan worden gezien als willekeurige waarden die in een digitaal signaal zijn gemengd. Dit wordt soms afrondingsruis of kwantiseringsruis genoemd (wat een nauwkeurigere naam is, aangezien amplitudecodering kwantisering wordt genoemd en bemonstering het proces is waarbij een continu signaal wordt omgezet in een discrete (puls)reeks - ongeveer).

Laten we dieper ingaan op wat wordt bedoeld met signaalvermogen, gemeten in bits. Het sterkste signaal bij digitale audioverwerking wordt doorgaans genomen als 0 dB, dit komt overeen met alle bits die zijn ingesteld op 1. Als de meest significante bit (hierna SB) wordt teruggezet op nul, zal de resulterende digitale waarde half zo groot zijn, wat overeenkomt met een niveauverlies van 6 decibel (10 * log(2) = 6). Door dus de cijfers van de meest significante naar de minst significante cijfers te resetten, zullen we het signaalniveau met zes decibel verlagen. Het is duidelijk dat het minimale signaalniveau (één in het minst significante cijfer, en alle andere cijfers zijn nullen) (N-1) * 6 decibel is, waarbij N de bitdiepte van het monster (sample) is. Voor 16 bits krijgen we het niveau van het zwakste signaal - 90 decibel.

Als we zeggen ‘de helft van het minst significante bit’, bedoelen we niet -90/2, maar de halve stap naar het volgende bit – dat wil zeggen nog eens 3 decibel lager, minus 93 decibel.

Laten we terugkeren naar de keuze van de digitaliseringsresolutie. Zoals eerder vermeld introduceert digitalisering ruis op het niveau van de helft van het minst significante bit, wat betekent dat een record dat is gedigitaliseerd tot 16 bits voortdurend lawaai maken bij min 93 decibel. Hij kan signalen stiller doorgeven, maar de ruis blijft nog steeds op -93 dB. Het dynamische bereik van digitale audio wordt bepaald door dit criterium: waar de signaal/ruis-verhouding verandert in ruis/signaal (er is meer ruis dan bruikbaar signaal), ligt de ondergrens van dit bereik. Dus, voornaamst digitaliseringscriterium - hoeveel lawaai Kunnen we ons een gereconstrueerd signaal veroorloven? Het antwoord op deze vraag hangt gedeeltelijk af van hoeveel ruis er in de originele soundtrack zat. De belangrijke conclusie is dat als we iets digitaliseren met een geluidsniveau van min 80 decibel, er absoluut geen reden is om het op meer dan 16 bits te digitaliseren, aangezien enerzijds ruis van -93 dB heel weinig toevoegt aan de geluidskwaliteit. al een enorme (relatief) ruis van -80 dB, en aan de andere kant, stiller dan -80 dB, begint de ruis/het signaal al in het fonogram zelf, en het is eenvoudigweg niet nodig om zo'n signaal te digitaliseren en uit te zenden.

Theoretisch is dit het enige criterium voor het kiezen van een digitaliseringsresolutie. Meer wij wij dragen niet bij absoluut geen vervormingen of onnauwkeurigheden. De praktijk herhaalt, vreemd genoeg, de theorie bijna volledig. Dit was de leidraad voor de mensen die kozen voor een 16-bits resolutie voor audio-cd's. Lawaai minus 93 decibel is een redelijk goede toestand, die vrijwel exact overeenkomt met de omstandigheden van onze waarneming: het verschil tussen de pijngrens (140 decibel) en het gebruikelijke achtergrondgeluid in de stad (30-50 decibel) is precies ongeveer honderd decibel, en als je dat bedenkt op een volumeniveau dat pijn veroorzaakt, luisteren ze niet naar muziek - wat het bereik verder verkleint - blijkt dat het echte geluid van de kamer of zelfs de apparatuur veel sterker is dan het kwantiseringsgeluid . Als we in een digitale opname een niveau van min 90 decibel kunnen horen, zullen we kwantiseringsruis horen en waarnemen, anders zullen we simpelweg nooit bepalen of de audio gedigitaliseerd of live is. Er is simpelweg geen ander verschil in termen van dynamisch bereik. Maar in principe kan een mens betekenisvol horen in het bereik van 120 decibel, en het zou leuk zijn om dat hele bereik te behouden, iets dat 16 bits niet lijken te kunnen verwerken.

Maar dit is alleen op het eerste gezicht: met behulp van een speciale techniek genaamd gevormde dithering, kunt u het frequentiespectrum van de bemonsteringsruis wijzigen en deze bijna volledig verplaatsen naar het gebied boven 7-15 kHz. Het lijkt erop dat we de frequentieresolutie veranderen (we weigeren stille hoge frequenties te reproduceren) voor extra dynamisch bereik in het resterende frequentiebereik. In combinatie met de eigenaardigheden van ons gehoor - onze gevoeligheid voor het uitgeworpen hoogfrequente gebied is tientallen dB lager dan in het hoofdgebied (2-4 kHz) - maakt dit het mogelijk om relatief stille overdracht van nuttige signalen nog eens 10- 20 dB stiller dan -93 dB - het dynamische bereik van 16-bits geluid voor een persoon is dus ongeveer 110 decibel. En over het algemeen kan een persoon eenvoudigweg geen geluiden horen die 110 decibel stiller zijn dan het harde geluid dat hij zojuist heeft gehoord. Het oor past zich, net als het oog, aan het volume van de omringende realiteit aan, dus het gelijktijdige bereik van ons gehoor is relatief klein: ongeveer 80 decibel. Laten we het meer in detail hebben over dithring nadat we de frequentieaspecten hebben besproken.

Voor cd's bedraagt ​​de bemonsteringsfrequentie 44100 Hz. Er is een mening (gebaseerd op een verkeerd begrip van de stelling van Kotelnikov-Nyquist) dat alle frequenties tot 22,05 kHz worden gereproduceerd, maar dit is niet helemaal waar. We kunnen alleen met zekerheid zeggen dat er geen frequenties boven 22,05 kHz in het gedigitaliseerde signaal voorkomen. Het werkelijke beeld van gedigitaliseerde geluidsweergave hangt altijd af van specifieke technologie en is altijd niet zo ideaal als we zouden willen, en omdat het overeenkomt met de theorie. Het hangt allemaal af van de specifieke DAC (digitaal-naar-analoog-omzetter die verantwoordelijk is voor het verkrijgen van een audiosignaal uit een digitale sequentie).

Laten we eerst uitzoeken wat we graag zouden willen krijgen. Een (vrij jong) persoon van middelbare leeftijd kan geluiden voelen van 10 Hz tot 20 kHz, en zinvol horen van 30 Hz tot 16 kHz. Hogere en lagere geluiden worden waargenomen, maar vormen geen akoestische sensaties. Geluiden boven de 16 kHz worden als een vervelende, onaangename factor ervaren - druk op het hoofd, pijn, vooral harde geluiden zorgen voor zo'n scherp ongemak dat je de kamer wilt verlaten. De onaangename sensaties zijn zo sterk dat de werking van beveiligingsapparatuur hierop is gebaseerd: een paar minuten zeer luid hoogfrequent geluid zal iedereen gek maken, en het wordt absoluut onmogelijk om in zo'n omgeving iets te stelen. Geluiden onder de 30 - 40 Hz met voldoende amplitude worden waargenomen als trillingen afkomstig van objecten (luidsprekers). Het zou nauwkeuriger zijn om dit zelfs maar te zeggen: alleen maar trillingen. Een persoon bepaalt akoestisch bijna niet de ruimtelijke positie van zulke lage geluiden, dus er worden al andere zintuigen gebruikt - tastbaar, we voelen zulke geluiden met ons lichaam.

Met hoge frequenties is alles een beetje erger, althans zeker moeilijker. Vrijwel de hele essentie van verbeteringen en complicaties van DAC's en ADC's is juist gericht op een betrouwbaardere overdracht van hoge frequenties. Met “hoog” bedoelen we frequenties die vergelijkbaar zijn met de bemonsteringsfrequentie – dat wil zeggen, in het geval van 44,1 kHz is dit 7-10 kHz en hoger.

Stel je een sinusgolf van 14 kHz voor, gedigitaliseerd met een bemonsteringsfrequentie van 44,1 kHz. Er zijn ongeveer drie punten (samples) per periode van de ingangssinusoïde, en om de oorspronkelijke frequentie in de vorm van een sinusoïde te herstellen, moet je wat fantasie tonen. Het proces van het herstellen van de signaalvorm uit samples vindt ook plaats in de DAC; dit wordt gedaan door het reconstructiefilter. En als relatief lage frequenties bijna kant-en-klare sinusoïden zijn, dan ligt de vorm en dienovereenkomstig de kwaliteit van het herstel van hoge frequenties volledig op het geweten van het DAC-reconstructiesysteem. Dus hoe dichter de signaalfrequentie bij de helft ligt van de bemonsteringsfrequentie, hoe moeilijker het is om de signaalvorm te herstellen.

Dit is het grootste probleem bij het reproduceren van hoge frequenties. Het probleem is echter niet zo erg als het lijkt. Alle moderne DAC's maken gebruik van multirate-technologie, die bestaat uit digitaal herstel naar meerdere malen hogere bemonsteringsfrequenties en daaropvolgende conversie naar een analoog signaal met een hogere frequentie. Het probleem van het herstellen van hoge frequenties wordt dus verschoven naar de schouders van digitale filters, die van zeer hoge kwaliteit kunnen zijn. Zo hoge kwaliteit dat er bij dure apparaten een probleem is geheel verwijderd - een onvervormde weergave van frequenties tot 19-20 kHz is gegarandeerd. Resampling wordt ook gebruikt bij niet erg dure apparaten, dus in principe kan dit probleem als opgelost worden beschouwd. Apparaten in de buurt van $30 - $60 (geluidskaarten) of muziekcentra tot $600, meestal vergelijkbaar in DAC met deze geluidskaarten, reproduceren perfect frequenties tot 10 kHz, redelijk - tot 14 - 15, en op de een of andere manier de rest. Dit nogal genoeg voor de meeste muzikale toepassingen in het echte leven, en als iemand meer kwaliteit nodig heeft, zal hij die vinden in apparaten van professionele kwaliteit, die niet zo veel duurder zijn - ze zijn gewoon verstandig gemaakt.

Laten we terugkeren naar dithering - laten we kijken hoe we het dynamische bereik op nuttige wijze kunnen vergroten tot voorbij 16 bits.

Het idee van dithering is om in het signaal te mengen lawaai. Hoe vreemd het ook mag klinken, om ruis en onaangename kwantiseringseffecten te verminderen, hebben we toevoegen jouw lawaai. Laten we naar een voorbeeld kijken - laten we profiteren van de mogelijkheid van CoolEdit om in 32 bits te werken. 32 bits is 65 duizend keer nauwkeuriger dan 16 bits, dus in ons geval kan 32-bits audio als een analoog origineel worden beschouwd, en het omzetten ervan naar 16 bits kan als digitalisering worden beschouwd. Laat het hoogste geluidsniveau in het originele 32-bits geluid overeenkomen met minus 110 decibel. Dit is veel stiller dan het dynamisch bereik van 16-bit audio, waarbij het zwakste hoorbare geluid overeenkomt met een niveau van min 90 decibel. Als we de gegevens eenvoudigweg afronden op 16 bits, krijgen we volledige digitale stilte.

Laten we “witte” ruis aan het signaal toevoegen (d.w.z. breedbandig en uniform over de gehele frequentieband) met een niveau van min 90 decibel, wat qua niveau ongeveer overeenkomt met kwantiseringsruis. Als we dit mengsel van signaal en "witte" ruis nu omzetten in 16 bits (alleen gehele waarden zijn mogelijk - 0, 1, -1, ...), blijkt dat een deel van het signaal overblijft. Waar het oorspronkelijke signaal een hoger niveau had, zijn er meer, waar een lager niveau was, zijn er nullen.

Om de bovenstaande methode experimenteel te testen, kunt u de Cool Edit-geluidseditor gebruiken (of een andere die het 32-bits formaat ondersteunt). Om te horen wat je krijgt, moet je het signaal met 14 bits (78 dB) versterken.

Het resultaat is een luidruchtige 16-bits audio met het originele signaal, dat een niveau had van min 110 decibel. In principe is dit de standaardmanier om het dynamisch bereik uit te breiden, wat vaak bijna vanzelf gebeurt: er is overal voldoende ruis. Dit is op zichzelf echter volkomen zinloos - het niveau van de bemonsteringsruis blijft op hetzelfde niveau, en het verzenden van een signaal dat zwakker is dan de ruis is logisch gezien niet erg duidelijk... (Een zeer onjuiste mening, aangezien het verzenden van een signaal signaal met een niveau dat lager is dan het niveauruis is een van de fundamentele methoden voor gegevenscodering.

Een complexere manier - gevormde dithering, is dat, aangezien we nog steeds geen hoge frequenties horen in zeer zachte geluiden, dit betekent dat het belangrijkste geluidsvermogen op deze frequenties moet worden gericht, en dat je zelfs ruis op een hoger niveau kunt gebruiken - ik gebruik een niveau van 4 cijfers van lage orde (twee bits in een 16-bits signaal). Het resulterende mengsel van 32-bits signaal en ruis zetten we om in een 16-bits signaal, filteren hoge frequenties (die voor mensen eigenlijk niet op het gehoor waarneembaar zijn) eruit en verhogen het signaalniveau zodat we het resultaat kunnen evalueren.

Dit is (voor een extreem laag volume) al een behoorlijk goede geluidsoverdracht; het geluid is qua kracht ongeveer gelijk aan het geluid zelf met een beginniveau van min 110 decibel! Belangrijke opmerking: wij gepromoot echte bemonsteringsruis van de helft van het minst significante cijfer (-93 dB) tot vier minst significante cijfers (-84 dB), verlagen hoorbare bemonsteringsruis van -93 dB tot ongeveer -110 dB. Signaal - ruis verhouding verergerd, maar het geluid ging naar het hoogfrequente gebied en was niet langer hoorbaar, wat gaf aanzienlijke verbetering in werkelijkheid(door mensen waargenomen) signaal-ruisverhouding.

(Met andere woorden, aangezien het ruisvermogen als het ware over het frequentiebereik wordt ‘verspreid’, zonder door de hogere frequenties te gaan, ontnemen we er een deel van het vermogen aan, waardoor het signaal naar -ruisverhouding verbetert de temporele weergave van signalen. - Ca.)

In de praktijk is dit al het ruisniveau van het samplen van 20-bits audio. De enige voorwaarde voor deze technologie is de aanwezigheid van frequenties voor geluid. 44,1 kHz geluid maakt het mogelijk om ruis te plaatsen op frequenties die onhoorbaar zijn bij lage volumes van 10-20 kHz. Maar als je digitaliseert op 96 kHz, zal het frequentiegebied voor ruis (onhoorbaar voor mensen) zo groot zijn dat bij gebruik van Shaped Dithering 16 bits Echt veranderen in alle 24.

[Opmerking: PC Speaker is een één-bits apparaat, maar met een vrij hoge maximale bemonsteringssnelheid (die deze enkele bit in-/uitschakelt). Met behulp van een proces dat in essentie lijkt op dithering, nogal pulsbreedtemodulatie genoemd, werd er digitaal geluid van redelijk hoge kwaliteit op afgespeeld - 5-8 laagfrequente bits werden uit één bit geëxtraheerd en een hoge bemonsteringsfrequentie, en de hoogfrequente bits ruisfilter was het onvermogen van de apparatuur om zulke hoge frequenties te reproduceren, evenals ons onvermogen om ze te horen. Een licht hoogfrequent gefluit – het hoorbare deel van dit geluid – was echter wel hoorbaar.]

Met Shaped Dithering kunt u de toch al lage bemonsteringsruis van 16-bits audio aanzienlijk verminderen, waardoor u het nuttige (stille) dynamische bereik stilletjes kunt uitbreiden met alle gebied van het menselijk gehoor. Omdat nu gevormde dithering altijd wordt gebruikt bij het converteren van een werkformaat van 32 bits naar de laatste 16 bits voor een CD, zijn onze 16 bits ruim voldoende om het geluidsbeeld volledig over te brengen.

Opgemerkt moet worden dat deze technologie alleen werkt in de fase van het voorbereiden van materiaal voor reproductie. Bij het verwerken van audio van hoge kwaliteit, eenvoudig nodig blijven in 32 bits om geen dithering toe te passen na elke bewerking, waardoor de resultaten beter teruggecodeerd kunnen worden naar 16 bits. Maar als het geluidsniveau van het fonogram meer dan min 60 decibel bedraagt, kun je zonder enig geweten alle verwerking in 16 bits uitvoeren. Tussenliggende dithering zorgt ervoor dat er geen afrondingsvervormingen optreden en dat er geen ruis ontstaat honderden keren zwakker dan wat al bestaat en daarom volkomen onverschillig.

Q:
Waarom zeggen ze dat 32-bits geluid beter is dan 16-bits geluid?
A1: Ze hebben het mis.
A2: [Ze bedoelen iets anders: bij het verwerken of opnemen van geluid nodig hebben gebruik een hogere resolutie. Zij profiteren hiervan Altijd. Maar bij audio is, net als bij het eindproduct, een resolutie van meer dan 16 bits niet vereist.]
Q: Heeft het zin om de bemonsteringsfrequentie te verhogen (bijvoorbeeld naar 48 kHz of naar 96)?
A1: Heeft het niet. Bij elke competente benadering van het ontwerpen van een DAC wordt 44 kHz uitgezonden alle vereiste frequentiebereik.
A2: [Ze bedoelen iets anders: het is logisch, maar alleen bij het verwerken of opnemen van geluid.]
Q: Waarom is de introductie van hogere frequenties en bitsnelheden nog steeds aan de gang?
A1: Het is belangrijk dat er vooruitgang wordt geboekt. Waar en waarom is niet meer zo belangrijk...
A2: Veel processen verlopen in dit geval gemakkelijker. Als het apparaat bijvoorbeeld geluid gaat verwerken, zal het gemakkelijker zijn om dit in 96 kHz / 32 bits te doen. Bijna alle DSP's gebruiken 32 bits voor audioverwerking, en de mogelijkheid om conversies te vergeten maakt de ontwikkeling eenvoudiger en toch een kleine kwaliteitsverbetering. En in het algemeen - geluid voor verdere verwerking Het heeft Het is zinvol om het in een hogere resolutie dan 16 bits op te slaan. Voor hi-end apparaten die alleen geluid weergeven is dit het geval absoluut onverschillig.
Q: Zijn 32x, 24x of zelfs 18-bit DAC's beter dan 16-bit?
A: In het algemeen - Nee. De kwaliteit van de conversie is helemaal niet afhankelijk van de bitdiepte. De AC"97-codec (een moderne geluidskaart van minder dan $ 50) gebruikt een 18-bits codec, en kaarten van $ 500, waarvan het geluid niet eens met deze onzin te vergelijken is, gebruiken een 16-bits codec. Voor het afspelen van 16-bits audio maakt dit absoluut geen verschil.
Het is ook de moeite waard om in gedachten te houden dat de meeste DAC's doorgaans minder bits produceren dan ze opnemen. Het werkelijke geluidsniveau van een typische goedkope codec is bijvoorbeeld -90 dB, wat 15 bits is, en zelfs als het zelf 24 bits is – je krijgt geen rendement uit de ‘extra’ 9 bits – het resultaat van hun werk, zelfs als dat er al was, zal verdrinken in hetzelfde eigen lawaai. De meeste goedkope apparaten zijn eenvoudig buiten beschouwing gelaten extra bits - ze worden simpelweg niet echt in rekening gebracht in hun geluidssyntheseproces, hoewel ze naar de digitale ingang van de DAC gaan.
Q: Hoe zit het met opnemen?
A: Voor opnames is het beter om een ​​ADC met een hogere capaciteit te hebben. Nogmaals, meer echt beetje diepte. De bitdiepte van de DAC moet overeenkomen met het ruisniveau van de originele soundtrack, of simpelweg voldoende zijn om het gewenste lage niveau te bereiken lawaai.
Het is ook handig om een ​​beetje diepte te hebben met een marge, zodat u het grotere dynamische bereik kunt gebruiken voor een minder nauwkeurige aanpassing van het opnameniveau. Maar onthoud: je moet altijd slaan echt codec-bereik. In werkelijkheid is een 32-bits ADC bijvoorbeeld bijna volledig zinloos, aangezien de laagste tien bits gewoon continu geluid zullen maken - Dus eenvoudigweg weinig ruis (minder dan -200 dB). kan niet zijn in een analoge muziekbron.

Het heeft geen zin om een ​​hogere bitdiepte of bemonsteringsfrequentie van geluid te eisen in vergelijking met CD, of een betere kwaliteit. 16 bit / 44 kHz, tot het uiterste gedreven met gevormde dithering, is behoorlijk capabel geheel informatie doorgeven die voor ons van belang is, als het niet om een ​​goed verwerkingsproces gaat. Verspil geen ruimte aan onnodige gegevens in afgewerkt materiaal, net zoals je geen betere geluidskwaliteit mag verwachten van DVD-Audio met zijn 96 kHz / 24-bit. Met de juiste aanpak bij het creëren van geluid in een standaard cd-formaat, zullen we die kwaliteit bereiken heeft het gewoon niet nodig in verdere verbetering, en de verantwoordelijkheid voor de juiste geluidsopname van de uiteindelijke gegevens wordt al lang overgenomen door de ontwikkelde algoritmen en mensen die weten hoe ze correct moeten worden gebruikt. De laatste jaren zul je geen nieuwe schijf meer vinden zonder Shaped Dithering en andere technieken om de geluidskwaliteit tot het uiterste te drijven. Ja, het zal handiger zijn voor lui of gewoon krom om kant-en-klaar materiaal in 32 bits en 96 kHz aan te bieden, maar is het in theorie meerdere malen meer audiogegevens waard?

Audio-cd's worden langzamerhand geschiedenis. Nee, ze worden natuurlijk nog steeds in winkels verkocht, maar steeds minder mensen luisteren ernaar en kopen ze. Velen zien hier eenvoudigweg het nut niet van in, want zelfs als we kijken naar de legale manier om audiobestanden te verkrijgen, kost één nummer in MP3-formaat in een online muziekwinkel veel minder dan één nummer opgenomen op een audioschijf. Een redelijke vraag rijst: waarom meer betalen?

Natuurlijk is de geluidskwaliteit van een audio-cd veel hoger dan die van welk audiobestand dan ook waarvan de gegevens zijn gecomprimeerd, maar voor de verrassende meerderheid van de mensen is dit verschil niet van cruciaal belang. Wat is daar! Tegenwoordig denken zelfs de grootste audiofielen erover om hun audio-cd-collectie om te zetten naar audiobestanden, omdat er misschien een tijd komt dat de vraag naar schijven zo laag zal zijn dat audio-cd-spelers simpelweg niet meer geproduceerd zullen worden.

In dit artikel zullen we enkele programma's bekijken waarmee u gegevens van audio-cd's kunt overnemen en deze naar mp3 en andere formaten kunt converteren. Maar eerst een beetje theorie.

Audiocompressie en populaire audioformaten

Bij datacompressie gaat het om de analyse en vereenvoudiging van opgenomen informatie, waardoor er meer audiodata op een lasermedium kunnen worden vastgelegd dan bij het opnemen van een audio-cd mogelijk is.

Om duidelijker te maken wat datacompressie is, stel je voor dat je de inhoud van een vel papier waarop de letter A staat duizend keer via de telefoon aan je vriend moet vertellen. U kunt eenvoudigweg duizend keer “A” hardop zeggen en uw gesprekspartner zal weten wat er op het vel staat. Aan de andere kant kun je eerst tellen hoe vaak deze brief is geschreven, en dan tegen je vriend zeggen dat de letter “A” duizend keer op het vel papier is geschreven. Het resultaat zal hetzelfde zijn: uw vriend zal de inhoud van het vel papier kennen, maar in het tweede geval kost het u veel minder tijd om de informatie over te dragen. Met andere woorden: u hebt datacompressie uitgevoerd door te analyseren hoe vaak een letter wordt herhaald.

Digitale audiocompressie volgt ongeveer hetzelfde scenario. Compressie van audiogegevens heeft echter een aantal kenmerken. Om bijvoorbeeld een bekende melodie te herkennen, volstaat het om deze in slechtere kwaliteit te spelen. Houd er rekening mee dat veel mensen totaal verschillende dingen bedoelen met het concept van "geluid van hoge kwaliteit". Als een muziekopname bijvoorbeeld pijn doet aan de oren van een muzikant omdat de snaar niet in een strikt gedefinieerde toonsoort is aangeslagen, kan de gemiddelde persoon veel ernstiger tekortkomingen verdragen.

Deze eigenschap van menselijke geluidsperceptie heeft geleid tot de creatie van nieuwe audioformaten die gebruik maken van een lossy audiocompressiemodel. De verslechtering van het geluid is voor de meeste muziekliefhebbers niet van cruciaal belang, en in sommige gevallen is de kwaliteit helemaal niet belangrijk, bijvoorbeeld tijdens stiltepauzes, wanneer audiogegevens geen waarde hebben of bij frequenties die het menselijk oor niet kan waarnemen. .

Er zijn een groot aantal digitale audio-opnameformaten. Hun verschil is dat ze verschillende compressie-algoritmen gebruiken. De meest populaire formaten van vandaag zijn:

  • WMA (Windows Media Audio) is een formaat ontwikkeld door Microsoft Corporation. Dit formaat is gemaakt op basis van het populaire VQF-formaat in het verleden, dat tegenwoordig bijna vergeten is.
  • OGG Vorbis is een gratis en open source-formaat. Onlangs is het zo populair geworden dat het wordt ondersteund door de fabrikanten van sommige draagbare spelers.
  • MP3 (MPEG Layer III) is het meest populaire formaat en bekleedt al jaren een leidende positie.

Kenmerken van het MP3-formaat

De algemene naam MP3 is een afkorting voor MPEG Layer III. MPEG staat op zijn beurt voor Moving Picture Coding Experts Group. Het MP3-formaat is begin jaren 90 van de vorige eeuw ontwikkeld door het Duitse Fraunhofer Instituut. Het formaat werd echt populair nadat Thomson erin geïnteresseerd raakte.

Dankzij het compressie-algoritme dat gebruik maakt van het MP3-formaat kunnen audiogegevens tien tot twaalf keer worden gecomprimeerd zonder merkbaar kwaliteitsverlies. De hoge compressieverhouding wordt bereikt doordat MP3 gebruik maakt van de kenmerken van het menselijk gehoor. Het menselijk oor neemt geluid waar binnen het bereik van 20 Hz tot 20 kHz, dus alle geluiden die niet binnen dit bereik vallen, worden eenvoudigweg afgewezen. Hierdoor wordt de hoeveelheid data aanzienlijk verminderd.

Een ander kenmerk van MP3 waarmee u een kleiner audiobestand kunt verkrijgen, heeft te maken met stereogeluid en, nogmaals, met de kenmerken van het menselijk gehoor. Als we naar muziek luisteren die in stereo is opgenomen, horen we het grootste verschil in de middenfrequenties. Dankzij deze functie kan een compressie-algoritme worden toegepast op de audiocodering, waardoor voor elk kanaal afzonderlijk alleen het frequentiespectrum wordt gecodeerd waarin het verschil tussen de kanalen het meest hoorbaar is. En het geluid op die frequenties van stereokanalen waarbij het verschil minder merkbaar is, wordt gecombineerd en gecodeerd in monomodus. Deze gecombineerde stereosignaalcoderingsmodus wordt Joint Stereo genoemd.

Digitale audiospecificaties

Bij het comprimeren van audiogegevens wordt het noodzakelijk om de kwaliteit van de gedigitaliseerde audio te controleren. Als u bijvoorbeeld een audioboek moet digitaliseren, is hoge kwaliteit in dit geval niet nodig. Het belangrijkste is dat je de woorden kunt onderscheiden. Als een muziekstuk wordt gedigitaliseerd, is kwaliteit van groot belang.
Ongeacht welk algoritme voor audiocompressie wordt gebruikt, de parameters die de geluidskwaliteit kenmerken, zijn dezelfde.

Een van de belangrijkste kenmerken van digitaal geluid is bitsnelheid. Bitrate is de coderings-/decoderingssnelheid van een digitale audiostream. Hoe hoger de waarde, hoe beter de geluidskwaliteit en hoe groter de bestandsgrootte. Het moet gezegd worden dat bitrate een relatieve waarde is. Bestanden die zijn gemaakt met verschillende compressie-algoritmen en dezelfde bitsnelheid hebben, zullen in kwaliteit verschillen.

Coderen kan met een constante of variabele bitrate. De coderingsmethode met variabele bitsnelheid maakt het mogelijk om de kwaliteit van het audiosignaal direct, dat wil zeggen tijdens het afspelen, te wijzigen. Als het programma vaststelt dat het te maken heeft met een complexe geluidsstroom (bijvoorbeeld de geluiden van een symfonieorkest), neemt de kwaliteit toe, maar als het geluid eenvoudig is (bijvoorbeeld als er een pauze is tussen de nummers), neemt de kwaliteit af. gaat automatisch achteruit. Hierdoor wordt de bestandsgrootte kleiner.

Geluidscodering vindt plaats met een bepaalde bemonsteringssnelheid. Tijdens het verwerkingsproces wordt het audiosignaal opgedeeld in een groot aantal delen (samples), die elk worden verwerkt door een compressie-algoritme. De nauwkeurigheid van de signaalverwerking wordt bepaald door de bemonsteringsfrequentie, die wordt gemeten in kilohertz. Afhankelijk van het aantal samples per tijdseenheid wordt een geluidskarakteristiek zoals bitdiepte onderscheiden. Het is niet moeilijk te raden dat hoe meer samples worden verwerkt, hoe hoger de geluidskwaliteit.

Er wordt dubbele bemonstering toegepast op het audiosignaal dat de analoog-digitaalomzetter (geluidskaart) binnenkomt - in amplitude en in tijd.
Om de signaalvorm wiskundig te beschrijven, wordt de stelling van Kotelnikov gebruikt, volgens welke elk continu proces met een beperkt spectrum kan worden weergegeven door een discrete reeks van zijn momentane waarden. De frequentie van een dergelijke reeks moet minimaal tweemaal de frequentie van de hoogste harmonische van het proces zijn. De frequentie waarmee momentane waarden (samples) van een signaal worden bemonsterd, wordt de bemonsteringsfrequentie genoemd.

Elke afwijking in de vorm van het signaal dat aankomt bij de ingang van de geluidskaart van de juiste sinusoïde vorm leidt ertoe dat het spectrum de natuurlijke frequentie van het signaal overschrijdt. Daarom worden, wanneer een audiosignaal in de tijd wordt bemonsterd, de frequenties van de binnenkomende puls beperkt tot minder dan de helft van de bemonsteringsfrequentie, of wordt een spectrum met een overmatige frequentie genomen. Omdat het menselijk oor geluidstrillingen met een frequentie tot 20 kHz kan onderscheiden, blijkt dat de bemonsteringsfrequentie van elk audiosignaal minimaal 40 kHz moet zijn. Daarom kun je in de praktijk audioapparaten vinden met bemonsteringsfrequenties van 44,1 kHz, 48 kHz en 96 kHz.

Voor amplitudebemonstering van audio, bijvoorbeeld op een laserschijf, wordt kwantiseringsniveau 2 tot de zestiende macht (65536) gebruikt. Voor het weergeven van getallen van 0 tot 2^16 zijn 16 bits aan informatie nodig, dus het is handiger om de term 16-bits signaalbreedte te gebruiken. De audiodiepte hangt af van het dynamische bereik van het ingangssignaal en de aanvaardbare kwantiseringsruis.

Amplitude- en tijdkwantisering veroorzaakt geluidsvervormingen over de gehele frequentieband, waaraan ruis en interferentie van het geluidspad van de geluidskaart wordt toegevoegd.

Een ander belangrijk kenmerk van digitaal geluid is stereogeluid. Als het geluid dus in stereo wordt opgenomen in plaats van in mono, verdubbelt de hoeveelheid audiogegevens en neemt de grootte van het uitvoerbestand dienovereenkomstig toe.

Muziek rippen van audio-cd's met Windows MediaSpeler

De mogelijkheid om audiogegevens te kopiëren is al ingebouwd in WindowsXP. Om audiogegevens te kopiëren met Windows Media Player, plaatst u een audioschijf in uw schijfstation, start u de speler en klikt u op de knop 'Kopiëren van schijf' bovenaan het programmavenster. In het spelervenster wordt de inhoud van uw audiomedia weergegeven als afzonderlijke nummers. Naast elk daarvan staat een selectievakje. Dit betekent dat alle nummers worden gekopieerd. Als u een bepaald nummer niet wilt kopiëren, schakelt u het selectievakje naast de naam uit.

Standaard hebben de programma-instellingen geen erg hoge kwaliteit van audiogegevenscompressie, dus als je een fan bent van geluid van hoge kwaliteit, moet je de bitsnelheid van het gemaakte bestand wijzigen. Om dit te doen, voert u de opdracht "Extra>Opties" uit en gaat u in het geopende venster naar het tabblad "Muziek kopiëren van cd". De bitsnelheidwaarde wordt ingesteld met de schuifregelaar "Geluidskwaliteit", en de meest rechtse positie komt overeen met de maximale uitvoerbestandsgrootte en daarmee het beste geluid.

Een van de kenmerken van de standaardspeler is de mogelijkheid om audiobestanden te beschermen tegen weergave op een andere computer. Als u wilt dat de WMA-bestanden die door het programma zijn gemaakt alleen op deze computer worden afgespeeld, zorg er dan voor dat de optie "Kopieerbeveiligde muziek" is aangevinkt.

Om het kopiëren te starten, klikt u op de knop 'Muziek kopiëren van cd' bovenaan het programmavenster. Er verschijnt een venster op het scherm waarin u de inhoudsbeveiliging kunt in- of uitschakelen door het juiste vakje aan te vinken. Voordat u begint met kopiëren, kunt u indien nodig ook de kopieerinstellingen wijzigen.

Het compressieproces kan worden gevolgd in de kolom "CD Copy Status". Zodra het overbrengen van de track naar de harde schijf is voltooid, verschijnt het bericht 'Copied to the Library' naast de gekopieerde song.

Ondanks het schijnbare gemak van de beschouwde methode voor het kopiëren van audiogegevens, is het in veel gevallen onhandig om te gebruiken. Ten eerste wordt het WMA-formaat niet door alle draagbare MP3-apparaten ondersteund, en ten tweede kost het coderen naar dit formaat meer tijd vergeleken met andere formaten. Ten slotte is er bij gebruik van Windows Media Player geen flexibele controle over de compressie-instellingen.

Kortom, als u een MP3-speler heeft aangeschaft en van plan bent uw digitale muziekbibliotheek regelmatig aan te vullen door gegevens van audioschijven te kopiëren, moet u ervoor zorgen dat u een hoogwaardige en multifunctionele audio-encoder bij de hand heeft. We zullen enkele van deze programma's bekijken in het tweede deel van het artikel.

Welke parameters bepalen de kwaliteit van digitaal geluid?

  • Geluidsinformatie. Geluid is een golf die zich voortplant in lucht, water of een ander medium met voortdurend veranderende intensiteit en frequentie.

    Een persoon neemt geluidsgolven (luchttrillingen) waar met behulp van het gehoor in de vorm van geluid met verschillende volumes en tonen. Hoe groter de intensiteit van de geluidsgolf, hoe luider het geluid; hoe hoger de frequentie van de golf, hoe hoger de toon van het geluid (Fig. 1.1).

    Rijst. 1.1. Afhankelijkheid van het volume en de toonhoogte van het geluid van de intensiteit en frequentie van de geluidsgolf

    Het menselijk oor neemt geluid waar met frequenties variërend van 20 trillingen per seconde (laag geluid) tot 20.000 trillingen per seconde (hoog geluid).

    Een persoon kan geluid waarnemen in een enorm bereik aan intensiteiten, waarbij de maximale intensiteit 1014 keer groter is dan de minimum (honderdduizend miljard keer). Om het geluidsvolume te meten wordt een speciale eenheid “decibel” (dbl) gebruikt (Tabel 5.1). Een afname of toename van het geluidsvolume met 10 dbl komt overeen met een afname of toename van de geluidsintensiteit met 10 keer.

    Tabel 5.1. Geluidsvolume
    Geluidsvolume in decibel
    De ondergrens van de gevoeligheid van het menselijk oor is 0
    geritsel van bladeren 10
    Gesprek 60
    Autoclaxon 90
    Straalmotor 120
    Pijngrens 140
    Tijdsampling van geluid. Om ervoor te zorgen dat een computer geluid kan verwerken, moet het continue audiosignaal worden omgezet in digitale discrete vorm met behulp van tijdsampling. Een continue geluidsgolf wordt verdeeld in afzonderlijke kleine tijdelijke secties, en voor elk van deze secties wordt een bepaalde waarde voor de geluidsintensiteit ingesteld.

    De continue afhankelijkheid van het geluidsvolume van de tijd A(t) wordt dus vervangen door een discrete reeks luidheidsniveaus. In de grafiek lijkt dit op het vervangen van een vloeiende curve door een reeks “stappen” (Fig. 1.2).

    Rijst. 1.2. Tijdsampling van audio

    Bemonsteringsfrequentie. Een microfoon die op de geluidskaart is aangesloten, wordt gebruikt om analoge audio op te nemen en naar digitale vorm te converteren. De kwaliteit van het resulterende digitale geluid hangt af van het aantal metingen van het geluidsvolumeniveau per tijdseenheid, d.w.z. de bemonsteringsfrequentie. Hoe meer metingen er per seconde worden gedaan (hoe hoger de bemonsteringsfrequentie), hoe nauwkeuriger de “ladder” van het digitale audiosignaal de curve van het dialoogsignaal volgt.

    De audiobemonsteringsfrequentie is het aantal geluidsvolumemetingen dat in één seconde wordt uitgevoerd.

    Audiobemonsteringsfrequenties kunnen variëren van 8.000 tot 48.000 geluidsvolumemetingen per seconde.

    Diepte van audiocodering. Aan elke “stap” wordt een specifiek geluidsvolumeniveau toegewezen. Geluidsniveaus kunnen worden beschouwd als een reeks mogelijke toestanden N, waarvan de codering een bepaalde hoeveelheid informatie I vereist, die de geluidscoderingsdiepte wordt genoemd.

    De audiocoderingsdiepte is de hoeveelheid informatie die nodig is om afzonderlijke volumeniveaus van digitale audio te coderen.

    Als de coderingsdiepte bekend is, kan het aantal digitale geluidsvolumeniveaus worden berekend met behulp van de formule N = 2I. Stel dat de audiocoderingsdiepte 16 bits is, dan is het aantal audiovolumeniveaus gelijk aan:

    N = 2I = 216 = 65.536.

    Tijdens het coderingsproces wordt aan elk geluidsvolumeniveau een eigen 16-bits binaire code toegewezen; het laagste geluidsniveau komt overeen met de code 0000000000000000, en het hoogste - 1111111111111111.

    Gedigitaliseerde geluidskwaliteit. Hoe hoger de frequentie en bemonsteringsdiepte van het geluid, hoe hoger de kwaliteit van het gedigitaliseerde geluid. De laagste kwaliteit van gedigitaliseerd geluid, overeenkomend met de kwaliteit van telefooncommunicatie, wordt verkregen met een bemonsteringssnelheid van 8000 keer per seconde, een bemonsteringsdiepte van 8 bits en opname van één audiospoor (monomodus). De hoogste gedigitaliseerde geluidskwaliteit, overeenkomend met de kwaliteit van audio-cd's, wordt bereikt met een samplingsnelheid van 48.000 keer per seconde, een samplingdiepte van 16 bits en opname van twee audiotracks (stereomodus).

    Houd er rekening mee dat hoe hoger de kwaliteit van het digitale geluid, hoe groter het informatievolume van het geluidsbestand. Van een digitaal stereo-audiobestand met een geluidsduur van 1 seconde kunt u bij gemiddelde geluidskwaliteit (16 bits, 24.000 metingen per seconde) het informatievolume schatten. Hiervoor moet de coderingsdiepte worden vermenigvuldigd met het aantal metingen in 1 seconde en vermenigvuldigd met 2 (stereogeluid):

    16 bits 24.000 2 = 768.000 bits = 96.000 bytes = 93,75 KB.

    Geluidseditors. Met geluidseditors kunt u niet alleen geluid opnemen en afspelen, maar ook bewerken. Gedigitaliseerd geluid wordt in geluidseditors in visuele vorm gepresenteerd, zodat het kopiëren, verplaatsen en verwijderen van delen van de audiotrack eenvoudig met de muis kan worden uitgevoerd. Bovendien kunt u audiotracks over elkaar heen leggen (geluiden mixen) en verschillende akoestische effecten toepassen (echo, achteruit afspelen, enz.).

Wat zal de kwaliteit van gedigitaliseerd geluid bepalen?

    Voor de kwaliteit van digitaal geluid zijn twee dingen essentieel: de kwaliteit van de originele soundtrack en de kwaliteit van de analoog-digitaal-omzetter.

    Wat de kwaliteit van de originele soundtrack betreft, is alles ongeveer duidelijk. Als het gebogen is (met vervormingen) of ruis bevat, zal geen enkele vorm van digitalisering het verbeteren. Dat wil zeggen, het is mogelijk om via verschillende verwerkingen, waaronder digitale, een nuttig signaal te isoleren, dat wordt gebruikt bij het isoleren van spraak tegen de achtergrond van externe ruis of bij het isoleren van een regulier signaal tegen de achtergrond van willekeurige ruis (iedereen heeft heb films over spins bekeken, toch?), maar als we het hebben over een muzikaal fonogram, dat wil zeggen een fonogram met een breed spectrum, dan zullen allerlei trucs niet helpen.

    We gaan er dus van uit dat het fonogram van hoge kwaliteit is.

    Dan blijft alleen nog de ADC over.

    De belangrijkste indicator hier is de coderingsbitdiepte. Het is duidelijk dat hoe groter hij is, hoe beter, maar aan de andere kant hoe complexer en duurder zo'n converter is. Aan het begin van de digitale technologie (wat nog niet zo lang geleden was...) werd een 16-bits eindplaat gezien als optimaal in termen van prijs-kwaliteitverhouding. Bij een lagere bitdiepte heeft het dynamisch bereik van een digitale kopie van een fonogram te lijden - geluiden op laag niveau (pianissimo) vertegenwoordigen slechts een klein deel van alle bits, wat betekent dat de stapsgewijze aard van de signaalverandering merkbaar wordt. En laagdoorlaatfiltering zal hier niet veel helpen (vermeldingen van de stelling van Kotelnikov zijn welkom, maar we moeten niet vergeten dat het stilzwijgend aanneemt perfect analoog-naar-digitaal-conversie, dat wil zeggen met een oneindig grote bitdiepte). Omdat elke verwerking, zelfs in digitale vorm, de effectieve bitdiepte alleen maar kan verkleinen, werd en wordt de digitalisering in studio's tot op de dag van vandaag met een groter aantal bits uitgevoerd.

    Tegenwoordig is het niet langer ongebruikelijk dat digitale fonogrammen worden voorbereid met een bitdiepte van 24 bit (super-audio-cd, audio-dvd). Met zo'n beetje diepgang zal het mogelijk zijn om het dynamische bereik van elk muziekwerk volledig over te brengen, zelfs Ravels Bolero, die begint met een nauwelijks hoorbaar deel van snaredrums en fortissimo eindigt met het hele orkest.

    Alsjeblieft. Naast de bitdiepte zijn ook andere ADC-parameters belangrijk, voornamelijk niet-lineariteit en ruis. Vooral geluiden. Omdat ze de effectieve bitcapaciteit van de converter beperken. Wat is het nut van deze 24 bits als de laatste 8 luidruchtig zijn en daarom geen bruikbare informatie bevatten... Het ruisniveau van moderne 24-bit ADC's kan -115 dB bereiken bij bemonsteringsfrequenties boven 100 kHz, dit is al behoorlijk behoorlijk, en de differentiële niet-lineariteit wordt gemeten op tienduizendsten van een procent. Dat wil zeggen dat dergelijke oplossingen gemakkelijk de mogelijkheden van het menselijk oor overschrijden.

  • Het zal afhangen van drie hoofdparameters:

    1. Bemonsteringssnelheid. Het beperkt de bandbreedte van de verzonden frequenties: de maximale frequentie van het verzonden signaal ligt onder de helft van de bemonsteringsfrequentie. Bij telefonie wordt meestal een bemonsteringsfrequentie van 8 kHz gebruikt, wat een theoretische band oplevert die iets smaller is dan 4 kHz (in de praktijk wordt een band van 300-3000 Hz gebruikt). En de CD-standaard gebruikt een frequentie van 44,1 kHz, waardoor het spectrum van 20 Hz - 20 kHz volledig kan worden uitgezonden. Het verhogen van de bemonsteringssnelheid boven deze waarden heeft geen zin in termen van het bereik van de uitgezonden frequenties, maar vermindert het niveau van intermodulatievervorming. In de DVD Audio-standaard is de maximale bemonsteringsfrequentie 192 kHz; sommige goede geluidskaarten voor computers ondersteunen deze bemonsteringsfrequentie ook (de bandbreedte van de afspeel- en opnamefrequenties verschilt van model tot model). Andere standaardwaarden zijn 96, 48, 32, 22,05, 11,025 kHz.
    2. Coderingsbitdiepte. Het dynamische bereik hangt ervan af - bij lineaire codering is het verschil tussen de volledige swing en de minimale stap 256 keer voor 8 bits en 65536 keer voor 16 bits, wat respectievelijk 48 en 96 dB is. 48 dB is eerlijk gezegd laag, dit is het niveau van het dynamisch bereik van een compactcassette, en bovendien ontstaan ​​er naast het smalle dynamische bereik onaangename vervormingen, vooral duidelijk hoorbaar op rustige plaatsen - een gevolg van de transformatie van een vloeiend signaal in een getrapte. Met een bitdiepte van 16 bit is de geluidskwaliteit al behoorlijk goed (deze bitdiepte wordt gebruikt door een CD), maar in veel echte gevallen niet ideaal - veel klassieke werken, maar ook zware muziek, vereisen een grotere DD. Systemen van hoge kwaliteit maken gebruik van 24-bits codering, hoewel het werkelijke aantal significante bits niet groter is dan 18-20. Het heeft geen zin om de bitdiepte verder te vergroten.
    3. Coderingsmethode. Er zitten twee kanten aan. De eerste is de steekproefschaal zelf. Het is meestal lineair, maar kan ook logaritmisch zijn. Dit geeft een toename van het dynamisch bereik met dezelfde bitdiepte, maar het vervormingsniveau is hoger dan bij hetzelfde dynamische bereik met een lineaire schaal en een hogere bitdiepte. De tweede is het gebruik van verschillende compressie-algoritmen met verlies. In verband met dit laatste verschijnt het concept van bitrate. Dit laatste is het aantal bits dat nodig is om één seconde audio te coderen. Uiteraard is de bitrate afhankelijk van de bemonsteringsfrequentie en bitdiepte, maar ook van de compressieverhouding. Compressie kan verliesgevend of verliesloos zijn. Lossless compressie is in wezen gewone archivering en heeft geen invloed op het geluid. En met verliezen, daarom zijn het verliezen. De encoder analyseert de audio-informatie en gooit de gegevens weg, geleid door psycho-akoestische overwegingen: het verlies van wat het minst hoorbaar zal zijn. Dat wil zeggen, een zwak geluid tegen de achtergrond van een sterk geluid, zwakke hoogfrequente geluiden tegen de achtergrond van sterke middenfrequente geluiden, enzovoort. Bij midden- en hoge frequenties kan fase-informatie worden weggegooid. Als gevolg hiervan is de hoorbare verslechtering van de opname, wanneer een opname 4,5 keer wordt gecomprimeerd met CD-kwaliteit (bitrate 320 kbps, mp3/Lame), zo onbeduidend dat het zonder goede apparatuur erg moeilijk is om het verschil te onderscheiden. En bij een bitrate van 128 is de verslechtering van de geluidskwaliteit al duidelijk en klinken veel opnames ronduit onaangenaam. Maar bij plastic speakers of speakers ingebouwd in de laptop hoor je dit verschil niet.

Heel vaak horen we definities als “digitaal” of “discreet” signaal; wat is het verschil met “analoog”?

De essentie van het verschil is dat het analoge signaal continu in de tijd is (blauwe lijn), terwijl het digitale signaal uit een beperkte set coördinaten bestaat (rode stippen). Als we alles terugbrengen tot coördinaten, bestaat elk segment van een analoog signaal uit een oneindig aantal coördinaten.

Bij een digitaal signaal bevinden de coördinaten langs de horizontale as zich op regelmatige afstanden, in overeenstemming met de bemonsteringsfrequentie. In het gangbare audio-cd-formaat is dit 44100 punten per seconde. De verticale nauwkeurigheid van de coördinaathoogte komt overeen met de bitdiepte van het digitale signaal; voor 8 bits zijn dit 256 niveaus, voor 16 bits = 65536 en voor 24 bits = 16777216 niveaus. Hoe hoger de bitdiepte (aantal niveaus), hoe dichter de verticale coördinaten bij de oorspronkelijke golf liggen.

Analoge bronnen zijn: vinyl en audiocassettes. Digitale bronnen zijn: CD-Audio, DVD-Audio, SA-CD (DSD) en bestanden in WAVE- en DSD-formaten (inclusief afgeleiden van APE, Flac, Mp3, Ogg, etc.).

Voor- en nadelen van analoog signaal

Het voordeel van een analoog signaal is dat we in analoge vorm geluid waarnemen met onze oren. En hoewel ons auditieve systeem de waargenomen geluidsstroom omzet in digitale vorm en deze in deze vorm doorgeeft aan de hersenen, hebben wetenschap en technologie nog niet het punt bereikt om spelers en andere geluidsbronnen rechtstreeks in deze vorm met elkaar te verbinden. Soortgelijk onderzoek wordt nu actief uitgevoerd voor mensen met een handicap, en we genieten uitsluitend van analoog geluid.

Het nadeel van een analoog signaal is de mogelijkheid om het signaal op te slaan, te verzenden en te repliceren. Bij het opnemen op magneetband of vinyl hangt de kwaliteit van het signaal af van de eigenschappen van de tape of het vinyl. Na verloop van tijd demagnetiseert de band en verslechtert de kwaliteit van het opgenomen signaal. Elke lezing vernietigt geleidelijk de media, en herschrijven introduceert extra vervorming, waarbij extra afwijkingen worden toegevoegd door de volgende media (tape of vinyl), lees-, schrijf- en signaaloverdrachtapparatuur.

Het maken van een kopie van een analoog signaal is hetzelfde als het kopiëren van een foto door er opnieuw een foto van te maken.

Voor- en nadelen van digitaal signaal

De voordelen van een digitaal signaal zijn onder meer de nauwkeurigheid bij het kopiëren en verzenden van een audiostream, waarbij het origineel niet verschilt van de kopie.

Het grootste nadeel is dat het digitale signaal een tussenfase is en dat de nauwkeurigheid van het uiteindelijke analoge signaal zal afhangen van hoe gedetailleerd en nauwkeurig de geluidsgolf wordt beschreven door coördinaten. Het is heel logisch dat hoe meer punten er zijn en hoe nauwkeuriger de coördinaten zijn, hoe nauwkeuriger de golf zal zijn. Maar er bestaat nog steeds geen consensus over het aantal coördinaten en de nauwkeurigheid van de gegevens die voldoende zijn om te zeggen dat de digitale representatie van het signaal voldoende is om het analoge signaal, dat voor onze oren niet van het origineel te onderscheiden is, nauwkeurig te herstellen.

In termen van datavolumes bedraagt ​​de capaciteit van een gewone analoge audiocassette slechts ongeveer 700-1,1 MB, terwijl een gewone CD 700 MB kan bevatten. Dit geeft een idee van de behoefte aan media met een hoge capaciteit. En dit geeft aanleiding tot een afzonderlijke compromisoorlog met verschillende eisen aan het aantal beschrijvende punten en de nauwkeurigheid van coördinaten.

Tegenwoordig wordt het als voldoende beschouwd om een ​​geluidsgolf weer te geven met een bemonsteringsfrequentie van 44,1 kHz en een bitdiepte van 16 bits. Bij een bemonsteringsfrequentie van 44,1 kHz is het mogelijk een signaal tot 22 kHz te reconstrueren. Zoals uit psycho-akoestische onderzoeken blijkt, is een verdere verhoging van de bemonsteringsfrequentie niet merkbaar, maar geeft een verhoging van de bitdiepte een subjectieve verbetering.

Hoe DAC's een golf opbouwen

Een DAC is een digitaal-naar-analoog-omzetter, een element dat digitaal geluid omzet in analoog. We zullen oppervlakkig kijken naar de basisprincipes. Als uit de commentaren blijkt dat er interesse is om een ​​aantal punten nader te beschouwen, zal er afzonderlijk materiaal worden vrijgegeven.

Multibit DAC's

Heel vaak wordt een golf weergegeven als stappen, wat te danken is aan de architectuur van de eerste generatie multi-bit R-2R DAC's, die op dezelfde manier werken als een relaisschakelaar.

De DAC-ingang ontvangt de waarde van de volgende verticale coördinaat en schakelt bij elke klokcyclus het huidige (spannings)niveau naar het juiste niveau tot de volgende verandering.

Hoewel aangenomen wordt dat het menselijk oor niet hoger dan 20 kHz kan horen, en het volgens de theorie van Nyquist mogelijk is om het signaal te herstellen naar 22 kHz, blijft de kwaliteit van dit signaal na herstel een vraag. In het hoogfrequente gebied wijkt de resulterende “stapsgewijze” golfvorm doorgaans ver af van de oorspronkelijke. De eenvoudigste uitweg uit deze situatie is het verhogen van de bemonsteringsfrequentie tijdens het opnemen, maar dit leidt tot een aanzienlijke en ongewenste toename van de bestandsgrootte.

Een alternatief is om de DAC-afspeelbemonsteringssnelheid kunstmatig te verhogen door tussenwaarden toe te voegen. Die. we stellen ons een ononderbroken golfpad voor (grijze stippellijn) dat de oorspronkelijke coördinaten (rode stippen) soepel verbindt en tussenpunten toevoegen aan deze lijn (donkerpaars).

Bij het verhogen van de bemonsteringsfrequentie is het meestal nodig om de bitdiepte te vergroten, zodat de coördinaten dichter bij de benaderde golf liggen.

Dankzij tussenliggende coördinaten is het mogelijk om de “stappen” te verkleinen en een golf op te bouwen die dichter bij het origineel ligt.

Wanneer u in een speler of externe DAC een boostfunctie ziet van 44,1 tot 192 kHz, is dit een functie van het toevoegen van tussenliggende coördinaten, en niet van het herstellen of creëren van geluid in het gebied boven de 20 kHz.

Aanvankelijk waren dit afzonderlijke SRC-chips vóór de DAC, die vervolgens rechtstreeks naar de DAC-chips zelf migreerden. Tegenwoordig kun je oplossingen vinden waarbij zo'n chip wordt toegevoegd aan moderne DAC's, dit wordt gedaan om een ​​alternatief te bieden voor de ingebouwde algoritmen in de DAC en soms nog beter geluid te krijgen (zoals dit bijvoorbeeld gebeurt in de Hidizs AP100).

De belangrijkste weigering in de industrie van multibit DAC's vond plaats vanwege de onmogelijkheid van verdere technologische ontwikkeling van kwaliteitsindicatoren met de huidige productietechnologieën en de hogere kosten in vergelijking met "pulse" DAC's met vergelijkbare kenmerken. Bij Hi-End-producten wordt echter vaak de voorkeur gegeven aan oude multi-bit DAC's boven nieuwe oplossingen met technisch betere eigenschappen.

DAC's schakelen

Aan het einde van de jaren zeventig raakte een alternatieve versie van DAC’s, gebaseerd op een ‘pulse’-architectuur – ‘delta-sigma’ – wijdverspreid. Pulse DAC-technologie maakte de opkomst van ultrasnelle schakelaars mogelijk en maakte het gebruik van hoge draaggolffrequenties mogelijk.

De signaalamplitude is de gemiddelde waarde van de pulsamplitudes (pulsen met gelijke amplitude worden groen weergegeven en de resulterende geluidsgolf wordt wit weergegeven).

Een reeks van acht cycli van vijf pulsen geeft bijvoorbeeld een gemiddelde amplitude (1+1+1+0+0+1+1+0)/8=0,625. Hoe hoger de draaggolffrequentie, hoe meer pulsen worden afgevlakt en hoe nauwkeuriger de amplitudewaarde wordt verkregen. Dit maakte het mogelijk om de audiostream in één-bit-vorm met een groot dynamisch bereik te presenteren.

Middeling kan worden gedaan met een gewoon analoog filter, en als een dergelijke reeks pulsen rechtstreeks op de luidspreker wordt toegepast, krijgen we aan de uitgang geluid en worden ultrahoge frequenties niet gereproduceerd vanwege de hoge traagheid van de zender. PWM-versterkers werken volgens dit principe in klasse D, waar de energiedichtheid van pulsen niet wordt gecreëerd door hun aantal, maar door de duur van elke puls (wat gemakkelijker te implementeren is, maar niet kan worden beschreven met een eenvoudige binaire code).

Een multibit DAC kan worden gezien als een printer die kleur kan toepassen met behulp van Pantone-inkten. Delta-Sigma is een inkjetprinter met een beperkt kleurenbereik, maar vanwege de mogelijkheid om zeer kleine stippen aan te brengen (vergeleken met een geweiprinter), produceert deze meer tinten vanwege de verschillende dichtheid van stippen per oppervlakte-eenheid.

In een afbeelding zien we vanwege de lage resolutie van het oog meestal geen individuele stippen, maar alleen de gemiddelde toon. Op dezelfde manier hoort het oor impulsen niet individueel.

Uiteindelijk is het met de huidige technologieën in gepulseerde DAC's mogelijk om een ​​golf te verkrijgen die dichtbij ligt wat theoretisch zou moeten worden verkregen bij het benaderen van tussenliggende coördinaten.

Opgemerkt moet worden dat na de komst van de delta-sigma DAC de relevantie van het stapsgewijs tekenen van een “digitale golf” verdween, omdat Dit is hoe moderne DAC's een golf niet stapsgewijs opbouwen. Het is juist om een ​​discreet signaal te construeren met punten verbonden door een vloeiende lijn.

Zijn schakelende DAC's ideaal?

Maar in de praktijk is niet alles rooskleurig en zijn er een aantal problemen en beperkingen.

Omdat Omdat het overweldigende aantal records wordt opgeslagen in een multi-bit signaal, vereist de conversie naar een pulssignaal volgens het “bit-naar-bit”-principe een onnodig hoge draaggolffrequentie, die moderne DAC's niet ondersteunen.

De belangrijkste functie van moderne puls-DAC's is het omzetten van een meerbitssignaal in een enkelbitssignaal met een relatief lage draaggolffrequentie met datadecimering. Kortom, het zijn deze algoritmen die de uiteindelijke geluidskwaliteit van puls-DAC's bepalen.

Om het probleem van de hoge draaggolffrequentie te verminderen, wordt de audiostroom verdeeld in verschillende stromen van één bit, waarbij elke stroom verantwoordelijk is voor zijn bitgroep, wat equivalent is aan een veelvoud van de draaggolffrequentie van het aantal stromen. Dergelijke DAC's worden multibit delta-sigma genoemd.

Tegenwoordig hebben gepulseerde DAC's een tweede wind gekregen in snelle chips voor algemeen gebruik in producten van NAD en Chord vanwege de mogelijkheid om conversie-algoritmen flexibel te programmeren.

DSD-formaat

Na het wijdverbreide gebruik van delta-sigma DAC's was het heel logisch dat er een formaat ontstond voor het rechtstreeks opnemen van binaire code in delta-sigma-codering. Dit formaat heet DSD (Direct Stream Digital).

Het formaat werd om verschillende redenen niet veel gebruikt. Het bewerken van bestanden in dit formaat bleek onnodig beperkt: je kunt geen streams mixen, het volume aanpassen of egalisatie toepassen. Dit betekent dat u zonder kwaliteitsverlies uitsluitend analoge opnames kunt archiveren en zonder verdere verwerking live-optredens met twee microfoons kunt opnemen. Kortom, je kunt niet echt geld verdienen.

In de strijd tegen piraterij werden schijven in SA-CD-formaat niet ondersteund (en worden ze nog steeds niet) door computers, waardoor het onmogelijk is om er kopieën van te maken. Geen kopieën – geen breed publiek. Het was alleen mogelijk om DSD-audiocontent af te spelen vanaf een aparte SA-CD-speler vanaf een eigen schijf. Als er voor het PCM-formaat een SPDIF-standaard bestaat voor digitale gegevensoverdracht van een bron naar een afzonderlijke DAC, dan is er voor het DSD-formaat geen standaard en werden de eerste illegale kopieën van SA-CD-schijven gedigitaliseerd vanaf de analoge uitgangen van SA-CD-schijven. CD-spelers (hoewel de situatie stom lijkt, maar in werkelijkheid zijn sommige opnames alleen op SA-CD uitgebracht, of is dezelfde opname op Audio-CD opzettelijk van slechte kwaliteit gemaakt om SA-CD te promoten).

Het keerpunt vond plaats met de release van SONY-gameconsoles, waarbij de SA-CD-schijf automatisch naar de harde schijf van de console werd gekopieerd voordat deze werd afgespeeld. Fans van het DSD-formaat profiteerden hiervan. Het verschijnen van illegale opnames stimuleerde de markt om aparte DAC's uit te brengen voor het afspelen van DSD-streams. De meeste externe DAC's met DSD-ondersteuning ondersteunen tegenwoordig USB-gegevensoverdracht met behulp van het DoP-formaat als een afzonderlijke codering van het digitale signaal via SPDIF.

De draaggolffrequenties voor DSD zijn relatief klein, 2,8 en 5,6 MHz, maar deze audiostream vereist geen datareductieconversie en is behoorlijk concurrerend met formaten met hoge resolutie, zoals dvd-audio.

Er is geen duidelijk antwoord op de vraag wat beter is: DSP of PCM. Het hangt allemaal af van de kwaliteit van de implementatie van een bepaalde DAC en het talent van de geluidstechnicus bij het opnemen van het uiteindelijke bestand.

Algemene conclusie

Analoog geluid is wat we met onze ogen horen en waarnemen als de wereld om ons heen. Digitaal geluid is een reeks coördinaten die een geluidsgolf beschrijven en die we niet direct kunnen horen zonder conversie naar een analoog signaal.

Een analoog signaal dat rechtstreeks op een audiocassette of vinyl is opgenomen, kan niet opnieuw worden opgenomen zonder kwaliteitsverlies, terwijl een golf in digitale weergave bit voor bit kan worden gekopieerd.

Digitale opnameformaten zijn een constante afweging tussen de mate van coördinatennauwkeurigheid en de bestandsgrootte, en elk digitaal signaal is slechts een benadering van het originele analoge signaal. De verschillende technologieniveaus voor het opnemen en reproduceren van een digitaal signaal en het opslaan op media voor een analoog signaal geven echter meer voordelen aan de digitale weergave van het signaal, vergelijkbaar met een digitale camera versus een filmcamera.