Hvad vil bestemme kvaliteten af ​​digitaliseret lyd? Formater: hvad er digital lyd Hvad bestemmer kvaliteten af ​​lydoptagelsen?

Bits, hertz, formet dithering...

Hvad gemmer sig bag disse begreber? Ved udvikling af CD Audio-standarden blev følgende værdier vedtaget: 44 kHz, 16 lidt og 2 kanal (dvs. stereo). Hvorfor lige så meget? Hvad er årsagen til dette valg, og også hvorfor der gøres forsøg på at øge disse værdier til for eksempel 96 kHz og 24 eller endda 32 bit...

Lad os først se på samplingsopløsningen - det vil sige bitdybden. Tilfældigvis skal du vælge mellem tallene 16, 24 og 32. Mellemværdier ville selvfølgelig være mere bekvemme med hensyn til lyd, men er for ubehagelige til brug i digital teknologi (et meget kontroversielt udsagn, i betragtning af, at mange ADC'er har 11 eller 12 bit digital udgang - ca.

Hvad gør denne parameter? Kort sagt - for dynamisk rækkevidde. Udvalget af samtidig gengivet lydstyrker er fra den maksimale amplitude (0 decibel) til den mindste, som opløsningen tillader, for eksempel omkring minus 93 decibel for 16-bit lyd. Mærkeligt nok hænger dette stærkt sammen med fonogrammets støjniveau. I princippet er det for 16-bit lyd ganske muligt at transmittere signaler med en effekt på -120 dB, dog vil disse signaler være svære at bruge i praksis på grund af et så grundlæggende koncept som prøveudtagningsstøj. Faktum er, at når vi tager digitale værdier, laver vi fejl hele tiden og runder den reelle analoge værdi til den nærmeste mulige digitale værdi. Den mindst mulige fejl er nul, men den maksimale fejl vi laver er halvdelen af ​​den sidste bit (bit, herefter vil udtrykket mindst signifikante bit blive forkortet til MB). Denne fejl giver os den såkaldte samplingsstøj - en tilfældig uoverensstemmelse mellem det digitaliserede signal og originalen. Denne støj er konstant og har en maksimal amplitude svarende til halvdelen af ​​det mindst signifikante ciffer. Dette kan opfattes som tilfældige værdier blandet ind i et digitalt signal. Dette kaldes nogle gange afrundingsstøj eller kvantiseringsstøj (som er et mere præcist navn, da amplitudekodning kaldes kvantisering, og sampling er processen med at konvertere et kontinuerligt signal til en diskret (puls) sekvens - ca.).

Lad os dvæle mere detaljeret ved, hvad der menes med signaleffekt, målt i bits. Det stærkeste signal i digital lydbehandling tages normalt som 0 dB, dette svarer til alle bit sat til 1. Hvis den mest signifikante bit (herefter SB) nulstilles, vil den resulterende digitale værdi være halvt så stor, hvilket svarer til et niveautab på 6 decibel (10 * log(2) = 6). Ved at nulstille dem fra de mest signifikante til de mindst signifikante cifre vil vi således reducere signalniveauet med seks decibel. Det er klart, at minimumssignalniveauet (et i det mindst signifikante ciffer, og alle andre cifre er nuller) er (N-1) * 6 decibel, hvor N er bitdybden af ​​samplet (sample). For 16 bit får vi niveauet for det svageste signal - 90 decibel.

Når vi siger "halvdelen af ​​den mindst signifikante bit", mener vi ikke -90/2, men halvdelen af ​​skridtet til den næste bit - det vil sige yderligere 3 decibel lavere, minus 93 decibel.

Lad os vende tilbage til valget af digitaliseringsopløsning. Som allerede nævnt introducerer digitalisering støj på niveauet med halvdelen af ​​den mindst signifikante bit, hvilket betyder, at en post digitaliseret til 16 bit konstant larmer ved minus 93 decibel. Den kan transmittere signaler mere stille, men støjen forbliver stadig på -93 dB. Det dynamiske område for digital lyd bestemmes af dette kriterium - hvor signal/støj-forholdet bliver til støj/signal (der er mere støj end nyttigt signal), er den nedre grænse for dette område placeret. Dermed, vigtigste digitaliseringskriterium - hvor meget støj har vi råd til et rekonstrueret signal? Svaret på dette spørgsmål afhænger til dels af, hvor meget støj der var i det originale soundtrack. Den vigtige konklusion er, at hvis vi digitaliserer noget med et støjniveau på minus 80 decibel, er der absolut ingen grund til at digitalisere det med mere end 16 bit, da støj på -93 dB på den ene side tilføjer meget lidt til allerede stor (forholdsvis) støj på -80 dB, og på den anden side, mere støjsvag end -80 dB, begynder støj/signal allerede i selve fonogrammet, og der er simpelthen ikke behov for at digitalisere og transmittere sådan et signal.

Teoretisk set er dette det eneste kriterium for at vælge en digitaliseringsopløsning. Mere os vi bidrager ikke absolut ingen forvrængninger eller unøjagtigheder. Praksis gentager mærkeligt nok næsten fuldstændig teori. Dette var, hvad der guidede de mennesker, der valgte 16-bit opløsning til lyd-cd'er. Støj minus 93 decibel er en ret god tilstand, som næsten nøjagtigt svarer til betingelserne for vores opfattelse: forskellen mellem smertegrænsen (140 decibel) og den sædvanlige baggrundsstøj i byen (30-50 decibel) er præcis omkring hundrede decibel, og hvis man tænker på, at på Ved et lydstyrkeniveau, der forårsager smerte, lytter de ikke til musik - hvilket indsnævrer rækkevidden yderligere - viser det sig, at den reelle støj i rummet eller endda udstyret er meget stærkere end kvantiseringsstøjen . Hvis vi kan høre et niveau på minus 90 decibel i en digital optagelse, vil vi høre og opfatte kvantiseringsstøj, ellers vil vi simpelthen aldrig afgøre, om lyden er digitaliseret eller live. Der er simpelthen ingen anden forskel med hensyn til dynamisk rækkevidde. Men i princippet kan en person høre meningsfuldt i 120 decibel-området, og det ville være rart at bevare hele det område, noget som 16 bits ikke ser ud til at klare.

Men dette er kun ved første øjekast: ved hjælp af en speciel teknik kaldet formet dithering, kan du ændre frekvensspektret for samplingsstøj, næsten helt flytte det til området over 7-15 kHz. Vi ser ud til at ændre frekvensopløsningen (vi nægter at gengive stille høje frekvenser) for yderligere dynamisk område i det resterende frekvensområde. I kombination med det særlige ved vores hørelse - vores følsomhed over for det udstødte højfrekvente område er titusinder af dB lavere end i hovedområdet (2-4 kHz) - gør dette det muligt for relativt lydløs transmission af nyttige signaler yderligere 10- 20 dB mere støjsvag end -93 dB - således er det dynamiske område af 16-bit lyd for en person omkring 110 decibel. Og generelt kan en person simpelthen ikke høre lyde 110 decibel mere stille end den høje lyd, han lige har hørt. Øret, ligesom øjet, tilpasser sig lydstyrken af ​​den omgivende virkelighed, så den samtidige rækkevidde af vores hørelse er relativt lille - omkring 80 decibel. Lad os tale om dithring mere detaljeret efter at have diskuteret frekvensaspekter.

For CD'er er samplingfrekvensen 44100 Hz. Der er en opfattelse (baseret på en forkert forståelse af Kotelnikov-Nyquist-sætningen), at alle frekvenser op til 22,05 kHz gengives, men det er ikke helt sandt. Vi kan kun sige med sikkerhed, at der ikke er nogen frekvenser over 22,05 kHz i det digitaliserede signal. Det virkelige billede af digitaliseret lydgengivelse afhænger altid af specifik teknologi og er altid ikke så ideel, som vi gerne vil, og som det svarer til teori. Det hele afhænger af den specifikke DAC (digital-til-analog-konverter, der er ansvarlig for at opnå et lydsignal fra en digital sekvens).

Lad os først finde ud af, hvad vi gerne vil have. En midaldrende (ret ung) person kan mærke lyde fra 10 Hz til 20 kHz og meningsfuldt høre fra 30 Hz til 16 kHz. Lyde højere og lavere opfattes, men udgør ikke akustiske fornemmelser. Lyde over 16 kHz mærkes som en irriterende ubehagelig faktor - tryk på hovedet, smerte, især høje lyde giver så skarpt ubehag, at du ønsker at forlade rummet. De ubehagelige fornemmelser er så stærke, at betjeningen af ​​sikkerhedsanordninger er baseret på dette - et par minutters meget høj højfrekvent lyd vil drive enhver til vanvid, og det bliver absolut umuligt at stjæle noget i sådanne omgivelser. Lyde under 30 - 40 Hz med tilstrækkelig amplitude opfattes som vibrationer, der kommer fra genstande (højttalere). Det ville være mere præcist at sige det - bare vibration. En person akustisk næsten ikke bestemmer den rumlige position af sådanne lave lyde, så andre sanser er allerede brugt - taktile, vi føler sådanne lyde med vores kroppe.

Med høje frekvenser er alting lidt værre, i hvert fald helt sikkert sværere. Næsten hele essensen af ​​forbedringer og komplikationer af DAC'er og ADC'er er rettet netop mod mere pålidelig transmission af høje frekvenser. Med "høj" mener vi frekvenser, der kan sammenlignes med samplingsfrekvensen - det vil sige, at den i tilfælde af 44,1 kHz er 7-10 kHz og højere.

Forestil dig en 14 kHz sinusbølge digitaliseret med en samplinghastighed på 44,1 kHz. Der er omkring tre punkter (prøver) pr. periode af input sinusoid, og for at genoprette den oprindelige frekvens i form af en sinusoid, skal du vise lidt fantasi. Processen med at gendanne signalformen fra samples forekommer også i DAC'en dette gøres af rekonstruktionsfilteret. Og hvis relativt lave frekvenser er næsten færdige sinusoider, så ligger formen og dermed kvaliteten af ​​restaurering af høje frekvenser helt på DAC-gendannelsessystemets samvittighed. Jo tættere signalfrekvensen er på halvdelen af samplingsfrekvens, jo sværere er det at genoprette signalformen.

Dette er hovedproblemet ved gengivelse af høje frekvenser. Problemet er dog ikke så slemt, som det måske ser ud til. Alle moderne DAC'er anvender multirate teknologi, som består af digital gendannelse til flere gange højere samplinghastigheder og efterfølgende konvertering til et analogt signal med en øget frekvens. Problemet med at genoprette høje frekvenser flyttes således til skuldrene af digitale filtre, som kan være af meget høj kvalitet. Så høj kvalitet, at der i tilfælde af dyre enheder er et problem fuldt ud fjernet - uforvrænget gengivelse af frekvenser op til 19-20 kHz sikres. Resampling bruges også i ikke særlig dyre enheder, så i princippet kan dette problem anses for løst. Enheder i området $30 - $60 (lydkort) eller musikcentre op til $600, som normalt ligner disse lydkort i DAC, gengiver perfekt frekvenser op til 10 kHz, acceptabelt - op til 14 - 15, og på en eller anden måde resten. Det her temmelig nok til de fleste virkelige musikalske applikationer, og hvis nogen har brug for mere kvalitet, vil de finde det i enheder af professionel kvalitet, som ikke er så meget dyrere - de er bare lavet med omtanke.

Lad os vende tilbage til dithering - lad os se, hvordan vi med fordel kan øge det dynamiske område ud over 16 bit.

Ideen med at ryste er at tilføje støj. Hvor mærkeligt det end lyder, for at reducere støj og ubehagelige kvantiseringseffekter, har vi tilføje din støj. Lad os se på et eksempel – lad os udnytte CoolEdits evne til at arbejde i 32 bit. 32 bit er 65 tusind gange mere nøjagtigt end 16 bit, så i vores tilfælde kan 32-bit lyd betragtes som en analog original, og at konvertere den til 16 bit kan betragtes som digitalisering. Lad det højeste lydniveau i den originale 32-bit lyd svare til minus 110 decibel. Dette er meget mere støjsvagt end det dynamiske område for 16-bit lyd, hvor den svageste hørbare lyd svarer til et niveau på minus 90 decibel. Derfor, hvis vi blot runder dataene til 16 bit, får vi fuldstændig digital stilhed.

Lad os tilføje "hvid" støj til signalet (dvs. bredbånd og ensartet over hele frekvensbåndet) med et niveau på minus 90 decibel, omtrent svarende i niveau til kvantiseringsstøj. Nu, hvis vi konverterer denne blanding af signal og "hvid" støj til 16 bit (kun heltalværdier er mulige - 0, 1, -1, ...), viser det sig, at en del af signalet forbliver. Hvor det originale signal havde et højere niveau, er der flere, hvor der var et lavere niveau, er der nuller.

For eksperimentelt at teste ovenstående metode kan du bruge Cool Edit-lydeditoren (eller en hvilken som helst anden, der understøtter 32-bit format). For at høre, hvad du får, skal du forstærke signalet med 14 bit (78 dB).

Resultatet er en støjende 16-bit lyd indeholdende det originale signal, som havde et niveau på minus 110 decibel. I princippet er dette standardmåden at udvide det dynamiske område, hvilket ofte sker næsten af ​​sig selv - der er nok støj overalt. Dette er dog i sig selv ret meningsløst - niveauet af samplingsstøj forbliver på samme niveau, og at transmittere et signal, der er svagere end støjen, er ikke særlig tydeligt fra et logisk synspunkt... (En meget fejlagtig mening, da transmittering af en signal med et niveau, der er mindre end støjniveauet, er en af ​​de grundlæggende metoder til datakodning ca.

En mere kompleks måde - formet dithering, er, at da vi stadig ikke hører høje frekvenser i meget stille lyde, betyder det, at hovedstøjeffekten skal rettes til disse frekvenser, og du kan endda bruge støj på et højere niveau - jeg bruger et niveau på 4 lavordenscifre (to bits i et 16-bit signal). Vi konverterer den resulterende blanding af 32-bit signal og støj til et 16-bit signal, frafiltrerer høje frekvenser (som faktisk ikke kan opfattes af mennesker ved øret) og øger signalniveauet, så vi kan evaluere resultatet.

Dette er allerede en ganske god (for en ekstrem lav lydstyrke) lydtransmission, støjen er omtrent lig med lyden selv med et indledende niveau på minus 110 decibel! Vigtig bemærkning: vi forfremmet reel samplingsstøj fra halvdelen af ​​det mindst signifikante ciffer (-93 dB) til fire mindst signifikante cifre (-84 dB), sænkning hørbar samplingsstøj fra -93 dB til ca. -110 dB. Signal til støj-forhold forværret, men støjen gik ind i højfrekvensområdet og holdt op med at være hørbar, hvilket gav væsentlig forbedring reelt(menneskeopfattet) signal-til-støj-forhold.

(Med andre ord, da støjeffekten så at sige er "spredt ud" over frekvensområdet, uden at passere gennem de øvre frekvenser, tager vi en del af effekten fra den, hvilket resulterer i, at signal-til -støjforhold forbedres i den tidsmæssige repræsentation af signaler - Ca.

I praksis er dette allerede støjniveauet ved sampling af 20-bit lyd. Den eneste betingelse for denne teknologi er tilstedeværelsen af ​​frekvenser for støj. 44,1 kHz lyd gør det muligt at placere støj ved frekvenser, der ikke er hørbare ved lave lydstyrker på 10-20 kHz. Men hvis du digitaliserer ved 96 kHz, vil frekvensområdet for støj (uhørbar af mennesker) være så stort, at der ved brug af formet dithering er 16 bit virkelig blive til alle 24.

[Bemærk: PC Speaker er en en-bit enhed, men med en ret høj maksimal samplinghastighed (slår denne enkelt bit til/fra). Ved at bruge en proces, der i det væsentlige ligner dithering, kaldet temmelig pulsbreddemodulation, blev der afspillet digital lyd af ret høj kvalitet - 5-8 lavfrekvente bits blev ekstraheret fra en bit og en høj samplingsfrekvens, og den højfrekvente støjfilter var udstyrets manglende evne til at gengive så høje frekvenser, såvel som vores manglende evne til at høre dem. En let højfrekvent fløjt var dog hørbar - den hørbare del af denne støj.]

Således giver formet dithering dig mulighed for markant at reducere den allerede lave samplingsstøj af 16-bit lyd og dermed stille og roligt udvide det nyttige (stille) dynamiske område ved at alle område af menneskelig hørelse. Da nu shaped dithering altid bruges, når der konverteres fra et arbejdsformat på 32 bit til de sidste 16 bits for en CD, er vores 16 bit fuldstændigt tilstrækkelige til fuldt ud at formidle lydbilledet.

Det skal bemærkes, at denne teknologi kun virker på stadiet med forberedelse af materiale til reproduktion. Når du behandler lyd af høj kvalitet, skal du ganske enkelt nødvendig forblive i 32 bit for ikke at anvende dithering efter hver operation, hvilket bedre indkodning af resultaterne tilbage til 16 bit. Men hvis støjniveauet på fonogrammet er mere end minus 60 decibel, kan du udføre al behandling i 16 bit uden det mindste samvittighedsniv. Intermediær dithering vil sikre fraværet af afrundingsforvrængninger og den støj, det føjer til hundredvis af gange svagere end det der allerede eksisterer og derfor fuldstændig ligegyldigt.

Q:
Hvorfor siger de, at 32-bit lyd er bedre end 16-bit lyd?
A1: De tager fejl.
A2: [De betyder noget lidt anderledes: når du behandler eller optager lyd behøver bruge højere opløsning. Det udnytter de Altid. Men i lyd som i det færdige produkt kræves der ikke en opløsning på mere end 16 bit.]
Q: Giver det mening at øge samplingsfrekvensen (for eksempel til 48 kHz eller til 96)?
A1: Har det ikke. Med enhver kompetent tilgang til at designe en DAC transmitteres 44 kHz alle påkrævet frekvensområde.
A2: [De betyder noget lidt anderledes: det giver mening, men kun når du behandler eller optager lyd.]
Q: Hvorfor er introduktionen af ​​højere frekvenser og bithastigheder stadig i gang?
A1: Det er vigtigt for fremskridt at komme videre. Hvor og hvorfor er ikke længere så vigtigt...
A2: Mange processer opstår lettere i dette tilfælde. Hvis enheden for eksempel skal behandle lyd, vil det være nemmere for den at gøre dette i 96 kHz / 32 bit. Næsten alle DSP'er bruger 32 bit til lydbehandling, og det at kunne glemme alt om konverteringer gør udviklingen nemmere og stadig en lille kvalitetsstigning. Og generelt - lyd til videre bearbejdning Det har Det giver mening at gemme det i en højere opløsning end 16 bit. For hi-end enheder, der kun gengiver lyd, er dette absolut ligegyldig.
Q: Er 32x eller 24x eller endda 18-bit DAC'er bedre end 16-bit?
EN: Generelt - Ingen. Kvaliteten af ​​konverteringen afhænger slet ikke af bitdybden. AC"97 codec (et moderne lydkort under $50) bruger et 18-bit codec, og kort til $500, hvis lyd ikke engang kan sammenlignes med dette nonsens, bruger et 16-bit codec. Dette gør absolut ingen forskel for 16 bit lydafspilning.
Det er også værd at huske på, at de fleste DAC'er typisk faktisk producerer færre bits, end de optager. For eksempel er det reelle støjniveau for en typisk billig codec -90 dB, hvilket er 15 bit, og selvom det i sig selv er 24-bit - vil du ikke få noget afkast fra de "ekstra" 9 bit - resultatet af deres arbejde, selv om der var en, vil blive druknet i dem samme egen støj. De fleste billige enheder er simpelthen ignoreret ekstra bits - de går simpelthen ikke rigtig i beregning i deres lydsynteseproces, selvom de går til DAC'ens digitale indgang.
Q: Hvad med optagelse?
EN: Til optagelse er det bedre at have en ADC med højere kapacitet. Igen mere ægte bit dybde. Bitdybden af ​​DAC'en skal svare til støjniveauet for det originale lydspor, eller blot være tilstrækkelig til at opnå det ønskede lave niveau støj.
Det er også praktisk at have lidt dybde med en margen for at bruge det øgede dynamiske område til mindre præcis justering af optageniveauet. Men husk – du skal altid slå ægte codec-område. I virkeligheden er en 32-bit ADC for eksempel næsten fuldstændig meningsløs, da de laveste ti bits simpelthen vil lave støj kontinuerligt - lav støj (under -200 dB) simpelthen kan ikke være i en analog musikkilde.

Det nytter ikke at kræve højere bitdybde eller samplingfrekvens fra lyd sammenlignet med CD, eller bedre kvalitet. 16 bit / 44 kHz, presset til det yderste med formet dithering, er ganske i stand fuldt ud formidle oplysninger af interesse for os, hvis det ikke handler om lydbehandlingsprocessen. Du skal ikke spilde plads på ekstra data i det færdige materiale, ligesom du heller ikke skal forvente øget lydkvalitet fra DVD-Audio med sine 96 kHz / 24-bit. Med den rigtige tilgang, når vi laver lyd i et standard CD-format, vil vi have en kvalitet, der har bare ikke brug for det i yderligere forbedring, og ansvaret for den korrekte lydoptagelse af de endelige data har længe været påtaget af de udviklede algoritmer og folk, der ved, hvordan de skal bruges korrekt. I de sidste par år vil du ikke finde en ny disk uden formet dithering og andre teknikker til at presse lydkvaliteten til det yderste. Ja, det vil være mere bekvemt for de dovne eller simpelthen skæve at levere færdigt materiale i 32 bit og 96 kHz, men i teorien - er det flere gange mere lyddata værd?..

Lyd-cd'er er efterhånden en historie. Nej, de sælges selvfølgelig stadig i butikkerne, men færre og færre lytter til og køber dem. Mange ser simpelthen ikke pointen i dette, for selvom vi overvejer den lovlige måde at skaffe lydfiler på, koster en sang i MP3-format i en online musikbutik meget mindre end en sang optaget på en lyddisk. Et rimeligt spørgsmål opstår: hvorfor betale mere?

Selvfølgelig er lydkvaliteten på en lyd-cd meget højere end for enhver lydfil, hvor dataene er komprimeret, men for det overraskende flertal af mennesker er denne forskel ikke kritisk. Hvad er der! I disse dage tænker selv de største audiofile på at konvertere deres lyd-cd-samling til lydfiler, for der kan meget vel komme et tidspunkt, hvor efterspørgslen efter diske vil være så lav, at lyd-cd-afspillere simpelthen ikke længere vil blive produceret.

I denne artikel vil vi se på nogle programmer til at tage data fra lyd-cd'er og konvertere dem til MP3 og andre formater. Men først en lille teori.

Lydkomprimering og populære lydformater

Datakomprimering involverer analyse og forenkling af optaget information, som et resultat af, at der kan optages flere lyddata på et lasermedie, end det er muligt ved optagelse af en lyd-cd.

For at gøre det tydeligere, hvad datakomprimering er, så forestil dig, at du skal genfortælle indholdet af et stykke papir, hvorpå bogstavet A er skrevet tusind gange til din ven over telefonen. Du kan blot sige "A" højt tusind gange, og din samtalepartner vil være opmærksom på, hvad der står på arket. På den anden side kan du først tælle, hvor mange gange dette bogstav er skrevet, og derefter fortælle din ven, at bogstavet "A" er blevet skrevet tusind gange på stykket papir. Resultatet vil være det samme - din ven kender indholdet af papiret, men i det andet tilfælde vil det tage dig meget mindre tid at overføre oplysningerne. Med andre ord udførte du datakomprimering ved at analysere, hvor mange gange et bogstav gentages.

Digital lydkomprimering følger omtrent det samme scenarie. Lyddatakomprimering har dog en række funktioner. Så for at du for eksempel kan genkende en velkendt melodi, er det nok at spille den i dårligere kvalitet. Man skal huske på, at mange mennesker mener helt andre ting i begrebet "lyd af høj kvalitet". Så hvis en musikalsk optagelse for eksempel gør ondt i en musikers ører, fordi strengen ikke blev plukket i en strengt defineret toneart, så kan den gennemsnitlige person finde sig i meget mere alvorlige mangler.

Denne egenskab ved menneskelig lydopfattelse har inspireret skabelsen af ​​nye lydformater, der bruger en lydkomprimeringsmodel med tab. Forringelsen af ​​lyden for de fleste musikelskere er ikke kritisk, og i nogle tilfælde er kvaliteten slet ikke vigtig, for eksempel i pauser med stilhed, når lyddata er uden værdi eller i de frekvenser, som det menneskelige øre ikke kan opfatte .

Der er et stort antal digitale lydoptagelsesformater. Deres forskel er, at de bruger forskellige kompressionsalgoritmer. De mest populære formater i dag er:

  • WMA (Windows Media Audio) er et format udviklet af Microsoft Corporation. Dette format blev skabt på basis af VQF-formatet, som var populært i fortiden, og som næsten er glemt i dag.
  • OGG Vorbis er et gratis og open source-format. For nylig er det blevet så populært, at det understøttes af producenterne af nogle bærbare afspillere.
  • MP3 (MPEG Layer III) er det mest populære format og har haft en førende position i mange år.

Funktioner i MP3-formatet

Det almindelige navn MP3 er en forkortelse for MPEG Layer III. MPEG står til gengæld for Moving Picture Coding Experts Group. MP3-formatet blev udviklet af det tyske Fraunhofer Institut i begyndelsen af ​​90'erne af forrige århundrede. Formatet blev virkelig populært, efter at Thomson blev interesseret i det.

Takket være komprimeringsalgoritmen, der bruger MP3-formatet, kan lyddata komprimeres ti til tolv gange uden mærkbart kvalitetstab. Det høje kompressionsforhold opnås på grund af det faktum, at MP3 bruger karakteristika for menneskelig hørelse. Det menneskelige øre opfatter lyd inden for området 20 Hz til 20 kHz, så alle lyde, der ikke falder inden for dette område, bliver simpelthen afvist. Dette reducerer mængden af ​​data betydeligt.

En anden funktion ved MP3, der giver dig mulighed for at få en mindre lydfil, er relateret til stereolyd og igen til karakteristikaene ved menneskelig hørelse. Når vi lytter til musik optaget i stereo, hører vi den største forskel i mellemfrekvenserne. Takket være denne funktion kan en komprimeringsalgoritme anvendes til lydkodning, som kun vil kode separat for hver kanal det frekvensspektrum, hvor forskellen mellem kanalerne er mest hørbar. Og lyden ved de frekvenser af stereokanaler, hvor forskellen er mindre mærkbar, kombineres og kodes i mono-tilstand. Denne kombinerede stereosignalkodningstilstand kaldes Joint Stereo.

Digital Audio Specifikationer

Ved komprimering af lyddata bliver det nødvendigt at kontrollere kvaliteten af ​​den digitaliserede lyd. Så hvis du for eksempel skal digitalisere en lydbog, så er høj kvalitet ikke nødvendig i dette tilfælde. Det vigtigste er, at du kan skimte ordene. Hvis et stykke musik bliver digitaliseret, er kvaliteten af ​​stor betydning.
Uanset hvilken lydkomprimeringsalgoritme der bruges, er parametrene, der karakteriserer lydkvaliteten, de samme.

En af de vigtigste egenskaber ved digital lyd er bitrate. Bitrate er indkodnings-/afkodningshastigheden for en digital lydstrøm. Jo højere dens værdi, jo bedre lydkvalitet og jo større filstørrelse. Det skal siges, at bitrate er en relativ værdi. Filer, der er oprettet ved hjælp af forskellige komprimeringsalgoritmer og har samme bitrate, vil variere i kvalitet.

Kodning kan udføres med en konstant eller variabel bitrate. Den variable bitrate-kodningsmetode gør det muligt at ændre kvaliteten af ​​lydsignalet på farten, det vil sige under afspilning. Hvis programmet fastslår, at det har at gøre med en kompleks lydstrøm (f.eks. lyden af ​​et symfoniorkester), øges kvaliteten, men hvis lyden er enkel (f.eks. når der er en pause mellem sangene), er kvaliteten automatisk forringes. Dette reducerer filstørrelsen.

Lydkodning sker med en vis prøveudtagningshastighed. Under behandlingsprocessen opdeles lydsignalet i et stort antal dele (samples), som hver behandles af en komprimeringsalgoritme. Nøjagtigheden af ​​signalbehandlingen bestemmes af samplingsfrekvensen, som måles i kilohertz. Afhængigt af antallet af samples pr. tidsenhed skelnes der mellem en lydkarakteristik, såsom bitdybde. Det er ikke svært at gætte, at jo flere samples der behandles, jo højere er lydkvaliteten.

Dobbelt sampling påføres lydsignalet, der kommer ind i analog-til-digital-konverteren (lydkort) - i amplitude og i tid.
For matematisk at beskrive signalformen bruges Kotelnikovs teorem, ifølge hvilken enhver kontinuerlig proces med et begrænset spektrum kan repræsenteres af en diskret sekvens af dens øjeblikkelige værdier. Frekvensen af ​​en sådan sekvens skal være mindst det dobbelte af frekvensen af ​​den højeste harmoniske i processen. Frekvensen, hvormed øjeblikkelige værdier (samples) af et signal samples, kaldes samplingsfrekvensen.

Enhver afvigelse i formen af ​​signalet, der ankommer til lydkortets input fra den korrekte sinusform, fører til, at spektret går ud over signalets naturlige frekvens. Derfor, når der samples et lydsignal i tide, er frekvenserne af den indkommende impuls begrænset til under halvdelen af ​​samplingsfrekvensen, eller der tages et spektrum med en overfrekvens. På grund af det faktum, at det menneskelige øre kan skelne lydvibrationer med en frekvens på op til 20 kHz, viser det sig, at samplingsfrekvensen for ethvert lydsignal skal være mindst 40 kHz. Derfor kan du i praksis finde lydenheder med samplingfrekvenser på 44,1 kHz, 48 kHz og 96 kHz.

Til amplitudesampling af lyd, for eksempel på en laserskive, bruges kvantiseringsniveau 2 til sekstende potens (65536). At repræsentere tal fra 0 til 2^16 kræver 16 bit information, så det er mere bekvemt at bruge udtrykket 16-bit signalbredde. Lyddybden afhænger af indgangssignalets dynamiske område og den acceptable kvantiseringsstøj.

Amplitude- og tidskvantisering forårsager lydforvrængninger over hele frekvensbåndet, hvortil kommer støj og interferens fra lydkortets lydvej.

En anden vigtig egenskab ved digital lyd er stereolyd. Derfor, hvis lyden optages i stereo i stedet for mono, fordobles mængden af ​​lyddata, og dermed øges størrelsen af ​​outputfilen.

Rippe musik fra lyddiske ved hjælp af Windows MediaSpiller

Muligheden for at kopiere lyddata er allerede indbygget i WindowsXP. For at kopiere lyddata ved hjælp af Windows Media Player skal du indsætte en lyddisk i dit diskdrev, starte afspilleren og klikke på knappen "Kopier fra disk" øverst i programvinduet. Afspillervinduet viser indholdet af dine lydmedier som individuelle spor. Der er et afkrydsningsfelt ud for hver af dem. Det betyder, at alle sange vil blive kopieret. Hvis du ikke vil kopiere en bestemt sang, skal du fjerne markeringen i afkrydsningsfeltet ud for dens navn.

Som standard indstiller programindstillingerne ikke kvaliteten af ​​lyddatakomprimeringen til et meget højt niveau, så hvis du er fan af højkvalitetslyd, skal du ændre bithastigheden for den oprettede fil. For at gøre dette skal du køre kommandoen "Værktøjer> Indstillinger" og i vinduet, der åbnes, gå til fanen "Kopierer musik fra cd". Bitrate-værdien indstilles med "Sound Quality"-skyderen, og positionen længst til højre svarer til den maksimale outputfilstørrelse og dermed den bedste lyd.

En af funktionerne ved standardafspilleren er evnen til at beskytte lydfiler mod at blive afspillet på en anden computer. Hvis du ønsker, at de WMA-filer, der er oprettet af programmet, kun skal afspilles på denne computer, skal du sørge for, at indstillingen "Kopibeskyttet musik" er markeret.

For at starte kopieringen skal du klikke på knappen "Kopier musik fra CD" øverst i programvinduet. Der vises et vindue på skærmen, hvor du kan aktivere eller deaktivere indholdsbeskyttelse ved at markere det relevante felt. Inden du begynder at kopiere, kan du også ændre kopiindstillingerne, hvis det er nødvendigt.

Komprimeringsprocessen kan overvåges i kolonnen "CD Copy Status". Så snart handlingen med at overføre sporet til harddisken er fuldført, vil meddelelsen "Kopieret til biblioteket" vises ud for den kopierede sang.

På trods af den tilsyneladende bekvemmelighed ved den overvejede metode til kopiering af lyddata, er den i mange tilfælde ubelejlig at bruge. For det første understøttes WMA-formatet ikke af alle bærbare MP3-enheder, og for det andet tager kodning til dette format længere tid sammenlignet med andre formater. Endelig, når du bruger Windows Media Player, er der ingen fleksibel kontrol over komprimeringsindstillinger.

Kort sagt, hvis du har købt en MP3-afspiller og planlægger regelmæssigt at genopbygge dit digitale musikbibliotek ved at kopiere data fra lyddiske, skal du sørge for, at du har en højkvalitets og multifunktionel lydencoder ved hånden. Vi vil se på nogle af disse programmer i anden del af artiklen.

Hvilke parametre bestemmer kvaliteten af ​​digital lyd?

  • Lydinformation. Lyd er en bølge, der forplanter sig i luft, vand eller andet medie med konstant skiftende intensitet og frekvens.

    En person opfatter lydbølger (luftvibrationer) ved hjælp af hørelsen i form af lyd af varierende lydstyrke og toner. Jo større intensiteten af ​​lydbølgen er, jo højere lyden er, jo højere frekvensen er lyden (fig. 1.1).

    Ris. 1.1. Afhængighed af lydstyrken og tonehøjden af ​​lydbølgens intensitet og frekvens

    Det menneskelige øre opfatter lyd ved frekvenser fra 20 vibrationer pr. sekund (lav lyd) til 20.000 vibrationer pr. sekund (høj lyd).

    En person kan opfatte lyd i et stort område af intensiteter, hvor den maksimale intensitet er 1014 gange større end minimum (et hundrede tusind milliarder gange). For at måle lydstyrken bruges en speciel enhed "decibel" (dbl) (tabel 5.1). Et fald eller stigning i lydstyrken med 10 dbl svarer til et fald eller stigning i lydintensiteten med 10 gange.

    Tabel 5.1. Lydstyrke
    Lydstyrke i decibel
    Den nedre grænse for følsomhed for det menneskelige øre er 0
    raslen af ​​blade 10
    Samtale 60
    Bilhorn 90
    Jetmotor 120
    Smertetærskel 140
    Tidssampling af lyd. For at en computer kan behandle lyd, skal det kontinuerlige lydsignal konverteres til digital diskret form ved hjælp af tidssampling. En kontinuerlig lydbølge er opdelt i separate små midlertidige sektioner, og for hver sådan sektion indstilles en vis værdi for lydintensiteten.

    Således erstattes lydstyrkens kontinuerlige afhængighed af tidspunktet A(t) af en diskret sekvens af lydstyrkeniveauer. På grafen ser dette ud som at erstatte en glat kurve med en sekvens af "trin" (fig. 1.2).

    Ris. 1.2. Tidssampling af lyd

    Sampling frekvens. En mikrofon tilsluttet lydkortet bruges til at optage analog lyd og konvertere den til digital form. Kvaliteten af ​​den resulterende digitale lyd afhænger af antallet af målinger af lydstyrkeniveauet pr. tidsenhed, dvs. samplingsfrekvensen. Jo flere målinger der foretages pr. sekund (jo højere samplingsfrekvensen er), jo mere nøjagtigt følger "stigen" af det digitale lydsignal kurven for dialogsignalet.

    Lydsamplinghastigheden er antallet af lydstyrkemålinger taget på et sekund.

    Lydsamplingshastigheder kan variere fra 8.000 til 48.000 lydstyrkemålinger pr. sekund.

    Lydkodningsdybde. Hvert "trin" er tildelt et specifikt lydstyrkeniveau. Lydstyrkeniveauer kan betragtes som et sæt af mulige tilstande N, hvis indkodning kræver en vis mængde information I, som kaldes lydkodningsdybden.

    Lydkodningsdybde er mængden af ​​information, der er nødvendig for at kode diskrete lydstyrkeniveauer af digital lyd.

    Hvis indkodningsdybden er kendt, kan antallet af digitale lydstyrkeniveauer beregnes ved hjælp af formlen N = 2I. Lad lydkodningsdybden være 16 bit, så er antallet af lydstyrkeniveauer lig med:

    N = 2I = 216 = 65.536.

    Under indkodningsprocessen tildeles hvert lydstyrkeniveau sin egen 16-bit binære kode, det laveste lydniveau svarer til koden 0000000000000000, og det højeste - 111111111111111.

    Digitaliseret lydkvalitet. Jo højere frekvens og samplingdybde af lyden, desto højere er kvaliteten af ​​den digitaliserede lyd. Den laveste kvalitet af digitaliseret lyd, svarende til kvaliteten af ​​telefonkommunikation, opnås med en samplingshastighed på 8000 gange pr. sekund, en samplingsdybde på 8 bit og optagelse af ét lydspor (mono-tilstand). Den højeste digitaliserede lydkvalitet, svarende til lyd-cd-kvalitet, opnås med en samplinghastighed på 48.000 gange pr. sekund, en samplingdybde på 16 bit og optagelse af to lydspor (stereotilstand).

    Det skal huskes, at jo højere kvalitet af digital lyd er, jo større informationsvolumen er lydfilen. Du kan estimere informationsvolumen for en digital stereolydfil med en lydvarighed på 1 sekund med gennemsnitlig lydkvalitet (16 bit, 24.000 målinger pr. sekund). For at gøre dette skal indkodningsdybden ganges med antallet af målinger på 1 sekund og ganges med 2 (stereolyd):

    16 bit 24.000 2 = 768.000 bit = 96.000 bytes = 93,75 KB.

    Lyd redaktører. Lydeditorer giver dig mulighed for ikke kun at optage og afspille lyd, men også at redigere den. Digitaliseret lyd præsenteres i lydeditorer i en visuel form, så operationer med kopiering, flytning og sletning af dele af lydsporet kan nemt udføres med musen. Derudover kan du overlejre lydspor oven på hinanden (mixe lyde) og anvende forskellige akustiske effekter (ekko, baglæns afspilning osv.).

Hvad vil bestemme kvaliteten af ​​digitaliseret lyd?

    For kvaliteten af ​​digital lyd er to ting afgørende: kvaliteten af ​​det originale lydspor og kvaliteten af ​​analog-til-digital-konverteren.

    Hvad angår kvaliteten af ​​det originale soundtrack, er alt nogenlunde klart. Hvis det er buet (med forvrængninger) eller støjende, så vil ingen mængde digitalisering forbedre det. Nå, det vil sige, at det er muligt gennem forskellige behandlinger, herunder digitale, at isolere et nyttigt signal, som bruges til at isolere tale mod baggrunden af ​​ekstern støj eller ved at isolere et almindeligt signal mod baggrunden af ​​tilfældig støj (alle har set film om spins, ikke?), men hvis vi taler om et musikalsk fonogram, altså et fonogram med et bredt spektrum, så hjælper alle mulige tricks ikke.

    Så vi vil antage, at fonogrammet er af høj kvalitet.

    Så er der kun ADC tilbage.

    Hovedindikatoren her er kodningsbitdybden. Det er klart, at jo større den er, jo bedre, men på den anden side, jo mere kompleks og dyr er en sådan konverter. Ved den digitale teknologis begyndelse (hvilket ikke var så længe siden...) blev en 16-bit slutrekord anerkendt som optimal i forhold til pris/kvalitetsforhold. Med en lavere bitdybde lider det dynamiske område af en digital kopi af et fonogram - lyde på lavt niveau (pianissimo) udgør kun en lille del af alle bits, hvilket betyder, at signalændringens trinvise karakter bliver mærkbar. Og lavpasfiltrering vil ikke hjælpe meget her (omtaler af Kotelnikovs sætning er velkomne, men vi må ikke glemme, at det stiltiende antager Perfekt analog-til-digital konvertering, det vil sige med en uendelig stor bitdybde). Da enhver behandling, selv i digital form, kun kan reducere den effektive bitdybde, blev og bliver digitalisering i studier udført den dag i dag med et større antal bits.

    I dag er det ikke længere ualmindeligt, at digitale fonogrammer er forberedt med en 24-bit bit dybde (super-Audio CD, Audio-DVD). Med sådan en smule dybde vil det være muligt fuldt ud at formidle det dynamiske spænd i ethvert musikalsk værk, selv Ravels Bolero, som begynder med en knap hørbar del af lilletrommer og slutter fortissimo med hele orkestret.

    Vær så god. Ud over bitdybden er andre ADC-parametre også vigtige, primært ikke-linearitet og støj. Især lyde. Fordi de begrænser konverterens effektive bitkapacitet. Hvad er meningen med disse 24 bit, hvis de sidste 8 af dem er støjende og derfor ikke bærer nogen nyttig information... Støjniveauet for moderne 24-bit ADC'er kan nå -115 dB ved samplinghastigheder over 100 kHz, dette er allerede ganske anstændigt, og den differentielle ikke-linearitet er målt ti tusindedele af en procent. Det vil sige, at sådanne løsninger let overstiger det menneskelige øres muligheder.

  • Det vil afhænge af tre hovedparametre:

    1. Sampling rate. Det begrænser båndbredden af ​​transmitterede frekvenser: den maksimale frekvens af det transmitterede signal er under halvdelen af ​​samplingsfrekvensen. I telefoni anvendes oftest en samplingfrekvens på 8 kHz, hvilket giver et teoretisk bånd lidt smallere end 4 kHz (i praksis bruges et bånd på 300-3000 Hz). Og CD-standarden bruger en frekvens på 44,1 kHz, hvilket gør det muligt fuldt ud at transmittere spektret på 20 Hz - 20 kHz. At øge samplingshastigheden over disse værdier giver ikke mening i forhold til området af transmitterede frekvenser, men det reducerer niveauet af intermodulationsforvrængning. I DVD Audio-standarden er den maksimale samplingfrekvens 192 kHz. Nogle gode lydkort til computere understøtter også denne samplingsfrekvens (båndbredden af ​​afspilnings- og optagelsesfrekvenser er forskellig fra model til model). Andre standardværdier er 96, 48, 32, 22,05, 11,025 kHz.
    2. Kodningsbitdybde. Det dynamiske område afhænger af det - med lineær kodning er forskellen mellem fuld sving og minimumstrinnet 256 gange for 8 bit og 65536 gange for 16 bit, hvilket er henholdsvis 48 og 96 dB. 48 dB er ærlig talt lavt, dette er niveauet for det dynamiske område af en kompakt kassette, og udover det smalle dynamiske område opstår der ubehagelige forvrængninger, især tydeligt hørbare på stille steder - en konsekvens af transformationen af ​​et glat signal ind i en trappe. Med en bitdybde på 16 bit er lydkvaliteten allerede ret god (denne bitdybde bruges af en cd), men ikke ideel i mange rigtige tilfælde - mange klassiske værker, såvel som tung musik, kræver en større DD. Højkvalitetssystemer bruger 24-bit-kodning, selvom det faktiske antal signifikante bits ikke overstiger 18-20. Det nytter ikke at øge bitdybden yderligere.
    3. Kodningsmetode. Der er to sider af dette. Den første er selve prøveskalaen. Det er normalt lineært, men kan også være logaritmisk. Dette giver en stigning i det dynamiske område med samme bitdybde, men niveauet af forvrængning er højere end med det samme dynamiske område med en lineær skala og højere bitdybde. Den anden er brugen af ​​forskellige tabsgivende kompressionsalgoritmer. I forbindelse med sidstnævnte optræder begrebet bitrate. Sidstnævnte er antallet af bits, der skal til for at kode et sekunds lyd. Naturligvis afhænger bithastigheden af ​​samplingsfrekvensen og bitdybden, men også af kompressionsforholdet. Kompression kan være tabsgivende eller tabsfri. Tabsfri komprimering er i det væsentlige almindelig arkivering, og det påvirker ikke lyden. Og med tab er det derfor, de er tab. Indkoderen analyserer lydinformationen og kasserer dataene, styret af psykoakustiske overvejelser: tabet af det, der vil være mindst hørbart. Det vil sige en svag lyd mod baggrunden af ​​en stærk, svage højfrekvente lyde mod baggrunden af ​​stærke mellemfrekvente lyde og så videre. Ved mellem- og højfrekvenser kan faseinformation blive kasseret. Som følge heraf, når en optagelse komprimeres med CD-kvalitet med 4,5 gange (bitrate 320 kbps, mp3/Lame), er den hørbare forringelse af optagelsen så ubetydelig, at det uden godt udstyr er meget vanskeligt at se forskellen. Og med en bitrate på 128 er forringelsen af ​​lydkvaliteten allerede tydelig, og mange optagelser lyder simpelthen ubehageligt. Men med plastikhøjttalere eller højttalere indbygget i den bærbare computer, vil du ikke høre denne forskel.

Meget ofte hører vi sådanne definitioner som "digitalt" eller "diskret" signal, hvad er dets forskel fra "analogt"?

Essensen af ​​forskellen er, at det analoge signal er kontinuerligt i tid (blå linje), mens det digitale signal består af et begrænset sæt koordinater (røde prikker). Hvis vi reducerer alt til koordinater, så består ethvert segment af et analogt signal af et uendeligt antal koordinater.

For et digitalt signal er koordinaterne langs den vandrette akse placeret med regelmæssige intervaller i overensstemmelse med samplingsfrekvensen. I det almindelige Audio-CD-format er dette 44100 point pr. sekund. Den lodrette nøjagtighed af koordinathøjden svarer til bitdybden af ​​det digitale signal for 8 bit er det 256 niveauer, for 16 bit = 65536 og for 24 bit = 16777216 niveauer. Jo højere bitdybde (antal niveauer), jo tættere er de lodrette koordinater på den oprindelige bølge.

Analoge kilder er: vinyl og lydkassetter. Digitale kilder er: CD-Audio, DVD-Audio, SA-CD (DSD) og filer i WAVE- og DSD-formater (inklusive derivater af APE, Flac, Mp3, Ogg osv.).

Fordele og ulemper ved analogt signal

Fordelen ved et analogt signal er, at det er i analog form, vi opfatter lyd med vores ører. Og selvom vores auditive system konverterer den opfattede lydstrøm til digital form og transmitterer den i denne form til hjernen, er videnskab og teknologi endnu ikke nået til det punkt, hvor spillere og andre lydkilder forbindes direkte i denne form. Lignende forskning udføres nu aktivt for mennesker med handicap, og vi nyder udelukkende analog lyd.

Ulempen ved et analogt signal er evnen til at lagre, transmittere og replikere signalet. Når der optages på magnetbånd eller vinyl, vil kvaliteten af ​​signalet afhænge af båndets eller vinylens egenskaber. Over tid afmagnetiserer båndet, og kvaliteten af ​​det optagede signal forringes. Hver læsning ødelægger gradvist mediet, og omskrivning introducerer yderligere forvrængninger, hvor yderligere afvigelser tilføjes af det næste medie (bånd eller vinyl), læse-, skrive- og signaltransmissionsenheder.

At lave en kopi af et analogt signal er det samme som at kopiere et billede ved at tage et billede af det igen.

Fordele og ulemper ved digitalt signal

Fordelene ved et digitalt signal omfatter nøjagtighed ved kopiering og transmission af en lydstrøm, hvor originalen ikke adskiller sig fra kopien.

Den største ulempe er, at det digitale signal er et mellemtrin, og nøjagtigheden af ​​det endelige analoge signal vil afhænge af, hvor detaljeret og præcist lydbølgen beskrives med koordinater. Det er ret logisk, at jo flere punkter, der er, og jo mere nøjagtige koordinaterne er, jo mere nøjagtig vil bølgen være. Men der er stadig ingen konsensus om, hvilket antal koordinater og nøjagtigheden af ​​dataene, der er tilstrækkelige til at sige, at den digitale repræsentation af signalet er tilstrækkelig til nøjagtigt at gendanne det analoge signal, der ikke kan skelnes fra originalen af ​​vores ører.

Med hensyn til datamængder er kapaciteten af ​​en almindelig analog lydkassette kun omkring 700-1,1 MB, mens en almindelig CD rummer 700 MB. Dette giver en idé om behovet for medier med høj kapacitet. Og dette giver anledning til en separat kompromiskrig med forskellige krav til antallet af beskrivende punkter og nøjagtigheden af ​​koordinater.

I dag anses det for ganske tilstrækkeligt at repræsentere en lydbølge med en samplingfrekvens på 44,1 kHz og en bitdybde på 16 bit. Ved en samplinghastighed på 44,1 kHz er det muligt at rekonstruere et signal op til 22 kHz. Som psykoakustiske undersøgelser viser, er en yderligere stigning i samplingsfrekvensen ikke mærkbar, men en stigning i bitdybden giver en subjektiv forbedring.

Hvordan DAC'er bygger en bølge

En DAC er en digital-til-analog konverter, et element, der konverterer digital lyd til analog. Vi vil se overfladisk på de grundlæggende principper. Hvis kommentarerne viser interesse i at overveje en række punkter nærmere, vil der blive frigivet et særskilt materiale.

Multibit DAC'er

Meget ofte er en bølge repræsenteret som trin, hvilket skyldes arkitekturen i den første generation af multi-bit R-2R DAC'er, som fungerer på samme måde som en relæswitch.

DAC-indgangen modtager værdien af ​​den næste lodrette koordinat, og ved hver urcyklus skifter den det aktuelle (spændings)niveau til det passende niveau indtil næste ændring.

Selvom det menes, at det menneskelige øre ikke kan høre mere end 20 kHz, og ifølge Nyquist-teorien er det muligt at gendanne signalet til 22 kHz, er kvaliteten af ​​dette signal efter gendannelse fortsat et spørgsmål. I højfrekvensområdet er den resulterende "trinvise" bølgeform normalt langt fra den oprindelige. Den nemmeste vej ud af situationen er at øge samplinghastigheden ved optagelse, men dette fører til en betydelig og uønsket stigning i filstørrelsen.

Et alternativ er kunstigt at øge DAC-afspilningssamplinghastigheden ved at tilføje mellemværdier. De der. vi forestiller os en kontinuerlig bølgebane (grå stiplet linje), der jævnt forbinder de oprindelige koordinater (røde prikker) og tilføjer mellemliggende punkter på denne linje (mørk lilla).

Når samplingsfrekvensen øges, er det normalt nødvendigt at øge bitdybden, så koordinaterne er tættere på den tilnærmede bølge.

Takket være mellemkoordinater er det muligt at reducere "trinene" og bygge en bølge tættere på originalen.

Når du ser en boost-funktion fra 44,1 til 192 kHz i en afspiller eller ekstern DAC, er det en funktion af at tilføje mellemliggende koordinater, ikke genskabe eller skabe lyd i området over 20 kHz.

I starten var disse separate SRC-chips før DAC'en, som derefter migrerede direkte til selve DAC-chippene. I dag kan man finde løsninger, hvor sådan en chip tilføjes til moderne DAC'er, dette gøres for at give et alternativ til de indbyggede algoritmer i DAC'en og nogle gange få endnu bedre lyd (som f.eks. dette gøres i Hidiz'en) AP100).

Det vigtigste afslag i branchen fra multibit DAC'er opstod på grund af umuligheden af ​​yderligere teknologisk udvikling af kvalitetsindikatorer med nuværende produktionsteknologier og de højere omkostninger sammenlignet med "pulse" DAC'er med sammenlignelige egenskaber. Men i Hi-End-produkter foretrækkes ofte gamle multi-bit DAC'er frem for nye løsninger med teknisk bedre egenskaber.

Skifter DAC'er

I slutningen af ​​70'erne blev en alternativ version af DAC'er baseret på en "puls"-arkitektur - "delta-sigma" - udbredt. Pulse DAC-teknologi muliggjorde fremkomsten af ​​ultrahurtige switches og tillod brugen af ​​høje bærefrekvenser.

Signalamplituden er gennemsnitsværdien af ​​pulsamplituderne (impulser med samme amplitude er vist med grønt, og den resulterende lydbølge er vist i hvidt).

For eksempel vil en sekvens på otte cyklusser af fem impulser give en gennemsnitlig amplitude (1+1+1+0+0+1+1+0)/8=0,625. Jo højere bærefrekvensen er, jo flere impulser udjævnes, og der opnås en mere nøjagtig amplitudeværdi. Dette gjorde det muligt at præsentere lydstrømmen i en-bit form med et bredt dynamisk område.

Midlering kan foretages med et almindeligt analogt filter, og hvis et sådant sæt pulser påføres direkte på højttaleren, vil vi ved udgangen få lyd, og ultrahøje frekvenser vil ikke blive gengivet på grund af emitterens høje inerti. PWM-forstærkere arbejder efter dette princip i klasse D, hvor energitætheden af ​​pulser ikke skabes af deres antal, men af ​​varigheden af ​​hver puls (som er lettere at implementere, men ikke kan beskrives med en simpel binær kode).

En multibit DAC kan opfattes som en printer, der er i stand til at påføre farve ved hjælp af Pantone-blæk. Delta-Sigma er en inkjetprinter med et begrænset udvalg af farver, men på grund af evnen til at påføre meget små prikker (sammenlignet med en gevirprinter), producerer den flere nuancer på grund af den forskellige tæthed af prikker pr. overfladeenhed.

På et billede ser vi normalt ikke individuelle prikker på grund af øjets lave opløsning, men kun den gennemsnitlige tone. Ligeledes hører øret ikke impulser individuelt.

I sidste ende er det med nuværende teknologier i pulserede DAC'er muligt at opnå en bølge tæt på, hvad der teoretisk burde opnås ved tilnærmelse af mellemliggende koordinater.

Det skal bemærkes, at efter fremkomsten af ​​delta-sigma DAC forsvandt relevansen af ​​at tegne en "digital bølge" i trin, fordi Sådan bygger moderne DAC'er ikke en bølge i trin. Det er korrekt at konstruere et diskret signal med prikker forbundet med en glat linje.

Er det ideelle at skifte DAC'er?

Men i praksis er alt ikke rosenrødt, og der er en række problemer og begrænsninger.

Fordi Da det overvældende antal poster er lagret i et multi-bit signal, kræver konvertering til et pulssignal ved hjælp af "bit til bit" princippet en unødvendig høj bærefrekvens, som moderne DAC'er ikke understøtter.

Hovedfunktionen af ​​moderne puls-DAC'er er at konvertere et multi-bit signal til et enkelt-bit signal med en relativt lav bærefrekvens med datadecimering. Dybest set er det disse algoritmer, der bestemmer den endelige lydkvalitet af puls-DAC'er.

For at reducere problemet med høj bærefrekvens er audiostrømmen opdelt i flere one-bit streams, hvor hver stream er ansvarlig for sin egen bitgruppe, hvilket svarer til et multiplum af bærefrekvensen af ​​antallet af streams. Sådanne DAC'er kaldes multibit delta-sigma.

I dag har pulserede DAC'er modtaget en anden vind i højhastigheds-generelle chips i produkter fra NAD og Chord på grund af evnen til fleksibelt at programmere konverteringsalgoritmer.

DSD-format

Efter den udbredte brug af delta-sigma DAC'er var det ret logisk for fremkomsten af ​​et format til registrering af binær kode direkte til delta-sigma-kodning. Dette format kaldes DSD (Direct Stream Digital).

Formatet blev ikke udbredt af flere grunde. Redigering af filer i dette format viste sig at være unødvendigt begrænset: du kan ikke blande streams, justere lydstyrken eller anvende udligning. Det betyder, at du uden kvalitetstab kun kan arkivere analoge optagelser og producere to-mikrofonoptagelser af live-optrædener uden yderligere behandling. Kort sagt, du kan ikke rigtig tjene penge.

I kampen mod piratkopiering blev diske i SA-CD-format ikke (og er stadig ikke) understøttet af computere, hvilket gør det umuligt at lave kopier af dem. Ingen kopier – intet bredt publikum. Det var kun muligt at afspille DSD-lydindhold fra en separat SA-CD-afspiller fra en proprietær disk. Hvis der for PCM-formatet er en SPDIF-standard for digital dataoverførsel fra en kilde til en separat DAC, så er der for DSD-formatet ingen standard, og de første piratkopier af SA-CD-diske blev digitaliseret fra de analoge udgange fra SA- CD-afspillere (selvom situationen virker dum, men i virkeligheden blev nogle optagelser kun udgivet på SA-CD, eller den samme optagelse på Audio-CD blev bevidst lavet af dårlig kvalitet for at promovere SA-CD).

Vendepunktet indtraf med udgivelsen af ​​SONY-spilkonsoller, hvor SA-CD-disken automatisk blev kopieret til konsollens harddisk før afspilning. Fans af DSD-formatet benyttede sig af dette. Udseendet af piratkopierede optagelser stimulerede markedet til at frigive separate DAC'er til afspilning af DSD-streams. De fleste eksterne DAC'er med DSD-understøttelse understøtter i dag USB-dataoverførsel ved hjælp af DoP-formatet som en separat kodning af det digitale signal via SPDIF.

Bærefrekvenser for DSD er relativt små, 2,8 og 5,6 MHz, men denne lydstrøm kræver ingen datareduktionskonvertering og er ret konkurrencedygtig med højopløsningsformater som DVD-Audio.

Der er ikke noget klart svar på spørgsmålet om, hvad der er bedre, DSP eller PCM. Det hele afhænger af kvaliteten af ​​implementeringen af ​​en bestemt DAC og lydteknikerens talent, når du optager den endelige fil.

Generel konklusion

Analog lyd er det, vi hører og opfatter som verden omkring os med vores øjne. Digital lyd er et sæt koordinater, der beskriver en lydbølge, og som vi ikke kan høre direkte uden konvertering til et analogt signal.

Et analogt signal optaget direkte på en lydkassette eller vinyl kan ikke genindspilles uden tab af kvalitet, mens en bølge i digital repræsentation kan kopieres bit for bit.

Digitale optageformater er en konstant afvejning mellem mængden af ​​koordinatnøjagtighed i forhold til filstørrelse, og ethvert digitalt signal er kun en tilnærmelse af det originale analoge signal. Men de forskellige niveauer af teknologi til optagelse og gengivelse af et digitalt signal og lagring på medier for et analogt signal giver flere fordele til den digitale repræsentation af signalet, svarende til et digitalkamera versus et filmkamera.