Hva vil avgjøre kvaliteten på digitalisert lyd? Formater: hva er digital lyd Hva bestemmer kvaliteten på lydopptak

Bits, hertz, formet dithering...

Hva skjuler seg bak disse konseptene? Ved utvikling av CD Audio-standarden ble følgende verdier tatt i bruk: 44 kHz, 16 litt og 2 kanal (dvs. stereo). Hvorfor akkurat så mye? Hva er årsaken til dette valget, og også hvorfor det gjøres forsøk på å øke disse verdiene til for eksempel 96 kHz og 24 eller til og med 32 biter...

La oss først se på samplingsoppløsningen - det vil si bitdybden. Det hender bare at du må velge mellom tallene 16, 24 og 32. Mellomverdier ville selvfølgelig vært mer praktisk med tanke på lyd, men er for ubehagelige til bruk i digital teknologi (en veldig kontroversiell uttalelse, tatt i betraktning at mange ADC-er har 11 eller 12-biters digital utgang - tilstandsmerknad).

Hva gjør denne parameteren? I et nøtteskall - for dynamisk rekkevidde. Utvalget av samtidig reproduserte volumer er fra maksimal amplitude (0 desibel) til det minste som oppløsningen tillater, for eksempel omtrent minus 93 desibel for 16-bits lyd. Merkelig nok er dette sterkt knyttet til støynivået på lydsporet. I prinsippet er det for 16-bits lyd fullt mulig å overføre signaler med en effekt på -120 dB, men disse signalene vil være vanskelige å bruke i praksis på grunn av et så grunnleggende konsept som prøvetakingsstøy. Faktum er at når vi tar digitale verdier, gjør vi feil hele tiden, og runder av den virkelige analoge verdien til nærmeste mulige digitale verdi. Den minste mulige feilen er null, men den maksimale feilen vi gjør er halvparten av den siste biten (bit, heretter vil begrepet minst signifikante bit bli forkortet til MB). Denne feilen gir oss den såkalte samplingsstøyen – et tilfeldig avvik mellom det digitaliserte signalet og originalen. Denne støyen er konstant og har en maksimal amplitude lik halvparten av det minst signifikante sifferet. Dette kan betraktes som tilfeldige verdier blandet inn i et digitalt signal. Dette kalles noen ganger avrundingsstøy eller kvantiseringsstøy (som er et mer nøyaktig navn, siden amplitudekoding kalles kvantisering, og sampling er prosessen med å konvertere et kontinuerlig signal til en diskret (puls)sekvens - ca.).

La oss dvele mer detaljert på hva som menes med signalkraft, målt i biter. Det sterkeste signalet i digital lydbehandling tas vanligvis til 0 dB, dette tilsvarer alle bitene satt til 1. Dersom den mest signifikante biten (heretter SB) tilbakestilles til null, vil den resulterende digitale verdien være halvparten så stor, som tilsvarer et nivåtap på 6 desibel (10 * log(2) = 6). Ved å tilbakestille de fra de mest signifikante til de minst signifikante sifrene vil vi således redusere signalnivået med seks desibel. Det er klart at minimumssignalnivået (ett i det minst signifikante sifferet, og alle andre sifre er null) er (N-1) * 6 desibel, der N er bitdybden til prøven (sample). For 16 biter får vi nivået på det svakeste signalet - 90 desibel.

Når vi sier "halvparten av den minst signifikante biten", mener vi ikke -90/2, men halvparten av trinnet til neste bit - det vil si ytterligere 3 desibel lavere, minus 93 desibel.

La oss gå tilbake til valget av digitaliseringsoppløsning. Som allerede nevnt, introduserer digitalisering støy på nivået av halvparten av den minst signifikante biten, noe som betyr at en post digitalisert til 16 bits bråker hele tiden ved minus 93 desibel. Den kan overføre signaler roligere, men støyen holder seg fortsatt på -93 dB. Det dynamiske området til digital lyd bestemmes av dette kriteriet - der signal/støyforholdet blir til støy/signal (det er mer støy enn nyttig signal), er den nedre grensen for dette området plassert. Dermed, hoved- digitaliseringskriterium - hvor mye støy har vi råd til et rekonstruert signal? Svaret på dette spørsmålet avhenger delvis av hvor mye støy det var i det originale lydsporet. Den viktige konklusjonen er at hvis vi digitaliserer noe med et støynivå på minus 80 desibel, er det absolutt ingen grunn til å digitalisere det med mer enn 16 bit, siden på den ene siden støy på -93 dB tilfører svært lite til allerede stor (forholdsvis) støy på -80 dB, og på den annen side, stillere enn -80 dB, begynner støy/signal allerede i selve fonogrammet, og det er rett og slett ikke nødvendig å digitalisere og overføre et slikt signal.

Teoretisk sett er dette det eneste kriteriet for valg av digitaliseringsoppløsning. Mer oss vi bidrar ikke absolutt ingen forvrengninger eller unøyaktigheter. Praksis, merkelig nok, gjentar teori nesten fullstendig. Dette var det som veiledet de som valgte 16-bits oppløsning for lyd-CDer. Støy minus 93 desibel er en ganske god tilstand, som nesten nøyaktig tilsvarer forholdene i vår oppfatning: forskjellen mellom smerteterskelen (140 desibel) og den vanlige bakgrunnsstøyen i byen (30-50 desibel) er nøyaktig rundt hundre desibel, og hvis du tenker på at på Ved et volumnivå som forårsaker smerte lytter de ikke til musikk - noe som begrenser rekkevidden ytterligere - viser det seg at den virkelige støyen i rommet eller til og med utstyret er mye sterkere enn kvantiseringsstøyen . Hvis vi kan høre et nivå på minus 90 desibel i et digitalt opptak, vil vi høre og oppfatte kvantiseringsstøy, ellers vil vi rett og slett aldri avgjøre om lyden er digitalisert eller live. Det er rett og slett ingen annen forskjell når det gjelder dynamisk rekkevidde. Men i prinsippet kan en person høre meningsfullt i 120 desibel-området, og det ville være fint å bevare hele området, noe som 16 bits ikke ser ut til å håndtere.

Men dette er bare ved første øyekast: ved hjelp av en spesiell teknikk kalt formet vibrering, kan du endre frekvensspekteret til samplingsstøy, nesten fullstendig flytte det til området over 7-15 kHz. Vi ser ut til å endre frekvensoppløsningen (vi nekter å gjengi stille høye frekvenser) for ytterligere dynamisk område i det gjenværende frekvensområdet. I kombinasjon med særegenhetene ved hørselen vår - vår følsomhet for det utkastede høyfrekvente området er titalls dB lavere enn i hovedområdet (2-4 kHz) - gjør dette det mulig for relativt stille overføring av nyttige signaler ytterligere 10- 20 dB roligere enn -93 dB - dermed er det dynamiske området for 16-bits lyd for en person omtrent 110 desibel. Og generelt, samtidig kan en person rett og slett ikke høre lyder 110 desibel roligere enn den høye lyden han nettopp hørte. Øret, som øyet, tilpasser seg volumet til den omgivende virkeligheten, så det samtidige hørselsområdet vårt er relativt lite - omtrent 80 desibel. La oss snakke mer om dettering etter å ha diskutert frekvensaspekter.

For CD-er er samplingsfrekvensen 44100 Hz. Det er en oppfatning (basert på en feil forståelse av Kotelnikov-Nyquist-teoremet) at alle frekvenser opp til 22,05 kHz er gjengitt, men dette er ikke helt sant. Vi kan bare si sikkert at det ikke er noen frekvenser over 22,05 kHz i det digitaliserte signalet. Det virkelige bildet av digitalisert lydgjengivelse avhenger alltid av spesifikk teknologi og er alltid ikke så ideell som vi ønsker, og som det samsvarer med teori. Alt avhenger av den spesifikke DAC (digital-til-analog-omformer som er ansvarlig for å få et lydsignal fra en digital sekvens).

La oss først finne ut hva vi ønsker å få. En middelaldrende (ganske ung) person kan føle lyder fra 10 Hz til 20 kHz, og meningsfullt høre fra 30 Hz til 16 kHz. Lyder høyere og lavere oppfattes, men utgjør ikke akustiske sensasjoner. Lyder over 16 kHz føles som en irriterende ubehagelig faktor - trykk på hodet, smerte, spesielt høye lyder gir så skarpt ubehag at du vil forlate rommet. De ubehagelige følelsene er så sterke at driften av sikkerhetsenheter er basert på dette - noen få minutter med veldig høy høyfrekvent lyd vil gjøre noen gale, og det blir helt umulig å stjele noe i et slikt miljø. Lyder under 30 - 40 Hz med tilstrekkelig amplitude oppfattes som vibrasjoner som kommer fra objekter (høyttalere). Det ville være mer nøyaktig å si dette - bare vibrasjon. En person akustisk bestemmer nesten ikke den romlige posisjonen til slike lave lyder, så andre sanser er allerede brukt - taktile, vi føler slike lyder med kroppen vår.

Med høye frekvenser er alt litt verre, i hvert fall sikkert vanskeligere. Nesten hele essensen av forbedringer og komplikasjoner av DAC-er og ADC-er er rettet nettopp mot mer pålitelig overføring av høye frekvenser. Med "høy" mener vi frekvenser som kan sammenlignes med samplingsfrekvensen - det vil si at i tilfellet med 44,1 kHz er den 7-10 kHz og høyere.

Se for deg en 14 kHz sinusbølge digitalisert med en samplingshastighet på 44,1 kHz. Det er omtrent tre punkter (prøver) per periode av inngangssinus, og for å gjenopprette den opprinnelige frekvensen i form av en sinusoid, må du vise litt fantasi. Prosessen med å gjenopprette signalformen fra prøver skjer også i DAC; dette gjøres av rekonstruksjonsfilteret. Og hvis relativt lave frekvenser nesten er ferdige sinusoider, ligger formen og følgelig kvaliteten på gjenopprettingen av høye frekvenser helt på samvittigheten til DAC-rekonstruksjonssystemet. Jo nærmere signalfrekvensen er altså halvparten av samplingsfrekvens, jo vanskeligere er det å gjenopprette signalformen.

Dette er hovedproblemet ved gjengivelse av høye frekvenser. Problemet er imidlertid ikke så ille som det kan virke. Alle moderne DAC-er bruker multirate-teknologi, som består av digital restaurering til flere ganger høyere samplingsfrekvenser, og påfølgende konvertering til et analogt signal med økt frekvens. Dermed flyttes problemet med å gjenopprette høye frekvenser til skuldrene til digitale filtre, som kan være av svært høy kvalitet. Så høy kvalitet at det er et problem når det gjelder dyre enheter fullt fjernet - uforvrengt gjengivelse av frekvenser opp til 19-20 kHz er sikret. Resampling brukes også i ikke veldig dyre enheter, så i prinsippet kan dette problemet anses som løst. Enheter i området $30 - $60 (lydkort) eller musikksentre opp til $600, vanligvis lik DAC til disse lydkortene, reproduserer perfekt frekvenser opp til 10 kHz, fremkommelig - opp til 14 - 15, og på en eller annen måte resten. Dette ganske nok for de fleste virkelige musikalske applikasjoner, og hvis noen trenger mer kvalitet, vil de finne det i enheter av profesjonell kvalitet, som ikke er så mye dyrere - de er bare laget med omhu.

La oss gå tilbake til dithering - la oss se hvordan vi med fordel kan øke det dynamiske området utover 16 biter.

Ideen med rasering er å blande seg inn i signalet bråk. Hvor rart det enn kan høres ut, for å redusere støy og ubehagelige kvantiseringseffekter, har vi Legg til støyen din. La oss se på et eksempel – la oss dra nytte av CoolEdits evne til å fungere i 32 biter. 32 bits er 65 tusen ganger mer nøyaktig enn 16 bits, så i vårt tilfelle kan 32-bits lyd betraktes som en analog original, og å konvertere den til 16 biter kan betraktes som digitalisering. La det høyeste lydnivået i den originale 32-bits lyden tilsvare minus 110 desibel. Dette er mye roligere enn det dynamiske området til 16-bits lyd, der den svakeste hørbare lyden tilsvarer et nivå på minus 90 desibel. Derfor, hvis vi bare runder dataene til 16 biter, vil vi få fullstendig digital stillhet.

La oss legge til "hvit" støy til signalet (dvs. bredbånd og ensartet over hele frekvensbåndet) med et nivå på minus 90 desibel, omtrent tilsvarende i nivå med kvantiseringsstøy. Nå, hvis vi konverterer denne blandingen av signal og "hvit" støy til 16 biter (bare heltallsverdier er mulige - 0, 1, -1, ...), viser det seg at en del av signalet forblir. Der det opprinnelige signalet hadde et høyere nivå, er det flere, der det var et lavere nivå, er det nuller.

For å eksperimentelt teste metoden ovenfor, kan du bruke Cool Edit-lydredigeringsprogrammet (eller et annet som støtter 32-bits format). For å høre hva du får, må du forsterke signalet med 14 bits (78 dB).

Resultatet er en støyende 16-bits lyd som inneholder det originale signalet, som hadde et nivå på minus 110 desibel. I prinsippet er dette standardmåten for å utvide det dynamiske området, som ofte skjer nesten av seg selv - det er nok støy overalt. Imidlertid er dette i seg selv ganske meningsløst - nivået av samplingsstøy forblir på samme nivå, og å sende et signal som er svakere enn støyen er ikke veldig klart fra et logisk synspunkt... (En veldig feilaktig oppfatning, siden overføring av en signal med et nivå som er mindre enn nivået støy er en av de grunnleggende metodene for datakoding. Ca.)

En mer kompleks måte - formet vibrering, er at siden vi fortsatt ikke hører høye frekvenser i veldig stille lyder, betyr det at hovedstøyeffekten bør rettes til disse frekvensene, og du kan til og med bruke støy på et høyere nivå - jeg bruker et nivå på 4 lavordenssiffer (to bits i et 16-bits signal). Vi konverterer den resulterende blandingen av 32-bits signal og støy til et 16-bits signal, filtrerer ut høye frekvenser (som faktisk ikke er sansbare for mennesker på øret) og øker signalnivået slik at vi kan evaluere resultatet.

Dette er allerede ganske god (for et ekstremt lavt volum) lydoverføring; støyen er omtrent like stor som selve lyden med et startnivå på minus 110 desibel! Viktig merknad: vi forfremmet reell samplingsstøy fra halvparten av det minst signifikante sifferet (-93 dB) til fire minst signifikante siffer (-84 dB), senking hørbar samplingsstøy fra -93 dB til omtrent -110 dB. Signal til støyforhold forverret seg, men støyen gikk inn i høyfrekvensområdet og sluttet å være hørbar, noe som ga betydelig forbedring i realiteten(menneskeoppfattet) signal-til-støy-forhold.

(Med andre ord, siden støyeffekten så å si er "spredt ut" over frekvensområdet, uten å passere gjennom de øvre frekvensene, tar vi bort en del av kraften fra den, som et resultat av at signalet til -støyforhold forbedres i den tidsmessige representasjonen av signaler. - Ca.)

I praksis er dette allerede støynivået for sampling av 20-bits lyd. Den eneste betingelsen for denne teknologien er tilstedeværelsen av frekvenser for støy. 44,1 kHz lyd gjør det mulig å plassere støy ved uhørbare frekvenser ved lave volumer på 10-20 kHz. Men hvis du digitaliserer ved 96 kHz, vil frekvensområdet for støy (uhørbar av mennesker) være så stort at ved bruk av formet dithering 16 bits egentlig bli til alle 24.

[Merk: PC-høyttaleren er en en-bits enhet, men med en ganske høy maksimal samplingsfrekvens (slår av/på denne enkeltbiten). Ved å bruke en prosess som i hovedsak ligner dithering, kalt ganske pulsbreddemodulasjon, ble det spilt av ganske høykvalitets digital lyd på den - 5-8 lavfrekvente biter ble ekstrahert fra en bit og en høy samplingsfrekvens, og høyfrekvente støyfilter var utstyrets manglende evne til å reprodusere så høye frekvenser, samt vår manglende evne til å høre dem. En lett høyfrekvent fløyte, men - den hørbare delen av denne støyen - var hørbar.]

Dermed lar formet dithering deg betydelig redusere den allerede lave samplingsstøyen til 16-bits lyd, og dermed utvide det nyttige (stille) dynamiske området ved å stille alle området for menneskelig hørsel. Siden nå formet dithering alltid brukes når du konverterer fra et arbeidsformat på 32 biter til de siste 16 bitene for en CD, er våre 16 biter helt tilstrekkelige til å formidle lydbildet fullt ut.

Det skal bemerkes at denne teknologien bare fungerer på stadiet for å forberede materiale for reproduksjon. Når du behandler lyd av høy kvalitet, ganske enkelt nødvendig forbli i 32 biter for ikke å bruke dithering etter hver operasjon, bedre koding av resultatene tilbake til 16 biter. Men hvis støynivået til fonogrammet er mer enn minus 60 desibel, kan du utføre all prosessering i 16 biter uten det minste samvittighetsstikk. Intermediær dithering vil sikre fravær av avrundingsforvrengninger, og støyen det legger til hundrevis av ganger svakere enn det som allerede eksisterer og derfor helt likegyldig.

Q:
Hvorfor sier de at 32-bit lyd er bedre enn 16-bit lyd?
A1: De tar feil.
A2: [De betyr noe litt annerledes: når du behandler eller tar opp lyd trenger å bruk høyere oppløsning. Dette utnytter de Alltid. Men i lyd som i det ferdige produktet er det ikke nødvendig med en oppløsning på mer enn 16 bits.]
Q: Er det fornuftig å øke samplingsfrekvensen (for eksempel til 48 kHz eller til 96)?
A1: Har det ikke. Med enhver kompetent tilnærming til å designe en DAC, sendes 44 kHz alle nødvendig frekvensområde.
A2: [De betyr noe litt annerledes: det gir mening, men bare når du behandler eller tar opp lyd.]
Q: Hvorfor er introduksjonen av høyere frekvenser og bithastigheter fortsatt i gang?
A1: Det er viktig for fremdriften å gå videre. Hvor og hvorfor er ikke lenger så viktig...
A2: Mange prosesser skjer lettere i dette tilfellet. Hvis enheten for eksempel skal behandle lyd, vil det være lettere for den å gjøre dette i 96 kHz / 32 bits. Nesten alle DSP-er bruker 32 bits for lydbehandling, og det å kunne glemme konverteringer gjør utviklingen enklere og fortsatt en liten økning i kvaliteten. Og generelt - lyd for videre bearbeiding Det har Det er fornuftig å lagre den i en høyere oppløsning enn 16 bits. For hi-end enheter som kun gjengir lyd, dette absolutt likegyldig.
Q: Er 32x eller 24x eller til og med 18-biters DAC-er bedre enn 16-biters?
EN: Generelt - Nei. Kvaliteten på konverteringen avhenger ikke i det hele tatt av bitdybden. AC"97-kodeken (et moderne lydkort under $50) bruker en 18-bits kodek, og kort for $500, hvis lyd ikke engang kan sammenlignes med dette tullet, bruker en 16-bits kodek. Dette gjør absolutt ingen forskjell for 16 bit lydavspilling.
Det er også verdt å huske på at de fleste DAC-er vanligvis produserer færre biter enn de tar inn. For eksempel er det reelle støynivået til en typisk billig kodek -90 dB, som er 15 biter, og selv om det i seg selv er 24-bit - vil du ikke få noe utbytte fra de "ekstra" 9 bitene - resultatet av deres arbeid, selv om det var en, vil bli druknet i dem samme egen støy. De fleste billige enheter er ganske enkelt ignorert ekstra biter - de går rett og slett ikke inn i beregningen i lydsynteseprosessen, selv om de går til den digitale inngangen til DAC-en.
Q: Hva med opptak?
EN: For opptak er det bedre å ha en ADC med høyere kapasitet. Igjen, mer ekte bit dybde. Bitdybden til DAC-en må tilsvare støynivået til det originale lydsporet, eller rett og slett være tilstrekkelig til å oppnå ønsket lavt nivå bråk.
Det er også praktisk å ha litt dybde med margin for å bruke det økte dynamiske området for mindre presis justering av opptaksnivået. Men husk – du må alltid slå ekte kodekområde. I virkeligheten er en 32-bits ADC, for eksempel, nesten fullstendig meningsløs, siden de laveste ti bitene ganske enkelt vil lage støy kontinuerlig - lav støy (under -200 dB) rett og slett Kan ikke være i en analog musikkkilde.

Det er ingen vits i å kreve høyere bitdybde eller samplingsfrekvens fra lyd sammenlignet med CD, eller bedre kvalitet. 16 bit / 44 kHz, presset til det ytterste med formet dithering, er ganske dyktig fullt formidle informasjon av interesse for oss, hvis det ikke handler om lydbehandlingsprosessen. Du bør ikke kaste bort plass på unødvendige data i ferdig materiale, akkurat som du ikke bør forvente økt lydkvalitet fra DVD-Audio med sine 96 kHz / 24-bit. Med riktig tilnærming når vi lager lyd i et standard CD-format, vil vi ha en kvalitet som trenger det bare ikke i ytterligere forbedring, og ansvaret for riktig lydopptak av de endelige dataene har lenge vært påtatt av de utviklede algoritmene og folk som vet hvordan de skal brukes riktig. De siste årene vil du ikke finne en ny plate uten formet dithering og andre teknikker for å presse lydkvaliteten til det ytterste. Ja, det vil være mer praktisk for de late eller rett og slett skjeve å gi ferdig materiale i 32 biter og 96 kHz, men i teorien - er det verdt flere ganger mer lyddata?..

Lyd-CD-er begynner gradvis å bli en ting fra historien. Nei, selvfølgelig selges de fortsatt i butikk, men stadig færre hører på og kjøper dem. Mange ser rett og slett ikke poenget med dette, for selv om vi vurderer den lovlige måten å få tak i lydfiler på, koster én sang i MP3-format i en nettbutikk mye mindre enn én sang som er spilt inn på en lydplate. Et rimelig spørsmål oppstår: hvorfor betale mer?

Selvfølgelig er lydkvaliteten på en lyd-CD mye høyere enn for noen lydfil der dataene er komprimert, men for det overraskende flertallet av mennesker er ikke denne forskjellen kritisk. Hva er der! I disse dager tenker selv de største audiofilene på å konvertere sin lyd-CD-samling til lydfiler, for det kan godt komme en tid da etterspørselen etter plater vil være så lav at lyd-CD-spillere rett og slett ikke lenger vil produseres.

I denne artikkelen skal vi se på noen programmer for å ta data fra lyd-CDer og konvertere dem til MP3 og andre formater. Men først, litt teori.

Lydkomprimering og populære lydformater

Datakomprimering innebærer analyse og forenkling av innspilt informasjon, som et resultat av at flere lyddata kan tas opp på et lasermedium enn det som er mulig ved opptak av en lyd-CD.

For å gjøre det tydeligere hva datakomprimering er, se for deg at du må gjenfortelle innholdet på et stykke papir der bokstaven A er skrevet tusen ganger til vennen din over telefonen. Du kan ganske enkelt si "A" høyt tusen ganger, og samtalepartneren din vil være klar over hva som er skrevet på arket. På den annen side kan du først telle hvor mange ganger denne bokstaven er skrevet, og deretter fortelle vennen din at bokstaven "A" har blitt skrevet tusen ganger på papiret. Resultatet vil være det samme - vennen din vil vite innholdet på papiret, men i det andre tilfellet vil det ta deg mye mindre tid å overføre informasjonen. Du utførte med andre ord datakomprimering ved å analysere hvor mange ganger en bokstav gjentas.

Digital lydkomprimering følger omtrent samme scenario. Lyddatakomprimering har imidlertid en rekke funksjoner. Så for eksempel, for at du skal gjenkjenne en kjent melodi, er det nok å spille den i dårligere kvalitet. Det bør huskes at mange mennesker mener helt andre ting i konseptet "høykvalitetslyd". Så, for eksempel, hvis en musikalsk innspilling gjør vondt i ørene til en musiker fordi strengen ikke ble plukket i en strengt definert toneart, kan den gjennomsnittlige personen tåle mye mer alvorlige mangler.

Denne funksjonen ved menneskelig lydoppfatning har inspirert etableringen av nye lydformater som bruker en lydkomprimeringsmodell med tap. Forringelsen av lyden for de fleste musikkelskere er ikke kritisk, og i noen tilfeller er ikke kvaliteten i det hele tatt viktig, for eksempel i stillhetspauser, når lyddata er uten verdi eller i de frekvensene som det menneskelige øret ikke kan oppfatte .

Det finnes et stort antall digitale lydopptaksformater. Forskjellen deres er at de bruker forskjellige komprimeringsalgoritmer. De mest populære formatene i dag er:

  • WMA (Windows Media Audio) er et format utviklet av Microsoft Corporation. Dette formatet ble laget på grunnlag av det populære VQF-formatet tidligere, som nesten er glemt i dag.
  • OGG Vorbis er et gratis og åpen kildekode-format. Nylig har den blitt så populær at den støttes av produsentene av noen bærbare spillere.
  • MP3 (MPEG Layer III) er det mest populære formatet, og har hatt en ledende posisjon i mange år.

Funksjoner i MP3-formatet

Det vanlige navnet MP3 er en forkortelse for MPEG Layer III. MPEG står på sin side for Moving Picture Coding Experts Group. MP3-formatet ble utviklet av det tyske Fraunhofer-instituttet på begynnelsen av 90-tallet av forrige århundre. Formatet ble virkelig populært etter at Thomson ble interessert i det.

Takket være komprimeringsalgoritmen som bruker MP3-formatet, kan lyddata komprimeres ti til tolv ganger uten merkbart tap i kvalitet. Det høye kompresjonsforholdet oppnås på grunn av det faktum at MP3 bruker egenskapene til menneskelig hørsel. Det menneskelige øret oppfatter lyd innenfor området 20 Hz til 20 kHz, så alle lyder som ikke faller innenfor dette området blir ganske enkelt avvist. Dette reduserer datamengden betydelig.

En annen funksjon ved MP3 som lar deg få en mindre lydfil er relatert til stereolyd og, igjen, til egenskapene til menneskelig hørsel. Når vi hører på musikk innspilt i stereo, hører vi hovedforskjellen i mellomfrekvensene. Takket være denne funksjonen kan en komprimeringsalgoritme brukes på lydkoding, som vil kode separat for hver kanal kun frekvensspekteret der forskjellen mellom kanalene er mest hørbar. Og lyden på de frekvensene til stereokanaler der forskjellen er mindre merkbar, kombineres og kodes i monomodus. Denne kombinerte stereosignalkodingsmodusen kalles Joint Stereo.

Digital lydspesifikasjoner

Ved komprimering av lyddata blir det nødvendig å kontrollere kvaliteten på den digitaliserte lyden. Så hvis du for eksempel trenger å digitalisere en lydbok, er det ikke nødvendig med høy kvalitet i dette tilfellet. Hovedsaken er at du kan skjønne ordene. Skal et musikkstykke digitaliseres er kvalitet av stor betydning.
Uavhengig av hvilken lydkomprimeringsalgoritme som brukes, er parametrene som karakteriserer lydkvaliteten de samme.

En av hovedkarakteristikkene til digital lyd er bithastighet. Bitrate er kodings-/dekodingshastigheten til en digital lydstrøm. Jo høyere verdi, jo bedre lydkvalitet og større filstørrelse. Det må sies at bitrate er en relativ verdi. Filer som er opprettet ved hjelp av forskjellige komprimeringsalgoritmer og som har samme bitrate, vil variere i kvalitet.

Koding kan gjøres med konstant eller variabel bitrate. Den variable bitrate-kodingsmetoden gjør det mulig å endre kvaliteten på lydsignalet i farten, det vil si under avspilling. Hvis programmet fastslår at det har å gjøre med en kompleks lydstrøm (for eksempel lydene til et symfoniorkester), øker kvaliteten, men hvis lyden er enkel (for eksempel når det er en pause mellom sangene), øker kvaliteten. forringes automatisk. Dette reduserer filstørrelsen.

Lydkoding skjer med en viss prøvetakingshastighet. Under prosesseringsprosessen deles lydsignalet inn i et stort antall deler (samples), som hver behandles av en komprimeringsalgoritme. Nøyaktigheten av signalbehandlingen bestemmes av samplingsfrekvensen, som måles i kilohertz. Avhengig av antall samples per tidsenhet, skilles en lydkarakteristikk som bitdybde. Det er ikke vanskelig å gjette at jo flere samples som behandles, jo høyere er lydkvaliteten.

Dobbelt sampling påføres lydsignalet som kommer inn i analog-til-digital-omformeren (lydkort) - i amplitude og i tid.
For å matematisk beskrive signalformen, brukes Kotelnikovs teorem, ifølge hvilken enhver kontinuerlig prosess med et begrenset spektrum kan representeres av en diskret sekvens av dens øyeblikkelige verdier. Frekvensen til en slik sekvens må være minst to ganger frekvensen til den høyeste harmoniske i prosessen. Frekvensen som øyeblikkelige verdier (sampler) av et signal samples med kalles samplingsfrekvensen.

Ethvert avvik i formen til signalet som kommer til inngangen til lydkortet fra den korrekte sinusformen fører til at spekteret går utover den naturlige frekvensen til signalet. Derfor, når du sampler et lydsignal i tid, begrenses frekvensene til den innkommende pulsen til under halvparten av samplingsfrekvensen, eller et spektrum med en overfrekvens tas. På grunn av det faktum at det menneskelige øret kan skille lydvibrasjoner med en frekvens på opptil 20 kHz, viser det seg at samplingsfrekvensen til ethvert lydsignal må være minst 40 kHz. Derfor kan du i praksis finne lydenheter med samplingsfrekvenser på 44,1 kHz, 48 kHz og 96 kHz.

For amplitudesampling av lyd, for eksempel på en laserplate, brukes kvantiseringsnivå 2 til sekstende potens (65536). Å representere tall fra 0 til 2^16 krever 16 biter med informasjon, så det er mer praktisk å bruke begrepet 16-biters signalbredde. Lyddybden avhenger av det dynamiske området til inngangssignalet og den akseptable kvantiseringsstøyen.

Amplitude- og tidskvantisering forårsaker lydforvrengninger over hele frekvensbåndet, som tilkommer støy og interferens fra lydbanen til lydkortet.

En annen viktig egenskap ved digital lyd er stereolyd. Derfor, hvis lyden tas opp i stereo i stedet for mono, dobles mengden lyddata og følgelig øker størrelsen på utdatafilen.

Rippe musikk fra lyd-CDer ved hjelp av Windows MediaSpiller

Muligheten til å kopiere lyddata er allerede innebygd i WindowsXP. For å kopiere lyddata ved hjelp av Windows Media Player, sett inn en lydplate i platestasjonen, start spilleren og klikk på "Kopier fra plate"-knappen øverst i programvinduet. Spillervinduet vil vise innholdet på lydmediet ditt som individuelle spor. Det er en avmerkingsboks ved siden av hver av dem. Dette betyr at alle sangene vil bli kopiert. Hvis du ikke vil kopiere en bestemt sang, fjerner du merket i boksen ved siden av navnet.

Som standard har ikke programinnstillingene en veldig høy kvalitet på lyddatakomprimering, så hvis du er en fan av høykvalitetslyd, må du endre bithastigheten til den opprettede filen. For å gjøre dette, kjør kommandoen "Verktøy> Alternativer" og i vinduet som åpnes, gå til fanen "Kopierer musikk fra CD". Bitrate-verdien settes med "Sound Quality"-glidebryteren, og posisjonen lengst til høyre tilsvarer den maksimale utdatafilstørrelsen og følgelig den beste lyden.

En av funksjonene til standardspilleren er muligheten til å beskytte lydfiler fra å spilles av på en annen datamaskin. Hvis du vil at WMA-filene som er opprettet av programmet bare skal spilles av på denne datamaskinen, sørg for at alternativet "Kopierbeskyttet musikk" er merket av.

For å starte kopieringen, klikk på "Kopier musikk fra CD"-knappen øverst i programvinduet. Et vindu vises på skjermen der du kan aktivere eller deaktivere innholdsbeskyttelse ved å merke av i den aktuelle boksen. Før du begynner å kopiere, kan du også endre kopieringsinnstillingene om nødvendig.

Komprimeringsprosessen kan overvåkes i kolonnen "CD Copy Status". Så snart operasjonen med å overføre sporet til harddisken er fullført, vil meldingen "Kopiert til biblioteket" vises ved siden av den kopierte sangen.

Til tross for den tilsynelatende praktiske metoden for å kopiere lyddata, er den i mange tilfeller upraktisk å bruke. For det første støttes ikke WMA-formatet av alle bærbare MP3-enheter, og for det andre tar koding til dette formatet mer tid sammenlignet med andre formater. Til slutt, når du bruker Windows Media Player, er det ingen fleksibel kontroll over komprimeringsinnstillinger.

Kort sagt, hvis du har kjøpt en MP3-spiller og planlegger å regelmessig fylle på det digitale musikkbiblioteket ditt ved å kopiere data fra lydplater, må du sørge for at du har en høykvalitets og multifunksjonell lydkoder for hånden. Vi skal se på noen av disse programmene i den andre delen av artikkelen.

Hvilke parametere bestemmer kvaliteten på digital lyd?

  • Lydinformasjon. Lyd er en bølge som forplanter seg i luft, vann eller annet medium med kontinuerlig skiftende intensitet og frekvens.

    En person oppfatter lydbølger (luftvibrasjoner) ved hjelp av hørselen i form av lyd med varierende volum og toner. Jo større intensiteten til lydbølgen er, desto høyere er lyden, jo høyere frekvensen er, desto høyere er lydens tone (fig. 1.1).

    Ris. 1.1. Avhengighet av lydens volum og tonehøyde på intensiteten og frekvensen til lydbølgen

    Det menneskelige øret oppfatter lyd med frekvenser fra 20 vibrasjoner per sekund (lav lyd) til 20 000 vibrasjoner per sekund (høy lyd).

    En person kan oppfatte lyd i et stort spekter av intensiteter, der maksimal intensitet er 1014 ganger større enn minimum (hundre tusen milliarder ganger). For å måle lydvolumet brukes en spesiell enhet "desibel" (dbl) (tabell 5.1). En reduksjon eller økning i lydvolum med 10 dbl tilsvarer en reduksjon eller økning i lydintensitet med 10 ganger.

    Tabell 5.1. Lydvolum
    Lydvolum i desibel
    Den nedre grensen for følsomhet for det menneskelige øret er 0
    rasling av blader 10
    Samtale 60
    Bilhorn 90
    Jetmotor 120
    Smerteterskel 140
    Tidssampling av lyd. For at en datamaskin skal behandle lyd, må det kontinuerlige lydsignalet konverteres til digital diskret form ved hjelp av tidssampling. En kontinuerlig lydbølge er delt inn i separate små midlertidige seksjoner, og for hver slik seksjon settes en viss verdi av lydintensiteten.

    Dermed erstattes lydvolumets kontinuerlige avhengighet av tiden A(t) med en diskret sekvens av lydstyrkenivåer. På grafen ser dette ut som å erstatte en jevn kurve med en sekvens av "trinn" (fig. 1.2).

    Ris. 1.2. Tidssampling av lyd

    Prøvetakingsfrekvens. En mikrofon koblet til lydkortet brukes til å ta opp analog lyd og konvertere den til digital form. Kvaliteten på den resulterende digitale lyden avhenger av antall målinger av lydvolumnivået per tidsenhet, dvs. samplingsfrekvensen. Jo flere målinger som gjøres per sekund (jo høyere samplingsfrekvens), desto mer nøyaktig følger "stigen" til det digitale lydsignalet kurven til dialogsignalet.

    Lydsamplingsfrekvensen er antall lydvolummålinger tatt i løpet av ett sekund.

    Lydsamplingshastigheter kan variere fra 8 000 til 48 000 lydvolummålinger per sekund.

    Lydkodingsdybde. Hvert "trinn" er tildelt et spesifikt lydvolumnivå. Lydstyrkenivåer kan betraktes som et sett med mulige tilstander N, hvis koding krever en viss mengde informasjon I, som kalles lydkodingsdybden.

    Lydkodingsdybde er mengden informasjon som trengs for å kode diskrete volumnivåer for digital lyd.

    Hvis kodingsdybden er kjent, kan antallet digitale lydvolumnivåer beregnes ved å bruke formelen N = 2I. La lydkodingsdybden være 16 biter, så er antallet lydvolumnivåer lik:

    N = 2I = 216 = 65.536.

    Under kodingsprosessen blir hvert lydvolumnivå tildelt sin egen 16-bits binære kode; det laveste lydnivået vil tilsvare koden 00000000000000000, og det høyeste - 1111111111111111.

    Digitalisert lydkvalitet. Jo høyere frekvens og samplingsdybde på lyden, desto høyere er kvaliteten på den digitaliserte lyden. Den laveste kvaliteten på digitalisert lyd, tilsvarende kvaliteten på telefonkommunikasjon, oppnås med en samplingshastighet på 8000 ganger per sekund, en samplingsdybde på 8 biter og opptak av ett lydspor (monomodus). Den høyeste digitaliserte lydkvaliteten, tilsvarende lyd-CD-kvalitet, oppnås med en samplingshastighet på 48 000 ganger per sekund, en samplingsdybde på 16 biter og opptak av to lydspor (stereomodus).

    Det må huskes at jo høyere kvalitet på digital lyd er, desto større informasjonsvolumet har lydfilen. Du kan estimere informasjonsvolumet til en digital stereolydfil med en lydvarighet på 1 sekund med gjennomsnittlig lydkvalitet (16 biter, 24 000 målinger per sekund). For å gjøre dette må kodingsdybden multipliseres med antall målinger på 1 sekund og multipliseres med 2 (stereolyd):

    16 biter 24 000 2 = 768 000 biter = 96 000 byte = 93,75 KB.

    Lydredaktører. Lydredigerere lar deg ikke bare ta opp og spille av lyd, men også redigere den. Digitalisert lyd presenteres i lydredigerere i en visuell form, slik at operasjoner med kopiering, flytting og sletting av deler av lydsporet enkelt kan utføres med musen. I tillegg kan du legge lydspor oppå hverandre (mikse lyder) og bruke ulike akustiske effekter (ekko, avspilling i revers osv.).

Hva vil avgjøre kvaliteten på digitalisert lyd?

    For kvaliteten på digital lyd er to ting avgjørende: kvaliteten på det originale lydsporet og kvaliteten på analog-til-digital-omformeren.

    Når det gjelder kvaliteten på det originale lydsporet, er alt tilnærmet klart. Hvis den er buet (med forvrengninger) eller støyende, vil ingen digitalisering forbedre den. Vel, det vil si at det er mulig, gjennom ulike behandlinger, inkludert digitale, å isolere et nyttig signal, som brukes når man isolerer tale mot bakgrunnen av ekstern støy eller når man isolerer et vanlig signal mot bakgrunnen av tilfeldig støy (alle har sett filmer om spinn, ikke sant?), men hvis vi snakker om et musikalsk fonogram, det vil si et fonogram med et bredt spekter, vil ikke alle slags triks hjelpe.

    Så vi vil anta at fonogrammet er av høy kvalitet.

    Da gjenstår bare ADC.

    Hovedindikatoren her er kodingsbitdybden. Det er klart at jo større den er, jo bedre, men på den annen side, jo mer kompleks og kostbar er en slik omformer. Ved begynnelsen av digital teknologi (som ikke var så lenge siden...), ble en 16-bits sluttrekord anerkjent som optimal når det gjelder pris/kvalitetsforhold. Med en lavere bitdybde lider det dynamiske området til en digital kopi av et fonogram - lavnivålyder (pianissimo) utgjør bare en liten del av alle biter, noe som gjør at den trinnvise karakteren til signalendringen blir merkbar. Og lavpassfiltrering vil ikke hjelpe mye her (omtaler av Kotelnikovs teorem er velkomne, men vi må ikke glemme at det stilltiende antar perfekt analog-til-digital konvertering, det vil si med en uendelig stor bitdybde). Siden enhver prosessering, selv i digital form, bare kan redusere den effektive bitdybden, ble og fortsetter digitalisering i studioer å bli utført frem til i dag med et større antall biter.

    I dag er det ikke lenger uvanlig at digitale fonogrammer er forberedt med en 24-bits dybde (super-lyd-CD, Audio-DVD). Med en slik dybde vil det være mulig å formidle det dynamiske spekteret til ethvert musikalsk verk, til og med Ravels Bolero, som begynner med en knapt hørbar del av skarptrommer og avslutter fortissimo med hele orkesteret.

    Værsågod. I tillegg til bitdybden er også andre ADC-parametere viktige, først og fremst ikke-linearitet og støy. Spesielt lyder. Fordi de begrenser den effektive bitkapasiteten til omformeren. Hva er vitsen med disse 24 bitene hvis de siste 8 av dem er støyende og derfor ikke har noen nyttig informasjon... Støynivået til moderne 24-bits ADC-er kan nå -115 dB ved samplingshastigheter over 100 kHz, dette er allerede ganske grei, og den differensielle ikke-lineariteten måles ti tusendeler av en prosent. Det vil si at slike løsninger lett overgår evnene til det menneskelige øret.

  • Det vil avhenge av tre hovedparametre:

    1. Sampling rate. Den begrenser båndbredden til overførte frekvenser: den maksimale frekvensen til det overførte signalet er under halvparten av samplingsfrekvensen. I telefoni brukes oftest en samplingsfrekvens på 8 kHz, noe som gir et teoretisk bånd litt smalere enn 4 kHz (i praksis brukes et bånd på 300-3000 Hz). Og CD-standarden bruker en frekvens på 44,1 kHz, som gjør det mulig å overføre spekteret på 20 Hz - 20 kHz fullt ut. Å øke samplingshastigheten over disse verdiene gir ikke mening med tanke på rekkevidden av overførte frekvenser, men det reduserer nivået av intermodulasjonsforvrengning. I DVD Audio-standarden er den maksimale samplingsfrekvensen 192 kHz; noen gode lydkort for datamaskiner støtter også denne samplingsfrekvensen (båndbredden til avspillings- og opptaksfrekvensene varierer fra modell til modell). Andre standardverdier er 96, 48, 32, 22,05, 11,025 kHz.
    2. Kodebitdybde. Det dynamiske området avhenger av det - med lineær koding er forskjellen mellom full sving og minimumstrinnet 256 ganger for 8 biter, og 65536 ganger for 16 biter, som er henholdsvis 48 og 96 dB. 48 dB er ærlig talt lavt, dette er nivået på det dynamiske området til en kompakt kassett, og i tillegg til det smale dynamiske området, oppstår det ubehagelige forvrengninger, spesielt tydelig hørbare på stille steder - en konsekvens av transformasjonen av et jevnt signal inn i en trappet. Med en 16-bits bitdybde er lydkvaliteten allerede ganske god (denne bitdybden brukes av en CD), men ikke ideell i mange virkelige tilfeller - mange klassiske verk, så vel som tung musikk, krever en større DD. Høykvalitetssystemer bruker 24-biters koding, selv om det faktiske antallet signifikante biter ikke overstiger 18-20. Det er ingen vits i å øke bitdybden ytterligere.
    3. Kodemetode. Det er to sider ved dette. Den første er selve prøveskalaen. Den er vanligvis lineær, men kan også være logaritmisk. Dette gir en økning i dynamisk område med samme bitdybde, men nivået av forvrengning er høyere enn med samme dynamiske område med lineær skala og høyere bitdybde. Den andre er bruken av forskjellige komprimeringsalgoritmer med tap. I forbindelse med sistnevnte dukker begrepet bitrate opp. Sistnevnte er antall biter som trengs for å kode ett sekund med lyd. Naturligvis avhenger bithastigheten av samplingsfrekvensen og bitdybden, men også av kompresjonsforholdet. Kompresjon kan være tapsfri eller tapsfri. Tapsfri komprimering er i hovedsak vanlig arkivering og det påvirker ikke lyden. Og med tap, det er derfor de er tap. Koderen analyserer lydinformasjonen og forkaster dataene, styrt av psykoakustiske betraktninger: tap av det som vil være minst hørbart. Det vil si en svak lyd mot bakgrunnen til en sterk, svake høyfrekvente lyder mot bakgrunnen av sterke midtfrekvente lyder, og så videre. Ved middels og høye frekvenser kan faseinformasjon bli forkastet. Som et resultat, når et opptak er komprimert med CD-kvalitet med 4,5 ganger (bitrate 320 kbps, mp3/Lame), er den hørbare forringelsen av opptaket så ubetydelig at uten godt utstyr er det svært vanskelig å se forskjellen. Og med en bitrate på 128 er forringelsen av lydkvaliteten allerede åpenbar og mange opptak høres rett og slett ubehagelig ut. Men med plasthøyttalere eller høyttalere innebygd i den bærbare datamaskinen, vil du ikke høre denne forskjellen.

Svært ofte hører vi slike definisjoner som "digitalt" eller "diskret" signal; hva er forskjellen fra "analogt"?

Essensen av forskjellen er at det analoge signalet er kontinuerlig i tid (blå linje), mens det digitale signalet består av et begrenset sett med koordinater (røde prikker). Hvis vi reduserer alt til koordinater, så består ethvert segment av et analogt signal av et uendelig antall koordinater.

For et digitalt signal er koordinatene langs den horisontale aksen plassert med jevne mellomrom, i samsvar med samplingsfrekvensen. I det vanlige Audio-CD-formatet er dette 44100 poeng per sekund. Den vertikale nøyaktigheten til koordinathøyden tilsvarer bitdybden til det digitale signalet; for 8 bit er det 256 nivåer, for 16 biter = 65536 og for 24 biter = 16777216 nivåer. Jo høyere bitdybde (antall nivåer), jo nærmere er de vertikale koordinatene den opprinnelige bølgen.

Analoge kilder er: vinyl og lydkassetter. Digitale kilder er: CD-Audio, DVD-Audio, SA-CD (DSD) og filer i WAVE- og DSD-formater (inkludert derivater av APE, Flac, Mp3, Ogg, etc.).

Fordeler og ulemper med analogt signal

Fordelen med et analogt signal er at det er i analog form vi oppfatter lyd med ørene. Og selv om vårt auditive system konverterer den oppfattede lydstrømmen til digital form og overfører den i denne formen til hjernen, har vitenskap og teknologi ennå ikke nådd poenget med å koble sammen spillere og andre lydkilder direkte i denne formen. Tilsvarende forskning utføres nå aktivt for funksjonshemmede, og vi nyter utelukkende analog lyd.

Ulempen med et analogt signal er muligheten til å lagre, overføre og replikere signalet. Ved opptak til magnetbånd eller vinyl vil kvaliteten på signalet avhenge av egenskapene til båndet eller vinylen. Over tid avmagnetiserer båndet og kvaliteten på det innspilte signalet forringes. Hver lesing ødelegger gradvis mediene, og omskriving introduserer ytterligere forvrengning, der ytterligere avvik legges til av neste media (tape eller vinyl), lesing, skriving og signaloverføringsenheter.

Å lage en kopi av et analogt signal er det samme som å kopiere et fotografi ved å ta et bilde av det på nytt.

Fordeler og ulemper med digitalt signal

Fordelene med et digitalt signal inkluderer nøyaktighet ved kopiering og overføring av en lydstrøm, der originalen ikke er forskjellig fra kopien.

Den største ulempen er at det digitale signalet er et mellomtrinn og nøyaktigheten til det endelige analoge signalet vil avhenge av hvor detaljert og nøyaktig lydbølgen beskrives med koordinater. Det er ganske logisk at jo flere punkter det er og jo mer nøyaktige koordinatene er, jo mer nøyaktig vil bølgen være. Men det er fortsatt ingen konsensus om hvilket antall koordinater og nøyaktigheten til dataene som er tilstrekkelig til å si at den digitale representasjonen av signalet er tilstrekkelig til å gjenopprette det analoge signalet nøyaktig, som ikke kan skilles fra originalen med våre ører.

Når det gjelder datamengder, er kapasiteten til en vanlig analog lydkassett kun ca 700-1,1 MB, mens en vanlig CD rommer 700 MB. Dette gir en ide om behovet for medier med høy kapasitet. Og dette gir opphav til en egen kompromisskrig med ulike krav til antall beskrivende punkter og nøyaktigheten av koordinater.

I dag anses det som ganske tilstrekkelig å representere en lydbølge med en samplingsfrekvens på 44,1 kHz og en bitdybde på 16 biter. Ved en samplingshastighet på 44,1 kHz er det mulig å rekonstruere et signal opp til 22 kHz. Som psykoakustiske studier viser, er en ytterligere økning i samplingsfrekvensen ikke merkbar, men en økning i bitdybden gir en subjektiv forbedring.

Hvordan DAC-er bygger en bølge

En DAC er en digital-til-analog-omformer, et element som konverterer digital lyd til analog. Vi skal se overfladisk på de grunnleggende prinsippene. Dersom kommentarene tilsier interesse for å vurdere en rekke punkter nærmere, vil det bli gitt ut et eget materiale.

Multibit DAC-er

Svært ofte er en bølge representert som trinn, noe som skyldes arkitekturen til den første generasjonen av multi-bit R-2R DAC-er, som fungerer på samme måte som en relébryter.

DAC-inngangen mottar verdien av neste vertikale koordinat, og ved hver klokkesyklus skifter den gjeldende (spennings)nivået til passende nivå til neste endring.

Selv om det antas at det menneskelige øret ikke kan høre høyere enn 20 kHz, og ifølge Nyquist-teorien er det mulig å gjenopprette signalet til 22 kHz, forblir kvaliteten på dette signalet etter restaurering et spørsmål. I høyfrekvensområdet er den resulterende "trinnede" bølgeformen vanligvis langt fra den opprinnelige. Den enkleste veien ut av situasjonen er å øke samplingsfrekvensen ved opptak, men dette fører til en betydelig og uønsket økning i filstørrelsen.

Et alternativ er å kunstig øke DAC-avspillingssamplingsfrekvensen ved å legge til mellomverdier. De. vi forestiller oss en kontinuerlig bølgebane (grå stiplet linje) som jevnt forbinder de opprinnelige koordinatene (røde prikker) og legger til mellompunkter på denne linjen (mørk lilla).

Ved økning av samplingsfrekvensen er det vanligvis nødvendig å øke bitdybden slik at koordinatene er nærmere den tilnærmede bølgen.

Takket være mellomkoordinater er det mulig å redusere "trinnene" og bygge en bølge nærmere originalen.

Når du ser en boost-funksjon fra 44,1 til 192 kHz i en spiller eller ekstern DAC, er det en funksjon av å legge til mellomliggende koordinater, ikke gjenopprette eller lage lyd i området over 20 kHz.

Opprinnelig var disse separate SRC-brikker før DAC-en, som deretter migrerte direkte til selve DAC-brikkene. I dag kan du finne løsninger hvor en slik brikke legges til moderne DAC-er, dette gjøres for å gi et alternativ til de innebygde algoritmene i DAC-en og noen ganger få enda bedre lyd (som f.eks. dette gjøres i Hidizs AP100).

Hovedavslaget i bransjen fra multibit DAC-er skjedde på grunn av umuligheten av videre teknologisk utvikling av kvalitetsindikatorer med gjeldende produksjonsteknologier og de høyere kostnadene sammenlignet med "pulse" DAC-er med sammenlignbare egenskaper. Imidlertid, i Hi-End-produkter, foretrekkes ofte gamle multi-bit DAC-er fremfor nye løsninger med teknisk bedre egenskaper.

Bytte DACer

På slutten av 70-tallet ble en alternativ versjon av DAC-er basert på en "puls"-arkitektur - "delta-sigma" - utbredt. Pulse DAC-teknologi muliggjorde fremveksten av ultraraske brytere og tillot bruk av høye bærefrekvenser.

Signalamplituden er gjennomsnittsverdien av pulsamplitudene (pulser med lik amplitude vises i grønt, og den resulterende lydbølgen vises i hvitt).

For eksempel vil en sekvens på åtte sykluser med fem pulser gi en gjennomsnittlig amplitude (1+1+1+0+0+1+1+0)/8=0,625. Jo høyere bærefrekvens, jo flere pulser jevnes ut og en mer nøyaktig amplitudeverdi oppnås. Dette gjorde det mulig å presentere lydstrømmen i en-bits form med et bredt dynamisk område.

Gjennomsnitt kan gjøres med et vanlig analogt filter, og hvis et slikt sett med pulser påføres direkte på høyttaleren, vil vi ved utgangen få lyd, og ultrahøye frekvenser vil ikke bli reprodusert på grunn av den høye tregheten til emitteren. PWM-forsterkere fungerer etter dette prinsippet i klasse D, der energitettheten til pulser ikke skapes av antallet, men av varigheten av hver puls (som er lettere å implementere, men ikke kan beskrives med en enkel binær kode).

En multibit DAC kan betraktes som en skriver som kan påføre farger ved hjelp av Pantone-blekk. Delta-Sigma er en blekkskriver med et begrenset utvalg av farger, men på grunn av muligheten til å påføre svært små prikker (sammenlignet med en gevir-skriver), produserer den flere nyanser på grunn av ulik tetthet av prikker per overflateenhet.

På et bilde ser vi vanligvis ikke individuelle prikker på grunn av øyets lave oppløsning, men bare gjennomsnittstonen. På samme måte hører ikke øret impulser individuelt.

Til syvende og sist, med dagens teknologier i pulsede DAC-er, er det mulig å oppnå en bølge nær det som teoretisk skal oppnås når man tilnærmer mellomliggende koordinater.

Det skal bemerkes at etter bruken av delta-sigma DAC, forsvant relevansen av å tegne en "digital bølge" i trinn, fordi Slik bygger ikke moderne DAC-er en bølge i trinn. Det er riktig å konstruere et diskret signal med prikker forbundet med en jevn linje.

Er det ideelt å bytte DAC?

Men i praksis er ikke alt rosenrødt, og det er en rekke problemer og begrensninger.

Fordi Siden det overveldende antallet poster er lagret i et multi-bit signal, krever konvertering til et pulssignal ved å bruke "bit-til-bit"-prinsippet en unødvendig høy bærefrekvens, noe moderne DAC-er ikke støtter.

Hovedfunksjonen til moderne puls-DACer er å konvertere et multi-bit signal til et enkelt-bit signal med en relativt lav bærefrekvens med datadesimering. I utgangspunktet er det disse algoritmene som bestemmer den endelige lydkvaliteten til puls-DACer.

For å redusere problemet med høy bærefrekvens, er lydstrømmen delt inn i flere en-bits strømmer, hvor hver strøm er ansvarlig for sin bitgruppe, som tilsvarer et multiplum av bærefrekvensen til antall strømmer. Slike DAC-er kalles multibit delta-sigma.

I dag har pulsede DAC-er fått en ny vind i høyhastighets generelle brikker i produkter fra NAD og Chord på grunn av muligheten til fleksibelt å programmere konverteringsalgoritmer.

DSD-format

Etter den utbredte bruken av delta-sigma DAC-er, var det ganske logisk for fremveksten av et format for opptak av binær kode direkte til delta-sigma-koding. Dette formatet kalles DSD (Direct Stream Digital).

Formatet ble ikke mye brukt av flere grunner. Redigering av filer i dette formatet viste seg å være unødvendig begrenset: du kan ikke blande strømmer, justere volumet eller bruke utjevning. Dette betyr at uten tap av kvalitet kan du kun arkivere analoge opptak og produsere to-mikrofonopptak av live-opptredener uten videre behandling. Med et ord, du kan egentlig ikke tjene penger.

I kampen mot piratkopiering ble (og er fortsatt ikke) plater i SA-CD-format støttet av datamaskiner, noe som gjør det umulig å lage kopier av dem. Ingen kopier – ikke noe bredt publikum. Det var mulig å spille av DSD-lydinnhold kun fra en separat SA-CD-spiller fra en proprietær plate. Hvis det for PCM-formatet er en SPDIF-standard for digital dataoverføring fra en kilde til en separat DAC, er det ingen standard for DSD-formatet, og de første piratkopier av SA-CD-plater ble digitalisert fra de analoge utgangene til SA- CD-spillere (selv om situasjonen virker dum, men i virkeligheten ble noen innspillinger kun gitt ut på SA-CD, eller samme innspilling på Audio-CD ble bevisst laget av dårlig kvalitet for å promotere SA-CD).

Vendepunktet skjedde med utgivelsen av SONY-spillkonsoller, hvor SA-CD-platen automatisk ble kopiert til konsollens harddisk før avspilling. Fans av DSD-formatet benyttet seg av dette. Utseendet til piratkopierte opptak stimulerte markedet til å gi ut separate DAC-er for å spille av DSD-strømmer. De fleste eksterne DAC-er med DSD-støtte støtter i dag USB-dataoverføring ved å bruke DoP-formatet som en separat koding av det digitale signalet via SPDIF.

Bærefrekvenser for DSD er relativt små, 2,8 og 5,6 MHz, men denne lydstrømmen krever ingen datareduksjonskonvertering og er ganske konkurransedyktig med høyoppløselige formater som DVD-Audio.

Det er ikke noe klart svar på spørsmålet om hva som er bedre, DSP eller PCM. Alt avhenger av kvaliteten på implementeringen av en bestemt DAC og talentet til lydteknikeren når du spiller inn den endelige filen.

Generell konklusjon

Analog lyd er det vi hører og oppfatter som verden rundt oss med øynene. Digital lyd er et sett med koordinater som beskriver en lydbølge, og som vi ikke kan høre direkte uten konvertering til et analogt signal.

Et analogt signal tatt opp direkte på en lydkassett eller vinyl kan ikke tas opp på nytt uten tap av kvalitet, mens en bølge i digital representasjon kan kopieres bit for bit.

Digitale opptaksformater er en konstant avveining mellom mengden av koordinatnøyaktighet kontra filstørrelse, og ethvert digitalt signal er bare en tilnærming av det originale analoge signalet. Imidlertid gir de forskjellige nivåene av teknologi for opptak og reprodusering av et digitalt signal og lagring på media for et analogt signal flere fordeler til den digitale representasjonen av signalet, på samme måte som et digitalkamera kontra et filmkamera.