อะไรจะเป็นตัวกำหนดคุณภาพของเสียงดิจิทัล? รูปแบบ: เสียงดิจิทัลคืออะไร อะไรเป็นตัวกำหนดคุณภาพของการบันทึกเสียง

บิต เฮิรตซ์ รูปทรงต่างๆ...

มีอะไรซ่อนอยู่เบื้องหลังแนวคิดเหล่านี้? เมื่อพัฒนามาตรฐาน CD Audio จะใช้ค่าต่อไปนี้: 44 กิโลเฮิร์ทซ์ 16 บิตและ 2 ช่องสัญญาณ (เช่น สเตอริโอ) ทำไมมากขนาดนั้น? อะไรคือสาเหตุของตัวเลือกนี้และเหตุใดจึงพยายามเพิ่มค่าเหล่านี้เป็น 96 kHz และ 24 หรือ 32 บิต...

ก่อนอื่น มาดูความละเอียดของการสุ่มตัวอย่าง ซึ่งก็คือความลึกของบิต มันเกิดขึ้นจนคุณต้องเลือกระหว่างหมายเลข 16, 24 และ 32 แน่นอนว่าค่าระดับกลางจะสะดวกกว่าในแง่ของเสียง แต่ไม่น่าพอใจเกินไปสำหรับการใช้งานในเทคโนโลยีดิจิทัล (ข้อความที่ขัดแย้งกันมาก เมื่อพิจารณาว่า ADC จำนวนมากมีเอาต์พุตดิจิทัล 11 หรือ 12 บิต - สถานะโดยประมาณ)

พารามิเตอร์นี้ทำหน้าที่อะไร? โดยสรุป - สำหรับช่วงไดนามิก ช่วงของระดับเสียงที่ผลิตซ้ำพร้อมกันคือตั้งแต่แอมพลิจูดสูงสุด (0 เดซิเบล) ไปจนถึงค่าต่ำสุดที่ความละเอียดอนุญาต เช่น ประมาณลบ 93 เดซิเบลสำหรับเสียง 16 บิต น่าแปลกที่สิ่งนี้เกี่ยวข้องอย่างมากกับระดับเสียงของโฟโนแกรม โดยหลักการแล้ว สำหรับเสียง 16 บิต ค่อนข้างเป็นไปได้ที่จะส่งสัญญาณที่มีกำลัง -120 dB อย่างไรก็ตาม สัญญาณเหล่านี้จะใช้งานได้ยากในทางปฏิบัติเนื่องจากแนวคิดพื้นฐานเช่น เสียงสุ่มตัวอย่าง- ความจริงก็คือเมื่อรับค่าดิจิทัล เราทำผิดพลาดตลอดเวลา โดยปัดเศษค่าแอนะล็อกจริงให้เป็นค่าดิจิทัลที่ใกล้ที่สุดที่เป็นไปได้ ข้อผิดพลาดที่เล็กที่สุดที่เป็นไปได้คือศูนย์ แต่ข้อผิดพลาดสูงสุดที่เราทำคือครึ่งหนึ่งของบิตสุดท้าย (บิต ต่อจากนี้ไปคำว่าบิตที่มีนัยสำคัญน้อยที่สุดจะย่อเป็น MB) ข้อผิดพลาดนี้ทำให้เรามีสิ่งที่เรียกว่าสัญญาณรบกวนจากการสุ่มตัวอย่าง ซึ่งเป็นความคลาดเคลื่อนแบบสุ่มระหว่างสัญญาณดิจิทัลกับสัญญาณต้นฉบับ สัญญาณรบกวนนี้คงที่และมีแอมพลิจูดสูงสุดเท่ากับครึ่งหนึ่งของหลักที่มีนัยสำคัญน้อยที่สุด นี่ถือได้ว่าเป็นค่าสุ่มที่ผสมเข้ากับสัญญาณดิจิทัล บางครั้งเรียกว่าสัญญาณรบกวนการปัดเศษหรือสัญญาณรบกวนเชิงปริมาณ (ซึ่งเป็นชื่อที่แม่นยำกว่า เนื่องจากการเข้ารหัสแอมพลิจูดเรียกว่าการวัดปริมาณ และการสุ่มตัวอย่างเป็นกระบวนการในการแปลงสัญญาณต่อเนื่องเป็นลำดับแบบไม่ต่อเนื่อง (พัลส์) - ประมาณ)

ให้เราดูรายละเอียดเพิ่มเติมเกี่ยวกับความหมายของพลังงานสัญญาณ ซึ่งวัดเป็นบิต สัญญาณที่แรงที่สุดในการประมวลผลเสียงดิจิทัลมักจะเป็น 0 dB ซึ่งสอดคล้องกับบิตทั้งหมดที่ตั้งค่าเป็น 1 หากบิตที่สำคัญที่สุด (ต่อไปนี้คือ SB) ถูกรีเซ็ตเป็นศูนย์ ค่าดิจิทัลที่ได้จะมีขนาดใหญ่เป็นครึ่งหนึ่ง ซึ่งสอดคล้องกับ ระดับการสูญเสีย 6 เดซิเบล (10 * log(2) = 6) ดังนั้น โดยการรีเซ็ตค่าจากตัวเลขที่สำคัญที่สุดไปเป็นตัวเลขที่มีนัยสำคัญน้อยที่สุด เราจะลดระดับสัญญาณลงหกเดซิเบล เป็นที่ชัดเจนว่าระดับสัญญาณขั้นต่ำ (หนึ่งในหลักที่มีนัยสำคัญน้อยที่สุด และหลักอื่นๆ ทั้งหมดเป็นศูนย์) คือ (N-1) * 6 เดซิเบล โดยที่ N คือความลึกบิตของตัวอย่าง (ตัวอย่าง) สำหรับ 16 บิตเราได้ระดับสัญญาณที่อ่อนที่สุด - 90 เดซิเบล

เมื่อเราพูดว่า "บิตที่มีนัยสำคัญน้อยที่สุดครึ่งหนึ่ง" เราไม่ได้หมายถึง -90/2 แต่หมายถึงครึ่งหนึ่งของบิตถัดไป นั่นคือ ลดลงอีก 3 เดซิเบล ลบ 93 เดซิเบล

กลับไปที่ตัวเลือกความละเอียดในการแปลงเป็นดิจิทัล ดังที่ได้กล่าวไปแล้ว การแปลงเป็นดิจิทัลทำให้เกิดสัญญาณรบกวนที่ระดับครึ่งหนึ่งของบิตที่มีนัยสำคัญน้อยที่สุด ซึ่งหมายความว่าบันทึกจะถูกแปลงเป็นดิจิทัลเป็น 16 บิต ส่งเสียงดังอย่างต่อเนื่องความดังลบ 93 เดซิเบล สามารถส่งสัญญาณได้เงียบกว่าแต่เสียงรบกวนยังคงอยู่ที่ -93 dB ช่วงไดนามิกของเสียงดิจิตอลถูกกำหนดโดยเกณฑ์นี้ โดยที่อัตราส่วนสัญญาณ/เสียงรบกวนเปลี่ยนเป็นสัญญาณรบกวน/สัญญาณ (มีสัญญาณรบกวนมากกว่าสัญญาณที่มีประโยชน์) ขีดจำกัดล่างของช่วงนี้จะตั้งอยู่ ดังนั้น, หลักเกณฑ์การแปลงเป็นดิจิทัล - เสียงรบกวนเท่าไหร่เราจะสามารถจ่ายสัญญาณที่สร้างขึ้นใหม่ได้หรือไม่? คำตอบสำหรับคำถามนี้ส่วนหนึ่งขึ้นอยู่กับปริมาณเสียงรบกวนในเพลงประกอบต้นฉบับ ข้อสรุปที่สำคัญคือว่าหากเรากำลังแปลงบางสิ่งให้เป็นดิจิทัลด้วยระดับเสียงลบ 80 เดซิเบล ก็ไม่มีเหตุผลใดที่จะแปลงเป็นดิจิทัลที่มากกว่า 16 บิต เนื่องจากในอีกด้านหนึ่ง เสียงที่ -93 dB จะเพิ่มน้อยมากให้กับ เสียงขนาดใหญ่อยู่แล้ว (ในเชิงเปรียบเทียบ) ที่ -80 dB และในทางกลับกัน เสียง/สัญญาณที่เงียบกว่า -80 dB เริ่มต้นในโฟโนแกรมแล้ว และไม่จำเป็นต้องแปลงเป็นดิจิทัลและส่งสัญญาณดังกล่าว

ตามทฤษฎีแล้ว นี่เป็นเกณฑ์เดียวในการเลือกความละเอียดในการแปลงเป็นดิจิทัล เรามากขึ้น เราไม่มีส่วนร่วมไม่มีการบิดเบือนหรือความไม่ถูกต้องอย่างแน่นอน การฝึกฝนนั้นค่อนข้างจะซ้ำกับทฤษฎีเกือบทั้งหมด นี่คือสิ่งที่แนะนำผู้ที่เลือกความละเอียด 16 บิตสำหรับซีดีเพลง เสียงรบกวนลบ 93 เดซิเบลเป็นสภาวะที่ค่อนข้างดีซึ่งเกือบจะสอดคล้องกับเงื่อนไขการรับรู้ของเราทุกประการ: ความแตกต่างระหว่างเกณฑ์ความเจ็บปวด (140 เดซิเบล) และเสียงพื้นหลังปกติในเมือง (30-50 เดซิเบล) นั้นประมาณหนึ่งร้อยพอดี เดซิเบล และหากคุณพิจารณาว่าในระดับเสียงที่ทำให้เกิดอาการปวด พวกเขาจะไม่ฟังเพลง - ซึ่งจะทำให้ช่วงแคบลง - ปรากฎว่าเสียงรบกวนที่แท้จริงของห้องหรือแม้แต่อุปกรณ์นั้นแรงกว่าเสียงรบกวนในเชิงปริมาณมาก . หากเราสามารถได้ยินระดับลบ 90 เดซิเบลในการบันทึกแบบดิจิทัล เราจะได้ยินและรับรู้สัญญาณรบกวนเชิงปริมาณ ไม่เช่นนั้น เราจะไม่มีทางตัดสินได้ว่าเสียงนั้นถูกแปลงเป็นดิจิทัลหรือถ่ายทอดสด ไม่มีความแตกต่างอื่นใดในแง่ของช่วงไดนามิก แต่โดยหลักการแล้ว บุคคลสามารถได้ยินอย่างมีความหมายในช่วง 120 เดซิเบล และคงจะดีถ้ารักษาช่วงทั้งหมดนั้นไว้ ซึ่งเป็นสิ่งที่ 16 บิตดูเหมือนจะรับไม่ได้

แต่นี่เป็นเพียงการมองแวบแรกเท่านั้น: ด้วยความช่วยเหลือของเทคนิคพิเศษที่เรียกว่า มีรูปร่างที่แตกต่างกันคุณสามารถเปลี่ยนสเปกตรัมความถี่ของเสียงสุ่มตัวอย่างได้ โดยย้ายไปยังบริเวณที่สูงกว่า 7-15 kHz เกือบทั้งหมด ดูเหมือนว่าเราจะเปลี่ยนความละเอียดของความถี่ (เราปฏิเสธที่จะสร้างความถี่สูงแบบเงียบ) เพื่อเพิ่มช่วงไดนามิกเพิ่มเติมในช่วงความถี่ที่เหลืออยู่ เมื่อรวมกับลักษณะเฉพาะของการได้ยินของเรา - ความไวของเราต่อบริเวณที่ถูกขับออกด้วยความถี่สูงนั้นต่ำกว่าในบริเวณหลักหลายสิบเดซิเบล (2-4 kHz) - ทำให้สามารถส่งสัญญาณที่เป็นประโยชน์ได้ค่อนข้างเงียบเพิ่มอีก 10- 20 dB เงียบกว่า -93 dB - ดังนั้นช่วงไดนามิกของเสียง 16 บิตสำหรับบุคคลคือประมาณ 110 เดซิเบล และโดยทั่วไปในขณะเดียวกันบุคคลก็ไม่ได้ยินเสียงที่เงียบกว่าเสียงดังที่เขาเพิ่งได้ยินถึง 110 เดซิเบล หูก็เหมือนกับดวงตา ปรับระดับเสียงของความเป็นจริงโดยรอบ ดังนั้นระยะการได้ยินของเราพร้อมกันจึงค่อนข้างเล็ก - ประมาณ 80 เดซิเบล มาพูดถึงเรื่อง dithring ในรายละเอียดเพิ่มเติมหลังจากพูดคุยเรื่องความถี่แล้ว

สำหรับซีดี ความถี่สุ่มตัวอย่างคือ 44100 Hz มีความเห็น (ตามความเข้าใจที่ไม่ถูกต้องของทฤษฎีบท Kotelnikov-Nyquist) ว่าความถี่ทั้งหมดสูงถึง 22.05 kHz ได้รับการทำซ้ำ แต่สิ่งนี้ไม่เป็นความจริงทั้งหมด เราสามารถพูดได้อย่างแน่นอนว่าไม่มีความถี่ที่สูงกว่า 22.05 kHz ในสัญญาณดิจิทัล ภาพที่แท้จริงของการสร้างเสียงดิจิทัลนั้นขึ้นอยู่กับเสมอ เทคโนโลยีเฉพาะและไม่เหมาะอย่างที่เราต้องการเสมอไป และสอดคล้องกับทฤษฎีด้วย ทุกอย่างขึ้นอยู่กับ DAC เฉพาะ (ตัวแปลงดิจิทัลเป็นอะนาล็อกที่รับผิดชอบในการรับสัญญาณเสียงจากลำดับดิจิทัล)

ก่อนอื่นมาคิดกันก่อนว่าเราอยากได้อะไร คนวัยกลางคน (ค่อนข้างเด็ก) สามารถสัมผัสเสียงได้ตั้งแต่ 10 Hz ถึง 20 kHz และได้ยินอย่างมีความหมายตั้งแต่ 30 Hz ถึง 16 kHz รับรู้เสียงที่สูงขึ้นและต่ำลง แต่ไม่ถือเป็นความรู้สึกทางอะคูสติก เสียงที่สูงกว่า 16 kHz ถือเป็นปัจจัยที่ไม่พึงประสงค์ที่น่ารำคาญ - ความกดดันบนศีรษะ, ความเจ็บปวด, โดยเฉพาะเสียงดังทำให้เกิดความรู้สึกไม่สบายอย่างรุนแรงจนคุณต้องการออกจากห้อง ความรู้สึกไม่พึงประสงค์นั้นรุนแรงมากจนการทำงานของอุปกรณ์รักษาความปลอดภัยเป็นไปตามสิ่งนี้ - เสียงความถี่สูงที่ดังมากเพียงไม่กี่นาทีจะทำให้ทุกคนคลั่งไคล้และเป็นไปไม่ได้เลยที่จะขโมยสิ่งใดในสภาพแวดล้อมเช่นนี้ เสียงที่ต่ำกว่า 30 - 40 เฮิร์ตซ์ที่มีแอมพลิจูดเพียงพอจะถูกรับรู้ว่าเป็นการสั่นสะเทือนที่เล็ดลอดออกมาจากวัตถุ (ลำโพง) การพูดเช่นนั้นจะแม่นยำกว่า - แค่การสั่นสะเทือน ในทางเสียงบุคคลแทบจะไม่ได้กำหนดตำแหน่งเชิงพื้นที่ของเสียงต่ำดังกล่าวดังนั้นจึงมีการใช้ประสาทสัมผัสอื่น ๆ อยู่แล้ว - สัมผัสได้เรารู้สึกถึงเสียงดังกล่าวด้วยร่างกายของเรา

ด้วยความถี่สูง ทุกอย่างจะแย่ลงเล็กน้อย อย่างน้อยก็แน่นอน ยากขึ้น- สาระสำคัญเกือบทั้งหมดของการปรับปรุงและภาวะแทรกซ้อนของ DAC และ ADC มุ่งเป้าไปที่การส่งความถี่สูงที่เชื่อถือได้มากขึ้น โดย "สูง" เราหมายถึงความถี่ที่เทียบได้กับความถี่สุ่มตัวอย่าง - นั่นคือในกรณีของ 44.1 kHz จะเป็น 7-10 kHz และสูงกว่า

ลองนึกภาพคลื่นไซน์ 14 kHz ที่ถูกแปลงเป็นดิจิทัลด้วยอัตราการสุ่มตัวอย่าง 44.1 kHz ไซน์ซอยด์อินพุตมีประมาณสามจุด (ตัวอย่าง) ต่อช่วงเวลา และเพื่อที่จะคืนค่าความถี่ดั้งเดิมในรูปของไซนูซอยด์ คุณต้องแสดงจินตนาการ กระบวนการกู้คืนรูปร่างของสัญญาณจากตัวอย่างก็เกิดขึ้นใน DAC เช่นกัน ซึ่งทำได้โดยตัวกรองการสร้างใหม่ และหากความถี่ที่ค่อนข้างต่ำเกือบจะเป็นไซนัสซอยด์สำเร็จรูปรูปร่างและคุณภาพของการฟื้นฟูความถี่สูงจึงขึ้นอยู่กับความรู้สึกผิดชอบชั่วดีของระบบการฟื้นฟู DAC ดังนั้นความถี่ของสัญญาณก็จะยิ่งใกล้ถึงครึ่งหนึ่งของความถี่ ความถี่ในการสุ่มตัวอย่าง ยิ่งทำให้การคืนค่ารูปร่างของสัญญาณทำได้ยากขึ้น

นี่เป็นปัญหาหลักเมื่อสร้างความถี่สูง อย่างไรก็ตามปัญหาไม่ได้เลวร้ายอย่างที่คิด DAC สมัยใหม่ทั้งหมดใช้เทคโนโลยีหลายเรต ซึ่งประกอบด้วยการฟื้นฟูแบบดิจิทัลให้มีอัตราการสุ่มตัวอย่างที่สูงขึ้นหลายเท่า และการแปลงเป็นสัญญาณอะนาล็อกที่ความถี่ที่เพิ่มขึ้นในเวลาต่อมา ดังนั้นปัญหาในการกู้คืนความถี่สูงจึงถูกย้ายไปที่ไหล่ของตัวกรองดิจิทัลซึ่งมีคุณภาพสูงมาก คุณภาพสูงมากจนในกรณีเครื่องราคาแพงมีปัญหา อย่างเต็มที่ลบออก - รับประกันการสร้างความถี่สูงถึง 19-20 kHz โดยไม่บิดเบือน การสุ่มตัวอย่างใหม่ยังใช้ในอุปกรณ์ที่ไม่แพงมาก ดังนั้นโดยหลักการแล้วปัญหานี้จึงถือว่าแก้ไขได้ อุปกรณ์ในช่วงราคา 30 - 60 เหรียญสหรัฐฯ (การ์ดเสียง) หรือศูนย์ดนตรีที่มีราคาสูงถึง 600 เหรียญสหรัฐฯ ซึ่งมักจะคล้ายกันใน DAC กับการ์ดเสียงเหล่านี้ สร้างความถี่ได้อย่างสมบูรณ์แบบสูงสุด 10 kHz ผ่านได้ - สูงถึง 14 - 15 และส่วนที่เหลือ นี้ ค่อนข้างเพียงพอสำหรับการใช้งานดนตรีในชีวิตจริงส่วนใหญ่ และหากใครต้องการคุณภาพมากกว่านี้ พวกเขาจะพบมันในอุปกรณ์ระดับมืออาชีพซึ่งไม่ได้มีราคาแพงกว่ามากนัก - พวกเขาเพียงแค่ทำอย่างชาญฉลาดเท่านั้น

กลับไปที่การแยกส่วน - มาดูกันว่าเราจะเพิ่มช่วงไดนามิกให้เกิน 16 บิตได้อย่างมีประโยชน์ได้อย่างไร

แนวคิดในการแยกสีคือการผสมเข้ากับสัญญาณ เสียงรบกวน- ถึงแม้จะฟังดูแปลกก็ตาม เพื่อลดเสียงรบกวนและผลกระทบเชิงปริมาณที่ไม่พึงประสงค์ เรา เพิ่มเสียงของคุณ ลองดูตัวอย่าง - ลองใช้ความสามารถของ CoolEdit ในการทำงานแบบ 32 บิตกันดีกว่า 32 บิตมีความแม่นยำมากกว่า 16 บิตถึง 65,000 เท่า ดังนั้นในกรณีของเรา เสียง 32 บิตจึงถือเป็นต้นฉบับแบบอะนาล็อก และการแปลงเป็น 16 บิตก็ถือเป็นการแปลงเป็นดิจิทัล ปล่อยให้ระดับเสียงสูงสุดในเสียง 32 บิตดั้งเดิมตรงกับลบ 110 เดซิเบล ซึ่งเงียบกว่าช่วงไดนามิกของเสียง 16 บิตมาก ซึ่งเสียงที่ได้ยินน้อยที่สุดจะสอดคล้องกับระดับลบ 90 เดซิเบล ดังนั้น หากเราปัดเศษข้อมูลเป็น 16 บิต เราก็จะได้รับความเงียบทางดิจิทัลโดยสมบูรณ์

มาเพิ่มสัญญาณรบกวน “สีขาว” ให้กับสัญญาณ (เช่น บรอดแบนด์และสม่ำเสมอทั่วทั้งย่านความถี่) ด้วยระดับลบ 90 เดซิเบล ซึ่งใกล้เคียงกับระดับเสียงรบกวนในเชิงปริมาณ ตอนนี้ถ้าเราแปลงส่วนผสมของสัญญาณและเสียง "สีขาว" เป็น 16 บิต (เป็นไปได้เฉพาะค่าจำนวนเต็มเท่านั้น - 0, 1, -1, ... ) ปรากฎว่าสัญญาณบางส่วนยังคงอยู่ ในกรณีที่สัญญาณดั้งเดิมมีระดับที่สูงกว่า ก็จะมีสัญญาณมากขึ้น ในกรณีที่มีระดับต่ำกว่าก็จะมีศูนย์

หากต้องการทดสอบวิธีการข้างต้นแบบทดลอง คุณสามารถใช้โปรแกรมแก้ไขเสียง Cool Edit (หรือวิธีอื่นที่รองรับรูปแบบ 32 บิต) หากต้องการฟังสิ่งที่คุณได้รับ คุณต้องขยายสัญญาณ 14 บิต (78 dB)

ผลลัพธ์ที่ได้คือเสียง 16 บิตที่มีสัญญาณรบกวนซึ่งมีระดับลบ 110 เดซิเบล โดยหลักการแล้ว นี่เป็นวิธีมาตรฐานในการขยายช่วงไดนามิกซึ่งมักจะเกิดขึ้นเกือบด้วยตัวเอง - มีสัญญาณรบกวนเพียงพอทุกที่ อย่างไรก็ตาม สิ่งนี้ในตัวเองนั้นค่อนข้างไร้ความหมาย - ระดับของสัญญาณรบกวนในการสุ่มตัวอย่างยังคงอยู่ที่ระดับเดิม และการส่งสัญญาณที่อ่อนกว่าสัญญาณรบกวนนั้นไม่ชัดเจนนักจากมุมมองเชิงตรรกะ... (ความคิดเห็นที่ผิดพลาดมากนับตั้งแต่ส่งสัญญาณ สัญญาณที่มีระดับน้อยกว่าระดับสัญญาณรบกวนถือเป็นวิธีพื้นฐานของการเข้ารหัสข้อมูลประมาณหนึ่ง)

วิธีที่ซับซ้อนยิ่งขึ้น - มีรูปร่างที่แตกต่างกันคือเนื่องจากเรายังคงไม่ได้ยินเสียงความถี่สูงด้วยเสียงที่เงียบมาก นั่นหมายความว่าพลังเสียงหลักควรถูกส่งไปยังความถี่เหล่านี้ และคุณยังสามารถใช้เสียงรบกวนในระดับที่สูงกว่าได้ ฉันจะใช้ระดับ 4 ตัวเลขลำดับต่ำ (สองบิตในสัญญาณ 16 บิต) เราแปลงผลลัพธ์ส่วนผสมของสัญญาณ 32 บิตและสัญญาณรบกวนให้เป็นสัญญาณ 16 บิต กรองความถี่สูงออก (ซึ่งจริงๆ แล้วมนุษย์ไม่ได้ยินด้วยหู) และเพิ่มระดับสัญญาณเพื่อให้เราสามารถประเมินผลลัพธ์ได้

นี่เป็นการส่งผ่านเสียงที่ค่อนข้างดี (สำหรับระดับเสียงที่ต่ำมาก) เสียงนั้นมีกำลังเท่ากับเสียงโดยประมาณด้วยระดับเริ่มต้นที่ลบ 110 เดซิเบล! หมายเหตุสำคัญ: เรา ได้รับการเลื่อนตำแหน่งเสียงสุ่มตัวอย่างจริงจากครึ่งหนึ่งของหลักที่มีนัยสำคัญน้อยที่สุด (-93 dB) ถึงสี่หลักที่มีนัยสำคัญน้อยที่สุด (-84 dB) ลดลงเสียงตัวอย่างที่ได้ยินได้ตั้งแต่ -93 dB ถึงประมาณ -110 dB อัตราส่วนสัญญาณต่อเสียงรบกวน แย่ลงแต่เสียงรบกวนก็เข้าสู่บริเวณความถี่สูงและหยุดได้ยินซึ่งทำให้ การปรับปรุงอย่างมีนัยสำคัญในความเป็นจริง(การรับรู้ของมนุษย์) อัตราส่วนสัญญาณต่อเสียงรบกวน

(กล่าวอีกนัยหนึ่ง เนื่องจากพลังเสียงนั้น "กระจาย" ออกไปในช่วงความถี่ โดยไม่ผ่านความถี่บน เราจึงนำพลังงานส่วนหนึ่งออกไปจากมัน ซึ่งเป็นผลมาจากการที่สัญญาณไปยัง - อัตราส่วนสัญญาณรบกวนดีขึ้นในการแสดงสัญญาณชั่วคราว

ในทางปฏิบัติ นี่เป็นระดับเสียงของการสุ่มตัวอย่างเสียง 20 บิตอยู่แล้ว เงื่อนไขเดียวสำหรับเทคโนโลยีนี้คือการมีความถี่ของเสียงรบกวน เสียง 44.1 kHz ทำให้สามารถวางเสียงรบกวนที่ความถี่ที่ไม่ได้ยินที่ระดับเสียงต่ำ 10-20 kHz แต่ถ้าคุณแปลงเป็นดิจิทัลที่ 96 kHz ขอบเขตความถี่ของเสียงรบกวน (มนุษย์ไม่ได้ยิน) จะมีขนาดใหญ่มากจนเมื่อใช้การแยกส่วนที่มีรูปทรง 16 บิต จริงหรือกลายเป็นทั้งหมด 24

[หมายเหตุ: ลำโพง PC เป็นอุปกรณ์หนึ่งบิต แต่มีอัตราการสุ่มตัวอย่างสูงสุดที่ค่อนข้างสูง (เปิด/ปิดบิตเดียวนี้) การใช้กระบวนการที่คล้ายกันในสาระสำคัญกับการแยกสีที่เรียกว่าการปรับความกว้างพัลส์ค่อนข้างมีการเล่นเสียงดิจิตอลคุณภาพสูงพอสมควร - บิตความถี่ต่ำ 5-8 บิตถูกแยกจากหนึ่งบิตและความถี่การสุ่มตัวอย่างสูงและความถี่สูง ตัวกรองสัญญาณรบกวนคือการที่อุปกรณ์ไม่สามารถสร้างความถี่สูงเช่นนั้นได้ เช่นเดียวกับการที่เราไม่สามารถได้ยินเสียงเหล่านั้นด้วย อย่างไรก็ตาม เสียงนกหวีดความถี่สูงเล็กน้อย - ส่วนที่ได้ยินได้ของเสียงรบกวนนี้ - ได้ยินได้]

ดังนั้น การแยกสีตามรูปทรงทำให้คุณสามารถลดสัญญาณรบกวนการสุ่มตัวอย่างเสียง 16 บิตที่ต่ำอยู่แล้วลงได้อย่างมาก จึงขยายช่วงไดนามิกที่มีประโยชน์ (เงียบ) ได้อย่างเงียบๆ โดย ทั้งหมดพื้นที่การได้ยินของมนุษย์ เนื่องจากในปัจจุบัน Shape Dithering มักใช้ในการแปลงจากรูปแบบการทำงาน 32 บิตไปเป็น 16 บิตสุดท้ายสำหรับซีดี ดังนั้น 16 บิตของเราจึงเพียงพอที่จะถ่ายทอดภาพเสียงได้อย่างเต็มที่

ควรสังเกตว่าเทคโนโลยีนี้ใช้งานได้เฉพาะในขั้นตอนการเตรียมวัสดุสำหรับการสืบพันธุ์เท่านั้น เมื่อประมวลผลเสียงคุณภาพสูง ง่ายๆ จำเป็นยังคงอยู่ใน 32 บิตเพื่อไม่ให้ใช้ dithering หลังจากการดำเนินการแต่ละครั้ง ควรเข้ารหัสผลลัพธ์กลับเป็น 16 บิตจะดีกว่า แต่ถ้าระดับเสียงของโฟโนแกรมมากกว่าลบ 60 เดซิเบล คุณสามารถดำเนินการประมวลผลทั้งหมดใน 16 บิตได้โดยไม่รู้สึกผิดชอบชั่วดีแม้แต่น้อย การทำ dithering ระดับกลางจะช่วยให้แน่ใจว่าไม่มีการบิดเบือนของการปัดเศษ และเพิ่มสัญญาณรบกวนเข้าไปด้วย หลายร้อยครั้งอ่อนแอกว่าที่มีอยู่แล้วจึงไม่แยแสเลย

ถาม:
ทำไมพวกเขาถึงบอกว่าเสียง 32 บิตดีกว่าเสียง 16 บิต?
A1: พวกเขาคิดผิด
A2: [พวกเขาหมายถึงบางสิ่งที่แตกต่างออกไปเล็กน้อย: เมื่อประมวลผลหรือบันทึกเสียง จำเป็นต้องใช้ความละเอียดสูงกว่า พวกเขาใช้ประโยชน์จากสิ่งนี้ เสมอ- แต่ในด้านเสียงเช่นเดียวกับในผลิตภัณฑ์สำเร็จรูป ไม่จำเป็นต้องใช้ความละเอียดมากกว่า 16 บิต]
ถาม: การเพิ่มความถี่สุ่มตัวอย่าง (เช่น 48 kHz หรือ 96) สมเหตุสมผลหรือไม่
A1: ไม่มีมัน. ด้วยแนวทางที่มีความสามารถในการออกแบบ DAC จะมีการส่งสัญญาณ 44 kHz ทั้งหมดช่วงความถี่ที่ต้องการ
A2: [หมายถึงบางสิ่งที่แตกต่างออกไปเล็กน้อย: มันสมเหตุสมผล แต่เมื่อประมวลผลหรือบันทึกเสียงเท่านั้น]
ถาม: เหตุใดการเปิดตัวความถี่ที่สูงขึ้นและอัตราบิตจึงยังคงดำเนินการอยู่
A1: เป็นสิ่งสำคัญสำหรับความก้าวหน้าในการก้าวไปข้างหน้า ที่ไหนและทำไมไม่สำคัญอีกต่อไป...
A2: กระบวนการหลายอย่างเกิดขึ้นได้ง่ายกว่าในกรณีนี้ ตัวอย่างเช่น หากอุปกรณ์กำลังจะประมวลผลเสียง มันจะง่ายกว่าหากจะทำสิ่งนี้ใน 96 kHz / 32 บิต DSP เกือบทั้งหมดใช้ 32 บิตในการประมวลผลเสียง และการลืมเรื่องการแปลงได้ทำให้การพัฒนาง่ายขึ้นและยังคงคุณภาพเพิ่มขึ้นเล็กน้อย และโดยทั่วไป - เสียงสำหรับการประมวลผลเพิ่มเติม มันมีควรจัดเก็บด้วยความละเอียดสูงกว่า 16 บิต สำหรับอุปกรณ์ระดับไฮเอนด์ที่สร้างเฉพาะเสียงเท่านั้น สิ่งนี้ อย่างแน่นอนไม่แยแส.
ถาม: DAC แบบ 32x หรือ 24x หรือ 18 บิตดีกว่า 16 บิตหรือไม่
ตอบ: โดยทั่วไป - เลขที่- คุณภาพของการแปลงไม่ได้ขึ้นอยู่กับความลึกของบิตเลย ตัวแปลงสัญญาณ AC"97 (การ์ดเสียงสมัยใหม่ราคาต่ำกว่า 50 ดอลลาร์) ใช้ตัวแปลงสัญญาณ 18 บิต และการ์ดราคา 500 ดอลลาร์ ซึ่งเสียงนี้เทียบไม่ได้กับเรื่องไร้สาระนี้ด้วยซ้ำ ให้ใช้ตัวแปลงสัญญาณ 16 บิต สิ่งนี้ไม่ได้สร้างความแตกต่างอย่างแน่นอนสำหรับการเล่นเสียง 16 บิต.
นอกจากนี้ โปรดทราบว่า DAC ส่วนใหญ่มักจะผลิตบิตน้อยกว่าที่รับเข้าไป ตัวอย่างเช่น ระดับเสียงรบกวนที่แท้จริงของตัวแปลงสัญญาณราคาถูกทั่วไปคือ -90 dB ซึ่งก็คือ 15 บิตและแม้ว่าตัวมันเองจะเป็น 24 บิต คุณจะไม่ได้รับผลตอบแทนใด ๆ จาก 9 บิต "พิเศษ" - ผลลัพธ์ของ งานแม้ว่าจะมีงานก็ตามก็จะจมอยู่กับเสียงของตัวเอง อุปกรณ์ราคาถูกส่วนใหญ่ก็ง่ายๆ ละเลยบิตเพิ่มเติม - พวกเขาไม่ได้คำนวณในกระบวนการสังเคราะห์เสียงจริงๆ แม้ว่าจะไปที่อินพุตดิจิทัลของ DAC ก็ตาม
ถาม: แล้วสำหรับการบันทึกล่ะ?
ตอบ: สำหรับการบันทึก ควรมี ADC ที่มีความจุสูงกว่าจะดีกว่า อีกครั้งเพิ่มเติม จริงความลึกบิต ความลึกของบิตของ DAC จะต้องสอดคล้องกับระดับเสียงรบกวนของเพลงประกอบต้นฉบับ หรือเพียงเพียงพอที่จะได้ระดับต่ำที่ต้องการ เสียงรบกวน.
นอกจากนี้ยังสะดวกที่จะมีความลึกเล็กน้อยโดยมีระยะขอบเพื่อใช้ช่วงไดนามิกที่เพิ่มขึ้นเพื่อการปรับระดับการบันทึกที่แม่นยำน้อยลง แต่จำไว้ว่าคุณต้องตีเสมอ จริงช่วงตัวแปลงสัญญาณ ในความเป็นจริง ADC แบบ 32 บิตนั้นเกือบจะสมบูรณ์แล้ว ไร้ความหมายเนื่องจากสิบบิตต่ำสุดจะส่งเสียงรบกวนอย่างต่อเนื่อง - ดังนั้นเสียงต่ำ (ต่ำกว่า -200 dB) อย่างง่ายดาย ไม่สามารถในแหล่งเพลงอะนาล็อก

ไม่มีประโยชน์ที่จะเรียกร้องความลึกของบิตหรือความถี่การสุ่มตัวอย่างจากเสียงที่สูงขึ้นเมื่อเทียบกับซีดี หรือคุณภาพที่ดีกว่า 16 บิต / 44 kHz ซึ่งขยายไปถึงขีดจำกัดด้วยการแยกส่วนแบบมีรูปทรง ค่อนข้างมีความสามารถ อย่างเต็มที่ถ่ายทอดข้อมูลที่เราสนใจหากไม่เกี่ยวกับกระบวนการประมวลผลเสียง คุณไม่ควรเปลืองพื้นที่กับข้อมูลที่ไม่จำเป็นในสื่อสำเร็จรูป เช่นเดียวกับที่คุณไม่ควรคาดหวังคุณภาพเสียงที่เพิ่มขึ้นจาก DVD-Audio ด้วย 96 kHz / 24 บิต ด้วยแนวทางที่ถูกต้องในการสร้างเสียงในรูปแบบซีดีมาตรฐาน เราจะมีคุณภาพสิ่งนั้น แค่ไม่ต้องการมันในการปรับปรุงเพิ่มเติมและความรับผิดชอบในการบันทึกเสียงที่ถูกต้องของข้อมูลสุดท้ายนั้นได้รับการยอมรับมานานแล้วโดยอัลกอริธึมที่พัฒนาขึ้นและผู้ที่รู้วิธีใช้อย่างถูกต้อง ในช่วงไม่กี่ปีที่ผ่านมา คุณจะไม่พบแผ่นดิสก์ใหม่ที่ไม่มีการตัดทอนรูปทรงและเทคนิคอื่นๆ ที่จะผลักดันคุณภาพเสียงให้ถึงขีดจำกัด ใช่สำหรับคนขี้เกียจหรือคดโกงจะสะดวกกว่าในการจัดหาวัสดุสำเร็จรูปในรูปแบบ 32 บิตและ 96 kHz แต่ในทางทฤษฎีแล้วข้อมูลเสียงจะคุ้มค่ากว่าหลายเท่าหรือไม่..

ซีดีเพลงกำลังค่อยๆ กลายเป็นสิ่งแห่งประวัติศาสตร์ ไม่แน่นอน พวกเขายังคงขายในร้านค้า แต่คนฟังและซื้อมันน้อยลง หลายคนไม่เห็นประเด็นในเรื่องนี้ เพราะแม้ว่าเราจะพิจารณาวิธีการทางกฎหมายในการรับไฟล์เสียง แต่เพลงหนึ่งเพลงในรูปแบบ MP3 ในร้านขายเพลงออนไลน์มีราคาน้อยกว่าเพลงหนึ่งเพลงที่บันทึกลงในแผ่นดิสก์เสียงมาก คำถามที่สมเหตุสมผลเกิดขึ้น: ทำไมต้องจ่ายเพิ่ม?

แน่นอนว่าคุณภาพเสียงของซีดีเพลงนั้นสูงกว่าไฟล์เสียงใดๆ มากที่มีการบีบอัดข้อมูล อย่างไรก็ตาม สำหรับคนส่วนใหญ่ ความแตกต่างนี้ไม่สำคัญสำหรับคนส่วนใหญ่ มีอะไรอยู่! ทุกวันนี้ แม้แต่ผู้รักเสียงเพลงรายใหญ่ที่สุดก็ยังคิดที่จะแปลงคอลเลคชันซีดีเพลงของตนไปเป็นไฟล์เสียง เนื่องจากอาจมีช่วงเวลาที่ความต้องการแผ่นดิสก์ต่ำมากจนไม่สามารถผลิตเครื่องเล่นซีดีเพลงได้อีกต่อไป

ในบทความนี้ เราจะดูบางโปรแกรมสำหรับรับข้อมูลจากซีดีเพลงแล้วแปลงเป็น MP3 และรูปแบบอื่น ๆ แต่ก่อนอื่นมีทฤษฎีเล็กน้อย

การบีบอัดเสียงและรูปแบบเสียงยอดนิยม

การบีบอัดข้อมูลเกี่ยวข้องกับการวิเคราะห์และทำให้ข้อมูลที่บันทึกไว้ง่ายขึ้น ส่งผลให้สามารถบันทึกข้อมูลเสียงบนสื่อเลเซอร์ได้มากกว่าที่เป็นไปได้เมื่อบันทึกซีดีเพลง

เพื่อให้ชัดเจนยิ่งขึ้นว่าการบีบอัดข้อมูลคืออะไร ลองจินตนาการว่าคุณต้องเล่าเนื้อหาในกระดาษแผ่นหนึ่งซึ่งมีตัวอักษร A ที่เขียนถึงเพื่อนของคุณทางโทรศัพท์เป็นพันครั้ง คุณสามารถพูดออกเสียง “A” ออกมาดังๆ นับพันครั้ง แล้วคู่สนทนาของคุณจะรับรู้ถึงสิ่งที่เขียนไว้ในเอกสาร ในทางกลับกัน คุณสามารถนับก่อนว่าจดหมายนี้เขียนไปกี่ครั้ง แล้วบอกเพื่อนของคุณว่าตัวอักษร "A" ถูกเขียนลงบนกระดาษนับพันครั้ง ผลลัพธ์จะเหมือนกัน - เพื่อนของคุณจะรู้เนื้อหาของกระดาษ แต่ในกรณีที่สองจะใช้เวลาน้อยกว่ามากในการถ่ายโอนข้อมูล กล่าวอีกนัยหนึ่ง คุณทำการบีบอัดข้อมูลโดยการวิเคราะห์จำนวนตัวอักษรที่ซ้ำกัน

การบีบอัดเสียงแบบดิจิทัลจะเป็นไปตามสถานการณ์เดียวกันโดยประมาณ อย่างไรก็ตาม การบีบอัดข้อมูลเสียงมีคุณสมบัติหลายประการ ตัวอย่างเช่น เพื่อให้คุณสามารถจดจำทำนองเพลงที่คุ้นเคยได้ การเล่นเพลงนั้นด้วยคุณภาพที่แย่ลงก็เพียงพอแล้ว โปรดทราบว่าหลายคนหมายถึงสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิงในแนวคิดเรื่อง "เสียงคุณภาพสูง" ตัวอย่างเช่น หากการบันทึกดนตรีทำให้นักดนตรีเจ็บหูเพราะไม่ได้ดึงสายตามคีย์ที่กำหนดไว้อย่างเคร่งครัด คนทั่วไปก็สามารถทนต่อข้อบกพร่องที่ร้ายแรงกว่านี้ได้

คุณลักษณะการรับรู้เสียงของมนุษย์นี้เป็นแรงบันดาลใจในการสร้างรูปแบบเสียงใหม่ที่ใช้รูปแบบการบีบอัดเสียงที่สูญเสียไป ความเสื่อมของเสียงสำหรับผู้รักเสียงเพลงส่วนใหญ่นั้นไม่สำคัญ และในบางกรณี คุณภาพก็ไม่สำคัญเลย เช่น การหยุดนิ่งชั่วคราว เมื่อข้อมูลเสียงไม่มีค่า หรือในความถี่ที่หูมนุษย์ไม่สามารถรับรู้ได้ .

มีรูปแบบการบันทึกเสียงดิจิทัลจำนวนมาก ความแตกต่างของพวกเขาคือพวกเขาใช้อัลกอริธึมการบีบอัดที่แตกต่างกัน รูปแบบยอดนิยมในปัจจุบันคือ:

  • WMA (Windows Media Audio) เป็นรูปแบบที่พัฒนาโดย Microsoft Corporation รูปแบบนี้สร้างขึ้นบนพื้นฐานของรูปแบบ VQF ยอดนิยมในอดีตซึ่งเกือบจะถูกลืมไปแล้วในปัจจุบัน
  • OGG Vorbis เป็นรูปแบบโอเพ่นซอร์สฟรี เมื่อเร็ว ๆ นี้ได้รับความนิยมอย่างมากจนได้รับการสนับสนุนจากผู้ผลิตเครื่องเล่นพกพาบางราย
  • MP3 (MPEG Layer III) เป็นรูปแบบที่ได้รับความนิยมมากที่สุดโดยครองตำแหน่งผู้นำมาหลายปี

คุณสมบัติของรูปแบบ MP3

ชื่อสามัญ MP3 เป็นตัวย่อของ MPEG Layer III MPEG ย่อมาจาก Moving Picture Coding Experts Group รูปแบบ MP3 ได้รับการพัฒนาโดย German Fraunhofer Institute ในช่วงต้นทศวรรษที่ 90 ของศตวรรษที่ผ่านมา รูปแบบนี้ได้รับความนิยมอย่างแท้จริงหลังจากที่ Thomson เริ่มสนใจรูปแบบนี้

ด้วยอัลกอริธึมการบีบอัดที่ใช้รูปแบบ MP3 ข้อมูลเสียงจึงสามารถบีบอัดได้สิบถึงสิบสองครั้งโดยไม่สูญเสียคุณภาพอย่างเห็นได้ชัด อัตราการบีบอัดที่สูงนั้นเกิดขึ้นได้เนื่องจาก MP3 ใช้ลักษณะการได้ยินของมนุษย์ หูของมนุษย์รับรู้เสียงในช่วง 20 Hz ถึง 20 kHz ดังนั้นเสียงทั้งหมดที่ไม่อยู่ในช่วงนี้จึงถูกปฏิเสธ ซึ่งจะช่วยลดปริมาณข้อมูลลงอย่างมาก

คุณสมบัติอื่นของ MP3 ที่ช่วยให้คุณได้รับไฟล์เสียงที่มีขนาดเล็กลงนั้นเกี่ยวข้องกับเสียงสเตอริโอและอีกครั้งกับลักษณะการได้ยินของมนุษย์ เมื่อเราฟังเพลงที่บันทึกในรูปแบบสเตอริโอ เราจะได้ยินความแตกต่างหลักๆ ในความถี่กลาง ด้วยคุณสมบัตินี้ อัลกอริธึมการบีบอัดจึงสามารถนำไปใช้กับการเข้ารหัสเสียงได้ ซึ่งจะเข้ารหัสแยกกันสำหรับแต่ละช่องสัญญาณเฉพาะสเปกตรัมความถี่ซึ่งความแตกต่างระหว่างช่องสัญญาณจะได้ยินมากที่สุด และเสียงที่ความถี่ของช่องสเตอริโอซึ่งความแตกต่างที่สังเกตได้น้อยกว่าจะถูกรวมและเข้ารหัสในโหมดโมโน โหมดการเข้ารหัสสัญญาณสเตอริโอแบบรวมนี้เรียกว่า Joint Stereo

ข้อมูลจำเพาะเสียงดิจิตอล

เมื่อทำการบีบอัดข้อมูลเสียง จำเป็นต้องควบคุมคุณภาพของเสียงดิจิทัล ตัวอย่างเช่น หากคุณต้องการแปลงหนังสือเสียงเป็นดิจิทัล ในกรณีนี้ก็ไม่จำเป็นต้องใช้คุณภาพสูง สิ่งสำคัญคือคุณสามารถแยกแยะคำศัพท์ได้ หากเพลงถูกแปลงเป็นดิจิทัล คุณภาพก็มีความสำคัญอย่างยิ่ง
ไม่ว่าจะใช้อัลกอริธึมการบีบอัดเสียงแบบใด พารามิเตอร์ที่แสดงลักษณะคุณภาพเสียงจะเหมือนกัน

ลักษณะสำคัญอย่างหนึ่งของเสียงดิจิทัลคือ บิตเรต- บิตเรตคือความเร็วการเข้ารหัส/ถอดรหัสของสตรีมเสียงดิจิทัล ยิ่งค่าสูง คุณภาพเสียงก็จะดียิ่งขึ้นและขนาดไฟล์ก็จะใหญ่ขึ้น ต้องบอกว่าบิตเรตเป็นค่าสัมพัทธ์ ไฟล์ที่สร้างขึ้นโดยใช้อัลกอริธึมการบีบอัดที่แตกต่างกันและมีบิตเรตเท่ากันจะมีคุณภาพแตกต่างกัน

การเข้ารหัสสามารถทำได้ด้วยบิตเรตคงที่หรือแปรผัน วิธีการเข้ารหัสบิตเรตแบบแปรผันทำให้สามารถเปลี่ยนคุณภาพของสัญญาณเสียงได้ทันที นั่นคือระหว่างการเล่น หากโปรแกรมพิจารณาว่ากำลังจัดการกับกระแสเสียงที่ซับซ้อน (เช่น เสียงของวงซิมโฟนีออร์เคสตรา) คุณภาพจะเพิ่มขึ้น แต่หากเสียงนั้นเรียบง่าย (เช่น เมื่อมีการหยุดชั่วคราวระหว่างเพลง) คุณภาพก็จะเพิ่มขึ้น เสื่อมลงโดยอัตโนมัติ ซึ่งจะช่วยลดขนาดไฟล์

การเข้ารหัสเสียงเกิดขึ้นด้วยบางอย่าง อัตราการสุ่มตัวอย่าง- ในระหว่างกระบวนการประมวลผล สัญญาณเสียงจะถูกแบ่งออกเป็นส่วนต่างๆ จำนวนมาก (ตัวอย่าง) ซึ่งแต่ละส่วนจะถูกประมวลผลโดยอัลกอริธึมการบีบอัด ความแม่นยำของการประมวลผลสัญญาณจะพิจารณาจากความถี่ในการสุ่มตัวอย่างซึ่งมีหน่วยวัดเป็นกิโลเฮิรตซ์ ขึ้นอยู่กับจำนวนตัวอย่างต่อหน่วยเวลา ลักษณะเสียง เช่น ความลึกของบิต มีความโดดเด่น เดาได้ไม่ยากว่ายิ่งประมวลผลตัวอย่างมาก คุณภาพเสียงก็จะยิ่งสูงขึ้นตามไปด้วย

การสุ่มตัวอย่างสองครั้งใช้กับสัญญาณเสียงที่เข้าสู่ตัวแปลงแอนะล็อกเป็นดิจิทัล (การ์ดเสียง) - ในแอมพลิจูดและทันเวลา
ในการอธิบายรูปร่างของสัญญาณทางคณิตศาสตร์ ทฤษฎีบทของ Kotelnikov ถูกนำมาใช้ ซึ่งกระบวนการต่อเนื่องใดๆ ที่มีสเปกตรัมที่จำกัดสามารถแสดงด้วยลำดับที่ไม่ต่อเนื่องของค่าที่เกิดขึ้นทันที ความถี่ของลำดับดังกล่าวจะต้องมีความถี่อย่างน้อยสองเท่าของความถี่ฮาร์มอนิกสูงสุดของกระบวนการ ความถี่ในการสุ่มตัวอย่างค่าทันที (ตัวอย่าง) ของสัญญาณเรียกว่าความถี่ในการสุ่มตัวอย่าง

การเบี่ยงเบนใด ๆ ในรูปของสัญญาณที่มาถึงอินพุตของการ์ดเสียงจากรูปร่างไซน์ซอยด์ที่ถูกต้องจะนำไปสู่สเปกตรัมที่เกินความถี่ธรรมชาติของสัญญาณ ดังนั้น เมื่อสุ่มตัวอย่างสัญญาณเสียงตามเวลา ความถี่ของพัลส์ที่เข้ามาจะถูกจำกัดให้ต่ำกว่าครึ่งหนึ่งของความถี่ในการสุ่มตัวอย่าง หรือมีการใช้สเปกตรัมที่มีความถี่เกิน เนื่องจากหูของมนุษย์สามารถแยกแยะการสั่นสะเทือนของเสียงที่มีความถี่สูงถึง 20 kHz ปรากฎว่าความถี่ในการสุ่มตัวอย่างสัญญาณเสียงใด ๆ จะต้องมีอย่างน้อย 40 kHz ดังนั้นในทางปฏิบัติคุณสามารถค้นหาอุปกรณ์เสียงที่มีความถี่สุ่มตัวอย่าง 44.1 kHz, 48 kHz และ 96 kHz

สำหรับการสุ่มตัวอย่างแอมพลิจูดของเสียง เช่น บนดิสก์เลเซอร์ จะใช้การหาปริมาณระดับ 2 ถึงกำลังที่สิบหก (65536) การแสดงตัวเลขตั้งแต่ 0 ถึง 2^16 ต้องใช้ข้อมูล 16 บิต ดังนั้นจึงสะดวกกว่าในการใช้คำว่าความกว้างของสัญญาณ 16 บิต ความลึกของเสียงขึ้นอยู่กับช่วงไดนามิกของสัญญาณอินพุตและเสียงควอนตัมที่ยอมรับได้

การหาปริมาณแอมพลิจูดและเวลาทำให้เกิดการบิดเบือนเสียงทั่วทั้งย่านความถี่ และเพิ่มเสียงรบกวนและการรบกวนจากเส้นทางเสียงของการ์ดเสียง

ลักษณะสำคัญอีกประการหนึ่งของเสียงดิจิตอลคือเสียงสเตอริโอ ดังนั้น หากเสียงถูกบันทึกในรูปแบบสเตอริโอแทนที่จะเป็นโมโน ปริมาณข้อมูลเสียงจะเพิ่มขึ้นเป็นสองเท่า และขนาดของไฟล์เอาต์พุตจะเพิ่มขึ้นตามไปด้วย

การริพเพลงจากแผ่นดิสก์เสียงโดยใช้ Windows Mediaผู้เล่น

ความสามารถในการคัดลอกข้อมูลเสียงนั้นมีอยู่ใน WindowsXP แล้ว หากต้องการคัดลอกข้อมูลเสียงโดยใช้ Windows Media Player ให้ใส่แผ่นดิสก์เสียงลงในดิสก์ไดรฟ์ เปิดเครื่องเล่น แล้วคลิกปุ่ม "คัดลอกจากดิสก์" ที่ด้านบนของหน้าต่างโปรแกรม หน้าต่างเครื่องเล่นจะแสดงเนื้อหาของสื่อเสียงของคุณเป็นแต่ละแทร็ก มีช่องทำเครื่องหมายอยู่ข้างๆ แต่ละช่อง ซึ่งหมายความว่าเพลงทั้งหมดจะถูกคัดลอก หากคุณไม่ต้องการคัดลอกเพลงใดเพลงหนึ่ง ให้ยกเลิกการทำเครื่องหมายที่ช่องถัดจากชื่อเพลง

ตามค่าเริ่มต้น การตั้งค่าโปรแกรมไม่มีการบีบอัดข้อมูลเสียงคุณภาพสูงมาก ดังนั้นหากคุณเป็นแฟนตัวยงของเสียงคุณภาพสูง คุณจะต้องเปลี่ยนบิตเรตของไฟล์ที่สร้างขึ้น หากต้องการทำสิ่งนี้ ให้รันคำสั่ง "เครื่องมือ>ตัวเลือก" และในหน้าต่างที่เปิดขึ้น ให้ไปที่แท็บ "การคัดลอกเพลงจากซีดี" ค่าบิตเรตถูกตั้งค่าด้วยแถบเลื่อน "คุณภาพเสียง" และตำแหน่งขวาสุดจะสอดคล้องกับขนาดไฟล์เอาต์พุตสูงสุด และเสียงที่ดีที่สุดตามลำดับ

หนึ่งในคุณสมบัติของเครื่องเล่นมาตรฐานคือความสามารถในการป้องกันไฟล์เสียงไม่ให้เล่นบนคอมพิวเตอร์เครื่องอื่น หากคุณต้องการให้ไฟล์ WMA ที่สร้างโดยโปรแกรมเล่นบนคอมพิวเตอร์เครื่องนี้เท่านั้น ตรวจสอบให้แน่ใจว่าได้เลือกตัวเลือก "เพลงที่ป้องกันการคัดลอก" แล้ว

หากต้องการเริ่มการคัดลอก ให้คลิกปุ่ม "คัดลอกเพลงจากซีดี" ที่ด้านบนของหน้าต่างโปรแกรม หน้าต่างจะปรากฏขึ้นบนหน้าจอซึ่งคุณสามารถเปิดหรือปิดการป้องกันเนื้อหาได้โดยทำเครื่องหมายในช่องที่เหมาะสม ก่อนที่คุณจะเริ่มการคัดลอก คุณยังสามารถเปลี่ยนการตั้งค่าการคัดลอกได้หากจำเป็น

สามารถตรวจสอบกระบวนการบีบอัดได้ในคอลัมน์ "สถานะการคัดลอกซีดี" ทันทีที่การดำเนินการถ่ายโอนแทร็กไปยังฮาร์ดไดรฟ์เสร็จสิ้นข้อความ "คัดลอกไปยังไลบรารี" จะปรากฏขึ้นตรงข้ามกับองค์ประกอบที่คัดลอก

แม้จะมีความสะดวกที่ชัดเจนของวิธีการคัดลอกข้อมูลเสียงที่ได้รับการพิจารณา แต่ในหลายกรณีการใช้งานก็ไม่สะดวก ประการแรก อุปกรณ์ MP3 แบบพกพาบางรุ่นไม่รองรับรูปแบบ WMA และประการที่สอง การเข้ารหัสในรูปแบบนี้จะใช้เวลานานกว่าเมื่อเทียบกับรูปแบบอื่น สุดท้ายนี้ เมื่อใช้ Windows Media Player จะไม่สามารถควบคุมการตั้งค่าการบีบอัดได้อย่างยืดหยุ่น

กล่าวอีกนัยหนึ่งคือ หากคุณซื้อเครื่องเล่น MP3 และวางแผนที่จะเติมเต็มคลังเพลงดิจิทัลของคุณเป็นประจำโดยการคัดลอกข้อมูลจากแผ่นดิสก์เสียง คุณต้องตรวจสอบให้แน่ใจว่าคุณมีตัวเข้ารหัสเสียงคุณภาพสูงและมัลติฟังก์ชั่นอยู่ในมือ เราจะดูโปรแกรมเหล่านี้บางส่วนในส่วนที่สองของบทความ

พารามิเตอร์ใดเป็นตัวกำหนดคุณภาพของเสียงดิจิทัล

  • ข้อมูลเสียง. เสียง คือ คลื่นที่แพร่กระจายในอากาศ น้ำ หรือตัวกลางอื่นๆ โดยมีความเข้มและความถี่เปลี่ยนแปลงอย่างต่อเนื่อง

    บุคคลรับรู้คลื่นเสียง (การสั่นสะเทือนของอากาศ) ด้วยความช่วยเหลือจากการได้ยินในรูปแบบของเสียงที่มีระดับเสียงและโทนเสียงที่แตกต่างกัน ยิ่งความเข้มของคลื่นเสียงมากเท่าไร ความถี่ของคลื่นก็จะยิ่งสูงขึ้นเท่านั้น โทนเสียงก็จะยิ่งสูงขึ้น (รูปที่ 1.1)

    ข้าว. 1.1. การขึ้นอยู่กับระดับเสียงและระดับเสียงกับความเข้มและความถี่ของคลื่นเสียง

    หูของมนุษย์รับรู้เสียงที่ความถี่ตั้งแต่ 20 ครั้งต่อวินาที (เสียงต่ำ) ถึง 20,000 ครั้งต่อวินาที (เสียงสูง)

    บุคคลสามารถรับรู้เสียงในช่วงความเข้มที่หลากหลาย โดยความเข้มสูงสุดจะมากกว่าค่าต่ำสุด 1,014 เท่า (หนึ่งแสนล้านครั้ง) ในการวัดระดับเสียงจะใช้หน่วยพิเศษ "เดซิเบล" (dbl) (ตารางที่ 5.1) ระดับเสียงที่ลดลงหรือเพิ่มขึ้น 10 dbl สอดคล้องกับความเข้มของเสียงที่ลดลงหรือเพิ่มขึ้น 10 เท่า

    ตารางที่ 5.1. ระดับเสียง
    ระดับเสียงเป็นเดซิเบล
    ขีดจำกัดล่างของความไวของหูมนุษย์คือ 0
    ใบไม้ที่พลิ้วไหว 10
    บทสนทนา 60
    แตรรถ 90
    เครื่องยนต์ไอพ่น 120
    เกณฑ์ความเจ็บปวด 140
    การสุ่มตัวอย่างเสียงตามเวลา เพื่อให้คอมพิวเตอร์ประมวลผลเสียง สัญญาณเสียงต่อเนื่องจะต้องถูกแปลงเป็นรูปแบบดิจิทัลแยกส่วนโดยใช้การสุ่มตัวอย่างเวลา คลื่นเสียงต่อเนื่องจะถูกแบ่งออกเป็นส่วนชั่วคราวเล็กๆ แยกจากกัน และค่าความเข้มของเสียงที่แน่นอนจะถูกตั้งค่าสำหรับแต่ละส่วนดังกล่าว

    ดังนั้นการพึ่งพาระดับเสียงต่อเวลา A(t) อย่างต่อเนื่องจึงถูกแทนที่ด้วยลำดับระดับเสียงที่แยกจากกัน บนกราฟ ดูเหมือนว่าการแทนที่เส้นโค้งเรียบด้วยลำดับ "ขั้นตอน" (รูปที่ 1.2)

    ข้าว. 1.2. การสุ่มตัวอย่างเวลาของเสียง

    ความถี่ในการสุ่มตัวอย่าง ไมโครโฟนที่เชื่อมต่อกับการ์ดเสียงใช้ในการบันทึกเสียงอะนาล็อกและแปลงเป็นรูปแบบดิจิทัล คุณภาพของเสียงดิจิทัลที่ได้จะขึ้นอยู่กับจำนวนการวัดระดับเสียงต่อหน่วยเวลา เช่น ความถี่ในการสุ่มตัวอย่าง ยิ่งมีการวัดต่อวินาทีมาก (ความถี่ในการสุ่มตัวอย่างก็จะยิ่งสูง) “บันได” ของสัญญาณเสียงดิจิตอลจะเคลื่อนที่ตามเส้นโค้งของสัญญาณเสียงสนทนาก็จะยิ่งแม่นยำมากขึ้นเท่านั้น

    อัตราการสุ่มตัวอย่างเสียงคือจำนวนการวัดระดับเสียงที่ดำเนินการในหนึ่งวินาที

    อัตราการสุ่มตัวอย่างเสียงสามารถอยู่ในช่วงตั้งแต่ 8,000 ถึง 48,000 การวัดระดับเสียงต่อวินาที

    ความลึกของการเข้ารหัสเสียง แต่ละ “ขั้นตอน” ถูกกำหนดระดับเสียงเฉพาะ ระดับความดังของเสียงถือได้ว่าเป็นชุดของสถานะที่เป็นไปได้ N ซึ่งการเข้ารหัสต้องใช้ข้อมูลจำนวนหนึ่ง I ซึ่งเรียกว่าความลึกของการเข้ารหัสเสียง

    ความลึกของการเข้ารหัสเสียงคือปริมาณข้อมูลที่จำเป็นในการเข้ารหัสระดับเสียงที่แยกจากกันของเสียงดิจิทัล

    หากทราบความลึกของการเข้ารหัส จำนวนระดับเสียงดิจิทัลสามารถคำนวณได้โดยใช้สูตร N = 2I ปล่อยให้ความลึกของการเข้ารหัสเสียงเป็น 16 บิต จากนั้นจำนวนระดับเสียงจะเท่ากับ:

    ยังไม่มีข้อความ = 2I = 216 = 65,536.

    ในระหว่างขั้นตอนการเข้ารหัส แต่ละระดับเสียงจะถูกกำหนดรหัสไบนารี่ 16 บิตของตัวเอง ระดับเสียงต่ำสุดจะสอดคล้องกับรหัส 0000000000000000 และสูงสุด - 1111111111111111

    คุณภาพเสียงแบบดิจิทัล ยิ่งความถี่และความลึกของการสุ่มตัวอย่างเสียงสูงเท่าไร คุณภาพของเสียงดิจิทัลก็จะยิ่งสูงขึ้นเท่านั้น คุณภาพเสียงดิจิทัลต่ำสุดซึ่งสอดคล้องกับคุณภาพของการสื่อสารทางโทรศัพท์นั้นได้มาจากอัตราการสุ่มตัวอย่าง 8,000 ครั้งต่อวินาทีความลึกของการสุ่มตัวอย่าง 8 บิตและการบันทึกเสียงหนึ่งแทร็ก (โหมดโมโน) คุณภาพเสียงดิจิทัลสูงสุดซึ่งสอดคล้องกับคุณภาพซีดีเพลงทำได้ด้วยอัตราการสุ่มตัวอย่าง 48,000 ครั้งต่อวินาที ความลึกของการสุ่มตัวอย่าง 16 บิต และการบันทึกเสียงสองแทร็ก (โหมดสเตอริโอ)

    ต้องจำไว้ว่ายิ่งคุณภาพของเสียงดิจิทัลสูงเท่าใด ปริมาณข้อมูลของไฟล์เสียงก็จะยิ่งมากขึ้นเท่านั้น คุณสามารถประมาณปริมาณข้อมูลของไฟล์เสียงสเตอริโอดิจิตอลด้วยระยะเวลาเสียง 1 วินาทีโดยมีคุณภาพเสียงโดยเฉลี่ย (16 บิต, 24,000 การวัดต่อวินาที) เมื่อต้องการทำเช่นนี้ ความลึกของการเข้ารหัสจะต้องคูณด้วยจำนวนการวัดใน 1 วินาทีและคูณด้วย 2 (เสียงสเตอริโอ):

    16 บิต 24,000 2 = 768,000 บิต = 96,000 ไบต์ = 93.75 KB

    บรรณาธิการเสียง โปรแกรมแก้ไขเสียงช่วยให้คุณไม่เพียงแต่บันทึกและเล่นเสียงเท่านั้น แต่ยังแก้ไขได้อีกด้วย เสียงที่แปลงเป็นดิจิทัลจะถูกนำเสนอในโปรแกรมแก้ไขเสียงในรูปแบบภาพ ดังนั้นการคัดลอก ย้าย และลบส่วนของแทร็กเสียงจึงสามารถดำเนินการได้อย่างง่ายดายโดยใช้เมาส์ นอกจากนี้ คุณยังสามารถวางแทร็กเสียงซ้อนทับกัน (มิกซ์เสียง) และใช้เอฟเฟ็กต์เสียงต่างๆ (เสียงสะท้อน การเล่นย้อนกลับ ฯลฯ)

อะไรจะเป็นตัวกำหนดคุณภาพของเสียงดิจิทัล?

    สำหรับคุณภาพของเสียงดิจิทัล สิ่งสำคัญสองประการ ได้แก่ คุณภาพของเพลงประกอบต้นฉบับและคุณภาพของตัวแปลงแอนะล็อกเป็นดิจิทัล

    ในส่วนของคุณภาพของเพลงประกอบต้นฉบับ ทุกอย่างก็ค่อนข้างชัดเจน หากมีความโค้ง (มีความบิดเบี้ยว) หรือมีเสียงดัง ก็แสดงว่าไม่มีการแปลงเป็นดิจิทัลจำนวนเท่าใดที่จะปรับปรุงได้ นั่นคือเป็นไปได้ผ่านการประมวลผลต่าง ๆ รวมถึงสัญญาณดิจิทัลเพื่อแยกสัญญาณที่มีประโยชน์ซึ่งใช้ในการแยกคำพูดกับพื้นหลังของเสียงรบกวนภายนอกหรือเมื่อแยกสัญญาณปกติกับพื้นหลังของเสียงรบกวนแบบสุ่ม (ทุกคนมี ดูภาพยนตร์เกี่ยวกับการหมุนใช่ไหม) แต่ถ้าเราพูดถึงโฟโนแกรมดนตรีนั่นคือโฟโนแกรมที่มีสเปกตรัมกว้างเทคนิคทุกประเภทจะไม่ช่วยอะไร

    ดังนั้นเราจะถือว่าโฟโนแกรมมีคุณภาพสูง

    สิ่งที่เหลืออยู่ก็คือ ADC

    ตัวบ่งชี้หลักที่นี่คือความลึกของบิตการเข้ารหัส เป็นที่ชัดเจนว่ายิ่งมีขนาดใหญ่เท่าไรก็ยิ่งดีเท่านั้น แต่ในทางกลับกัน ตัวแปลงดังกล่าวก็จะยิ่งซับซ้อนและมีราคาแพงมากขึ้นเท่านั้น ในช่วงเริ่มต้นของเทคโนโลยีดิจิทัล (ซึ่งไม่นานมานี้...) บันทึกสุดท้ายแบบ 16 บิตได้รับการยอมรับว่าเหมาะสมที่สุดในแง่ของอัตราส่วนราคา/คุณภาพ ด้วยความลึกของบิตที่ต่ำกว่า ช่วงไดนามิกของสำเนาดิจิทัลของโฟโนแกรมจะได้รับผลกระทบ - เสียงระดับต่ำ (pianissimo) เป็นเพียงส่วนเล็กๆ ของบิตทั้งหมด ซึ่งหมายความว่าธรรมชาติของการเปลี่ยนแปลงสัญญาณแบบขั้นตอนจะสังเกตเห็นได้ชัดเจน และการกรองผ่านความถี่ต่ำจะไม่ช่วยอะไรมากที่นี่ (ยินดีต้อนรับการกล่าวถึงทฤษฎีบทของ Kotelnikov แต่เราต้องไม่ลืมว่ามันถือว่าโดยปริยาย สมบูรณ์แบบการแปลงแอนะล็อกเป็นดิจิทัล กล่าวคือ มีความลึกบิตขนาดใหญ่อย่างไม่จำกัด) เนื่องจากการประมวลผลใดๆ แม้แต่ในรูปแบบดิจิทัลสามารถลดความลึกของบิตที่มีประสิทธิภาพได้เท่านั้น การแปลงเป็นดิจิทัลในสตูดิโอจึงยังคงดำเนินการมาจนถึงทุกวันนี้ด้วยจำนวนบิตที่มากขึ้น

    ในปัจจุบัน ไม่ใช่เรื่องแปลกอีกต่อไปที่โฟโนแกรมดิจิทัลจะถูกเตรียมให้มีความลึก 24 บิต (super-Audio CD, Audio-DVD) ด้วยความลึกเล็กน้อยเช่นนี้ จึงเป็นไปได้ที่จะถ่ายทอดช่วงไดนามิกของงานดนตรีใด ๆ ได้อย่างเต็มที่ แม้แต่ Bolero ของ Ravel ซึ่งเริ่มต้นด้วยส่วนที่แทบไม่ได้ยินของกลองสแนร์ และสิ้นสุด fortissimo ด้วยวงออเคสตราทั้งหมด

    เอาล่ะ. นอกจากความลึกของบิตแล้ว พารามิเตอร์ ADC อื่นๆ ก็มีความสำคัญเช่นกัน โดยหลักๆ แล้วจะเป็นความไม่เชิงเส้นและสัญญาณรบกวน โดยเฉพาะเสียงรบกวน เนื่องจากจะจำกัดความจุบิตที่มีประสิทธิภาพของตัวแปลง 24 บิตเหล่านี้จะมีประโยชน์อะไรหาก 8 บิตสุดท้ายมีเสียงดังดังนั้นจึงไม่มีข้อมูลที่เป็นประโยชน์ใด ๆ... ระดับเสียงของ ADC 24 บิตสมัยใหม่สามารถเข้าถึง -115 dB ที่อัตราการสุ่มตัวอย่างที่สูงกว่า 100 kHz ซึ่งขณะนี้มีอยู่แล้ว ค่อนข้างเหมาะสม และค่าความไม่เชิงเส้นเชิงอนุพันธ์วัดได้หนึ่งในพันของเปอร์เซ็นต์ นั่นคือการแก้ปัญหาดังกล่าวเกินความสามารถของหูมนุษย์ได้อย่างง่ายดาย

  • จะขึ้นอยู่กับพารามิเตอร์หลักสามประการ:

    1. อัตราการสุ่มตัวอย่าง. โดยจะจำกัดแบนด์วิธของความถี่ที่ส่ง: ความถี่สูงสุดของสัญญาณที่ส่งจะต่ำกว่าครึ่งหนึ่งของความถี่สุ่มตัวอย่าง ในระบบโทรศัพท์มักใช้ความถี่สุ่มตัวอย่าง 8 kHz ซึ่งทำให้ย่านความถี่ตามทฤษฎีแคบกว่า 4 kHz เล็กน้อย (ในทางปฏิบัติจะใช้ย่านความถี่ 300-3000 Hz) และมาตรฐานซีดีใช้ความถี่ 44.1 kHz ซึ่งทำให้สามารถส่งคลื่นความถี่ 20 Hz - 20 kHz ได้เต็มที่ การเพิ่มอัตราการสุ่มตัวอย่างเหนือค่าเหล่านี้ไม่สมเหตุสมผลในแง่ของช่วงความถี่ที่ส่ง แต่จะช่วยลดระดับความผิดเพี้ยนของการมอดูเลชั่น ในมาตรฐาน DVD Audio ความถี่ในการสุ่มตัวอย่างสูงสุดคือ 192 kHz การ์ดเสียงที่ดีสำหรับคอมพิวเตอร์บางรุ่นยังรองรับความถี่การสุ่มตัวอย่างนี้ด้วย (แบนด์วิธของการเล่นและความถี่ในการบันทึกจะแตกต่างกันไปในแต่ละรุ่น) ค่ามาตรฐานอื่นๆ คือ 96, 48, 32, 22.05, 11.025 kHz
    2. การเข้ารหัสความลึกบิต ช่วงไดนามิกขึ้นอยู่กับมัน - ด้วยการเข้ารหัสเชิงเส้นความแตกต่างระหว่างการแกว่งเต็มและขั้นตอนขั้นต่ำคือ 256 ครั้งสำหรับ 8 บิตและ 65536 ครั้งสำหรับ 16 บิตซึ่งก็คือ 48 และ 96 dB ตามลำดับ 48 dB ต่ำตรงไปตรงมานี่คือระดับของช่วงไดนามิกของเทปคาสเซ็ตขนาดกะทัดรัดและนอกเหนือจากช่วงไดนามิกที่แคบแล้วยังเกิดการบิดเบือนที่ไม่พึงประสงค์โดยเฉพาะอย่างยิ่งที่ได้ยินได้ชัดเจนในสถานที่เงียบสงบซึ่งเป็นผลมาจากการเปลี่ยนแปลงของสัญญาณที่ราบรื่น เป็นก้าวหนึ่ง ด้วยความลึกบิตที่ 16 บิต คุณภาพเสียงจึงค่อนข้างดีอยู่แล้ว (ซีดีใช้ความลึกบิตนี้) แต่ไม่เหมาะในกรณีจริงหลายๆ ประการ งานคลาสสิกหลายชิ้นรวมถึงดนตรีหนักๆ จำเป็นต้องมี DD ที่ใหญ่กว่า ระบบคุณภาพสูงใช้การเข้ารหัส 24 บิต แม้ว่าจำนวนบิตนัยสำคัญจริงจะไม่เกิน 18-20 ไม่มีประโยชน์ที่จะเพิ่มความลึกของบิตอีกต่อไป
    3. วิธีการเข้ารหัส มีสองด้านนี้ อย่างแรกคือระดับการสุ่มตัวอย่างนั่นเอง โดยปกติจะเป็นเชิงเส้น แต่ก็สามารถเป็นลอการิทึมได้เช่นกัน สิ่งนี้ทำให้ช่วงไดนามิกเพิ่มขึ้นโดยมีความลึกบิตเท่ากัน แต่ระดับความผิดเพี้ยนจะสูงกว่าช่วงไดนามิกเดียวกันที่มีสเกลเชิงเส้นและความลึกบิตสูงกว่า ประการที่สองคือการใช้อัลกอริธึมการบีบอัดแบบสูญเสียต่างๆ ในการเชื่อมต่อกับสิ่งหลัง แนวคิดของบิตเรตปรากฏขึ้น อย่างหลังคือจำนวนบิตที่จำเป็นในการเข้ารหัสเสียงหนึ่งวินาที โดยปกติแล้ว บิตเรตจะขึ้นอยู่กับความถี่การสุ่มตัวอย่างและความลึกของบิต แต่ยังขึ้นอยู่กับอัตราส่วนการบีบอัดด้วย การบีบอัดอาจสูญเสียหรือไม่สูญเสียก็ได้ การบีบอัดแบบไม่สูญเสียคุณภาพถือเป็นการเก็บถาวรตามปกติและไม่ส่งผลต่อเสียง และด้วยความสูญเสีย นั่นคือเหตุผลว่าทำไมพวกเขาถึงขาดทุน ตัวเข้ารหัสจะวิเคราะห์ข้อมูลเสียงและละทิ้งข้อมูล โดยคำนึงถึงการพิจารณาทางจิตอะคูสติก นั่นคือ การสูญเสียสิ่งที่ได้ยินน้อยที่สุด นั่นก็คือ เสียงอ่อนที่ตัดกับพื้นหลังของเสียงที่ดัง เสียงความถี่สูงที่อ่อนกับพื้นหลังของเสียงความถี่กลางที่แรง เป็นต้น ที่ความถี่กลางและสูง ข้อมูลเฟสอาจถูกละทิ้ง ด้วยเหตุนี้ เมื่อการบันทึกถูกบีบอัดด้วยคุณภาพซีดี 4.5 เท่า (บิตเรต 320 kbps, mp3/Lame) ความเสื่อมของการได้ยินในการบันทึกจึงไม่มีนัยสำคัญมาก หากไม่มีอุปกรณ์ที่ดี ก็จะแยกแยะความแตกต่างได้ยาก และด้วยบิตเรตที่ 128 คุณภาพเสียงที่ลดลงก็ชัดเจนอยู่แล้วและการบันทึกเสียงจำนวนมากฟังดูไม่เป็นที่พอใจ แต่ด้วยลำโพงพลาสติกหรือลำโพงที่ติดตั้งอยู่ในแล็ปท็อป คุณจะไม่ได้ยินความแตกต่างนี้

บ่อยครั้งที่เราได้ยินคำจำกัดความเช่นสัญญาณ "ดิจิทัล" หรือ "ไม่ต่อเนื่อง" อะไรคือความแตกต่างจาก "อะนาล็อก"?

สาระสำคัญของความแตกต่างคือสัญญาณอะนาล็อกมีความต่อเนื่องในเวลา (เส้นสีน้ำเงิน) ในขณะที่สัญญาณดิจิทัลประกอบด้วยชุดพิกัดที่จำกัด (จุดสีแดง) ถ้าเราลดทุกอย่างลงเป็นพิกัด ส่วนใดๆ ของสัญญาณอะนาล็อกจะประกอบด้วยพิกัดจำนวนอนันต์

สำหรับสัญญาณดิจิทัล พิกัดตามแกนนอนจะอยู่ในช่วงเวลาปกติตามความถี่ในการสุ่มตัวอย่าง ในรูปแบบ Audio-CD ทั่วไปคือ 44100 จุดต่อวินาที ความแม่นยำในแนวตั้งของความสูงของพิกัดสอดคล้องกับความลึกบิตของสัญญาณดิจิทัล สำหรับ 8 บิตคือ 256 ระดับ สำหรับ 16 บิต = 65536 และสำหรับ 24 บิต = 16777216 ระดับ ยิ่งความลึกของบิต (จำนวนระดับ) สูงเท่าใด พิกัดแนวตั้งก็จะยิ่งใกล้กับคลื่นดั้งเดิมมากขึ้นเท่านั้น

แหล่งอนาล็อกได้แก่: เทปไวนิลและเทปเสียง แหล่งที่มาดิจิทัลได้แก่: CD-Audio, DVD-Audio, SA-CD (DSD) และไฟล์ในรูปแบบ WAVE และ DSD (รวมถึงอนุพันธ์ของ APE, Flac, Mp3, Ogg ฯลฯ)

ข้อดีและข้อเสียของสัญญาณอนาล็อก

ข้อดีของสัญญาณอะนาล็อกคือมันอยู่ในรูปแบบอะนาล็อกที่เรารับรู้เสียงด้วยหูของเรา และแม้ว่าระบบการได้ยินของเราจะแปลงกระแสเสียงที่รับรู้เป็นรูปแบบดิจิทัลและส่งในรูปแบบนี้ไปยังสมอง แต่วิทยาศาสตร์และเทคโนโลยียังไม่ถึงจุดเชื่อมต่อผู้เล่นและแหล่งกำเนิดเสียงอื่น ๆ ในรูปแบบนี้โดยตรง ขณะนี้มีการวิจัยที่คล้ายกันนี้เพื่อคนพิการ และเราเพลิดเพลินกับเสียงอะนาล็อกโดยเฉพาะ

ข้อเสียของสัญญาณอะนาล็อกคือความสามารถในการจัดเก็บ ส่ง และทำซ้ำสัญญาณ เมื่อบันทึกลงเทปแม่เหล็กหรือไวนิล คุณภาพของสัญญาณจะขึ้นอยู่กับคุณสมบัติของเทปหรือไวนิล เมื่อเวลาผ่านไป เทปจะล้างอำนาจแม่เหล็กและคุณภาพของสัญญาณที่บันทึกไว้จะลดลง การอ่านแต่ละครั้งจะค่อยๆ ทำลายสื่อ และการเขียนใหม่ทำให้เกิดการบิดเบือนเพิ่มเติม โดยที่สื่อถัดไป (เทปหรือไวนิล) จะมีการเบี่ยงเบนเพิ่มเติม (เทปหรือไวนิล) การอ่าน การเขียน และการส่งสัญญาณ

การทำสำเนาสัญญาณอะนาล็อกเหมือนกับการคัดลอกภาพถ่ายโดยการถ่ายภาพอีกครั้ง

ข้อดีและข้อเสียของสัญญาณดิจิตอล

ข้อดีของสัญญาณดิจิทัล ได้แก่ ความแม่นยำในการคัดลอกและส่งสตรีมเสียง โดยที่ต้นฉบับไม่แตกต่างจากสำเนา

ข้อเสียเปรียบหลักคือสัญญาณดิจิทัลเป็นสัญญาณระดับกลาง และความแม่นยำของสัญญาณอะนาล็อกขั้นสุดท้ายจะขึ้นอยู่กับว่าพิกัดอธิบายรายละเอียดและความแม่นยำของคลื่นเสียงอย่างไร ค่อนข้างสมเหตุสมผลที่ยิ่งมีจุดมากขึ้นและพิกัดที่แม่นยำยิ่งขึ้น คลื่นก็จะยิ่งแม่นยำมากขึ้นเท่านั้น แต่ยังไม่มีความเห็นเป็นเอกฉันท์ว่าจำนวนพิกัดและความแม่นยำของข้อมูลเพียงพอที่จะกล่าวได้ว่าการแสดงสัญญาณดิจิทัลนั้นเพียงพอที่จะกู้คืนสัญญาณอะนาล็อกได้อย่างแม่นยำโดยหูของเราแยกไม่ออกจากต้นฉบับ

ในแง่ของปริมาณข้อมูล ความจุของเทปเสียงอะนาล็อกปกติจะอยู่ที่ประมาณ 700-1.1 MB เท่านั้น ในขณะที่ซีดีทั่วไปจะจุได้ 700 MB สิ่งนี้ทำให้เข้าใจถึงความจำเป็นในการใช้สื่อที่มีความจุสูง และสิ่งนี้ทำให้เกิดสงครามการประนีประนอมที่แยกจากกันโดยมีข้อกำหนดที่แตกต่างกันสำหรับจำนวนจุดอธิบายและความแม่นยำของพิกัด

ปัจจุบันถือว่าเพียงพอที่จะแสดงคลื่นเสียงที่มีความถี่สุ่มตัวอย่าง 44.1 kHz และความลึกบิต 16 บิต ที่อัตราการสุ่มตัวอย่าง 44.1 kHz คุณสามารถสร้างสัญญาณใหม่ได้สูงสุด 22 kHz จากการศึกษาทางจิตอะคูสติกแสดงให้เห็นว่า ความถี่ในการสุ่มตัวอย่างที่เพิ่มขึ้นอีกนั้นไม่สามารถสังเกตเห็นได้ชัดเจน แต่การเพิ่มความลึกของบิตจะช่วยให้มีการปรับปรุงเชิงอัตนัย

DAC สร้างกระแสได้อย่างไร

DAC คือตัวแปลงดิจิทัลเป็นแอนะล็อก ซึ่งเป็นองค์ประกอบที่แปลงเสียงดิจิทัลเป็นแอนะล็อก เราจะดูหลักการพื้นฐานอย่างเผินๆ หากความคิดเห็นแสดงความสนใจในการพิจารณาหลายประเด็นโดยละเอียดยิ่งขึ้น จะมีการเผยแพร่เนื้อหาแยกต่างหาก

DAC หลายบิต

บ่อยครั้งที่คลื่นถูกแสดงเป็นขั้นตอนซึ่งเนื่องมาจากสถาปัตยกรรมของ R-2R DAC แบบหลายบิตรุ่นแรกซึ่งทำงานคล้ายกับสวิตช์รีเลย์

อินพุต DAC จะได้รับค่าของพิกัดแนวตั้งถัดไป และในแต่ละรอบสัญญาณนาฬิกา อินพุตจะสลับระดับกระแส (แรงดันไฟฟ้า) เป็นระดับที่เหมาะสมจนกว่าจะมีการเปลี่ยนแปลงครั้งถัดไป

แม้ว่าจะเชื่อกันว่าหูของมนุษย์สามารถได้ยินได้ไม่เกิน 20 kHz และตามทฤษฎีของ Nyquist เป็นไปได้ที่จะคืนค่าสัญญาณเป็น 22 kHz แต่คุณภาพของสัญญาณนี้หลังจากการบูรณะยังคงเป็นคำถาม ในภูมิภาคความถี่สูง รูปคลื่น "แบบก้าว" ที่ได้มักจะอยู่ไกลจากรูปคลื่นดั้งเดิม วิธีที่ง่ายที่สุดในการออกจากสถานการณ์คือการเพิ่มอัตราการสุ่มตัวอย่างเมื่อทำการบันทึก แต่สิ่งนี้ทำให้ขนาดไฟล์เพิ่มขึ้นอย่างมากและไม่พึงประสงค์

อีกทางเลือกหนึ่งคือการเพิ่มอัตราการสุ่มตัวอย่างการเล่น DAC โดยไม่ตั้งใจโดยการเพิ่มค่ากลาง เหล่านั้น. เราจินตนาการถึงเส้นทางคลื่นต่อเนื่อง (เส้นประสีเทา) เชื่อมต่อพิกัดดั้งเดิม (จุดสีแดง) ได้อย่างราบรื่น และเพิ่มจุดกึ่งกลางบนเส้นนี้ (สีม่วงเข้ม)

เมื่อเพิ่มความถี่ในการสุ่มตัวอย่าง โดยปกติจำเป็นต้องเพิ่มความลึกของบิตเพื่อให้พิกัดใกล้กับคลื่นโดยประมาณมากขึ้น

ด้วยพิกัดระดับกลาง จึงเป็นไปได้ที่จะลด "ขั้นตอน" และสร้างคลื่นให้ใกล้กับต้นฉบับมากขึ้น

เมื่อคุณเห็นฟังก์ชันบูสต์จาก 44.1 ถึง 192 kHz ในเครื่องเล่นหรือ DAC ภายนอก มันเป็นฟังก์ชันในการเพิ่มพิกัดกลาง ไม่ใช่การกู้คืนหรือสร้างเสียงในพื้นที่ที่สูงกว่า 20 kHz

ในตอนแรก ชิปเหล่านี้เป็นชิป SRC ที่แยกจากกันก่อน DAC จากนั้นจึงย้ายไปยังชิป DAC โดยตรง วันนี้คุณจะพบวิธีแก้ปัญหาที่เพิ่มชิปดังกล่าวลงใน DAC สมัยใหม่ ซึ่งทำเพื่อให้เป็นทางเลือกแทนอัลกอริธึมในตัวใน DAC และบางครั้งก็ได้เสียงที่ดียิ่งขึ้น (เช่น ทำใน Hidiz เอพี100).

การปฏิเสธหลักในอุตสาหกรรมจาก multibit DAC เกิดขึ้นเนื่องจากความเป็นไปไม่ได้ของการพัฒนาเทคโนโลยีเพิ่มเติมของตัวบ่งชี้คุณภาพด้วยเทคโนโลยีการผลิตในปัจจุบันและต้นทุนที่สูงกว่าเมื่อเปรียบเทียบกับ DAC แบบ "พัลส์" ที่มีลักษณะเทียบเคียง อย่างไรก็ตาม ในผลิตภัณฑ์ระดับ Hi-End มักให้ความสำคัญกับ DAC แบบหลายบิตแบบเก่ามากกว่าโซลูชันใหม่ที่มีคุณสมบัติทางเทคนิคที่ดีกว่า

การสลับ DAC

ในช่วงปลายทศวรรษที่ 70 DAC เวอร์ชันทางเลือกที่ใช้สถาปัตยกรรม "พัลส์" - "เดลต้า-ซิกมา" - แพร่หลายมากขึ้น เทคโนโลยี Pulse DAC ช่วยให้เกิดสวิตช์ที่เร็วเป็นพิเศษและอนุญาตให้ใช้ความถี่พาหะสูงได้

แอมพลิจูดของสัญญาณคือค่าเฉลี่ยของแอมพลิจูดของพัลส์ (พัลส์ที่มีแอมพลิจูดเท่ากันจะแสดงเป็นสีเขียว และคลื่นเสียงที่ได้จะแสดงเป็นสีขาว)

ตัวอย่างเช่น ลำดับแปดรอบของพัลส์ห้าพัลส์จะให้แอมพลิจูดเฉลี่ย (1+1+1+0+0+1+1+0)/8=0.625 ยิ่งความถี่พาหะสูงเท่าใด พัลส์ก็จะเรียบมากขึ้นและได้รับค่าแอมพลิจูดที่แม่นยำยิ่งขึ้น ทำให้สามารถนำเสนอสตรีมเสียงในรูปแบบบิตเดียวพร้อมช่วงไดนามิกที่กว้างได้

การหาค่าเฉลี่ยสามารถทำได้ด้วยตัวกรองแอนะล็อกทั่วไป และหากใช้ชุดพัลส์ดังกล่าวกับลำโพงโดยตรง เราจะได้เสียงที่เอาต์พุตและความถี่สูงพิเศษจะไม่ถูกทำซ้ำเนื่องจากความเฉื่อยสูงของตัวปล่อย แอมพลิฟายเออร์ PWM ทำงานบนหลักการนี้ในคลาส D โดยที่ความหนาแน่นของพลังงานของพัลส์ไม่ได้ถูกสร้างขึ้นตามจำนวนของมัน แต่ตามระยะเวลาของแต่ละพัลส์ (ซึ่งง่ายกว่าในการใช้งาน แต่ไม่สามารถอธิบายด้วยรหัสไบนารี่ธรรมดาได้)

DAC แบบหลายบิตถือได้ว่าเป็นเครื่องพิมพ์ที่สามารถใช้สีโดยใช้หมึก Pantone Delta-Sigma เป็นเครื่องพิมพ์อิงค์เจ็ทที่มีช่วงสีที่จำกัด แต่เนื่องจากความสามารถในการใช้จุดเล็กๆ มาก (เมื่อเทียบกับเครื่องพิมพ์เขากวาง) จึงทำให้ได้เฉดสีมากขึ้นเนื่องจากความหนาแน่นของจุดต่อหน่วยพื้นผิวที่แตกต่างกัน

ในภาพ เรามักจะไม่เห็นจุดแต่ละจุดเนื่องจากความละเอียดของดวงตาต่ำ แต่จะมองเห็นได้เฉพาะโทนสีโดยเฉลี่ยเท่านั้น ในทำนองเดียวกัน หูไม่ได้ยินแรงกระตุ้นเป็นรายบุคคล

ท้ายที่สุดแล้ว ด้วยเทคโนโลยีปัจจุบันในพัลซิ่ง DAC จึงเป็นไปได้ที่จะได้คลื่นที่ใกล้เคียงกับสิ่งที่ควรได้รับในทางทฤษฎีเมื่อประมาณพิกัดระดับกลาง

ควรสังเกตว่าหลังจากการถือกำเนิดของ delta-sigma DAC ความเกี่ยวข้องของการวาด "คลื่นดิจิทัล" ในขั้นตอนก็หายไปเพราะ นี่คือวิธีที่ DAC สมัยใหม่ไม่สร้างกระแสเป็นขั้นตอน ถูกต้องที่จะสร้างสัญญาณแยกโดยมีจุดที่เชื่อมต่อกันด้วยเส้นเรียบ

การสลับ DAC เหมาะสมหรือไม่?

แต่ในทางปฏิบัติ ไม่ใช่ทุกอย่างจะเป็นสีดอกกุหลาบ และมีปัญหาและข้อจำกัดหลายประการ

เพราะ เนื่องจากบันทึกจำนวนมากถูกจัดเก็บไว้ในสัญญาณหลายบิต การแปลงเป็นสัญญาณพัลส์โดยใช้หลักการ "บิตต่อบิต" จึงต้องใช้ความถี่พาหะที่สูงโดยไม่จำเป็น ซึ่ง DAC สมัยใหม่ไม่รองรับ

หน้าที่หลักของพัลส์ DAC สมัยใหม่คือการแปลงสัญญาณหลายบิตให้เป็นสัญญาณบิตเดียวที่มีความถี่พาหะค่อนข้างต่ำพร้อมการทำลายข้อมูล โดยพื้นฐานแล้ว อัลกอริธึมเหล่านี้คือตัวกำหนดคุณภาพเสียงสุดท้ายของพัลส์ DAC

เพื่อลดปัญหาความถี่พาหะสูง สตรีมเสียงจะถูกแบ่งออกเป็นสตรีมหนึ่งบิตหลายสตรีม โดยแต่ละสตรีมจะรับผิดชอบกลุ่มบิตของตัวเอง ซึ่งเทียบเท่ากับความถี่พาหะทวีคูณของจำนวนสตรีม DAC ดังกล่าวเรียกว่า multibit delta-sigma

ปัจจุบัน DAC แบบพัลซิ่งได้รับความนิยมครั้งที่สองในชิปเอนกประสงค์ความเร็วสูงในผลิตภัณฑ์จาก NAD และ Chord เนื่องจากความสามารถในการตั้งโปรแกรมอัลกอริธึมการแปลงได้อย่างยืดหยุ่น

รูปแบบ DSD

หลังจากมีการใช้ delta-sigma DAC อย่างแพร่หลาย มันก็ค่อนข้างสมเหตุสมผลสำหรับการปรากฏตัวของรูปแบบสำหรับการบันทึกรหัสไบนารี่โดยตรงไปยังการเข้ารหัส delta-sigma รูปแบบนี้เรียกว่า DSD (Direct Stream Digital)

รูปแบบนี้ไม่ได้ใช้กันอย่างแพร่หลายด้วยเหตุผลหลายประการ การแก้ไขไฟล์ในรูปแบบนี้ถูกจำกัดโดยไม่จำเป็น: คุณไม่สามารถมิกซ์สตรีม ปรับระดับเสียง หรือใช้การปรับสมดุลได้ ซึ่งหมายความว่าโดยไม่สูญเสียคุณภาพ คุณสามารถเก็บถาวรเฉพาะการบันทึกแบบอะนาล็อกและสร้างการบันทึกการแสดงสดด้วยไมโครโฟนสองตัวโดยไม่ต้องประมวลผลเพิ่มเติม คุณไม่สามารถหาเงินได้จริงๆ

ในการต่อสู้กับการละเมิดลิขสิทธิ์ ดิสก์รูปแบบ SA-CD ไม่ได้รับการสนับสนุน (และยังคงไม่) โดยคอมพิวเตอร์ ซึ่งทำให้ไม่สามารถทำสำเนาได้ ไม่มีการคัดลอก – ไม่มีผู้ชมจำนวนมาก สามารถเล่นเนื้อหาเสียง DSD จากเครื่องเล่น SA-CD ที่แยกต่างหากจากแผ่นดิสก์ที่เป็นกรรมสิทธิ์เท่านั้น หากสำหรับรูปแบบ PCM มีมาตรฐาน SPDIF สำหรับการถ่ายโอนข้อมูลดิจิทัลจากแหล่งหนึ่งไปยัง DAC ที่แยกจากกัน ดังนั้นสำหรับรูปแบบ DSD จะไม่มีมาตรฐานและสำเนาแผ่นดิสก์ SA-CD ที่ละเมิดลิขสิทธิ์ชุดแรกจะถูกแปลงเป็นดิจิทัลจากเอาต์พุตอะนาล็อกของ SA- เครื่องเล่นซีดี (แม้ว่าสถานการณ์จะดูงี่เง่า แต่ในความเป็นจริงแล้ว การบันทึกบางรายการเผยแพร่ใน SA-CD เท่านั้น หรือการบันทึกแบบเดียวกันบน Audio-CD นั้นจงใจสร้างคุณภาพต่ำเพื่อโปรโมต SA-CD)

จุดเปลี่ยนเกิดขึ้นกับการเปิดตัวคอนโซลเกม SONY โดยที่แผ่น SA-CD จะถูกคัดลอกไปยังฮาร์ดไดรฟ์ของคอนโซลโดยอัตโนมัติก่อนที่จะเล่น แฟน ๆ ของรูปแบบ DSD ใช้ประโยชน์จากสิ่งนี้ การปรากฏตัวของการบันทึกที่ละเมิดลิขสิทธิ์กระตุ้นให้ตลาดปล่อย DAC แยกต่างหากสำหรับการเล่นสตรีม DSD DAC ภายนอกส่วนใหญ่ที่รองรับ DSD ในปัจจุบันรองรับการถ่ายโอนข้อมูล USB โดยใช้รูปแบบ DoP เป็นการเข้ารหัสสัญญาณดิจิทัลแยกต่างหากผ่าน SPDIF

ความถี่พาหะสำหรับ DSD มีขนาดค่อนข้างเล็กคือ 2.8 และ 5.6 MHz แต่สตรีมเสียงนี้ไม่ต้องการการแปลงข้อมูลลดขนาดใดๆ และค่อนข้างสามารถแข่งขันกับรูปแบบความละเอียดสูง เช่น DVD-Audio

ไม่มีคำตอบที่ชัดเจนสำหรับคำถามใดดีกว่า DSP หรือ PCM ทุกอย่างขึ้นอยู่กับคุณภาพของการใช้งาน DAC เฉพาะและความสามารถของวิศวกรเสียงเมื่อบันทึกไฟล์สุดท้าย

ข้อสรุปทั่วไป

เสียงอะนาล็อกคือสิ่งที่เราได้ยินและรับรู้เสมือนโลกรอบตัวเราด้วยตาของเรา เสียงดิจิทัลคือชุดพิกัดที่อธิบายคลื่นเสียง และเราไม่สามารถได้ยินได้โดยตรงโดยไม่ต้องแปลงเป็นสัญญาณแอนะล็อก

สัญญาณอะนาล็อกที่บันทึกโดยตรงบนเทปเสียงหรือแผ่นเสียงไม่สามารถบันทึกซ้ำได้โดยไม่สูญเสียคุณภาพ ในขณะที่คลื่นในรูปแบบดิจิทัลสามารถคัดลอกได้ทีละนิด

รูปแบบการบันทึกแบบดิจิทัลจะต้องแลกกันอย่างต่อเนื่องระหว่างจำนวนความแม่นยำของพิกัดกับขนาดไฟล์ และสัญญาณดิจิทัลใดๆ ก็ตามเป็นเพียงค่าประมาณของสัญญาณแอนะล็อกดั้งเดิมเท่านั้น อย่างไรก็ตาม ระดับเทคโนโลยีที่แตกต่างกันสำหรับการบันทึกและสร้างสัญญาณดิจิทัลและการจัดเก็บบนสื่อสำหรับสัญญาณอะนาล็อกให้ข้อได้เปรียบมากกว่าในการแสดงสัญญาณดิจิทัล คล้ายกับกล้องดิจิตอลกับกล้องฟิล์ม