Khi bạn nhấn record trong DAW, một cuộc chuyển đổi khá kỳ diệu đang xảy ra: sóng âm liên tục từ thế giới vật lý đang bị chặt nhỏ thành hàng triệu mẫu số rời rạc, mỗi giây hàng ngàn lần. Quá trình này – gọi là analog-to-digital conversion (ADC) – quyết định chất lượng mọi thứ bạn nghe từ đó.
Nhưng để chuyển từ "liên tục" sang "rời rạc" mà vẫn giữ được chất lượng, cần phải hiểu đúng ba yếu tố cốt lõi: sampling rate, bit depth, và quantization.
Sampling rate: bao nhiêu lần mỗi giây ta chụp ảnh sóng âm?
Sampling rate (tần số lấy mẫu) đơn giản là số lần mỗi giây ADC "chụp" giá trị của tín hiệu. Chuẩn phổ biến nhất là:
- 44.1 kHz – CD chất lượng, phổ biến nhất
- 48 kHz – video/broadcast standard
- 96 kHz / 192 kHz – "high resolution", tranh cãi nhiều
Lý thuyết Nyquist-Shannon nói: để tái tạo một tần số chính xác, bạn phải sample ít nhất gấp đôi tần số đó. Con người nghe được đến khoảng 20 kHz, nên 44.1 kHz (tái tạo được đến ~22 kHz) đã đủ về mặt lý thuyết.
Vậy tại sao nhiều người vẫn thu ở 96 kHz? Có vài lý do thực tế:
- Headroom cho xử lý – pitch shift, time stretch sẽ ít artifact hơn
- Anti-aliasing filter dễ thiết kế hơn – bộ lọc có thể "thoải mái" hơn
- Vấn đề tâm lý – khách hàng thích thấy con số lớn
Nhưng đổi lại, file nặng gấp đôi, CPU load cao hơn, và thật sự tai người không phân biệt được trong blind test. Với hầu hết công việc, 48 kHz là sweet spot giữa chất lượng và thực tế.
Bit depth: độ chính xác của mỗi mẫu
Nếu sampling rate quyết định bao nhiêu lần ta chụp, thì bit depth quyết định độ chi tiết mỗi lần chụp. Bit depth càng cao, càng nhiều mức giá trị (levels) để mô tả amplitude.
- 16-bit = 65,536 mức (CD)
- 24-bit = 16,777,216 mức (studio standard)
- 32-bit float = range cực rộng, gần như không bao giờ clip trong DAW
Bit depth thấp → quantization error cao → noise floor cao. Về lý thuyết, 16-bit cho dynamic range ~96 dB, 24-bit cho ~144 dB. Tai người và môi trường nghe thực tế không cần đến 144 dB, nhưng 24-bit cho phép bạn thu ở mức thấp hơn mà vẫn giữ được chất lượng khi normalize sau.
Quy tắc thực tế: thu/xử lý ở 24-bit, export ra 16-bit với dithering cho delivery cuối.
Quantization và quantization error
Khi ADC "làm tròn" giá trị analog liên tục thành giá trị digital gần nhất, sai số nhỏ xuất hiện ở mỗi sample. Đó là quantization error. Với bit depth cao, error này cực nhỏ và nghe như white noise ở noise floor.
Nhưng nếu bit depth quá thấp (ví dụ 8-bit), quantization error lớn đến mức tạo ra distortion có hại, nghe như tiếng "bít bịt" kim loại khó chịu.
Dithering: nhiễu có chủ đích để giảm artifact
Khi bạn giảm bit depth (ví dụ từ 24-bit xuống 16-bit để burn CD), quantization error sẽ tạo ra distortion harmonics nghe rõ ở đoạn yên tĩnh. Giải pháp là dithering: cộng thêm một lượng noise cực nhỏ có chủ đích trước khi truncate.
Nghe nghịch lý: cộng thêm noise để cải thiện chất lượng? Nhưng đúng là như vậy. Dither noise che đi quantization distortion, và tai người dễ chấp nhận white noise hơn là distortion harmonics.
Các loại dither phổ biến:
- TPDF (Triangular PDF) – cân bằng, phổ biến nhất
- Shaped dither (noise shaping) – đẩy noise lên vùng tai ít nhạy cảm, thường dùng cho mastering
Lưu ý quan trọng: chỉ dither một lần duy nhất, ở bước cuối cùng. Dither nhiều lần = cộng dồn noise không cần thiết.
Jitter: kẻ thù ngầm của clock chính xác
Một điều ít người nhắc đến: jitter – sai lệch nhỏ trong timing của sample clock. Nếu ADC không sample đúng khoảng thời gian đều đặn, phase và frequency response bị sai lệch nhỏ, tạo ra artifacts khó nghe rõ nhưng làm giảm "clarity".
Interface audio tốt có clock chính xác, jitter thấp. Khi sync nhiều thiết bị, nên dùng word clock hoặc chọn một thiết bị làm master clock.
Tóm lại: những điều quan trọng nhất
- 48 kHz / 24-bit là sweet spot cho hầu hết công việc production.
- Bit depth quan trọng hơn sampling rate về mặt thực tế nghe được.
- Dither đúng cách khi export xuống bit depth thấp hơn.
- Clock quality (jitter thấp) quan trọng, nhưng ít được nhắc đến.
Kết
Digital audio không phải ma thuật, mà là toán học và vật lý rất cụ thể. Hiểu rõ sampling, quantization và dithering giúp bạn đưa ra lựa chọn đúng đắn từ lúc bấm record, thay vì mù quáng theo trend "càng cao càng tốt".
Bài tiếp theo, ta sẽ đi sâu vào MIDI và music technology – ngôn ngữ không phải âm thanh, mà là sự kiện và điều khiển.