-
Posts
19 562 -
Joined
-
Last visited
-
Days Won
204
calle_jr last won the day on January 22
calle_jr had the most liked content!
About calle_jr
- Birthday 1964-06-27
Contact Methods
-
Website URL
http://www.discogs.com/user/Calle_jr
-
ICQ
0
Profile Information
-
Location
Malmö
-
Det är ju i alla fall vansinnigt mycket bättre än Invisions sökmotor här på Euphonia Det tror jag helt klart. Tänk bara vilken skillnad Internet har gjort i samhället. Jag tycker att man kan se AI-tillämpningar som nästa stora steg på samma tema. Ett slag för Boston Dynamics som är ett av världens fräckaste företag. Kombinationen av vad de skulle kunna göra ihop med AI är mycket fascinerande.
-
calle_jr reacted to a post in a topic: AI - tillämpningar inom vår sfär.
-
Berka reacted to a post in a topic: Digital audio
-
calle_jr reacted to a post in a topic: Hemma hos Octavia rs
-
calle_jr reacted to a post in a topic: Hemma hos Octavia rs
-
Terminator reacted to a post in a topic: Digital audio
-
calm reacted to a post in a topic: Vad lyssnar du på just nu?
-
YYZ reacted to a post in a topic: Vad lyssnar du på just nu?
-
calle_jr reacted to a post in a topic: Ditt senaste skivinköp...., del 2.
-
calle_jr reacted to a post in a topic: Ditt senaste skivinköp...., del 2.
-
calle_jr reacted to a post in a topic: Ditt senaste skivinköp...., del 2.
-
calle_jr reacted to a post in a topic: Ditt senaste skivinköp...., del 2.
-
ulfsan reacted to a post in a topic: Digital audio
-
AlfaGTV reacted to a post in a topic: Digital audio
-
calle_jr reacted to a post in a topic: Vad lyssnar du på just nu?
-
Det är forumvärldens akilleshäl. Alltså att pga det flöde (som man ju vill ha) gör att ämnen drunknar och blir svårnavigerade. Detta är ett sätt som vi tillämpar för att underlätta, och lämna gärna andra tips på trådar som skulle vara bra att kondensera.
-
calle_jr reacted to a post in a topic: Digital audio
-
P-pan reacted to a post in a topic: Vad lyssnar du på just nu?
-
ulfsan reacted to a post in a topic: Digital audio
-
Govinda reacted to a post in a topic: Digital audio
-
AlfaGTV reacted to a post in a topic: Digital audio
-
Avsnitten i denna tråd är nu upplagda i artikelforum. Lite lättare att hitta och lite lättare för den som vill läsa i efterhand.
-
Begränsningar, fel och brister (Before anyone did anything, Elvis did everything) Här kommer några exempel och beskrivningar för att exemplifiera varför det inte "bara är ettor och nollor" och att format inte är liktydigt med prestanda. Vi kan också exemplifiera varför det ens är en idé att hålla på med bitdjup och samplingsfrekvenser som ligger högt över hörbara gränser. Bild: gurushots.com Linjäritetsfel Om vi börjar med hårdvaran, så har alla da-omvandlare mer eller mindre problem med låga signalnivåer eller signalnivåskillnader. Stereophile brukade mäta linjäritetsfel på digitalspelare som var mycket illustrativa. Weiss har grymma resultat i de mätningarna, exempel: Även om alla är medvetna att da-omvandlare låter olika, så finns det en utbredd uppfattning att digitala källor är mer eller mindre perfekta. CD-ljud har alldeles tillräcklig upplösning och dynamik osv. Visst, så är det. Men "CD-ljud" eller 16/44 är ett format, en standard. Det är inte ett mått på vad en cd-spelare, transport eller dac har för prestanda. Det säger bara att den kan spela och/eller avkoda det formatet. Inte hur bra den gör det. Nivån i en digital fil ges av bitdjupet, tex 216=65536 steg. Om en CD-spelare har tex +/-1V output så blir upplösningen 2/65536=0.03mV. Pga mer eller mindre linjäritetsfel i dacen kommer så små spänningsskillnader inte kunna hanteras, utan snarare kanske 2/213=0.2mV, vilket såklart resulterar i drastiskt reducerat dynamikomfång. Här är en mätning på en Zanden som väl kostar en kvarts miljon: Om vi säger att +/-2dB är acceptabel gräns, så spelar denna med 88/6=14 bitar. Detta är ju en highend-dac, och tittar man på de enklare varianterna ser det ut hur som helst, 10-12 bitar inte ovanligt och lägg till en digital volymkontroll så rasar det helt. I specarna visas en spikrak frekvensgångsmätning vid full output, och då är det ju perfekt. Eller? Det är ju digitalt CD-formatet (redbook) har utan tvekan tagits fram utifrån att människan hör 20-20000Hz, och många ställer sig bakom detta och blir ibland t.o.m irriterade på folk som väljer format med bättre prestanda. Men det är just att redbook är ett format som förbises. Alla tillkortakommanden i inspelnings-, mastrings-, mixnings- och uppspelningskedjan kommer adderas på varandra. Om inspelningen är ett analogt masterband eller 24/96 som spelas med en bra transport och en bra dac så fungerar det utmärkt med uppspelning av cd. Men om inspelningen är gjord på ett ljudkort på moderkortet i en laptop, uppspelningen sker från HRT musicstreamer och digital volymkontroll... I båda fallen är det 16/44, och det är ju bara ettor och nollor eller hur Hemmapulare som spelar in, samplar, mixar, mastrar, konverterar, filtrerar i den miljön kommer inte ha en nyttosignal som är i närheten av redbooks randvillkor. Degradering pga filter Oavsett format finns det normalt alltid ett lågpassfilter i en DAC. Hur och om detta påverkar den analoga signalen inom hörbara audiobandet beror på formatets samplingsfrekvens och filtrets branthet. Här är ett exempel där man ser att en dac som spelar vanlig cd påverkar en bra bit ner i hörbart område även med ett brant filter: Not: grupplöptiden är här normaliserad och ska divideras med aktuell frekvens. För 2kHz är alltså grupplöptiden 1,0/2000=0,5ms. Om signalen är 16 bitar, så bör dämpningen inom stoppbandet vara -96dB. Det innebär att om nyquist-frekvensen inte är rejält högre än audiobandet så är det svårt (och dyrt) att hitta ett passande antivikningsfilter. Även med ovanstående exempel på filter och utan översampling av pcm 16/44 får man i praktiken 9 bitars audio med flera dB dämpning högfrekvent, samt artefakter med fasvridningar inom audiobandet. De där enkla diagrammen som redovisas i olika sammanhang för att jämföra och visa på förträffligheten med cd säger alltså inte sanningen. Det är inget fel på formatet CD, men det är ju vad man får i verkligheten som är det avgörande. Även bitdjup och nivå kan påverka vid rekonstruktion, eftersom om signalen är nära full nivå (0 dBFS) så kommer sincen ge värden utanför möjligt omfång, dvs klippning: Exempel på klippning pga rekonstruktion med sincen. Bild: archimago.blogspot.com De flesta dac-chip på marknaden ger sådan intersample clipping med audio som saknar headroom, oavsett om de är från TI, AKM eller ESS. Här är ett exempel på vad som händer med vitt brus med 0dBFS (blå), -3dBFS (röd) och -6dBFS (grön kurva). När en audiosignal saknar headroom höjs brusgolvet pga intersample clipping. Bild baserad på mätning från audiosciencereview.com Om insignalen ligger för nära full scale så höjs brusgolvet markant. Utan klippning i dacens interpolering, så hade kurvorna sett likadana ut (som grön kurva). Nu blir det inte såhär drastiskt i praktiken när man spelar musik, men effekten sänker helt klart tillgängligt dynamikomfång, speciellt för pcm 16/44. Det kan alltså vara all idé att öka både bitdjup och samplingsfrekvens (översampla) när man spelar cd. Givetvis måste värdena mellan lagrade sampel interpoleras, annars är det ingen vits . Som exempel kan man utgå från tex 16/44 flac, konvertera bitdjup till 24 för att inte riskera överstyrning i uppsampling till 24/88, och sedan spara filen. Allt för att bättre anpassa till dacens lågpassfiltrering vid uppspelning. Vad är då tillräckligt bra? Är frågan intressant? Jag tycker inte det eftersom det finns så många om och men. Ur ett mätperspektiv är den intressant eftersom man får bättre mätningar. Men ur ett strikt hörbarhetsperspektiv finns det så många olika nivåer. Brothers In Arms låter tillräckligt bra i min telefon. Det gör inte Khatchaturian. Och å ena sidan har man inga problem att ta till sig 8-bitars ljud samplat med 22kHz. Men om man lyssnar efter utklingningen i en cymbal så kommer den både låta naturligare och hänga i längre om man utgår från ett fullt utnyttjat 24/96-format. Och om det är pga naturligt brus så kommer man höra cymbalen genom bruset mycket lägre än för en bitbaserad dynamik (som ju blir tyst). Osv. Så diskussionen om vad som är tillräckligt bra blir akademisk tycker jag. Den är intressant men går inte att svara på utan att missförstås. Den är inget värd utan en jätteradänga av sammanhängande villkor inkl psykoakustik. Vid för hög upplösning (>pcm 24/96 eller >dsd128) är jag rädd att man flyttar flaskhalsar till andra processer i signalbehandlingen, brister i exekveringen av rutiner med stora mängder data klockade i realtid skapar mer fel än vad den högre upplösningen bidrar med. Om jag vid sporadiska tillfällen hör dropouts, så är det för mig en signal att den digitala signalbehandlingen är stressad, dvs att det sker kontinuerligt omfattande fel. En dropout är ju egentligen ett haveri. Man kan inte heller bortse från att 32-bitars ljud o liknande blir för kliniskt, för lite brus. Eller rentav en kombination av de båda. Digital filhantering Vad händer med ljudfiler när de digitala funktionerna i spelaren används? För att studera det skapade jag en 10 sek mono ljudfil med en helt perfekt 1kHz fyrkantvåg. Därefter är denna konverterad till dsd64 i JRiver Mediacenter, sparad som fil, och därefter är den sparade filen konverterad tillbaka till pcm 16/44. Här är alltså en 1kHz fyrkantvåg mono 0.8 x full scale som jag skapat syntetiskt och den är därför helt perfekt: Samma ton sparad som pcm 16/44: Här är samma ton konverterad till dsd64: Här är samma ton konverterad tillbaka till pcm 16/44: Med korrekta rekonstruktionsfilter kommer denna ljudfil fungera hur bra som helst. Men har vi koll på det när vi konverterar filer? Slutsatser I de enkla exemplen ovan (linjäritet i dac, inverkan av filter och digital mixning) ser man att dynamiken enkelt kan begränsas till 50-70dB. Dvs i samma härad som normala inspelningar på LP pga brus i konsertsalen/studion/spelstället, inspelningskedjan, mikrofoner, elektronikbrus, skivbrus etc. Brus som dessutom är betydligt behagligare än syntetbrus. Sammanfattning: Pga mer eller mindre linjäritetsfel i hårdvara är bitdjupet ofta betydligt lägre än det format man spelar. Man har ofta 75-80dB möjligt dynamikomfång snarare än tex 96dB som formatet för cd medger. En digital ljudfil behöver filtreras i da-omvandlaren. Hur väl denna filtrering fungerar beror på filtrets kvalitet och hur det har implementerats. En digital inspelning måste mixas. Många typer av processer (nivå, eq, filter, konverteringar) kommer påverka signalen på olika sätt som vi sett exempel på ovan. En professionell mastringsingenjör har järnkoll på detta. Men denna typ av "mixning" förekommer också ofta i konsumentmjukvara. Det krävs en hel del av en användare för att ha koll på vad mjukvaran egentligen gör med musikfilerna. Om man inte har tillräckligt headroom i mastern så kommer konverteringar och andra processer ge överstyrningar i mixen, dvs signalen kommer dista i övertoner. Detta headroom måste man reservera från tillgängligt dynamikomfång. I dessa punkter ligger kanske också anledningen att en pcm 24/96 master kan bli ett bättre slutresultat som dsd64 än som pcm 16/44? Syftet med ovanstående är att visa att format ≠ prestanda. Det vet vi och det är trivialt, men jag tycker ofta det verkar negligeras. Vi tror på nåt sätt ändå att cd-avspelning = cd-kvalitet. Mer och mer material förekommer i form av nedladdad musik och rippning. Den hanteras på diskar i hemdatormiljö, och importeras till olika bibliotek i musikspelare, dsp managers, eq, converters, filter osv. För mig är detta ett minfält. Jag tycker att jag alltför ofta ser funktioner som bara är en checkbox i en meny och man har ingen aning om vad den egentligen innebär. En konvertering av pcm24/96 till dsd64 och vice versa fungerar mycket bättre, men jag tycker ändå att man ska uppmärksamma riskerna med att dribbla med musikfiler. Det är inte ettor och nollor som bara flyttas runt och kan återställas till sitt ursprung*). Räkna med att en transkodning för alltid har förändrat strukturen på ljudmaterialet. Väldigt mycket av den mjukvara som förekommer har en rad andra funktioner som kan likställas med konvertering. Det behöver inte vara en regelrätt formatkonvertering, utan alla filter innebär en transkodning, vilket innebär att originalet förändras. *) Jo, det är det. Men ni förstår vad jag menar.
-
Format, protokoll och interface Format för audio är ett brokigt begrepp. I dagligt tal blandas det friskt mellan format och prestanda, gränssnitt, kontakter, protokoll och filtyper. Strikt är formatet det som anger vilken typ av modulering som används för digital kodning och avkodning, antal kanaler samt vilket bitdjup och samplingsfrekvens man valt för ad- och da-omvandlingen. Tex 2-kanals pcm16/44 eller 5.1-kanals dsd128. Format anger också om ljudströmmen i efterhand är kodad, dvs komprimerad och/eller är inbäddad eller anpassad för kommunikation mellan olika system (interchange file format), tex wav, aiff, dsf, flac, ac3 eller dop. Det finns en uppsjö protokoll inblandade i audio. Det som är värt att nämna här är RTP (Real-time Transport Protocol) som är ett nätverksprotokoll för leverans av audio i IP-nätverk. Protokollet används för strömning av audio (och video), och det har även stöd för hantering av jitter, förluster och andra fel i signalöverföring vid strömning. Philips och Sony har definierat en rad regnbågsböcker inom audio och video, för att definiera format för olika typer av compact disc-media. Det finns idag en samling med Red, Green, Yellow, Orange, Beige, White, Blue, Scarlet och Purple Book, varav Red Book (CD) och Scarlet Book (SACD) är de vi främst berör i denna artikel. Det gränssnitt man använder i sin dac begränsar formatet. S/PDIF är endast avsett för pcm och max 24/96 okomprimerat eller komprimerad flerkanals pcm exvis DTS. Jag började på en sammanställning över vilka format som olika gränssnitt kan spela upp, men kom så småningom fram till att de flesta gränssnitt kan spela det mesta och att det är en massa detaljer och versioner som spelar in. Det handlar mer om ifall dacen har stöd för formaten. De format idag som har vissa begränsningar är s/pdif och aes/ebu. Här är ett utkast till förenklad sammanställning som jag säkert får äta upp: PCM-teknik Den helt förhärskande tekniken för att representera en analog audiosignal digitalt är pulskodmodulering PCM (pulse code modulation). Det är också därför de allmänna beskrivningarna ovan baseras på pcm. Metoden används för cd-skivor, datorljud, telefoni och andra digitala audiotillämpningar. De allra flesta digitala lagringsformat såsom wav, aiff, au, raw baseras på pcm, och även de komprimerade formaten såsom wma, mp3, flac, ac3, vorbis, dts, aac etc. Det som utmärker egenskaperna för PCM är att standarden för den bitström man får definieras av dess samplingsfrekvens och bitdjup. För att lagra en pcm-ljudström på en dator behöver den sparas i ett format som stöds av datorns operativsystem. För Windows-plattformar har WAV (Waveform Audio File Format) varit förhärskande som grundformat. För iOS-plattformar är motsvarigheten AIFF. WAV är baserat på RIFF (Resource Interchange File Format) som utvecklades av IBM och Microsoft, och som (liksom AIFF) bygger på en serie chunks (fragment) med en bestämd struktur: Som exempel kommer här de första 72 bytes i en WAV-fil där bytes visas i hexadecimal form: Om vi översätter detta: Vi behöver inte gå djupare in på pcm i detta avsnitt, eftersom tekniken beskrivs i de allmänna avsnitten ovan. Lagring och komprimering utförs på liknande sätt för pcm och dsd och beskrivs senare. DSD-teknik Det andra digitala grundformatet som förekommer inom audio för musik är dsd. Det är inte i närheten så väletablerat och använt som pcm, och har nästan varit på väg att dö ut. Men det är omtyckt i vissa kretsar, och har fått ett visst uppsving i samband med ökande utbud från nedladdningssiter. Jag tänkte därför i det följande göra en liten fördjupning kring dsd-teknik. Det förekommer en hel del diskussioner som faktiskt tar avstamp i ganska avancerad digitalteknik och som ligger långt över mitt huvud, och säkert över många av våra läsares också. Min egen uppfattning har flackat genom åren efter att ha spelat med en rad olika D/A-omvandlare som varit både bra och mindre bra på olika format. Det enda jag kan säga entydigt är att för de inspelningar där man månar om ljudkvalitet så väljer man oftare ett mer högupplöst format. Jag har aldrig hört en SACD-skiva med dåligt ljud. När SACD-skivan lanserades blev mottagandet förvisso positivt i vissa kretsar, men en utbredd uppfattning var att anledningen fanns i att drakarna Sony och Philips fick ett robust kopieringsskydd. Men det finns ett inneboende genialt koncept med SACD tycker jag. Det stavas DSD och uttalas Direct Stream Digital. Och här kommer den enda jämförelsen jag behöver ta upp mellan DSD och PCM Kvantisering och sampling av signal efter pulskodmodulering (PCM) och ΔΣ-modulering (DSD) Det räcker man ser den bilden för att förstå att det är två helt olika djur, fast att vi ofta klumpar ihop dem och kallar dem gemensamt för digitalt ljud. Det är alltså inte för att jämföra PCM med DSD som jag vill rekapitulera, utan för att redovisa ett slags avstamp till diskussioner kring DSD. Jag tänkte därför försöka förklara grunderna för DSD på ett begripligt sätt. Men vi börjar med en skiss som visar att A/D-omvandlaren har principiellt samma blockschema som D/A-omvandlaren: Och notera att både input och output kan vara analog eller digital, både för A/D- och D/A-omvandling. Ingenting blir bättre som arkivmaterial än källmaterialet, men när det spelas upp i realtid kan det vara många faktorer som avgör hur det låter. Rent principiellt kan därför ett mer högupplöst inspelningsformat (exvis hirez pcm) låta bättre efter ADC till ett annat format, exvis xrcd, sacd eller dsf och så vidare. Det beror på hård- och mjukvara i min och din specifika DAC och hur dessa har anpassats för olika arbetsuppgifter. Två ledord för alla DACar är noggrannhet och snabbhet, och dessa står ju faktiskt i rakt motsatsförhållande. Ju fler arbetsuppgifter man ber en DAC att utföra, desto fler fel kommer den göra. Tricket med Direct Stream Digital är att man endast tillämpar 1 bit i dataströmmen samt att man använder delta-sigma-modulering. Utöver detta använder man teknik för översampling, brusformning och ev dither. 1 bit i dataströmmen innebär att varje sampel endast kan vara en 1:a eller 0:a. För att A/D-omvandla tex en 10 sekunders musiksnutt används delta-modulering. Delta betyder inom matematik skillnad, där man historiskt använt den grekiska bokstaven Δ för att beskriva skillnaden mellan två tal. Det är just precis här likheten med analoga format ligger. Skillnaden i amplitud per tidsenhet, dvs Δx/Δt, är ju hastighet. För delta-modulering står en 1:a för att öka amplituden, och en 0:a står för att man ska sluta öka och börja minska. Eftersom delta-modulering är en så otroligt enkel operation så kan man använda ofantligt hög samplingsfrekvens. Standard för dsd är 2,8 MHz, som är 64 ggr högre än standard 44 kHz för cd. Sigma-modulering kommer också från den grekiska beteckningen inom matematik, där Σ står för summering. Sigma-modulering innebär att man summerar den analoga signalen med output innan man gör delta-moduleringen. Det gör att gain för Δ kan styras, och att felen som uppstår vid kvantiseringen kan lagras och medelfelet kan minimeras med en feedback-loop. Man kan sammanfatta processen med hjälp av följande figurer. Den blåa linjen är den inspelade signalen. Den heldragna röda linjen är den maximala brusnivån som är oundviklig pga felen som blir vid kvantiseringen av signalen. För varje sampel måste processorn välja om signalnivån är större eller mindre än signalnivån för föregående sampel. Strikt matematiskt kan detta val bli fel varannan gång, dvs risken för avvikelse är 50%. För 1-bit dataströmmar kan man alltså bara räkna med ett uruselt S/N på ungefär 6dB. (Jämfört med tex 16-bitar där man har S/N på ungefär 6x16=96dB.) Man kan inte ta bort brus utan att påverka nyttosignalen, men man kan förändra det. Genom översampling bibehålls mängden brus, men det sprids jämnt inom den nya upplösning man skapat med översampling. Så med 64 ggr översampling som är standard för sacd, så sänker man brusets nivå till den streckade röda linjen. Därefter kan man med finurliga algoritmer forma bruset, så att man förskjuter så mycket av det man kan till högre frekvenser. Den totala mängden brus är densamma, men mängden inom audiobandet har minskats drastiskt. Därefter appliceras ett lågpassfilter på signalen, så att allt över audiobandet filtreras bort. För ADC är detta lågpassfilter digitalt, för DAC är det analogt, dvs det kan vara ett enkelt RLC-filter. Voila! nu har vi 10 sek musik med uppåt 120dB dynamik i ett digitalt pulståg som populärt kallas DSD; ... Det ska också nämnas att klockan är en mycket viktig del i hårdvaran, men det gäller ju alla format. Indelning i sampels baseras på tid, så klockans exakthet är avgörande, både för ADC och DAC. En annan sak som ska nämnas är DST, Direct Stream Transport. Det är den algoritm som används för återställning av bitströmmen i filöverföringen till DA-omvandlaren. Pga den höga samplingsfrekvensen är det viktigt att en sådan algoritm är enkel och stabil. Mixning av DSD Rent konkret kan man som exempel mixa en rå 1-bitars sigma-delta-modulerad bitström, men bitströmmen måste ju ges värden. Annars har den bara värdet "öka" eller "minska". Mixning innebär att digitalt splitta, flytta, blanda, ändra nivå och fasmodulera audiosignalen (-erna). I praktiken innebär det att den måste konverteras så att alla sampels får ett värde. Och då har vi pcm eller något liknande, dvs det är inte dsd längre Ett grovt exempel för att förtydliga. Säg att spänningsnivån i den analoga signalen för 50µsek musik varierar från 1,5000 V till 1,5005 V. Då kommer en 44.1 pcm-signal hinna kvantisera detta till två eller kanske tre värden, eftersom det samplas ett värde varje 22,7µs. Men för en dsd-signal beror det på spänningssteget. Om steget är 15 µV så kommer det beräknas 140 värden eftersom det samplas ett värde varje 0,35µs. För pcm kan värdets nivå lagras med 16 bitars precision, dvs 216=65536 olika värden på spänningsnivå kan lagras. Men för dsd som bara har 1 bits precision kan värdet bara jämföras om det ökar eller minskar (21=2) jämfört med föregående, och det är resultatet av jämförelsen som lagras; Vad är det då som skapar bruset i en dsd-signal? ”Brus” är ju en vid benämning. Man bör kalla det vi talar om här för brus eftersom det ger en koppling till vad man hör och det kan uttryckas i volt eller dB i förhållande till nyttosignalen, dvs SNR. Detta brus är en produkt av fel i processen för kvantisering av en analog signal, och kallas därför kvantiseringsbrus. Felen (e=error) som skapar detta brus (n=noise) beror helt på storleken på steget i kvantiseringen; En analog insignal matas till kretsen med en viss gain G. Den digitaliserade signalen får då en spänningsnivå som kan uttryckas: Medelvärdet av felet kan beräknas till: Man kan anta att felen vid kvantisering är slumpmässiga och ser därför ut som vitt brus i audiobandet. När man översamplar sprider man bruset inom bandbredden för samplingsfrekvensen. Antag att bandbredden för audiosignalen är f0, och att samplingsfrekvensen är fs. Förhållandet mellan fs och 2f0 kallar vi för översamplingskvoten, eftersom Nyquists samplingsteorem säger oss att man måste sampla över 2fs för att inte skapa vikningsdistorsion (aliasing). Så översamplingskvoten betecknas OSR=fs/2f0. Kvantiseringsbruset inom audiobandet, kallat n0, minskar till: En ΔΣ-moduleringskrets kan vidare forma bruset genom att "seriekoppla" översamplingen. Ovanstående beskrivning kallas ΔΣ-modulering av 1:a ordningen. Om moduleringskretsen stackas skapar man en ΔΣ-modulering av 2:a, 3:e eller generellt k:te ordningen. Kvantiseringsbruset vid ΔΣ-modulering av k:te ordningen blir: Exempel: om den analoga insignalen har bandbredden 20kHz, och vi översamplar den till double-dsd (5,6MHz) med 3:e ordningens ΔΣ-modulering kommer man minska bruset från kvantiseringen till den digitaliserade utsignalen till: Varför 1-bit? Bitdjup används för att beskriva precision. 1 bit kan bara användas för att beskriva om det var tavelträff eller ej. 2 bitar kan användas för att ge 22=4 alternativa värden. 4 bitar kan användas för att ge 24=16 alternativa värden, fortfarande ingen vidare precision i en miljö där man vill mäta absoluta tal. 8 bitar kan användas för att ge 28=256 alternativa värden, dvs fullt möjligt att ge ett bra referensvärde. På en darttavla kan vi på bråkdelen av en sekund urskilja 83 olika värden med olika egenskaper. Man kan säga att vi då utnyttjar vår hjärna med ett bitdjup på drygt 6 . Men jämfört med en dac ligger vi i lä eftersom den håller reda på en piltavla som är numrerad från 1-16000 i stället för 1-20, och den urskiljer ett av dessa värden 44100 ggr per sekund. Den uppenbara nackdelen är att informationshanteringen sväller bokstavligen exponentiellt om man för varje sampel ska räkna ut ett värde med hög precision i enheten volt. Så fort man frångår 1 bit för en dac blir det genast mycket mer komplicerat. Det är inte bara att jämföra 216x44100=2890137600 varianter/sek för 16/44 pcm med 21x2822400=5644800 varianter/sek för dsd, vilket i sig innebär 500 ggr fler operationer per tidsenhet. Det är också att en dac behöver styra på flera olika saker samtidigt. Dsd behöver bara rinna, mer-mindre, mer-mindre. För mixning däremot, där ser jag inga problem att använda 4, 8 eller 16 bitar i kombination med översampling + ΔΣ-modulering + LP-filter. Det kan fortfarande kallas dsd eftersom de processer som karakteriserar dsd finns där, mastringen är fortfarande exakt dsd, och da-omvandlingen i hemmet är dsd. Jag är inte biolog men om man skulle skapa en trädstruktur för format så borde dsd ligga närmre magnetband än pcm. Det grundläggande funktionssättet, dvs det som skapar själva ljudet, är samma princip för dsd som för magnetband. Obs! Det innebär inte att dsd låter bättre. Många anser att pcm är överlägset magnetband vilket jag inte kan bestrida. Men det innebär att vi bättre kan förstå de övergripande egenskaperna och vad som skiljer djurens beteende åt. Inspelningsformat Det här med format är ett litet detektivarbete, och man behöver börja med källmaterialet dvs inspelningarna och hur dessa går till Channel Classics som exempel spelar in i dsd sedan sju år tillbaka, men BIS och Chandos fina sacd-utgåvor är normalt inspelade med 24/96 pcm-format. Man ska nog beakta att väldigt många skivbolag inte har egna inspelningsledare utan anlitar ett team, en studio eller frilansare. Det gör att de inte ens styr över inspelningskedjan såvida de inte har definierat detta för beställningsjobb. Jag kan bara anta att man hellre väljer en inspelningsledare på dennes meriter än att man väljer ett format. Här ser vi producenten Brian Pidgeon till vänster, dirigenten Peter Oundjian till höger och The Doric String Quartet under provlyssning av John Adams' Absolute Jest. Foto: Jonathan Cooper Baserat på egna lyssningstester med inspelning både i pcm och dsd anser BIS att 24/96 pcm fungerar klanderfritt. De arbetar normalt med inspelningsformatet i hela processen tills det är dags att göra en master där de skapar dsd för sacd-produktion. Jag har försökt få svar från Harmonia Mundi, men de kan inte bekräfta att de spelar in i dsd för sina sacd. Man ska dock beakta att de allra flesta av deras utgåvor är cd och då är inspelningen pcm. Channel Classics gör en grej av sin inspelningskedja, vilket alltid gör mig lite misstänksam eftersom man får lite vibbar av att musiken är sekundär. I deras fall är det inte så tycker jag. De använder mickar från Schoeps och Bruel & Kjaer, AD- och DA-omvandlare för dsd från Grimm Audio och Meitner/EmmLabs och mixerbord från Rens Heijnis. Editeringsmjukvara är Pyramix som utvecklats av Merging. Här är en förklarande berättelse om en inspelningssession 1997 från Dr Andrew Demery på Super Audio Center: Polyhymnia är ett holländskt bolag som gör förstklassiga inspelningar och produktioner. Företaget är sprunget ur den tekniska delen av Philips Classics sedan 1950-talet. De gjorde några av de första experimentella dsd-inspelningarna i mitten av 90-talet med Erdo Groot vid spakarna. Polyhymnia gör idag inspelningar och efterbearbetning i en kedja som enbart inbegriper analog signal och dsd-signal. eClassical säger såhär: En annan viktig faktor är att sacd aldrig har sålt. Det är väldigt små volymer i förhållande till det utbud av sacd och dsd som trots allt finns. Man ska dock tänka på att en del av nedladdningen är dsd, men sannolikt inte större andel än förhållandet mellan cd och sacd. Som bäst sålde sacd i USA för 26 MUSD och det var år 2003, det är alltså bara promille av motsvarande cd-försäljning. 2003 var också det enda år då sacd, med knapp marginal, slog LP-försäljningen Omsättning i USA för några utvalda format. Källa: RIAA Så vad drar man för slutsatser? Ja, framför allt att allt som glimmar inte är guld. Även om man köper dsd så är det stor sannolikhet att materialet är mixat och mastrat i 24-bitars pcm. Men inte alltid, och tendensen är att dsd-mastring ökar. En sak som jag inte begriper är varför dsd säljs till ca 40% högre pris än sacd ......... Holländska Pentatone gör alla sina utgåvor i SACD, och det rör sig om 30 album per år. Det var Giel Bessels, Dirk van Dijk och Job Maarse från Philips Classics som startade etiketten 2001, med fokus på högkvalitetsinspelningar med internationella toppmusiker. De anlitar Polyhymnia (sannolikt gamla kolleger) för DSD-inspelning, editering, mixning och mastring för SACD. De ger även ut ommastringar av fyrkanalsinspelningar från Philips som gjordes för quad-skivor på 70-talet. Fantastiskt. Detta tycker jag är ett exempel på en katalog som prioriterar det musikaliska innehållet, toppsolister och bra orkestrar. Men de bryr sig också om produktionen. Hög kvalitet rakt igenom. PENTATONE Jag kan se en rad anledningar till att inte mixa i dsd (personal, kostnader, programvara i alla led, multiformatsläpp), och jag tycker inte att det är självklart bättre på ena eller andra sättet. Jag vet ärligt talat inte om det ens finns en vits i att mixa i dsd som slutformat, och att mixa nånstans mitt i dsd-processen är ett högriskprojekt pga brushantering. För en mastringsstudio är kedjan liksom öppen och de kan tagga in och ur med olika moduler, stoppa, blanda, splitta, jobba med kanaler, fasmodulera, frysa, backa osv lite som de tycker blir bäst. Varken en pcm- eller dsd-fil har ett fixt format, utan det finns råformat och mellanformat även av dessa. De kan arbeta med materialet på sampelnivå eller vilken nivå de vill, i okomprimerad form och utan kopieringsskydd. Inspelning, mixning och mastring är ju också en betydande del av artisteriet. Detta är ju väsentligt annorlunda jämfört med musiklyssning med en dac. Jag märker att jag har svårt att förklara mig Men ponera att jag tycker att 24/96 låter skit hos mig, men att dsd låter suveränt. Även om det är en analog inspelning som ad-omvandlas och mixas i rå 24/96 för att sedan mastras för sacd, så betyder inte det att även den låter skit. De spåren som den digitala bearbetningen lämnar efter sig behöver inte ens synas (höras) eftersom i mixningen kan en skicklig hantverkare tillämpa supersmarta tekniker (exvis dithering och anti-aliasing) baserat på det aktuella råmaterialet. Och framför allt, en dac kan vara bättre på vissa operationer än på andra. Lagring, komprimering, lossy och lossless CD-formatet definieras av Red Book, vilket innebär 2-kanalsljud med bitdjup 16 och samplingsfrekvens 44.1 kHz. En Byte motsvarar 8 bitar, så vi har alltså 2 Byte gånger 44100 sampel per sekund, gånger två kanaler, gånger 60 sekunder per minut vilket motsvarar 2 x 44100 x 2 x 60 = 10 MB/min. En cd-skiva kan därför innehålla max 85 min pcm, och en 1 TB-hårddisk kan innehålla max ca 1500 album okomprimerad pcm. För strömning av okomprimerad pcm i realtid krävs att all inblandad hårdvara kan hantera minst 200 kB/s. Det gäller även vid strömning från Internettjänster, men en fiberanslutning 100/100 motsvarar 100 Mbps / 8 = 12.5MB/s, så det lär inte vara några problem så länge strömningen får kidnappa några procent av anslutningen. Men det finns två huvudskäl att komprimera audio. Båda reducerar dynamikomfånget, men de har olika syften. Det ena skälet är under mixning och mastring, där kompression används för att ge en mer naturlig nivåvariation och uppfattbarhet utan att ge distorsion. Det gör musiken mer bekväm att lyssna på. För kompression i mixning sätter man ett tröskelvärde på nivån. Den del av signalpeakar som överstiger denna nivå komprimeras, dvs nivån sänks, och hur mycket det sänks bestämmer man med ett förhållande mellan insignal och utsignal. Här är ett exempel där tröskelvärdet satts till -24dB, och tre olika ratio 2:1, 4:1 och 8:1 jämfört med ratio 1:1 som betyder att utsignal=insignal (ingen kompression). Det finns hårdvara som ger ett hårt eller mjukt knä dvs övergången vid tröskeln är distinkt som i figuren ovan, eller med en mjukare övergångszon. Man brukar även styra attack dvs tiden i millisekunder innan hårdvaran börjar komprimera en insignal som överstiger tröskeln, liksom release som är tiden innan signalen återgår efter tröskelvärdet understigits. Det ger mjukare och mer naturliga övergångar även i tiden. I en kompressor eller limiter ökar man även förstärkning eftersom ju signalnivån har sänkts. Under många års tid har man dock successivt pressat nivåer för att skapa effekt och höras i allt brus, inledningsvis framför allt i radio. Det som låter högre skapar helt enkelt mer uppmärksamhet. Ofta sätter man då tröskelvärdet mycket lågt, tex allt som överstiger -6dB komprimeras. Detta okynnesbetéende har kommit att gå under namnet Loudness War. Kompressorn Tube-Tech CL1B från danska Lydkraft. Det andra huvudskälet för kompression är för att minska filstorlek. Kompression av audio utförs för att minska filstorleken för upp- och nedladdning samt för att minska lagringsplats på disk. Principen i all datakompression är i första hand att ta bort redundant information. För en bild eller videoframe kan det vara svarta pixlar, för audio är det typiskt tystnad. Musik innehåller mycket tystnad (givet hur man definierar tystnad), och man behöver inte definiera hur tystnad låter för varje enskilt sampel den förekommer. I andra hand minskar man bitdjup och samplingsfrekvens. För en bild minskar man antalet färger och pixlar. För ljud minskar man antalet steg i nivå och ökar avståndet mellan sampel. Båda dessa åtgärder kan göras på finurliga sätt, och det är hur vi uppfattar bild och ljud som avgör vad man kan förenkla mest utan att synbart/hörbart försämra kvalitén för mycket. Inom audio baseras de flesta förekommande sätten därför på psykoakustisk forskning. Man konstruerar algoritmer för analys av data och matematiska operationer för hur psykoakustiska approximationer kan genomföras. Man plockar helt enkelt ut det vi uppfattar som mest signifikanta data och rensar bort det som är mindre viktigt, vilket ger högre ljudkvalitet per byte. Dessa algoritmer implementeras i mjukvara som standardiseras och kallas då codec. En codec kodar ljudströmmen för lagring och transport, och avkodar den vid uppspelning (coding-decoding). Codecs för kompression på detta sätt brukar delas in i om den är lossy eller lossless, dvs om kompressionen degraderar signalen eller ej. De vanligaste formaten för okomprimerad förlustfri audio är WAV och DST (Direct Stream Transfer). WAV har vi förklarat ovan, och DST är den codec som används för DSD som ju baseras på pulsdensitetsmodulering (PDM). De vanligaste formaten för komprimerad förlustfri audio är FLAC (Free Lossless Audio Codec) och ALAC (Apple Lossless Audio Codec). De vanligaste formaten för komprimerad audio med förluster är AAC (MPEG-2 och MPEG-4), AC3 (Dolby Digital) och MP3 (MPEG Audio Layer III) Ett exempel på algoritm är den mycket vanligt förekommande MDCT (Modified Discrete Cosine Transform), som används för tex MP3 och många andra komprimerade format. I huvuddrag innefattar algoritmen sex steg: Audiosignalen delas upp i 32 frekvensband, där varje band filtreras för att reducera vikningsdistorsion (filterbank). Därefter utförs en 1024-punkters FFT. En audiosignal är av naturen i tidsdomänen, men det är i frekvensdomänen man kan se och reducera bort "onödig" data och artefakter. Den psykoakustiska modellen appliceras. Kompression utförs med MDCT. Signalen kvantiseras till vald bitrate och ytterligare komprimeringsrutiner tillämpas exvis Huffmankodning. I sista steget formatteras bitströmmen till frames, med header, error check, audio data och ancillary data. Signalen sparas som en bitström. Förlustfri komprimering kan minska filstorlek till ca 50%. Gränsen för hur mycket förlustfri komprimering som är möjlig kallas för entropy rate. Gränsen är helt statistisk och beror på bit-sekvenserna av data. Det går inte komprimera mer än så, men man kan komma nära. För komprimering med förluster kan man minska en fil till 10% av originalfilen, men för audio och bilder är då degraderingen klart märkbar. För video är ganska hård komprimering mindre märkbar. Stämmer det? Och vad innebär "inaudible"? Hör man inte ett ljud (eller snarare en klangsammansättning) även om man inte kan pinpointa den i ett hörseltest?
-
DA-omvandlare Allmänt Output från transporten ska nu rekonstrueras och omvandlas till en analog signal i linjenivå, och det görs i en DAC. De fysiska huvudkomponenterna i en dac är (oftast) ett dac-chip, klocka eller klockgränssnitt, filter, nätdel, ingångsgränssnitt och utgångsgränsnitt. Dac-chip från ESS Technology. Bild: Apogee Digital Dac-chippet är normalt en ic-krets som innefattar någon form av transkodning för att anpassa den digitala signalen till nästa steg, samt en dekoder, exvis en delta-sigma-modulator med översampling. Därefter behövs filter för rekonstruktion till en analog signal och biasering till linjenivå. Både filter för eliminering av vikningsbrus (anti-aliasing) och rekonstruktionsfilter är lågpassfilter vars syfte är att ta bort oönskat högfrekvent brus. Anti-aliasing bandbreddsbegränsar till aktuellt format, och rekonstruktionsfilter tar bort oönskat brus från samplingen. Det första som görs i DA-omvandlingen är att läsa de paket av binärkod som skickas i bitströmmen. Varje paket innehåller ett sampel där binärkoden omvandlas till ett flyttal: Nästa steg är att rekonstruera en kontinuerlig analog signal som kan skickas till en förstärkare. Man behöver ett rekonstruktionsfilter. För att göra det bör man i DA-omvandlingen (på samma sätt som i AD-omvandling) definiera en bandbredd så att man kan filtrera bort speglingsprodukter pga vikning. Det perfekta filtret är sådant att under delningsfrekvensen är responsen 1.0, och över delningsfrekvensen är responsen 0.0. Rent tekniskt innebär det att responsen är en rektangelfunktion i frekvensdomänen: En sådan rektangelfunktion i frekvensdomänen (dvs ett idealt lågpassfilter) innebär att impulssvaret är en sinc-funktion i tidsdomänen: Matematiskt betyder det att FFT av en sinc-funktion (sinx/x) är en rektangelfunktion (). Den perfekta sincen eliminerar alla frekvenser över den valda bandbredden, utan att påverka lägre frekvenser varken i amplitud eller fas. Output från dekvantiseringen är ett värde i volt för varje sampel. Om man lägger en sinc över varje sampel och adderar bidragen från de då överlagrade sincarna så erhålls en mycket bra approximation för ett godtyckligt antal punkter som ligger mellan varje sampel. På så vis får man en mycket bra approximation för punkterna mellan varje sampel: Vi har i vårt exempel valt en pcm-ström med både låg samplingsfrekvens och lågt bitdjup för att kunna illustrera vad som ger vad. Trots detta ser vi att rekonstruktionsfilter med sincen ger en väldigt bra approximation och återskapande av den analoga signalen. Med hög samplingsfrekvens och högt bitdjup blir återskapandet mycket exakt. Det är inte helt intuitivt hur sincen samtidigt fungerar som ett lågpassfilter. Men om man tittar på ett mer extremt exempel med kraftigare diskontinuiteter så ser man det tydligt. Exvis en sågtandsignal som filtreras med sincen: Diskret DAC, NOSDAC Det förekommer även diskreta dacar, där ic-kretsen ersätts med passiva och aktiva komponenter, typiskt en R/2R-stege och mosfetar eller bipolära transistorer, där varje R/2R+mosfet motsvarar en bit. Kretsen utgör en summerande förstärkare som normalt beräknar spänningen direkt från bitströmmen utan översampling, varvid den kallas NOSDAC (non-oversampling dac). Filtrering i en sådan dac utförs normalt i den analoga domänen. Här är ett exempel som motsvarar en 4-bitars dac, där D1-D4 tar emot inkommande bitar som var för sig kan anta värdet 0 eller 1. En 1:a ger då en spänning på den ingången, medan en 0:a lämnar den ingången jordad: Principen att omvandla binär kod till spänning har funnits sedan början på 60-talet och TTL (Transistor-Transistor-Logic) är exempel på en digital integrerad krets med 5V spänningskälla som omvandlar 0-0.8V till en logisk 0:a och 2-5V till en logisk 1:a. Exempel på elektroniktillverkare som använder diskreta dacar i en del modeller är Esoteric, MSB, Sonic Illusions och Audionote. Här ser vi DAC-kretsen till en sådan 32-bitars diskret dac. R-2R-stegen är uppdelad i 4st halvcirklar per kanal för att få samma avstånd för signalöverföring i varje delkrets: Esoteric Mastersound Discrete DAC. Bild: esoteric.jp Klocka All AD- och DA-omvandling styrs av en klocka som antingen sitter i ADC/DAC eller externt. Den används för att synkronisera olika delar av kretsen, och bestämmer takten för all digital transport av data. En klocksignal skapas av en oscillator (klockgenerator) som består av en piezoelektrisk kristall som vibrerar och på så vis skapar en elektrisk signal med mycket exakt frekvens. Om datatransport inte sker med perfekt periodicitet skapas jitter. Klocksignalen i en DAC brukar benämnas WORD CLOCK eftersom den klockar sampel, och det finns ett sampel i varje WORD. Kommunikationen mellan digitala kretsar kan ske synkront eller asynkront. I synkron kommunikation skickas WORD i klockans takt mellan kommunicerande kretsar och kretsarna taktar med varandra som ett roddarlag. I asynkron kommunikation interagerar också delkretsarna, men de kan arbeta var och en i sin egen takt oberoende av varandra. Roddarlag. Bild: solfoto.se Kablar och kontakter De mest förekommande gränssnitten för överföring av digitalt ljud är s/pdif, aes3, usb, hdmi. För s/pdif använder man då en 75 ohms koaxialkabel som termineras med rca-kontakter alternativt en optisk fiberkabel med toslink-kontakter. För aes3 använder man antingen en balanserad 110 ohms tp-kabel med xlr-kontakter, eller en obalanserad 75 ohms kabel med bnc-kontakter. Usb-kablar baseras på ett twisted pair för signal och 5V + jord för spänningsmatning. Hdmi-kablar (utan ethernet) har fyra skärmade 110 ohms tp-kablar och sju separata ledare för kommunikation. Som kuriosa kan nämnas att många kontakttyper är förenade med licenskonstnader för tillverkarna. En hdmi-kontakt kostar tillverkaren 1.50 kr per apparat i licensavgift utöver en årlig administrationskostnad på 5-10 k$. Om tillverkaren implementerar kopieringsskyddet HDCP (bra namn!) och sätter HDMI-loggan på apparaten kostar kontakten bara 40 öre i licens. Vi ska inte gå igenom kablar mer i detalj för det skenar iväg och blir dessutom snabbt inaktuellt. Enbart olika typer av usb-kontakter förekommer i en uppsjö varianter från typ A, B, C, mini och micro-varianter med olika specar; Det finns redan idag ett dussin olika typer av USB-kontakter Kablarna i sig är sällan det som avgör typ eller standard för signalöverföring utan det är snarare gränssnitten och bakomliggande protokoll. Men kablarna är ett pedagogiskt sätt att definiera vilken typ av digital audio som stöds av en dac med sådana kontakter. Eller rättare sagt kan stödjas, om da-omvandlaren har konstruerats med stöd för det. I nästa avsnitt ska vi titta på vilka digitala format som kan användas för olika gränssnitt.
-
Deras första album ger vibbar;
-
CD-spelare och andra digitala musikspelare Många spelare har en diskläsare eller så kallad transport och digital till analog omvandlare (DAC) samt klocka integrerat i samma låda. Men det förekommer mängder av varianter med separat transport och dac, separat klocka och framför allt är det snart vanligare med strömmad musik där transporten ersätts med en dator och mjukvara eller strömmare. En del spelar enbart cd eller sacd, medan andra spelar allt från brända filer till hdcd, bluray, dvd audio och andra highres-format samt surround. Utöver detta finns det en rad olika standarder för att transportera den digitala audioströmmen mellan enheter. De olika huvudfunktionerna beskrivs därför var för sig i följande avsnitt. Dual mono sacd transport med separat nätdel från Esoteric. Bild: esoteric.jp Transport En transport består normalt av en släde för skivor, en motor, en laser för avläsning, ett servo som styr motorhastigheten, ett kretskort med digitalutgång och en nätdel för spänningsmatning till dessa komponenter. Motorn roterar skivan med ca 500 rpm och en laser riktad mot en fotocell skannar skivan inifrån och ut. Motorn saktar ner kontinuerligt under skanningen, så att fotocellens avläsningshastighet är konstant. En cd-skiva har binärkoden lagrad fysiskt som en enda lång spiral med präglade gropar och plana delar: Lasern strålar mot skivans undersida och ljuset reflekteras mot aluminiumskiktet i skivan. För plana delar reflekteras ljuset rakt tillbaka, medan groparna diffuserar ljuset. Varje tidsenhet kommer det således antingen en ljusreflektion eller ingen ljusreflektion. När ljuset reflekteras tillbaka detekteras det av fotocellen som skickar en elektrisk puls till en elkrets som då genererar en etta. När det inte reflekteras ett ljus till fotocellen, genererar elkretsen en nolla. Optiska pickuper (OPU) eller i dagligt tal "laser" till cd-, sacd-, dvd- och bluray-spelare använder ett astigmatiskt detektionssystem. (klicka för större bild) Bilden visar en 3-stråles optisk pickup, där laserdioden lyser med tre strålar mot ett diffraktionsgaller som delar upp varje stråle i ett knippe ljus som träffar ett polarisationsfilter och därefter en spegel. Det utgående ljuset speglas mot en kollimeringslins för att parallellrikta ljuset och därefter en kvartvågsplatta som konverterar ljusets vågutbredning. Innan ljuset träffar cd-skivan passerar det en objektivlins som fokuserar strålarna mot plana och gropiga delar i spåret. Det reflekterade ljuset passerar tillbaka genom objektivlinsen, mot spegeln och polarisationsfiltret, för att slutligen träffa en yta på fotosensorn. Konstruktionen ser onödigt krånglig ut, men är helt avgörande för att sensorn ska kunna fokusera med så högfrekvent ljus och kontinuerligt ha kännedom om spåravvikelse och fokuseringsfel. Fotosensorn omvandlar ljusintensitet till en elektrisk spänning för olika ytor på sensorn, här indelade i A, B, C, D. Objektivlinsens placering styrs av fotosensorn som ger en spänning till en moving coil för att flytta linsen till bästa möjliga fokus. Att man läser av rätt spår styrs på liknande sätt av ljusfläckar från strålarna E och F. Hur mycket data man kan trycka in på en skiva beror på hur tätt man kan prägla aluminiumskiktet med gropar och vilken typ av ljus man kan använda i lasern. På en cd-skiva är en grop 0,8µm och det röda ljusets våglängd från dioden är 780nm. Ljuset i en dvd-laser har 650nm våglängd och groparna är 0,4µm. Det gör att en dvd kan lagra 4,7 GB (8,5 GB för dual layer) medan en cd endast kan lagra 680 MB. Blu-ray använder blå-violett laser med 405nm våglängd och kan lagra 50 GB. Det finns som bekant en hel rad olika varianter, men här är ett par exempel illustrerade för att ge en känsla för principerna: Jämförelse av geometrier för laser och prägling mellan cd och blu-ray. För Hybrid SACD spelas skivan med två lasrar, 780nm för cd och 680nm för sacd, och objektivet har olika bländaröppning, så att för det halvtransparenta sacd-lagret fokuserar linsen på 0,6mm från ytan och för cd på standard 1,1mm: Hybrid sacd. Utvecklingen fortskrider och det är inte långt bort med multilager holografiska skivor som kan lagra uppåt 1,6 TB. HVD (Holographic Versatile Disc). Bild: discosopticoslosazulejos Streamers, digitala mediaspelare, nätverkstransporter mm Musik blir mer och mer tillgängligt som filer, antingen direkt från musiktjänster som Spotify, Tidal, Qobus m.fl, eller för musikfiler som säljs för nedladdning från nätbutiker. Musiken spelas då med en mjukvaruspelare och strömmas med ethernet eller wifi, lokalt eller med Internet. Enbart denna typ av strömmare, kringutrustning, format och tekniker är så omfattande att det egentligen kräver en separat artikel, men i nästa avsnitt går vi igenom computer audio, som innefattar streamers, media players, network players mm. Jag nöjer mig därför med denna korta notis om strömmare, och konstaterar bara att dessa digitala mediaspelare är transporter för digital audio där gränssnittet till transporten är UPnP med ethernet, wifi eller anslutna hårddiskar, och output mot en dac är de sedvanliga s/pdif, aes3 eller usb. Esoteric Network Audio Transport N-03T. Bild: esoteric.jp
-
Digitala och analoga signaler Det som karakteriserar en analog signal är att den är kontinuerlig och avbildar något med en analogi. Variationen i det som avbildas har i varje ögonblick en avbild i proportion till det som avbildas. Analogin mellan avbildningen och det som avbildas åstadkoms med någon sorts transducer, dvs en apparat som omvandlar ett energislag till ett annat. En transducer kan omvandla mekanisk, magnetisk, elektrisk, termisk, kemisk eller akustisk energi. Analogin blir då att tex en kraft eller rörelse motsvarar en viss mängd magnetism, spänning, temperatur, ljusmängd, ljudtryck eller godtyckliga varianter av dessa. Dessa fysiska analogier fungerar när (eller eftersom) systemen har samma matematiska modeller. En digital signal är diskret, dvs den avbildar genom att kvantisera med en sekvens punkter där varje punkt ges ett värde i proportion till det som avbildas. För att skapa en digital signal utförs en process av sampling och kvantisering. Sampling och kvantisering är motsvarigheten till en transducer för analog signalbehandling. Sampling innebär att skapa en kontinuerlig sekvens värden vid diskreta tidpunkter. Man använder då en sample & hold-krets, vilket innebär en krets som läser av värden (samplar) från en analog signal och fryser respektive värde i en bestämd tidsperiod. Kvantisering innebär att byta ut varje värde med en approximation som väljs från en given serie diskreta tal, dvs en sorts avrundning. Digitalt ljud Som beskrivits i denna artikel kan ljud sägas utgöra vågformer som har en viss nivå och en viss tonhöjd. Det allra mesta ljud vi hör, inkl musik, är en salig blandning av olika toner (frekvenser) med olika nivåer (ljudstyrka). Sedan i slutet av 1800-talet har man kunnat spela in dessa ljudvågor, och därefter spela upp dem igen. Den in- och uppspelningsutrustning man använt i form av mikrofoner, grammofoner eller magnetband lagrar vad man kallar en analog signal. Det innebär att graveringen i en LP respektive magnetiseringen på ett magnetband följer ljudvågens form kontinuerligt i "realtid": Digitalt ljud lagras på ett i grunden annorlunda sätt. Den analoga signalen diskretiseras eller samplas, dvs den delas upp med jämna tidsintervall, där varje intervall får ett värde från vågformen: Detta kallas för pulskodmodulering och förkortas pcm. Tidsintervallets storlek (avståndet mellan pulserna) kallas för samplingsfrekvens, och precisionen i det valda värdet definieras av bitdjup. Ju högre samplingsfrekvens, desto tätare är det mellan de värden som samplas. Det innebär att avbildningen blir mindre känslig för hastiga ändringar i signalen: Och ju högre bitdjup, desto närmre det exakta värdet på den analoga grundformen. Även om man har hög samplingsfrekvens så kan värdet bara väljas i diskreta steg: Kvantiseringen (avrundningen) kan göras med linjära nivåer, dvs avrundningen och därmed felet blir lika stort oavsett om signalen är svag eller stark. Det finns andra algoritmer där kvantiseringen tex är en funktion av signalens amplitud, men linjär pcm (LPCM) är det som normalt avses och standarden för tex cd (Red Book) baseras på LPCM. Den digitaliserade signalen lagras som en bitström, dvs en binär sekvens av bitar där varje bit kan vara en etta eller en nolla. (Anm: Många spelare med digital utgång anger om signalen är pcm eller bitstream. PCM är också en bitstream, men här avser man om utsignalen ska skickas ograverad så som den lagrats på mediat eller om den först ska avkodas till pcm. Mer om detta senare.) Historik Grundtekniken med pcm har egentligen använts sedan mitten av 1800-talet inom telegrafi mm, och senare inom telefoni, radio och fax redan före 2:a världskriget. Den första pcm-inspelningen gjordes i Japan av NHK 1967. Fem år senare släppte Denon en 8-kanals pcm-inspelningsmaskin med 13-bitars 47kHz upplösning. ............ Den första prototypen till CD visades för några entusiaster 1979 i Europa och Japan. Året därefter bildade Sony och Philips ett team för att ta fram CD för konsumentmarknaden. De bestämde sig för en tunn, skinande lagringsdisk som kunde innefatta ca 80 min musik och som kunde sättas i en cd-spelare. Digital Audio Disc Committee godkänner den standard som Sony-Philips föreslår och formatet definieras i Red Book. Både Sony och Philips lanserar cd-spelare för det nya systemet 1982, Philips med CD100 och Sony med CDP-101. CD-skivor blev tillgängliga för allmänheten samma år och de blev snabbt det mest effektiva sättet att lagra musik. .... Philips CD100 och Sony CDP-101, de första kommersiella cd-spelarna. Bild: Catawiki och Alamy Den första kommersiella musik-CDn var albumet "The Visitors" av ABBA. Den CD som sålt mest genom tiderna är Eagles Greatest Hits, som sålt i över 38 miljoner ex. Den första helt digitala inspelningen gjordes med en 3M-bandspelare för Ry Cooders album "Bop Till You Drop". Donald Fagens "The Nightfly" är en mycket tidig digital inspelning som visar att man behärskade tekniken redan från kommersiell start. CD-skivans marknadsandelar steg markant år från år, men tekniken fortsatte utvecklas. Sony hade ett gigantiskt arkiv av masterband, och man ville hitta ett digitalt arkivformat som inte skulle bli förlegat inom snar framtid. Det vore en kommersiell katastrof om det format man använde inte höll måttet i framtiden. Det Sony kom på var att i den process man hade för AD-omvandling så fanns det ett steg i digitaliseringen innan man förband sig till ett specifikt digitalt format. Så, det var detta man spelade in. En ΣΔ-modulerad 1-bits digitalström skapades rakt av helt utan editering och med så hög samplingsfrekvens att man garanterat skulle få med alla nyanser från masterbanden. Filstorleken (det var många band) motsvarade ungefär pcm 24/96, och pcm 24/96 betraktades som ett mer riskabelt format ur marknadssynpunkt. De där 24 bitarna är bara ineffektiva. Varför ska man spara det exakta värdet för varje sampel när det räcker att man vet om värdet är större eller mindre än föregående värde? Bättre då att sampla tätare. Det beslutet innebar att man inte kunde editera. Man kunde inte plocka ut ett stycke musik från dsd-strömmen och bearbeta den, eftersom det inte finns nån referens. Men det var inte heller syftet. Dsd skulle absolut inte editeras, tvärtom. Tanken var att när något arkivmaterial skulle användas, så kunde man konvertera det till vilken analog eller digital signal man än önskade. Därefter kom Philips in i bilden, och efter deras samarbete med lanseringen av cd började man snegla på dsd och därifrån kom lanseringen av sacd, för ca 20 år sedan. Sony och Philips gav specifikationen för formatet namnet "Scarlet Book". I början på 90-talet lanserades också en codec för audio som drastiskt minskade filstorlekar men bibehöll acceptabel ljudkvalitet, MPEG-1 Audio Layer III, eller mp3 i kortform. Det var främst Karlheinz Brandenburg vid Fraunhofer IIS som utvecklade algoritmer för ljudkompression utifrån perception. Det sägs vara mest hans egen perception av Susanne Vegas "Tom's Diner" som låg till grund för utvecklingen. Formatet standardiserades 1993 i ISO/IEC 11172-3. Parallellt med illegal rippning och fildelning via tjänster som Napster, mp3.com m.fl utvecklades bärbara och billiga mp3-spelare. Formatet fick snabbt världsomspännande spridning, och ungdomar hade enorma musikbibliotek på sina hemdatorer. Jag tror att den ursprungliga tanken med Napster var god, man ville utveckla en tjänst för spridning av obskyr musik som ingen av de lokala skivhandlarna tog hem på varken LP eller cd. Konsekvensen blev att man sänkte hela musikindustrin. Men borde inte musikindustrin själv varit mer kreativ och proaktiv under alla dessa år? Grundaren till Napster, Shawn Fanning, hade en Metallica T-shirt på sig på en MTV-gala, och när värden kommenterade “nice shirt” svarade han "A friend of mine shared it with me, but I’m thinking of getting my own”. Lars Ulrich satt i publiken, men låtsades sova. Lawrence Lessig representerade Napster i stämningen från RIAA: Winamp släpptes som freeware 1997, och Nullsoft tjänade 10 MSEK/år när de ändrade licensen till shareware utan att ändra innehållet. Entusiastiska användare skickade $10 checkar i mängder till den lilla firman. I takt med att hårddisk blev billigt, processorer och minnen blev snabbare, och utbyggnaden av bredband tog fart så minskade kraven på små filstorlekar. Nya codecs som aac, ac3, wma och flac utvecklades. De flesta innefattar komprimering i kodningen, men en del av dem utan förluster i ljudkvalitet vid avkodning. Det var främst inom gaming som utvecklingen skedde kring strömning av media. SimpleDevices, TurtleBeach och senare Sony Playstation och Microsoft XBOX implementerade lösningar för strömning av både audio, video och annan data. Uppkoppling mot databaser och så småningom online gaming var de stora pådrivarna. Från början av millenieskiftet gick utvecklingen snabbt inom alla områden kopplat till digital audio. Computer audio blev hushållsvara, digitala inspelningar blev standard, digital hårdvara boomar inom alla prissegment från en hundring till mångmiljonklassen. Musikdistributionstjänster som Spotify, Tidal och Qobus etableras. Communities som Roon och iTunes har miljoner medlemmar, där både hård- och mjukvara tillhandahålls av it- eller elektronikföretag. Helt nätbaserade bolag nischar sig med försäljning av spår eller album, Bandcamp för små artister, eClassical för klassisk musik eller HDTracks för högupplöst pcm och dsd. Konserthus och spelställen strömmar konserter live till medlemmar eller pay-per-view. Brus, dynamik och överstyrning Inom analog signallagring är det det fysiska mediat som bestämmer max- och min-nivåer på signalen, inklusive brus. Hur mycket man kan magnetisera ett band och hur djupt man kan gravera en LP bestämmer dynamik- och frekvensomfång för en given speltid. Kraftfaktorn i transducern (tonhuvud/pickup) avgör vilken nivå utsignalen får i volt. Inom digital signallagring har man i stället en skala 0 till 100%, och hela inspelningen måste hålla sig inom dessa 100%. Som vanligt uttrycks detta i dB, och 100% signal definieras som 0dBFS, noll decibel full scale. Förstärkningen i analogdelen i da-omvandlaren avgör vilken utnivå detta kommer motsvara. Om tex en cd-spelare förstärker utsignalen till 2 V så motsvarar 0dBFS 2V. Inom analog signalbehandling har man alltid brus från inspelningsrummet, mickar, elektronik, filter mm, och vid varje kopiering ökar detta brus. Inom digital signalbehandling har man också brus från inspelningsrum, mickar och elektronik, men när väl signalen är digitaliserad kan den hanteras utan att detta brus ökar. Dock har man så kallat kvantiseringsbrus. Processen som beskrivs ovan ger ett lägsta brusgolv som definierar hur mycket dynamik det teoretiskt går att skapa för 0dBFS. Kvantiseringsbruset beror av bitdjupet, och det finns alltid ett fel så länge bitdjupet inte är oändligt. Storleken på detta fel definierar den undre gränsen på signalnivå. Man kan säga att för väldigt låga ljudnivåer kan en signal med lågt bitdjup inte bestämmas till ett precist värde. Varje extra bit sänker brusgolvet med 6dB. För 8-bitars ljud ligger brusgolvet på -48dB, och för 32-bitars ljud ligger det på osannolika -192dB. Hela inspelningen måste hålla sig under 0dBFS. Varje transient eller tillfällig instrumentmix som överstiger den nivån gör att kvantiseringen klipper: Nyquists samplingsteorem Samplingsteorem får en egen rubrik eftersom det är helt grundläggande för vilken standard man kan erhålla för digitalt ljud. Vi ska dock inte fördjupa oss i det utan bara konstatera att när man samplar en analog signal, så måste man göra detta så tätt som motsvarar signalens frekvensomfång gånger två. Med andra ord, man kan inte återskapa en signal till mer än hälften av samplingsfrekvensen. Om man ska mäta och dokumentera en signal (vilken som helst) som har en bandbredd på säg 100Hz, så måste man ha mätpunkter var 0.005:e sekund för att exakt kunna återskapa alla förekommande signaler som innehåller 0 till 100 Hz. Bandbredden inom audio är som bekant 20kHz, varför man behöver sampla med som mest 25µs tidsintervall (motsvarar 40kHz) för att undvika fel i samplingen. Detta krav var allmän kunskap sedan länge inom kommunikation före förra sekelskiftet, men det var Harry Nyquist och Claude Shannon som först beskrev teoremet i samband med deras arbete med telefoni på 1910- och 20-talet. Harry Nyquist och Claude Shannon. Bild: Indiana University AD-omvandling Ovanstående figurer är schematiska för att ge en övergripande beskrivning. För att praktiskt kunna skapa den digitala signalen behöver man beskriva några ytterligare trix i AD-omvandling. Vid mastring av en analog inspelning till pcm inleder man med en lågpassfiltrering av den analoga signalen. Det finns flera skäl till detta. Dels vill man ta bort högfrekvent brus och störningar för att inte kontaminera signalen med vikningsbrus*). Detta filter rensar såklart också bort överstyrning utanför bandbredden, men kan även användas att begränsa ström och nivåanpassa spänningen till efterföljande AD-omvandlingskrets. Ju högre samplingsfrekvens man avser använda i kommande steg, desto flackare filter kan man använda utan att riskera påverka magnitud och fas inom audiobandet. *) Vikning innebär att flera alias (eng: aliasing) skapas vid sampling. Om en hög frekvens samplas så bildas en låg frekvens vid återskapandet av den samplade signalen. En rekonstruktionskrets kan inte veta att den låga frekvensen inte finns. Därför måste den höga frekvensen filtreras bort för att inte den låga ska komma med i signalen. Sample & Hold är en krets för att sätta det värde man får i varje sampel att gälla konstant under hela tiden fram till nästa sampel. På så vis har man en sammanhängande signal som inte är noll mellan varje sampel. För att kunna ta ett sampel används en analog switch (tex en JFET eller MOSFET) och för att hålla detta värde konstant till nästa sampel behövs en kondensator. Signalen är fortfarande analog (om än diskret), och det är först när kvantiseringen är gjord som signalen kan lagras digitalt. Kvantiseringen innefattar att tilldela sampelvärdena något av de närmevärden som är möjliga utifrån aktuellt bitdjup. Ju högre bitdjup desto bättre approximation. För 8-bitars ljud finns det 28=256 tal att välja mellan, för 24-bitars ljud finns det 224=16 miljoner tal. Därefter kan dessa värden skrivas om i binär form. Exempel: antag att vi har ett analogt sampel som är 1.32V och att detta ska kvantiseras till 4-bitars ljud. Antag vidare att max amplitud från inspelningen sätts till ±2.00 V. Då måste vi välja ett värde i 0.27V-steg: Det finns en rad olika metoder för att så precist och snabbt som möjligt bestämma approximationen för aktuellt antal bitar. En vanlig metod är så kallad successiv approximation, här exemplifierad för en 4-bitars kvantisering: Felen i approximationerna i kvantiseringen visar sig som kvantiseringsbrus. För 8-bitars ljud är felet ±2‰, för 24-bitars ljud är felet ±0.00003‰. Dynamikomfång så som det anges för digitala format är alltså bara en matematisk konsekvens, det har väldigt lite med verkliga förhållanden att göra. All inspelning är analog i något led, eftersom man måste ha en transducer i mikrofonen för att omvandla ljudtrycket till en elektrisk signal innan digitalisering. Nästkommande led kan dock utföras med analog eller digital inspelning, mixning och/eller mastring. Den 3-siffriga SPARS-koden på cd-skivor anger detta. Så koden AAD innebär analog inspelning och mixning, medan mastring är digital (självklart ett krav för cd). DDD anger att både inspelning, mixning och mastring utförts digitalt. För mixning och mastring i digital miljö används en digital arbetsstation för audio (DAW). Alltifrån freeware i pc och mac används såsom Audacity och MusE, till appar för smartphones. I pro-miljö används dedikerad hård- och mjukvara för all dsp till färdig digital master. Komplett rack med a/d-omvandling och dsp. Bild: merging.com
-
Digital audio Malmö och Falun nov 2019 - mar 2023, @calle_jr och @AlfaGTV Digital audio är ett omfattande ämne. Syftet med denna tråd är inte att gå igenom hela ämnet, utan snarare dyka ner i vissa avsnitt som har mer intresse för vad de flesta på Euphonia kommer i kontakt med, dvs att lyssna på inspelad musik i hemmiljö. Det behövs ingen utförlig artikel för att lägga en cd i släden och trycka på play, men många av oss är noga med högkvalitativ återgivning och i strävan efter bra ljud hamnar man stundtals i kvasivetenskapliga resonemang som kan låta mer som voodoo än bondförnuft för en glad amatör. Därför kan det väl vara bra att gå igenom några grundläggande tekniker och begrepp inom digital audioteknik. Jag börjar med en översiktsbild över inspelnings- och uppspelningskedjan. Utan inspelning - ingen uppspelning Hyfsat begripligt, men hur fungerar de olika stegen i dessa kedjor mer i detalj, och vad är det för faktorer som påverkar dem Digitala och analoga signaler - Digitalt ljud - Historik - Brus, dynamik och överstyrning - Nyquists samplingsteorem - AD-omvandling - CD-spelare och andra digitala musikspelare - Transport - Streamers, digitala mediaspelare, nätverkstransporter - Computer audio - Computer Audio och MP3-revolutionen - Streaming for dummies - DA-omvandlare - Allmänt - Diskret DAC, NOSDAC - Klocka - Kablar och kontakter - Format, protokoll och interface - Allmänt - PCM-teknik - DSD-teknik - Digital mixning - Inspelningsformat - Lagring, komprimering, lossy och lossless - Begränsningar, fel och brister - Allmänt - Linjäritetsfel - Degradering pga filter - Digital filhantering - Det ska poängteras att texten innehåller åsikter. Dessa åsikter är inte grundade i hur det kan låta eftersom det är väldigt individuellt och mer komplext än att det kan låta sig isoleras. Åsikter i texten baseras på subjektiva tekniska aspekter, tex hur något är utformat ur ett vetenskapligt, konstnärligt eller ingenjörsmässigt perspektiv.
-
Väldigt spännande tid, men jag tycker också det är viktigt att kunna skilja på fakta och antaganden. Om man googlar om tex Shakespear så får man ganska snabbt upp ”att vara eller inte vara”. Om man frågar chatGTP blir motsvarande svar ”det kan vara svårt att veta hur man ska vara, men var inte orolig för det drabbar alla männsikor”.
-
Ok! Då är alltså belastningen proportionell mot audiosignalens modulering. På något sätt Om VG vore en konstant ton så antar jag att output inte påverkas av XB.
-
Nej precis, det tycks verkligen inte vara en maskulin egenskap.
-
Ok. Är frekvensen på belastningen alltså proportionell mot audiosignalens modulering? Vad är det annars som skapar en frekvens överhuvudtaget?
-
Det spenderas alltid mycket av egentiden i fåtöljen, men jag inbillar mig att knoppen mår bra av lite utmaning för att inte torka in. Detta projekt var en grym utmaning för mig. Peo har dragit upp mig från träsket ett otal gånger under denna tid. Det finns nästan inget skrivet om ämnet och jag känner inte till någon enda redogörelse på området. Försteg, slutsteg, riaa och högtalare finns det ju spaltmeter skrivet om och tusentals exempel om teori och praktik. Tape head preamps är nästan ett vitt fält. I teorin kan man betrakta det som ett riaa med lite andra tidskonstanter, men i praktiken är det nog mer som ett riaa i kvadrat