Jump to content

Recommended Posts

 

Digital audio

 

Digital audio är ett omfattande ämne. Syftet med denna tråd är inte att gå igenom hela ämnet, utan snarare dyka ner i vissa avsnitt som har mer intresse för vad de flesta på Euphonia kommer i kontakt med, dvs att lyssna på inspelad musik i hemmiljö. Det behövs ingen utförlig artikel för att lägga en cd i släden och trycka på play, men många av oss är noga med högkvalitativ återgivning och i strävan efter bra ljud hamnar man stundtals i kvasivetenskapliga resonemang som kan låta mer som voodoo än bondförnuft för en glad amatör. Därför kan det väl vara bra att gå igenom några grundläggande tekniker och begrepp inom digital audioteknik.

 

Jag börjar med en översiktsbild över inspelnings- och uppspelningskedjan.

Utan inspelning - ingen uppspelning :1952293183_slightlysmilingface:

 

image.png

 

Hyfsat begripligt, men hur fungerar de olika stegen i dessa kedjor mer i detalj, och vad är det för faktorer som påverkar dem :question:

 

Link to post
Share on other sites

Digitala och analoga signaler


Det som karakteriserar en analog signal är att den är kontinuerlig och avbildar något med en analogi. Variationen i det som avbildas har i varje ögonblick en avbild i proportion till det som avbildas. Analogin mellan avbildningen och det som avbildas åstadkoms med någon sorts transducer, dvs en apparat som omvandlar ett energislag till ett annat. En transducer kan omvandla mekanisk, magnetisk, elektrisk, termisk, kemisk eller akustisk energi. Analogin blir då att tex en kraft eller rörelse motsvarar en viss mängd magnetism, spänning, temperatur, ljusmängd, ljudtryck eller godtyckliga varianter av dessa. Dessa fysiska analogier fungerar när (eller eftersom) systemen har samma matematiska modeller.


En digital signal är diskret, dvs den avbildar genom att kvantisera med en sekvens punkter där varje punkt ges ett värde i proportion till det som avbildas.
För att skapa en digital signal utförs en process av sampling och kvantisering. Sampling och kvantisering är motsvarigheten till en transducer för analog signalbehandling. Sampling innebär att skapa en kontinuerlig sekvens värden vid diskreta tidpunkter. Man använder då en sample & hold-krets, vilket innebär en krets som läser av värden (samplar) från en analog signal och fryser respektive värde i en bestämd tidsperiod. Kvantisering innebär att byta ut varje värde med en approximation som väljs från en given serie diskreta tal, dvs en sorts avrundning.

 


Digitalt ljud
 

Som beskrivits i denna artikel kan ljud sägas utgöra vågformer som har en viss nivå och en viss tonhöjd. Det allra mesta ljud vi hör, inkl musik, är en salig blandning av olika toner (frekvenser) med olika nivåer (ljudstyrka).
Sedan i slutet av 1800-talet har man kunnat spela in dessa ljudvågor, och därefter spela upp dem igen.
Den in- och uppspelningsutrustning man använt i form av mikrofoner, grammofoner eller magnetband lagrar vad man kallar en analog signal. Det innebär att graveringen i en LP respektive magnetiseringen på ett magnetband följer ljudvågens form kontinuerligt i "realtid":

 

image.png

 

Digitalt ljud lagras på ett i grunden annorlunda sätt. Den analoga signalen diskretiseras eller samplas, dvs den delas upp med jämna tidsintervall, där varje intervall får ett värde från vågformen:

 

image.png

 

Detta kallas för pulskodmodulering och förkortas pcm. Tidsintervallets storlek (avståndet mellan pulserna) kallas för samplingsfrekvens, och precisionen i det valda värdet definieras av bitdjup.

Ju högre samplingsfrekvens, desto tätare är det mellan de värden som samplas. Det innebär att avbildningen blir mindre känslig för hastiga ändringar i signalen:

 

image.png

 

Och ju högre bitdjup, desto närmre det exakta värdet på den analoga grundformen. Även om man har hög samplingsfrekvens så kan värdet bara väljas i diskreta steg:

 

image.png


Kvantiseringen (avrundningen) kan göras med linjära nivåer, dvs avrundningen och därmed felet blir lika stort oavsett om signalen är svag eller stark. Det finns andra algoritmer där kvantiseringen tex är en funktion av signalens amplitud, men linjär pcm (LPCM) är det som normalt avses och standarden för tex cd (Red Book) baseras på LPCM. 

Den digitaliserade signalen lagras som en bitström, dvs en binär sekvens av bitar där varje bit kan vara en etta eller en nolla. (Anm: Många spelare med digital utgång anger om signalen är pcm eller bitstream. PCM är också en bitstream, men här avser man om utsignalen ska skickas ograverad så som den lagrats på mediat eller om den först ska avkodas till pcm. Mer om detta senare.)

 

 

 

Historik


Grundtekniken med pcm har egentligen använts sedan mitten av 1800-talet inom telegrafi mm, och senare inom telefoni, radio och fax redan före 2:a världskriget.
Den första pcm-inspelningen gjordes i Japan av NHK 1967. Fem år senare släppte Denon en 8-kanals pcm-inspelningsmaskin med 13-bitars 47kHz upplösning.

 

R-10551375-1499736448-5925.jpeg.jpg....image.png....R-10263609-1494325819-9271.jpeg.jpg....R-10502289-1499038581-5444.jpeg.jpg

 

Den första prototypen till CD visades för några entusiaster 1979 i Europa och Japan. Året därefter bildade Sony och Philips ett team för att ta fram CD för konsumentmarknaden. De bestämde sig för en tunn, skinande lagringsdisk som kunde innefatta ca 80 min musik och som kunde sättas i en cd-spelare. Digital Audio Disc Committee godkänner den standard som Sony-Philips föreslår och formatet definieras i Red Book.

 

File:CD-AUDIO logo.png - Wikimedia Commons

 

Både Sony och Philips lanserar cd-spelare för det nya systemet 1982, Philips med CD100 och Sony med CDP-101. CD-skivor blev tillgängliga för allmänheten samma år och de blev snabbt det mest effektiva sättet att lagra musik.
 

image.png....image.png

Philips CD100 och Sony CDP-101, de första kommersiella cd-spelarna. Bild: Catawiki och Alamy

 

Den första kommersiella musik-CDn var albumet "The Visitors" av ABBA. Den CD som sålt mest genom tiderna är Eagles Greatest Hits, som sålt i över 38 miljoner ex. Den första helt digitala inspelningen gjordes med en 3M-bandspelare för Ry Cooders album "Bop Till You Drop". Donald Fagens "The Nightfly" är en mycket tidig digital inspelning som visar att man behärskade tekniken redan från kommersiell start.

 

CD-skivans marknadsandelar steg markant år från år, men tekniken fortsatte utvecklas.

Sony hade ett gigantiskt arkiv av masterband, och man ville hitta ett digitalt arkivformat som inte skulle bli förlegat inom snar framtid. Det vore en kommersiell katastrof om det format man använde inte höll måttet i framtiden. Det Sony kom på var att i den process man hade för AD-omvandling så fanns det ett steg i digitaliseringen innan man förband sig till ett specifikt digitalt format. Så, det var detta man spelade in. En ΣΔ-modulerad 1-bits digitalström skapades rakt av helt utan editering och med så hög samplingsfrekvens att man garanterat skulle få med alla nyanser från masterbanden. Filstorleken (det var många band) motsvarade ungefär pcm 24/96, och pcm 24/96 betraktades som ett mer riskabelt format ur marknadssynpunkt. De där 24 bitarna är bara ineffektiva. Varför ska man spara det exakta värdet för varje sampel när det räcker att man vet om värdet är större eller mindre än föregående värde? Bättre då att sampla tätare. Det beslutet innebar att man inte kunde editera. Man kunde inte plocka ut ett stycke musik från dsd-strömmen och bearbeta den, eftersom det inte finns nån referens. Men det var inte heller syftet. Dsd skulle absolut inte editeras, tvärtom. Tanken var att när något arkivmaterial skulle användas, så kunde man konvertera det till vilken analog eller digital signal man än önskade. Därefter kom Philips in i bilden, och efter deras samarbete med lanseringen av cd började man snegla på dsd och därifrån kom lanseringen av sacd, för ca 20 år sedan. Sony och Philips gav specifikationen för formatet namnet "Scarlet Book".

 

image.png

 

 

I början på 90-talet lanserades också en codec för audio som drastiskt minskade filstorlekar men bibehöll acceptabel ljudkvalitet, MPEG-1 Audio Layer III, eller mp3 i kortform. Det var främst Karlheinz Brandenburg vid Fraunhofer IIS som utvecklade algoritmer för ljudkompression utifrån perception. Det sägs vara mest hans egen perception av Susanne Vegas "Tom's Diner" som låg till grund för utvecklingen. Formatet standardiserades 1993 i ISO/IEC 11172-3.

 

Parallellt med illegal rippning och fildelning via tjänster som Napster, mp3.com m.fl utvecklades bärbara och billiga mp3-spelare. Formatet fick snabbt världsomspännande spridning, och ungdomar hade enorma musikbibliotek på sina hemdatorer.

Jag tror att den ursprungliga tanken med Napster var god, man ville utveckla en tjänst för spridning av obskyr musik som ingen av de lokala skivhandlarna tog hem på varken LP eller cd. Konsekvensen blev att man sänkte hela musikindustrin. Men borde inte musikindustrin själv varit mer kreativ och proaktiv under alla dessa år?

 

image.png

 

 

 

Grundaren till Napster, Shawn Fanning, hade en Metallica T-shirt på sig på en MTV-gala, och när värden kommenterade “nice shirt” svarade han "A friend of mine shared it with me, but I’m thinking of getting my own”. Lars Ulrich satt i publiken, men låtsades sova.

 

 

 

Lawrence Lessig representerade Napster i stämningen från RIAA:

Quote

Lawrence Lessig claimed that the decision to prevent Napster trading of copyrighted music made little sense from the perspective of copyright protection: "When Napster told the district court that it had developed a technology to block the transfer of 99.4% of identified infringing material, the district court told counsel for Napster 99.4% was not good enough. Napster had to push the infringements 'down to zero.' If 99.4% is not good enough," Lessig concluded, "then this is a war on file-sharing technologies, not a war on copyright infringement."

 

Winamp släpptes som freeware 1997, och Nullsoft tjänade 10 MSEK/år när de ändrade licensen till shareware utan att ändra innehållet. Entusiastiska användare skickade $10 checkar i mängder till den lilla firman.

 

I takt med att hårddisk blev billigt, processorer och minnen blev snabbare, och utbyggnaden av bredband tog fart så minskade kraven på små filstorlekar. Nya codecs som aac, ac3, wma och flac utvecklades. De flesta innefattar komprimering i kodningen, men en del av dem utan förluster i ljudkvalitet vid avkodning.

 

Det var främst inom gaming som utvecklingen skedde kring strömning av media. SimpleDevices, TurtleBeach och senare Sony Playstation och Microsoft XBOX implementerade lösningar för strömning av både audio, video och annan data. Uppkoppling mot databaser och så småningom online gaming var de stora pådrivarna.

 

Från början av millenieskiftet gick utvecklingen snabbt inom alla områden kopplat till digital audio. Computer audio blev hushållsvara, digitala inspelningar blev standard, digital hårdvara boomar inom alla prissegment från en hundring till mångmiljonklassen. Musikdistributionstjänster som Spotify, Tidal och Qobus etableras. Communities som Roon och iTunes har miljoner medlemmar, där både hård- och mjukvara tillhandahålls av it- eller elektronikföretag. Helt nätbaserade bolag nischar sig med försäljning av spår eller album, Bandcamp för små artister, eClassical för klassisk musik eller HDTracks för högupplöst pcm och dsd. Konserthus och spelställen strömmar konserter live till medlemmar eller pay-per-view.

 

 


Brus, dynamik och överstyrning


Inom analog signallagring är det det fysiska mediat som bestämmer max- och min-nivåer på signalen, inklusive brus. Hur mycket man kan magnetisera ett band och hur djupt man kan gravera en LP bestämmer dynamik- och frekvensomfång för en given speltid. Kraftfaktorn i transducern (tonhuvud/pickup) avgör vilken nivå utsignalen får i volt.


Inom digital signallagring har man i stället en skala 0 till 100%, och hela inspelningen måste hålla sig inom dessa 100%. Som vanligt uttrycks detta i dB, och 100% signal definieras som 0dBFS, noll decibel full scale. Förstärkningen i analogdelen i da-omvandlaren avgör vilken utnivå detta kommer motsvara. Om tex en cd-spelare förstärker utsignalen till 2 V så motsvarar 0dBFS 2V.

 

Inom analog signalbehandling har man alltid brus från inspelningsrummet, mickar, elektronik, filter mm, och vid varje kopiering ökar detta brus. Inom digital signalbehandling har man också brus från inspelningsrum, mickar och elektronik, men när väl signalen är digitaliserad kan den hanteras utan att detta brus ökar. Dock har man så kallat kvantiseringsbrus. Processen som beskrivs ovan ger ett lägsta brusgolv som definierar hur mycket dynamik det teoretiskt går att skapa för 0dBFS. Kvantiseringsbruset beror av bitdjupet, och det finns alltid ett fel så länge bitdjupet inte är oändligt. Storleken på detta fel definierar den undre gränsen på signalnivå. Man kan säga att för väldigt låga ljudnivåer kan en signal med lågt bitdjup inte bestämmas till ett precist värde. Varje extra bit sänker brusgolvet med 6dB. För 8-bitars ljud ligger brusgolvet på -48dB, och för 32-bitars ljud ligger det på osannolika -192dB.

 

Hela inspelningen måste hålla sig under 0dBFS. Varje transient eller tillfällig instrumentmix som överstiger den nivån gör att kvantiseringen klipper:

 

image.png

 

 

Nyquists samplingsteorem

 

Samplingsteorem får en egen rubrik eftersom det är helt grundläggande för vilken standard man kan erhålla för digitalt ljud.

Vi ska dock inte fördjupa oss i det utan bara konstatera att när man samplar en analog signal, så måste man göra detta så tätt som motsvarar signalens frekvensomfång gånger två. Med andra ord, man kan inte återskapa en signal till mer än hälften av samplingsfrekvensen.

 

image.png

 

Om man ska mäta och dokumentera en signal (vilken som helst) som har en bandbredd på säg 100Hz, så måste man ha mätpunkter var 0.005:e sekund för att exakt kunna återskapa alla förekommande signaler som innehåller 0 till 100 Hz.

Bandbredden inom audio är som bekant 20kHz, varför man behöver sampla med som mest 25µs tidsintervall (motsvarar 40kHz) för att undvika fel i samplingen.

 

Detta krav var allmän kunskap sedan länge inom kommunikation före förra sekelskiftet, men det var Harry Nyquist och Claude Shannon som först beskrev teoremet i samband med deras arbete med telefoni på 1910- och 20-talet.

 

harry-nyquist.jpg The Nyquist Limit: Tips & Help: Equipment: Electron Microscopy Center:  Indiana University

Harry Nyquist och Claude Shannon. Bild: Indiana University

 

 

AD-omvandling

 

Ovanstående figurer är schematiska för att ge en övergripande beskrivning. För att praktiskt kunna skapa den digitala signalen behöver man beskriva några ytterligare trix i AD-omvandling.

 

Vid mastring av en analog inspelning till pcm inleder man med en lågpassfiltrering av den analoga signalen. Det finns flera skäl till detta. Dels vill man ta bort högfrekvent brus och störningar för att inte kontaminera signalen med vikningsbrus*). Detta filter rensar såklart också bort överstyrning utanför bandbredden, men kan även användas att begränsa ström och nivåanpassa spänningen till efterföljande AD-omvandlingskrets.

Ju högre samplingsfrekvens man avser använda i kommande steg, desto flackare filter kan man använda utan att riskera påverka magnitud och fas inom audiobandet.

 

image.png

 

 

*) Vikning innebär att flera alias (eng: aliasing) skapas vid sampling. Om en hög frekvens samplas så bildas en låg frekvens vid återskapandet av den samplade signalen. En rekonstruktionskrets kan inte veta att den låga frekvensen inte finns. Därför måste den höga frekvensen filtreras bort för att inte den låga ska komma med i signalen.

 

image.png

 

 

 

Sample & Hold är en krets för att sätta det värde man får i varje sampel att gälla konstant under hela tiden fram till nästa sampel. På så vis har man en sammanhängande signal som inte är noll mellan varje sampel. För att kunna ta ett sampel används en analog switch (tex en JFET eller MOSFET) och för att hålla detta värde konstant till nästa sampel behövs en kondensator.

 

image.png

 

Signalen är fortfarande analog (om än diskret), och det är först när kvantiseringen är gjord som signalen kan lagras digitalt. Kvantiseringen innefattar att tilldela sampelvärdena något av de närmevärden som är möjliga utifrån aktuellt bitdjup. Ju högre bitdjup desto bättre approximation. För 8-bitars ljud finns det 28=256 tal att välja mellan, för 24-bitars ljud finns det 224=16 miljoner tal.

Därefter kan dessa värden skrivas om i binär form.

Exempel: antag att vi har ett analogt sampel som är 1.32V och att detta ska kvantiseras till 4-bitars ljud. Antag vidare att max amplitud från inspelningen sätts till ±2.00 V. Då måste vi välja ett värde i 0.27V-steg:

 

image.png  

 

image.png

 

Det finns en rad olika metoder för att så precist och snabbt som möjligt bestämma approximationen för aktuellt antal bitar. En vanlig metod är så kallad successiv approximation, här exemplifierad för en 4-bitars kvantisering:

 

 

successiv-approximering-001.gif

 

Felen i approximationerna i kvantiseringen visar sig som kvantiseringsbrus. För 8-bitars ljud är felet ±2, för 24-bitars ljud är felet ±0.00003.

Dynamikomfång så som det anges för digitala format är alltså bara en matematisk konsekvens, det har väldigt lite med verkliga förhållanden att göra.

 

All inspelning är analog i något led, eftersom man måste ha en transducer i mikrofonen för att omvandla ljudtrycket till en elektrisk signal innan digitalisering. Nästkommande led kan dock utföras med analog eller digital inspelning, mixning och/eller mastring. Den 3-siffriga SPARS-koden på cd-skivor anger detta. Så koden AAD innebär analog inspelning och mixning, medan mastring är digital (självklart ett krav för cd). DDD anger att både inspelning, mixning och mastring utförts digitalt.

 

image.png

 

För mixning och mastring i digital miljö används en digital arbetsstation för audio (DAW). Alltifrån freeware i pc och mac används såsom Audacity och MusE, till appar för smartphones. I pro-miljö används dedikerad hård- och mjukvara för all dsp till färdig digital master.

 

Ovation & Horus rack at La Grande Gallerie de l'Evolution, Paris

Komplett rack med a/d-omvandling och dsp. Bild: merging.com

 

 

Link to post
Share on other sites

 

CD-spelare och andra digitala musikspelare

 

Många spelare har en diskläsare eller så kallad transport och digital till analog omvandlare (DAC) samt klocka integrerat i samma låda.

Men det förekommer mängder av varianter med separat transport och dac, separat klocka och framför allt är det snart vanligare med strömmad musik där transporten ersätts med en dator och mjukvara eller strömmare. En del spelar enbart cd eller sacd, medan andra spelar allt från brända filer till hdcd, bluray, dvd audio och andra highres-format samt surround. Utöver detta finns det en rad olika standarder för att transportera den digitala audioströmmen mellan enheter.

De olika huvudfunktionerna beskrivs därför var för sig i följande avsnitt.

 

p1x_front.jpg

Dual mono sacd transport med separat nätdel från Esoteric. Bild: esoteric.jp

 

 

Transport

 

En transport består normalt av en släde för skivor, en motor, en laser för avläsning, ett servo som styr motorhastigheten, ett kretskort med digitalutgång och en nätdel för spänningsmatning till dessa komponenter.

 

Motorn roterar skivan med ca 500 rpm och en laser riktad mot en fotocell skannar skivan inifrån och ut. Motorn saktar ner kontinuerligt under skanningen, så att fotocellens avläsningshastighet är konstant. 

En cd-skiva har binärkoden lagrad fysiskt som en enda lång spiral med präglade gropar och plana delar:

 

image.png

 

 

Lasern strålar mot skivans undersida och ljuset reflekteras mot aluminiumskiktet i skivan. För plana delar reflekteras ljuset rakt tillbaka, medan groparna diffuserar ljuset. Varje tidsenhet kommer det således antingen en ljusreflektion eller ingen ljusreflektion.
När ljuset reflekteras tillbaka detekteras det av fotocellen som skickar en elektrisk puls till en elkrets som då genererar en etta. När det inte reflekteras ett ljus till fotocellen, genererar elkretsen en nolla.

 

 

image.png

 

 

 

image.png

 

 

 

Optiska pickuper (OPU) eller i dagligt tal "laser" till cd-, sacd-, dvd- och bluray-spelare använder ett astigmatiskt detektionssystem.

 

OPU-01.jpg (klicka för större bild)

 

 

Bilden visar en 3-stråles optisk pickup, där laserdioden lyser med tre strålar mot ett diffraktionsgaller som delar upp varje stråle i ett knippe ljus som träffar ett polarisationsfilter och därefter en spegel. Det utgående ljuset speglas mot en kollimeringslins för att parallellrikta ljuset och därefter en kvartvågsplatta som konverterar ljusets vågutbredning. Innan ljuset träffar cd-skivan passerar det en objektivlins som fokuserar strålarna mot plana och gropiga delar i spåret.
Det reflekterade ljuset passerar tillbaka genom objektivlinsen, mot spegeln och polarisationsfiltret, för att slutligen träffa en yta på fotosensorn.

 

Konstruktionen ser onödigt krånglig ut, men är helt avgörande för att sensorn ska kunna fokusera med så högfrekvent ljus och kontinuerligt ha kännedom om spåravvikelse och fokuseringsfel.

 

Fotosensorn omvandlar ljusintensitet till en elektrisk spänning för olika ytor på sensorn, här indelade i A, B, C, D. Objektivlinsens placering styrs av fotosensorn som ger en spänning till en moving coil för att flytta linsen till bästa möjliga fokus.

 

image.png

 

Att man läser av rätt spår styrs på liknande sätt av ljusfläckar från strålarna E och F.

 

 

 

Hur mycket data man kan trycka in på en skiva beror på hur tätt man kan prägla aluminiumskiktet med gropar och vilken typ av ljus man kan använda i lasern.
På en cd-skiva är en grop 0,8µm och det röda ljusets våglängd från dioden är 780nm. Ljuset i en dvd-laser har 650nm våglängd och groparna är 0,4µm. Det gör att en dvd kan lagra 4,7 GB (8,5 GB för dual layer) medan en cd endast kan lagra 680 MB.
Blu-ray använder blå-violett laser med 405nm våglängd och kan lagra 50 GB. Det finns som bekant en hel rad olika varianter, men här är ett par exempel illustrerade för att ge en känsla för principerna:

 

image.png


Jämförelse av geometrier för laser och prägling mellan cd och blu-ray.

 

 

För Hybrid SACD spelas skivan med två lasrar, 780nm för cd och 680nm för sacd, och objektivet har olika bländaröppning, så att för det halvtransparenta sacd-lagret fokuserar linsen på 0,6mm från ytan och för cd på standard 1,1mm:

 

 

image.png

Hybrid sacd.

 

 

Utvecklingen fortskrider och det är inte långt bort med multilager holografiska skivor som kan lagra uppåt 1,6 TB.

 

Discos ópticos : Discos ÓpticosHolographic Versatile Disc – Wikipedia

HVD (Holographic Versatile Disc). Bild: discosopticoslosazulejos

 

 

 

Streamers, digitala mediaspelare, nätverkstransporter mm

 

Musik blir mer och mer tillgängligt som filer, antingen direkt från musiktjänster som Spotify, Tidal, Qobus m.fl, eller för musikfiler som säljs för nedladdning från nätbutiker. Musiken spelas då med en mjukvaruspelare och strömmas med ethernet eller wifi, lokalt eller med Internet.

Enbart denna typ av strömmare, kringutrustning, format och tekniker är så omfattande att det kräver en separat artikel. Dessutom är det inte mitt område :1952293183_slightlysmilingface:

Jag nöjer mig därför med denna korta notis om strömmare, och konstaterar bara att dessa digitala mediaspelare är transporter för digital audio där gränssnittet till transporten är UPnP med ethernet, wifi eller anslutna hårddiskar, och output mot en dac är de sedvanliga s/pdif, aes3 eller usb.

Esoteric N-03T finns hos Ultimate.se | Sounds Perfect

Esoteric Network Audio Transport N-03T. Bild: esoteric.jp
 

 


DA-omvandlare

 

Output från transporten ska nu rekonstrueras och omvandlas till en analog signal i linjenivå, och det görs i en DAC. De fysiska huvudkomponenterna i en dac är (oftast) ett dac-chip, klocka eller klockgränssnitt, filter, nätdel, ingångsgränssnitt och utgångsgränsnitt.  

 

 

ESS Technology will integrate MQA rendering into its SABRE DACs -  HardwareZone.com.sg

Dac-chip från ESS Technology. Bild: Apogee Digital

 

Dac-chippet är normalt en ic-krets som innefattar någon form av transkodning för att anpassa den digitala signalen till nästa steg, samt en dekoder, exvis en delta-sigma-modulator med översampling. Därefter behövs filter för rekonstruktion till en analog signal och biasering till linjenivå. Både filter för eliminering av vikningsbrus (anti-aliasing) och rekonstruktionsfilter är lågpassfilter vars syfte är att ta bort oönskat högfrekvent brus. Anti-aliasing bandbreddsbegränsar till aktuellt format, och rekonstruktionsfilter tar bort oönskat brus från samplingen.

 

Det första som görs i DA-omvandlingen är att läsa de paket av binärkod som skickas i bitströmmen. Varje paket innehåller ett sampel där binärkoden omvandlas till ett flyttal:

 

image.png

 

 

Nästa steg är att rekonstruera en kontinuerlig analog signal som kan skickas till en förstärkare. Man behöver ett rekonstruktionsfilter. För att göra det bör man i DA-omvandlingen (på samma sätt som i AD-omvandling) definiera en bandbredd så att man kan filtrera bort speglingsprodukter pga vikning. Det perfekta filtret är sådant att under delningsfrekvensen är responsen 1.0, och över delningsfrekvensen är responsen 0.0.
Rent tekniskt innebär det att responsen är en rektangelfunktion i frekvensdomänen:
 

image.png

 

 

En sådan rektangelfunktion i frekvensdomänen (dvs ett idealt lågpassfilter) innebär att impulssvaret är en sinc-funktion i tidsdomänen:
 

image.png

 

 

Matematiskt betyder det att FFT av en sinc-funktion (sinx/x) är en rektangelfunktion (image.png).

Den perfekta sincen eliminerar alla frekvenser över den valda bandbredden, utan att påverka lägre frekvenser varken i amplitud eller fas.

Output från dekvantiseringen är ett värde i volt för varje sampel. Om man lägger en sinc över varje sampel och adderar bidragen från de då överlagrade sincarna så erhålls en mycket bra approximation för ett godtyckligt antal punkter som ligger mellan varje sampel.

 

image.png

 

På så vis får man en mycket bra approximation för punkterna mellan varje sampel:

 

image.png

 

Vi har i vårt exempel valt en pcm-ström med både låg samplingsfrekvens och lågt bitdjup för att kunna illustrera vad som ger vad. Trots detta ser vi att rekonstruktionsfilter med sincen ger en väldigt bra approximation och återskapande av den analoga signalen. Med hög samplingsfrekvens och högt bitdjup blir återskapandet mycket exakt.

 

Det är inte helt intuitivt hur sincen samtidigt fungerar som ett lågpassfilter. Men om man tittar på ett mer extremt exempel med kraftigare diskontinuiteter så ser man det tydligt. Exvis en sågtandsignal som filtreras med sincen:

 

image.png

 

 

 

Diskret DAC, NOSDAC

 

Det förekommer även diskreta dacar, där ic-kretsen ersätts med passiva och aktiva komponenter, typiskt en R/2R-stege och mosfetar eller bipolära transistorer, där varje R/2R+mosfet motsvarar en bit.  Kretsen utgör en summerande förstärkare som normalt beräknar spänningen direkt från bitströmmen utan översampling, varvid den kallas NOSDAC (non-oversampling dac). Filtrering i en sådan dac utförs normalt i den analoga domänen.

Här är ett exempel som motsvarar en 4-bitars dac, där D1-D4 tar emot inkommande bitar som var för sig kan anta värdet 0 eller 1. En 1:a ger då en spänning på den ingången, medan en 0:a lämnar den ingången jordad:

 

 

image.png

 

 

Principen att omvandla binär kod till spänning har funnits sedan början på 60-talet och TTL (Transistor-Transistor-Logic) är exempel på en digital integrerad krets med 5V spänningskälla som omvandlar 0-0.8V till en logisk 0:a och 2-5V till en logisk 1:a.

 

Exempel på elektroniktillverkare som använder diskreta dacar i en del modeller är Esoteric, MSB, Sonic Illusions och Audionote. Här ser vi DAC-kretsen till en sådan 32-bitars diskret dac. R-2R-stegen är uppdelad i 4st halvcirklar per kanal för att få samma avstånd för signalöverföring i varje delkrets:

 

image.png

Esoteric Mastersound Discrete DAC. Bild: esoteric.jp

 

 

Klocka

 

All AD- och DA-omvandling styrs av en klocka som antingen sitter i ADC/DAC eller externt. Den används för att synkronisera olika delar av kretsen, och bestämmer takten för all digital transport av data. En klocksignal skapas av en oscillator (klockgenerator) som består av en piezoelektrisk kristall som vibrerar och på så vis skapar en elektrisk signal med mycket exakt frekvens. Om datatransport inte sker med perfekt periodicitet skapas jitter.

Klocksignalen i en DAC brukar benämnas WORD CLOCK eftersom den klockar sampel, och det finns ett sampel i varje WORD.

Kommunikationen mellan digitala kretsar kan ske synkront eller asynkront. I synkron kommunikation skickas WORD i klockans takt mellan kommunicerande kretsar och kretsarna taktar med varandra som ett roddarlag. I asynkron kommunikation interagerar också delkretsarna, men de kan arbeta var och en i sin egen takt oberoende av varandra.

 

Sida 2 – Äldre foton från Sollerö socken

Roddarlag. Bild: solfoto.se

 

 

Kablar och kontakter

 

De mest förekommande gränssnitten för överföring av digitalt ljud är s/pdif, aes3, usb, hdmi.

För s/pdif använder man då en 75 ohms koaxialkabel som termineras med rca-kontakter alternativt en optisk fiberkabel med toslink-kontakter.

För aes3 använder man antingen en balanserad 110 ohms tp-kabel med xlr-kontakter, eller en obalanserad 75 ohms kabel med bnc-kontakter.

Usb-kablar baseras på ett twisted pair för signal och 5V + jord för spänningsmatning.

Hdmi-kablar (utan ethernet) har fyra skärmade 110 ohms tp-kablar och sju separata ledare för kommunikation. 

 

Som kuriosa kan nämnas att många kontakttyper är förenade med licenskonstnader för tillverkarna. En hdmi-kontakt kostar tillverkaren 1.50 kr per apparat i licensavgift utöver en årlig administrationskostnad på 5-10 k$. Om tillverkaren implementerar kopieringsskyddet HDCP (bra namn!) och sätter HDMI-loggan på apparaten kostar kontakten bara 40 öre i licens.

 

Vi ska inte gå igenom kablar mer i detalj för det skenar iväg och blir dessutom snabbt inaktuellt. Enbart olika typer av usb-kontakter förekommer i en uppsjö varianter från typ A, B, C, mini och micro-varianter med olika specar;

 

image.png


Det finns redan idag ett dussin olika typer av USB-kontakter

 

Kablarna i sig är sällan det som avgör typ eller standard för signalöverföring utan det är snarare gränssnitten och bakomliggande protokoll. Men kablarna är ett pedagogiskt sätt att definiera vilken typ av digital audio som stöds av en dac med sådana kontakter. Eller rättare sagt kan stödjas, om da-omvandlaren har konstruerats med stöd för det. I nästa avsnitt ska vi titta på vilka digitala format som kan användas för olika gränssnitt.

 

Link to post
Share on other sites
2 hours ago, calle_jr said:

Enbart denna typ av strömmare, kringutrustning, format och tekniker är så omfattande att det kräver en separat artikel. Dessutom är det inte mitt område :1952293183_slightlysmilingface:

Finns det någon lika pedagogiks och kunnig herre, eller dam, som kan fylla i detta område åt calle_jr? 

Jag tror det finns ett stort intresse "där ute" att få en "komplett" digital-audio-förståelse-bibel :1952293183_slightlysmilingface:

Link to post
Share on other sites

Format, protokoll och interface

 

Format för audio är ett brokigt begrepp. I dagligt tal blandas det friskt mellan format och prestanda, gränssnitt, kontakter, protokoll och filtyper.
Strikt är formatet det som anger vilken typ av modulering som används för digital kodning och avkodning, antal kanaler samt vilket bitdjup och samplingsfrekvens man valt för ad- och da-omvandlingen. Tex 2-kanals pcm16/44 eller 5.1-kanals dsd128.

Format anger också om ljudströmmen i efterhand är kodad, dvs komprimerad och/eller är inbäddad eller anpassad för kommunikation mellan olika system (interchange file format), tex wav, aiff, dsf, flac, ac3 eller dop.

 

image.png

 

Det finns en uppsjö protokoll inblandade i audio. Det som är värt att nämna här är RTP (Real-time Transport Protocol) som är ett nätverksprotokoll för leverans av audio i IP-nätverk. Protokollet används för strömning av audio (och video), och det har även stöd för hantering av jitter, förluster och andra fel i signalöverföring vid strömning. 

 

Philips och Sony har definierat en rad regnbågsböcker inom audio och video, för att definiera format för olika typer av compact disc-media. Det finns idag en samling med Red, Green, Yellow, Orange, Beige, White, Blue, Scarlet och Purple Book, varav Red Book (CD) och Scarlet Book (SACD) är de vi främst berör i denna artikel.

 

Det gränssnitt man använder i sin dac begränsar formatet. S/PDIF är endast avsett för pcm och max 24/96 okomprimerat eller komprimerad flerkanals pcm exvis DTS. Jag började på en sammanställning över vilka format som olika gränssnitt kan spela upp, men kom så småningom fram till att de flesta gränssnitt kan spela det mesta och att det är en massa detaljer och versioner som spelar in. Det handlar mer om ifall dacen har stöd för formaten. De format idag som har vissa begränsningar är s/pdif och aes/ebu. Här är ett utkast till förenklad sammanställning som jag säkert får äta upp:

 

image.png

 

 

 

 

PCM-teknik

 

Den helt förhärskande tekniken för att representera en analog audiosignal digitalt är pulskodmodulering PCM (pulse code modulation). Det är också därför de allmänna beskrivningarna ovan baseras på pcm. Metoden används för cd-skivor, datorljud, telefoni och andra digitala audiotillämpningar. De allra flesta digitala lagringsformat såsom wav, aiff, au, raw baseras på pcm, och även de komprimerade formaten såsom wma, mp3, flac, ac3, vorbis, dts, aac etc.

Det som utmärker egenskaperna för PCM är att standarden för den bitström man får definieras av dess samplingsfrekvens och bitdjup.

 

För att lagra en pcm-ljudström på en dator behöver den sparas i ett format som stöds av datorns operativsystem. För Windows-plattformar har WAV (Waveform Audio File Format) varit förhärskande som grundformat. För iOS-plattformar är motsvarigheten AIFF.

 

WAV är baserat på RIFF (Resource Interchange File Format) som utvecklades av IBM och Microsoft, och som (liksom AIFF) bygger på en serie chunks (fragment) med en bestämd struktur:

 

image.png

 

Som exempel kommer här de första 72 bytes i en WAV-fil där bytes visas i hexadecimal form:

image.png

 

 

Om vi översätter detta:

image.png

 

 

 

Vi behöver inte gå djupare in på pcm i detta avsnitt, eftersom tekniken beskrivs i de allmänna avsnitten ovan. Lagring och komprimering utförs på liknande sätt för pcm och dsd och beskrivs senare.

 

 

 

DSD-teknik

 

Det andra digitala grundformatet som förekommer inom audio för musik är dsd. Det är inte i närheten så väletablerat och använt som pcm, och har nästan varit på väg att dö ut. Men det är omtyckt i vissa kretsar, och har fått ett visst uppsving i samband med ökande utbud från nedladdningssiter. Jag tänkte därför i det följande göra en liten fördjupning kring dsd-teknik.

 

Det förekommer en hel del diskussioner som faktiskt tar avstamp i ganska avancerad digitalteknik och som ligger långt över mitt huvud, och säkert över många av våra läsares också. Min egen uppfattning har flackat genom åren efter att ha spelat med en rad olika D/A-omvandlare som varit både bra och mindre bra på olika format. Det enda jag kan säga entydigt är att för de inspelningar där man månar om ljudkvalitet så väljer man oftare ett mer högupplöst format. Jag har aldrig hört en SACD-skiva med dåligt ljud.

 

När SACD-skivan lanserades blev mottagandet förvisso positivt i vissa kretsar, men en utbredd uppfattning var att anledningen fanns i att drakarna Sony och Philips fick ett robust kopieringsskydd. Men det finns ett inneboende genialt koncept med SACD tycker jag. Det stavas DSD och uttalas Direct Stream Digital. Och här kommer den enda jämförelsen jag behöver ta upp mellan DSD och PCM :)

 

image.png
Kvantisering och sampling av signal efter pulskodmodulering (PCM) och ΔΣ-modulering (DSD)

 

Det räcker man ser den bilden för att förstå att det är två helt olika djur, fast att vi ofta klumpar ihop dem och kallar dem gemensamt för digitalt ljud. Det är alltså inte för att jämföra PCM med DSD som jag vill rekapitulera, utan för att redovisa ett slags avstamp till diskussioner kring DSD. Jag tänkte därför försöka förklara grunderna för DSD på ett begripligt sätt.

 

Men vi börjar med en skiss som visar att A/D-omvandlaren har principiellt samma blockschema som D/A-omvandlaren:

 

 

image.png

 

Och notera att både input och output kan vara analog eller digital, både för A/D- och D/A-omvandling.

 

Ingenting blir bättre som arkivmaterial än källmaterialet, men när det spelas upp i realtid kan det vara många faktorer som avgör hur det låter. Rent principiellt kan därför ett mer högupplöst inspelningsformat (exvis hirez pcm) låta bättre efter ADC till ett annat format, exvis xrcd, sacd eller dsf och så vidare. Det beror på hård- och mjukvara i min och din specifika DAC och hur dessa har anpassats för olika arbetsuppgifter. Två ledord för alla DACar är noggrannhet och snabbhet, och dessa står ju faktiskt i rakt motsatsförhållande. Ju fler arbetsuppgifter man ber en DAC att utföra, desto fler fel kommer den göra.

 

Tricket med Direct Stream Digital är att man endast tillämpar 1 bit i dataströmmen samt att man använder delta-sigma-modulering.
Utöver detta använder man teknik för översampling, brusformning och ev dither.

 

1 bit i dataströmmen innebär att varje sampel endast kan vara en 1:a eller 0:a. För att A/D-omvandla tex en 10 sekunders musiksnutt används delta-modulering. Delta betyder inom matematik skillnad, där man historiskt använt den grekiska bokstaven Δ för att beskriva skillnaden mellan två tal. Det är just precis här likheten med analoga format ligger. Skillnaden i amplitud per tidsenhet, dvs Δx/Δt, är ju hastighet. För delta-modulering står en 1:a för att öka amplituden, och en 0:a står för att man ska sluta öka och börja minska. Eftersom delta-modulering är en så otroligt enkel operation så kan man använda ofantligt hög samplingsfrekvens. Standard för dsd är 2,8 MHz, som är 64 ggr högre än standard 44 kHz för cd.

 

Sigma-modulering kommer också från den grekiska beteckningen inom matematik, där Σ står för summering. Sigma-modulering innebär att man summerar den analoga signalen med output innan man gör delta-moduleringen. Det gör att gain för Δ kan styras, och att felen som uppstår vid kvantiseringen kan lagras och medelfelet kan minimeras med en feedback-loop.

 

Man kan sammanfatta processen med hjälp av följande figurer.

 

image.png


Den blåa linjen är den inspelade signalen. Den heldragna röda linjen är den maximala brusnivån som är oundviklig pga felen som blir vid kvantiseringen av signalen. För varje sampel måste processorn välja om signalnivån är större eller mindre än signalnivån för föregående sampel. Strikt matematiskt kan detta val bli fel varannan gång, dvs risken för avvikelse är 50%. För 1-bit dataströmmar kan man alltså bara räkna med ett uruselt S/N på ungefär 6dB. (Jämfört med tex 16-bitar där man har S/N på ungefär 6x16=96dB.)

 

Man kan inte ta bort brus utan att påverka nyttosignalen, men man kan förändra det. Genom översampling bibehålls mängden brus, men det sprids jämnt inom den nya upplösning man skapat med översampling. Så med 64 ggr översampling som är standard för sacd, så sänker man brusets nivå till den streckade röda linjen.

 

 

image.png

 

 

Därefter kan man med finurliga algoritmer forma bruset, så att man förskjuter så mycket av det man kan till högre frekvenser. Den totala mängden brus är densamma, men mängden inom audiobandet har minskats drastiskt. Därefter appliceras ett lågpassfilter på signalen, så att allt över audiobandet filtreras bort. För ADC är detta lågpassfilter digitalt, för DAC är det analogt, dvs det kan vara ett enkelt RLC-filter.

 

 

image.png

 

 

 

Voila! nu har vi 10 sek musik med uppåt 120dB dynamik i ett digitalt pulståg som populärt kallas DSD;

 

image.png...

 

 

Det ska också nämnas att klockan är en mycket viktig del i hårdvaran, men det gäller ju alla format. Indelning i sampels baseras på tid, så klockans exakthet är avgörande, både för ADC och DAC.

 

En annan sak som ska nämnas är DST, Direct Stream Transport. Det är den algoritm som används för återställning av bitströmmen i filöverföringen till DA-omvandlaren. Pga den höga samplingsfrekvensen är det viktigt att en sådan algoritm är enkel och stabil.

 

 

Bildresultat för AK4490EQ dsd chip

 

 

 

Mixning av DSD

 

Rent konkret kan man som exempel mixa en rå 1-bitars sigma-delta-modulerad bitström, men bitströmmen måste ju ges värden. Annars har den bara värdet "öka" eller "minska". Mixning innebär att digitalt splitta, flytta, blanda, ändra nivå och fasmodulera audiosignalen (-erna).

I praktiken innebär det att den måste konverteras så att alla sampels får ett värde. Och då har vi pcm eller något liknande, dvs det är inte dsd längre :)

 

Ett grovt exempel för att förtydliga. Säg att spänningsnivån i den analoga signalen för 50µsek musik varierar från 1,5000 V till 1,5005 V. Då kommer en 44.1 pcm-signal hinna kvantisera detta till två eller kanske tre värden, eftersom det samplas ett värde varje 22,7µs. Men för en dsd-signal beror det på spänningssteget. Om steget är 15 µV så kommer det beräknas 140 värden eftersom det samplas ett värde varje 0,35µs. För pcm kan värdets nivå lagras med 16 bitars precision, dvs 216=65536 olika värden på spänningsnivå kan lagras. Men för dsd som bara har 1 bits precision kan värdet bara jämföras om det ökar eller minskar (21=2) jämfört med föregående, och det är resultatet av jämförelsen som lagras;

 

image.png

 

 

Vad är det då som skapar bruset i en dsd-signal?

”Brus” är ju en vid benämning. Man bör kalla det vi talar om här för brus eftersom det ger en koppling till vad man hör och det kan uttryckas i volt eller dB i förhållande till nyttosignalen, dvs SNR. Detta brus är en produkt av fel i processen för kvantisering av en analog signal, och kallas därför kvantiseringsbrus. Felen (e=error) som skapar detta brus (n=noise) beror helt på storleken på steget i kvantiseringen;


image.png

 

 

En analog insignal matas till kretsen med en viss gain G. Den digitaliserade signalen får då en spänningsnivå som kan uttryckas:

 

image.png

 

 

Medelvärdet av felet kan beräknas till:


image.png

 

Man kan anta att felen vid kvantisering är slumpmässiga och ser därför ut som vitt brus i audiobandet.
När man översamplar sprider man bruset inom bandbredden för samplingsfrekvensen. Antag att bandbredden för audiosignalen är f0, och att samplingsfrekvensen är fs. Förhållandet mellan fs och 2f0 kallar vi för översamplingskvoten, eftersom Nyquists samplingsteorem säger oss att man måste sampla över 2fs för att inte skapa vikningsdistorsion (aliasing). Så översamplingskvoten betecknas OSR=fs/2f0.
Kvantiseringsbruset inom audiobandet, kallat n0, minskar till:


image.png

 

En ΔΣ-moduleringskrets kan vidare forma bruset genom att "seriekoppla" översamplingen. Ovanstående beskrivning kallas ΔΣ-modulering av 1:a ordningen.
Om moduleringskretsen stackas skapar man en ΔΣ-modulering av 2:a, 3:e eller generellt k:te ordningen.
Kvantiseringsbruset vid ΔΣ-modulering av k:te ordningen blir:


image.png

 

Exempel: om den analoga insignalen har bandbredden 20kHz, och vi översamplar den till double-dsd (5,6MHz) med 3:e ordningens ΔΣ-modulering kommer man minska bruset från kvantiseringen till den digitaliserade utsignalen till:

 

image.png

 

 

Varför 1-bit?

 

Bitdjup används för att beskriva precision.

1 bit kan bara användas för att beskriva om det var tavelträff eller ej. 

2 bitar kan användas för att ge 22=4 alternativa värden.

4 bitar kan användas för att ge 24=16 alternativa värden, fortfarande ingen vidare precision i en miljö där man vill mäta absoluta tal.

8 bitar kan användas för att ge 28=256 alternativa värden, dvs fullt möjligt att ge ett bra referensvärde.

 

På en darttavla kan vi på bråkdelen av en sekund urskilja 83 olika värden med olika egenskaper. Man kan säga att vi då utnyttjar vår hjärna med ett bitdjup på drygt 6 :). Men jämfört med en dac ligger vi i lä eftersom den håller reda på en piltavla som är numrerad från 1-16000 i stället för 1-20, och den urskiljer ett av dessa värden 44100 ggr per sekund.

 

Bildresultat för dart board

 

Den uppenbara nackdelen är att informationshanteringen sväller bokstavligen exponentiellt om man för varje sampel ska räkna ut ett värde med hög precision i enheten volt.

Så fort man frångår 1 bit för en dac blir det genast mycket mer komplicerat.

Det är inte bara att jämföra 216x44100=2890137600 varianter/sek för 16/44 pcm med 21x2822400=5644800 varianter/sek för dsd, vilket i sig innebär 500 ggr fler operationer per tidsenhet.

Det är också att en dac behöver styra på flera olika saker samtidigt. Dsd behöver bara rinna, mer-mindre, mer-mindre. 

 

För mixning däremot, där ser jag inga problem att använda 4, 8 eller 16 bitar i kombination med översampling + ΔΣ-modulering + LP-filter. Det kan fortfarande kallas dsd eftersom de processer som karakteriserar dsd finns där, mastringen är fortfarande exakt dsd, och da-omvandlingen i hemmet är dsd.

 

Jag är inte biolog men :) om man skulle skapa en trädstruktur för format så borde dsd ligga närmre magnetband än pcm.

Det grundläggande funktionssättet, dvs det som skapar själva ljudet, är samma princip för dsd som för magnetband.

 

Obs! Det innebär inte att dsd låter bättre. Många anser att pcm är överlägset magnetband vilket jag inte kan bestrida.

Men det innebär att vi bättre kan förstå de övergripande egenskaperna och vad som skiljer djurens beteende åt.

 

 

Inspelningsformat

Det här med format är ett litet detektivarbete, och man behöver börja med källmaterialet dvs inspelningarna och hur dessa går till :sherlok:

Channel Classics som exempel spelar in i dsd sedan sju år tillbaka, men BIS och Chandos fina sacd-utgåvor är normalt inspelade med 24/96 pcm-format. Man ska nog beakta att väldigt många skivbolag inte har egna inspelningsledare utan anlitar ett team, en studio eller frilansare. Det gör att de inte ens styr över inspelningskedjan såvida de inte har definierat detta för beställningsjobb. Jag kan bara anta att man hellre väljer en inspelningsledare på dennes meriter än att man väljer ett format.

 

DSC_4002.jpg

Här ser vi producenten Brian Pidgeon till vänster, dirigenten Peter Oundjian till höger och The Doric String Quartet under provlyssning av John Adams' Absolute Jest. Foto: Jonathan Cooper

 

Baserat på egna lyssningstester med inspelning både i pcm och dsd anser BIS att 24/96 pcm fungerar klanderfritt. De arbetar normalt med inspelningsformatet i hela processen tills det är dags att göra en master där de skapar dsd för sacd-produktion. Jag har försökt få svar från Harmonia Mundi, men de kan inte bekräfta att de spelar in i dsd för sina sacd. Man ska dock beakta att de allra flesta av deras utgåvor är cd och då är inspelningen pcm.

 

Channel Classics gör en grej av sin inspelningskedja, vilket alltid gör mig lite misstänksam eftersom man får lite vibbar av att musiken är sekundär. I deras fall är det inte så tycker jag. De använder mickar från Schoeps och Bruel & Kjaer, AD- och DA-omvandlare för dsd från Grimm Audio och Meitner/EmmLabs och mixerbord från Rens Heijnis. Editeringsmjukvara är Pyramix som utvecklats av Merging.


Här är en förklarande berättelse om en inspelningssession 1997 från Dr Andrew Demery på Super Audio Center:

Quote

 

Unlike current DSD recorders/editors, our first generation software had a few “features” that were less than desirable.  Key among them was the fact that the system had a considerable “recovery” time following a record cycle (i.e., go into record, come out of record).  Once you had stopped recording, you needed to re-set the software before you could carry on.  This process took somewhere between 30 seconds and a minute (though it felt like several lifetimes when you were in a live recording session!).  To compound matters, we were working with considerably smaller hard-disks than we have today.  As 8-channels of DSD eats approximately 10 GB of disk space per hour, our MASSIVE disk arrays equated to about 2 hours of recording time.  So, our natural tendency was to try to conserve disk space as much as possible, with the caveat that every time we stopped recording we would have to wait a while before we could start again.

 

After a few rehearsals, it was time to go for the first take.  Everyone in record ready?  Yes.  Everyone in record?  Yes.  Slate the first take.  The music starts, and within a few seconds we hear the rat-tat-tat of the conductor’s baton on his music stand.  Everyone in the orchestra stops, and a big discussion starts.  Erdo shouts, “Keep rolling.”  More discussion.  “Keep rolling.”  More discussion.  We start to get fidgety.  Doesn’t the maestro realize our predicament?  We shoot anxious glances at Erdo.  “You can probably stop, if you like.”  We hit stop.  Almost immediately the discussions stop, and it’s time to go again.  Except, our computer is still thinking about it.  Slowly.  V-e-r-y s-l-o-w-l-y.  There’s nothing we can do about it.  The orchestra starts without us.  Bugger!

 

They don’t get too far, however, before it’s time to talk it over again.  Bar numbers are mentioned.  Players are asked to play louder, softer, faster, slower.  By the time the instructions are given out, we’re ready to go again.  Great!  This time they get through the entire first movement without stopping.  Excellent!  We hit stop.  They decide to immediately go into another take.  Bugger!

 

This scenario was to play itself out over and over for the three days or so that it took to record the 4th Symphony.  Sometimes we got lucky and got the “good” take, sometimes we didn’t.  Sometimes we stopped too soon during the “false takes” and didn’t get anything.  Sometimes, in our eagerness to conserve disk space, we stopped too soon and cut off the decay of the last note – easy to do when you are working without monitors!  It was all a learning experience, and our methods would improve on future trips, but for now we were happy to have recorded anything.

 

 

 

Polyhymnia är ett holländskt bolag som gör förstklassiga inspelningar och produktioner. Företaget är sprunget ur den tekniska delen av Philips Classics sedan 1950-talet. De gjorde några av de första experimentella dsd-inspelningarna i mitten av 90-talet med Erdo Groot vid spakarna. Polyhymnia gör idag inspelningar och efterbearbetning i en kedja som enbart inbegriper analog signal och dsd-signal.

 


eClassical säger såhär:

Quote

 

What we call "Original sample rate" is the pcm sample rate of the highest bit rate files we receive from the labels. The highest bit rate download we offer will have the same sample rate. We ask the labels to give us the highest meaningful quality in which they have the recording. If they didn't convert rates during the postproduction, this will be the sample rate in which the album was recorded. But we cannot know each label's signal chain for each album. We trust them that they don't deliver upsampled recordings (contact our support if you think you found a "black sheep"). Should they send sample rates lower than the original, they obviously have no other choice (at present). Even there, we can't know whether a higher version maybe exists.

 

We understand that the above may be considered inaccurate for dsd recordings. Of course, there the "original sample rate" was 2.8224 MHz. And some people will definitely want to have the "better" dsd originals, no pcm conversions. But since we decided to only deal with pcm files at eClassical (up to now), we write what you will get when you buy the album. Unless looking up each album manually, we won't even know whether it has been dsd once - or maybe just some tracks of it?  That information rests with the labels.  Therefore, should it be essential for you to know whether a 88.2 or 96 kHz album originates from a dsd recording, we must ask you to check this with the respective label or read in the enclosed booklet. This is what our term "original" means in detail. We hope you understand that we don't have the possibilities to "legally bindingly" inform you about the production process of every album we sell, since we don't have access to each label's modus operandi for each specific record. 

 


 

En annan viktig faktor är att sacd aldrig har sålt. Det är väldigt små volymer i förhållande till det utbud av sacd och dsd som trots allt finns. Man ska dock tänka på att en del av nedladdningen är dsd, men sannolikt inte större andel än förhållandet mellan cd och sacd. Som bäst sålde sacd i USA för 26 MUSD och det var år 2003, det är alltså bara promille av motsvarande cd-försäljning. 2003 var också det enda år då sacd, med knapp marginal, slog LP-försäljningen :)

 

riaa.jpg

Omsättning i USA för några utvalda format. Källa: RIAA


Så vad drar man för slutsatser?  Ja, framför allt att allt som glimmar inte är guld. Även om man köper dsd så är det stor sannolikhet att materialet är mixat och mastrat i 24-bitars pcm. Men inte alltid, och tendensen är att dsd-mastring ökar.

 

En sak som jag inte begriper är varför dsd säljs till ca 40% högre pris än sacd :unsure:

 

.........bis.jpg chandos.jpg channelclassics.jpg harmoniamundi.jpg chandos2.jpg

 

 

 

Holländska Pentatone gör alla sina utgåvor i SACD, och det rör sig om 30 album per år.

Det var Giel Bessels, Dirk van Dijk och Job Maarse från Philips Classics som startade etiketten 2001, med fokus på högkvalitetsinspelningar med internationella toppmusiker.

De anlitar Polyhymnia (sannolikt gamla kolleger) för DSD-inspelning, editering, mixning och mastring för SACD.

De ger även ut ommastringar av fyrkanalsinspelningar från Philips som gjordes för quad-skivor på 70-talet. Fantastiskt.

 

pentatone-01.jpg pentatone-02.jpg

 

Detta tycker jag är ett exempel på en katalog som prioriterar det musikaliska innehållet, toppsolister och bra orkestrar. Men de bryr sig också om produktionen. Hög kvalitet rakt igenom.

 

pentatone-symbol-white-new.jpg PENTATONE

 

 

Jag kan se en rad anledningar till att inte mixa i dsd (personal, kostnader, programvara i alla led, multiformatsläpp), och jag tycker inte att det är självklart bättre på ena eller andra sättet. Jag vet ärligt talat inte om det ens finns en vits i att mixa i dsd som slutformat, och att mixa nånstans mitt i dsd-processen är ett högriskprojekt pga brushantering.


För en mastringsstudio är kedjan liksom öppen och de kan tagga in och ur med olika moduler, stoppa, blanda, splitta, jobba med kanaler, fasmodulera, frysa, backa osv lite som de tycker blir bäst. Varken en pcm- eller dsd-fil har ett fixt format, utan det finns råformat och mellanformat även av dessa. De kan arbeta med materialet på sampelnivå eller vilken nivå de vill, i okomprimerad form och utan kopieringsskydd. Inspelning, mixning och mastring är ju också en betydande del av artisteriet. Detta är ju väsentligt annorlunda jämfört med musiklyssning med en dac.

 

Jag märker att jag har svårt att förklara mig :)

Men ponera att jag tycker att 24/96 låter skit hos mig, men att dsd låter suveränt.
Även om det är en analog inspelning som ad-omvandlas och mixas i rå 24/96 för att sedan mastras för sacd, så betyder inte det att även den låter skit.
De spåren som den digitala bearbetningen lämnar efter sig behöver inte ens synas (höras) eftersom i mixningen kan en skicklig hantverkare tillämpa supersmarta tekniker (exvis dithering och anti-aliasing) baserat på det aktuella råmaterialet. Och framför allt, en dac kan vara bättre på vissa operationer än på andra.

 

 

 

Lagring, komprimering, lossy och lossless
 

CD-formatet definieras av Red Book, vilket innebär 2-kanalsljud med bitdjup 16 och samplingsfrekvens 44.1 kHz. En Byte motsvarar 8 bitar, så vi har alltså 2 Byte gånger 44100 sampel per sekund, gånger två kanaler, gånger 60 sekunder per minut vilket motsvarar 2 x 44100 x 2 x 60 = 10 MB/min.
En cd-skiva kan därför innehålla max 85 min pcm, och en 1 TB-hårddisk kan innehålla max ca 1500 album okomprimerad pcm.
För strömning av okomprimerad pcm i realtid krävs att all inblandad hårdvara kan hantera minst 200 kB/s. Det gäller även vid strömning från Internettjänster, men en fiberanslutning 100/100 motsvarar 100 Mbps / 8 = 12.5MB/s, så det lär inte vara några problem så länge strömningen får kidnappa några procent av anslutningen.

 

Men det finns två huvudskäl att komprimera audio. Båda reducerar dynamikomfånget, men de har olika syften.

 

Det ena skälet är under mixning och mastring, där kompression används för att ge en mer naturlig nivåvariation och uppfattbarhet utan att ge distorsion. Det gör musiken mer bekväm att lyssna på.

 

För kompression i mixning sätter man ett tröskelvärde på nivån. Den del av signalpeakar som överstiger denna nivå komprimeras, dvs nivån sänks, och hur mycket det sänks bestämmer man med ett förhållande mellan insignal och utsignal.
Här är ett exempel där tröskelvärdet satts till -24dB, och tre olika ratio 2:1, 4:1 och 8:1 jämfört med ratio 1:1 som betyder att utsignal=insignal (ingen kompression).

 

image.png

 

Det finns hårdvara som ger ett hårt eller mjukt knä dvs övergången vid tröskeln är distinkt som i figuren ovan, eller med en mjukare övergångszon. Man brukar även styra attack dvs tiden i millisekunder innan hårdvaran börjar komprimera en insignal som överstiger tröskeln, liksom release som är tiden innan signalen återgår efter trökelvärdet understigits. Det ger mjukare och mer naturliga övergångar även i tiden.

 

image.png

 

I en kompressor eller limiter ökar man även förstärkning eftersom ju signalnivån har sänkts. Under många års tid har man dock successivt pressat nivåer för att skapa effekt och höras i allt brus, inledningsvis framför allt i radio. Det som låter högre skapar helt enkelt mer uppmärksamhet. Ofta sätter man då tröskelvärdet mycket lågt, tex allt som överstiger -6dB komprimeras. Detta okynnesbetéende har kommit att gå under namnet Loudness War.

 

IMG_0285.PNG

 

Kompressorn Tube-Tech CL1B från danska Lydkraft.

 


Det andra huvudskälet för kompression är för att minska filstorlek.
 

Kompression av audio utförs för att minska filstorleken för upp- och nedladdning samt för att minska lagringsplats på disk.

Principen i all datakompression är i första hand att ta bort redundant information. För en bild eller videoframe kan det vara svarta pixlar, för audio är det typiskt tystnad. Musik innehåller mycket tystnad (givet hur man definierar tystnad), och man behöver inte definiera hur tystnad låter för varje enskilt sampel den förekommer.

I andra hand minskar man bitdjup och samplingsfrekvens. För en bild minskar man antalet färger och pixlar. För ljud minskar man antalet steg i nivå och ökar avståndet mellan sampel.

Båda dessa åtgärder kan göras på finurliga sätt, och det är hur vi uppfattar bild och ljud som avgör vad man kan förenkla mest utan att synbart/hörbart försämra kvalitén för mycket. Inom audio baseras de flesta förekommande sätten därför på psykoakustisk forskning. Man konstruerar algoritmer för analys av data och matematiska operationer för hur psykoakustiska approximationer kan genomföras. Man plockar helt enkelt ut det vi uppfattar som mest signifikanta data och rensar bort det som är mindre viktigt, vilket ger högre ljudkvalitet per byte.

Dessa algoritmer implementeras i mjukvara som standardiseras och kallas då codec. En codec kodar ljudströmmen för lagring och transport, och avkodar den vid uppspelning (coding-decoding).

Codecs för kompression på detta sätt brukar delas in i om den är lossy eller lossless, dvs om kompressionen degraderar signalen eller ej.

De vanligaste formaten för okomprimerad förlustfri audio är WAV och DST (Direct Stream Transfer).

WAV har vi förklarat ovan, och DST är den codec som används för DSD som ju baseras på pulsdensitetsmodulering (PDM).

De vanligaste formaten för komprimerad förlustfri audio är FLAC (Free Lossless Audio Codec) och ALAC (Apple Lossless Audio Codec).

De vanligaste formaten för komprimerad audio med förluster är AAC (MPEG-2 och MPEG-4), AC3 (Dolby Digital) och MP3 (MPEG Audio Layer III)

 

Ett exempel på algoritm är den mycket vanligt förekommande MDCT (Modified Discrete Cosine Transform), som används för tex MP3 och många andra komprimerade format. I huvuddrag innefattar algoritmen sex steg:

 

  1. Audiosignalen delas upp i 32 frekvensband, där varje band filtreras för att reducera vikningsdistorsion (filterbank).
     
  2. Därefter utförs en 1024-punkters FFT. En audiosignal är av naturen i tidsdomänen, men det är i frekvensdomänen man kan se och reducera bort "onödig" data och artefakter.
     
  3. Den psykoakustiska modellen appliceras.
     
  4. Kompression utförs med MDCT.
     
  5. Signalen kvantiseras till vald bitrate och ytterligare komprimeringsrutiner tillämpas exvis Huffmankodning.
     
  6. I sista steget formatteras bitströmmen till frames, med header, error check, audio data och ancillary data. Signalen sparas som en bitström.

 

 

image.png

 

 

Förlustfri komprimering kan minska filstorlek till ca 50%. Gränsen för hur mycket förlustfri komprimering som är möjlig kallas för entropy rate. Gränsen är helt statisitisk och beror på bit-sekvenserna av data. Det går inte komprimera mer än så, men man kan komma nära. För komprimering med förluster kan man minska en fil till 10% av originalfilen, men för audio och bilder är då degraderingen klart märkbar. För video är ganska hård komprimering mindre märkbar.


 

Quote

 

There is no point in dealing with inaudible sounds.

 

Stämmer det?

Och vad innebär "inaudible"?

Hör man inte ett ljud (eller snarare en klangsammansättning) även om man inte kan pinpointa den i ett hörseltest?

 

Link to post
Share on other sites
On 2020-10-18 at 14:33, Amatören said:

Jag tror det finns ett stort intresse "där ute" att få en "komplett" digital-audio-förståelse-bibel

Det måste egentligen ta sitt avstamp i computer audio, dvs mjukvaruspelare, ljudkort, asio o sånt i pc- och mac-världarna.

Jag stöttar den som har lust att ta tag i det till 100%. Med bilder, korrektur eller vad det må vara.

:1952293183_slightlysmilingface:

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...