Les bases de la vidéo
Pour essayer de comprendre comment la vidéo est stockée et affichée, nous devons revenir dans le temps et jeter un oeil sur une technologie vraiment dépassée : la télévision à tube cathodique. Sans donner un cours de physique, un tube TV est un gros morceau de verre sous vide. Dedans nous avons une cathode émettant des électrons quand on la chauffe (c'est pourquoi cela prend du temps avant que l'image ne s'affiche sur votre TV, la cathode a besoin d'être chauffée à la bonne température pour émèttre des électrons). Il y a aussi un puissant champ électromagnétique qui accélère les électrons vers le devant du tube et ce même champ électromagnétique est aussi utilisé pour positionner le faisseau d'électrons (il y a beaucoup d'électrons émis vers le devant du tube). Le devant du tube est enrobé de phospore et quand les électrons le frappe il y a une émission de lumière de l'autre coté (c'est le côté duquel vous regardez). En dessous vous pouvez voir un schéma d'un CRT (Cathode Ray Tube).
When trying to understand how video is being stored and displayed we have to go back in time and look at a very outdated technology: The cathode ray tube television. Without giving a physics course a TV tube is a big piece of glass and no air inside. Inside we have a cathode emitting electrons when you heat it up (that's why it takes a while for the picture to show when you turn on your TV, the cathode first has to be heated up to the appropriate temperature to emit electrons). There also is a strong electromagnetic field which accelerates the electrons towards the front of the tube and the same electromagnetic field is also used to position the electron beam (there's a lot of electrons being fired towards the front of the tube). The front of the tube is phosphor-coated and when electrons hit it light will be emitted on the other side (that's the side where you're sitting on). Below you can see a schematic of a CRT.
Au début les TV étaient seulement en noir et blanc donc un seul faisseau d'électrons suffisait. Maintenant, pour afficher une image vous devez l'écrire sur tout l'écran donc le faisseau d'électrons doit balayer l'écran en entier. La fréquence de balayage est aussi connue sous le nom de taux de raffraichissement. Le taux de raffraichissement a été choisi suivant les systèmes électriques utilisés : l'Amérique du nord et une partie du Japon utilisent du 60 Hz, l'Europe, le moyen orient et une partie de l'asie utilisent du 50 Hz.
At first TVs were only black and white so one electron beam was enough. Now, in order to display a picture you have to write it all over the screen so the electron beam has to sweep over the whole screen. The sweeping frequency is commonly known as refresh rate. The refresh rate was chosen according to the cycles of the electric systems being used: North America and part of Japan use 60 Hz, Europe, the middle East and parts of Asia use 50 Hz. This resulted in 2 competing TV systems:
NTSC : National Television Standard Committee. Aussi appelé Never The Same Color parce que jamais deux images NTSC ne sont identiques. Les système NTSC a 525 lignes horizontales dont environ 487 peuvent petre vues à l'écran et a un taux de rafraichissement de 60 Hz entrelacé (j'y reviendrai plus tard).
NTSC: National Television Standard Committee. Also nicknamed Never the same color because no two NTSC pictures look the same. The NTSC system has 525 horizontal lines of which roughly 487 can be seen on screen and has a refresh ratio of 60 Hz interlaced (I'll get to that later on).
PAL: Phase Alternating Line. Le système PAL a 625 lignes horizontales dont environ 540 peuvent être vues à l'écran et a un taux de rafraichissement de 50 Hz entrelacé.
PAL: Phase Alternating Line. The PAL system has 625 horizontal lines of which roughly 540 can be seen on screen and a refresh ratio of 50 Hz interlaced.
SECAM: Système Electronique Couleur Avec Mémoire. Le système SECAM a 625 lignes horizontales et a un taux de rafraichissement de 50 Hz entrelacé. Il est utilisé en France, dans les anciennes colonies françaises et dans quelques pays d'Europe de l'est.
A l'époque où la TV est entrée sur le marché, la technologie pour écrire 525 ou 625 lignes (respectivement 60 et 50 fois par seconde) était vraiment chère et non adaptée au marché de masse. Réduire la fréquence de raffraichissement aurait requis encore plus de circuits compliqués et n'était pas envisagable - en plus le cerveau humain a une limite inférieure en dessus de laquelle il reconnait un mouvement comme fluide. Mais les ingénieurs ont eu une idée : et si nous n'écrivions que les lignes paires pendant une balayage et les autres pendant le balayage suivant ? En faisant cela nous n'avons besoin respectivement que de 25 et 30 images par seconde (sachant que moins de bande passante utilisée veut dire plus de chaînes de TV dans la même plage de fréquences, et l'oeil humain trouvera le mouvement encore assez fluide. Cette idée de séparer l'image en deux est devenue connue sous le nom d'entrelacement et les parties de l'image connues sous le nom de champs. En représentaion graphique, un champ est simplement une image dont une ligne sur deux est noire (ou blanche comme vous voulez). Mais voici une image afin que vous vous imaginiez mieux ce qui se passe :
Now, at the time when TVs first came to the market the technology to write 525 or 625 lines 60 respectively 50 times per second was prohibitively expensive and not suited for the mass market. Reducing the refresh ratio would have required more complicated circuits and wasn't an option either - plus the human mind has a lower limit as to what it accepts as fluent motion. But the TV engineers had an idea: What if we only wrote every second line of the picture during a sweep, and wrote the other half during the next sweep? Doing that we only need 25 respectively 30 pictures per second (meaning less bandwidth used meaning more TV stations in the same frequency band), and the human eye will still accept it as fluent motion. This idea of splitting up the image into two parts became known as interlacing and the splitted up pictures as fields. Graphically seen a field is basically a picture with every 2nd line black (or white, whatever you like better). But here's an image so that you can better imagine what's going on:
Pendant
le premier balayage le champ du dessus est affiché à l'écran.
Comme vous pouvez le voir, la première, 3ème, 5ème, etc.
ligne est affichée et après chaque affichage le faisceau d'électrons
revient sur la gauche avant l'affichage de la prochaine ligne.
Comme vous pouvez le voir sur la gauche l'image a un effet "peigne", c'est comme si vous la regardiez à travers un peigne. Quand les personnes font référence à des artéfacts d'entrelacement ou disent que leur image est entrelacée c'est ce à quoi ils font référence en général.
Une fois que toutes les lignes impaires ont été affichées
le faisceau d'électrons revient en haut à gauche de l'écran
et commence à afficher les lignes paires. Comme le phosphore met un temps
avant d'arrêter d'émèttre de la lumière et comme
le cerveau humain est trop lent, au lieu de voir deux champs nous voyons une
combinaison des deux champs - en d'autres mots l'image originale.
Quand la TV est devenue couleur la technologie d'entrelacement est restée
la même, mais un CRT plus sophistiqué était requis. Au lieu
d'émèttre juste un seul faisceau d'électrons, trois faisceaux
(bleu, vert et rouge) sont émis. Quand vous placez des points de différentes
couleurs assez près les uns des autres, l'oeil humain ne a plus voir
ces points inviduellement mais un seul point et va ajouter les couleurs pour
créer une nouvelle couleur. Ci-dessous vous trouverez un schéma
d'un CRT couleur.
Les TV utilisent un système de couleur additif pour afficher toutes sortes de couleurs. Pour plus d'informations sur le mélange de couleurs additif référez-vous aux bases de l'imagerie digitale EPICentre.
Dans le monde NTSC le passage vers la couleur a requis un autre changement : la fréquence de raffraichissement a due être légèrement diminuée de 60Hz vers 59,97Hz (resultant à 29,97 images par seconde) pour accomoder les couleurs - c'est pourquoi aujourd'hui nous avons des fréquences de rafraichissement étranges dans le monde NTSC.
Maintenant avant que nous poursuivions sur comment ils filment les films Hollywoodiens, jetons un coup d'oeil sur les moniteurs PC. Les écrans PC CRT traditionnels sont fondamentalement différents des TV. Quand les PC sont arrivés sur le marché il était enfin possible d'afficher une image entière par balayage - aussi connu sous le connu de balayage progressif. Les premiers moniteurs PC supportaient encore les modes entrelacés mais le constraste plus élevé et les fonds d'écrans clairs nous donnaient de tels maux de têtes qu'heureusement aujourd'hui la plupart des écrans ne supportent plus le mode entrelacé. Aujourd'hui tous les écrans de PC affichent une image comme ceci :
Récemment il est apparu des TV supportant le balayage progressif. Ces modèles sont très rares et requièrent que vous les alimentiez avec des signaux d'entrée différents de ceux traditionnellement utilisés pour connecter votre magnétoscope, lecteur DVD ou camescope à la TV. Les écrans LCD et plasma ne peuvent afficher que du progressif - quand vous les alimentez en entrelacé il vous faut utiliser quelques astuces techniques pour obtenir une image décente. Ces techniques sont souvent appelées désentrelacement.
Un dernier mot à propos des TV avant que nous continuions : comme vous vous en rappelez peut-être les vielles TV avaient des tubes qui étaient loins d'être plats. Comme il est de plus en plus difficile d'afficher une image précise et géométriquement exacte plus vous vous éloignez du centre du tube (le point où le faisceau d'électrons irait percuter le phosphore si il ne subbissait aucune déviation). Même aujourd'hui vous ne voyez pas le tube complet, les derniers centimètres sont cachés derrière la coque du téléviseur. C'est pour cette raison que les deux formats TV ont plus de lignes que vous pouvez en voir, le reste des lignes sont et seront toujours cachées. Mais ces lignes sont quand même utilisées : les chaînes TV transmettent le télétexte dans ces lignes, elles peuvent contenir un signal qui perturbe le contrôle automatique du gain de votre magnétoscope (le système analogique de protection anti-copie Macrovision), etc.
Avant que nous discutions de désentrelacement, il y a une ou deux choses que vous devriez savoir sur comment les films sont tournés.
La plupart des films destinés à être projetés en salle sont filmés sur un pellicule similaire à ce que l'on utilise pour la photographie traditionnelle. Dans une seconde, 24 images sont prises. Donc, théoriquement vous pouvez tourner un film avec votre appareil photo, à cela près que vous devrez changer de pellicule toutes les 1 à 1,5 secondes (et en général les appareils photo ne supportent pas de prendre 24 photos par seconde). Quand nous regardons ces films au cinéma nous regardons 24 photos (aussi appelées images) par seconde. Mais quand nous achetons ces films sur VHS ou DVD pour les regarder sur nos TV pourries nous avons un problème. Les écrans PAL requièrent 25 images par seconde et chaque image doit être séparée en deux champs. Mais comme 24 n'est pas si loin de 25 ce que l'on fait en général dans les pays PAL c'est que nous prennons le films original en 24 ips (images par secondes) et l'accélérons à 25 ips. Cela veut dire que les voix et la musique sont un peu plus aigues et que le film est un peu plus court mais sauf si vous faîtes une comparaison, presque personne ne le remarque.
Maintenant interessons-nous au NTSC. Ici nous avons besoin de 29,97 ips. Accélérer le film n'est pas possible parce que le différence est trop grande pour passer inaperçue. Donc, ce qui est fait c'est qu'après la séparation des images en champs, certains champs sont répétés afin d'obtenir une fréquence d'images plus élevées. En gros, 4 images sont transformées en 10 champs comme montré ci-dessous :
Donc,
comme vous pouvez le constater, contrairement à ce que vous pensiez peut-être,
une fréquence d'image plus élevée ne veut pas dire un mouvement
plsu fluide - au contraire NTSC est un peu plus saccadé puisque certains
champs sont affichés 2 fois (le premier champs de l'images 2 et le premier
champs de l'image de l'image 4).
Sur la TV ce n'est pas très important car la piètre qualité nous empêche de remarquer que quelquechose ne va pas. Mais les choses changent quand on passe en progressif.
Pour afficher des choses en progressif votre écran ou votre lecteur doit transformer l'image entrelacée en progressif. La façon la plus simple est de combiner les champs.
Des 10 champs vous placez les deux premiers ensembles pour reconstruire l'image 1. Mais quand vous placez le 6ème et le 7ème champs ensembles vous n'obtenez ni l'image 2 ni la 3. Ce n'est pas si grave si il n'y a pas eu de changement de l'image 2 à l'image 3, mais si la caméra bouge vous verez des peignes dans l'image. Et cela peut être pire. Imaginez qu'il y ait une coupure entre les deux images et que l'image 3 affiche une scène complètement différente de l'image 2. Si vous commbinez un champs d'une scène avec un champs d'une autre scène vous obtenez un vrai désastre. Donc, en combinant les champs en images, vous obtiendrez 2 images sur 5 qui seront très probablement endommagées, nous avons aussi une fréquence d'images de 29,97ips au lieu de la fréquence originale du film. Maintenant, si nous savons comme le processus fonctionne nous pouvons simplement le défaire en écartant les champs dupliqués. Ce processus est appelé IVTC - InVerse TeleCine (d'où le processus d'insertion de champs dupliqués s'appelle TeleCine). Il y a deux bons articles qui expliquent TeleCine et IVTC de façon plus détaillée : problèmes de synchro Video et Audio par Robshot qui explique en détail la création de contenu TéléCine et Force Film, IVTC, et Désentrelacement - ce qu'essaie de vous dire DVD2AVI et ce que vous pouvez en faire par hakko504, manono and jiggimi. Il y a aussi mon propre guide sur Decomb, probablement l'utilitaire IVTC le plus populaire.
Maintenant que nous en avons terminé avec l'IVTC, interessons nous plus en détail au désentrelacement. Premièrement, laissez-moi vous présenter le problème encore une fois :
Premièrement nous avons deux champs d'une scène d'une vidéo entrelacée :
Comme vous pouvez le constater - pas d'artéfact visible. Maintenant l'image correspondante :
En
dépit de la mauvaise qualité du JPEG vous pouvez voir qu'il y
a quelques lignes entrelacées visibles, plus particulièrement
sur les habits et les bras du type.
Et voici un exemple encore pire où nous avons un champ provenant d'une
scène et un deuxième champ d'une autre scène :
Et l'image correspondante :
Comme
vous pouvez le voir, c'est quelque chose que nous voulons éviter. Ce
qui est intéressant aussi c'est que la taille de cette image est trois
fois plus importante que les autres et elle est pire.
Ceci explique aussi pourquoi stocker des images entrelacées en mode progressif est une mauvaise idée. Les lignes prennent trop de place.
Le VCD et les codecs MPEG-4 courants (sauf XviD et DivX) ne supportent que le mode prograssif. Donc stocker quelque chose d'entrelacé comme ce qu'il y a sur la gauche en utilisant ce genre de technique de compression n'est pas très efficace et nous rechercherons plutôt des moyens de transformer la vidéo entrelacée en progressif de façon plus efficace que de juste combiner les 2 prochains champs en image.
Le MPEG-2 et le MPEG-4 advanced simple profile ont un mode entrelacé spécial. Dans ce mode toutes les lignes d'un champs sont prises en compte ensembles (enlevant les blancs) et compressés comme cela ce qui économise beaucoup de bits qui autrement seraient gâchés à stocker les lignes manquantes.
Une dernière remarque sur ces captures d'écran : comme cela a été pris d'un DVD entrelacé et stocké en mode entrelacé les capturés des champs ont dues être étirées à leur taille originale (rappelez-vous qu'en mode entrelacé nous encodons seulement les lignes actuelles et ne prennons pas en compte les lignes vides) - en réalité les champs seraient verticalement deux fois plus petits que les images.
Maintenant que nous avons exposé visuellement notre problème,
jetons un coup d'oeil sur les solutions possibles. Prendre les deux premiers
champs et les combiner en image n'est pas toujours possible. C'est particulièrement
vrai quand vous travaillez sur du contenu qui a été édité
quand il était déjà en mode entrelacé (c'est aussi
le problème numéro un quand on essaie d'appliquer l'IVTC, particulièrement
avec les dessins animés qui sont coupés après avoir appliqué
TeleCine à des parties du film ce qui aboutit des problèmes IVTC
presques insolubles).
Une façon simple et rapide de se débarasser de ces problèmes d'entrelacement serait de redimemensionner les champs à la taille d'une image (rappelez-vous que les champs sont verticalement deux fois plus petits qu'une image) et se jeter tous les second champs. Cette méthode est utilisée quand vous sélectionnez Separate Fields dans GordianKnot. Mais comme un champ a seulement la moitié de la résolution verticale d'une image nous abandonnons l'autre moitié de la résolution verticale.
Maintenant interessons nous à d'autres techniques de désentrelacement :
Weave : Prend 2 champs consécutifs et les place dans une image. Cela réduit la fréquence d'images par deux mais ne résoud pas les problèmes montrés ci-dessus, l'image qui a des champs de deux scènes supperposées reste la même.
Blending : Ici nous prennons deux champs consécutifs, les redimensionnons à la taille d'une image, puis les appliquons l'un sur l'autre. Si il n'y a pas de mouvement cela parait parfait mais dès qu'il y a du mouvement cela commence à paraitre peu naturel et peu précis et peut laisser des "traînées de fantômes"
Bob : Avec bob vous agrandissez chaque champ à la taille d'une image et l'affichez deux fois. Comme le premier et le second champ ne démarrent pas exactement dans la même position l'image bouge de haut en bas ce qui donne un léger tremblement dans les scènes stationnaires.
Il y a encore quelques méthodes, comme le désentrelacement basé sur des zones, motion blur et de désentrelacement adaptatif. Chacun a ses pour et ses contre. 100fps.com a une bonne comparaison sur toutes les méthodes incluant de bons exemples qui vous montrent les effets de chaque filtre et a une matrice de comparaison de fonctionnalités. Le site vous guide aussi pour créer de vraies vidéos progressives à 50ips à partir de sources entrelacées. Si ce site vous fait trop à lire (je doute qu'un lecteur de Doom9 ne dise jamais cela mais on ne sais jamais) les désentrelaceur basé sur des zones de Gunnar Thalin et DeinterlacePALInterpolation qui est basé sur le filtre de Thalin sont de bonnes soltutions quand vous avez besoin de sortie à 25ips. Il y a aussi Decomb's field deinterlace qui semble être efficace.
Avant de désentrelacer, essayez d'échanger d'abord l'ordre des champs. DVD2AVI a une fonction pour cela Video - Field Operations - Swap Field order) et la fonction SwapFields d'AviSynth fait de même. Souvent cela peut résoudre vos problèmes d'entrelacement, spécialement quand le film principal apparait être entrelacé.
Mots de la fin : Ce n'est en aucun cas une description technique complète et je l'ai écris en essayant de me rappeler les cours de physique et de compression vidéo que j'ai pris au collège et au lycée. J'espère que ma mémoire n'a pas trop flanché.
Traduction le 25/04/03 par DonHora | Last update : ![]() |
Dernière mise à jour : ![]() |