wz
---: ART.SUBS :---   [CZ] ^ [EN]

  [ Jak převést titulky z VOBu do textové podoby (srt, sub, ...) ]  

Pomocí programu SubRip, je možné převést titulky z bitmapového formátu VOBsub, tedy toho, ve kterém jsou titulky uloženy na DVD, na klasické textové titulky formátu srt, sub a další. Převod je založen na metodě OCR (Optical Character Recognition), neboli optickém rozpoznávání znaků, kdy zobrazenému titulku ve formě obrázku přiřazujeme jemu odpovídající textový znak.

Program SubRip není třeba instalovat, stačí jej pouze spustit z vašeho počítače, ke stažení zde.

Osobně doporučuji verzi 1.4 Beta3, která se mi osvědčila jako nejlepší.

Po jeho spuštění se objeví tato obrazovka



Pro otevření titulků umístěných přímo na DVD, případně již uložených z DVD na disk vašeho počítače (soubory SUB + IDX), použijte ikonku umístěnou v levé horní části okna, případně menu "File -> Open VOB(s)".



Nyní se vám otevře toho dialogové okno pro výběr požadovaného titulkového souboru.



Požadovaný soubor vyberete prostřednictvím tlačítka "Open IFO" v horní části okna.



Nyní buď na DVD nebo na vašem pevném disku počítače vyberte požadovaný soubor, v tomto případě soubor s příponou IDX, který chcete převádět a jeho vybrání potvrďte stiskutím tlačítka "Otevřít".



Poté, co potvrdíte vyběr vámi zvoleného souboru, se dialogové okno zavře a vy se opět ocitnete v předchozím okně, kde již ovšem uvidíte v sekci "Vob(Sub) files" vybraný adresář a vámi zvolený soubor, a dále v sekci "Language stream" jazykové verze titulků, které daný soubor odsahuje.



Pro kontrolu a ověření dostupných jazykových verzí titulků stiskněte tlačítko "Verify" v horní části okna.



O dostupných jazykových verzích titulků se můžete přesvědčit rozbalením roletky "Language stream". Zde také případně vyberete jazyk, který chcete dále zpracovávat a jehož titulky chcete ze souboru vytáhnout a uložit jako textové. Jak je patrné z následujícího obrázku, daný soubor obsahuje pouze české titulky.



Nyní se už pouze v pravé horní části okna, konkrétně v sekci "Action", ujistěte, že je pro následnou práci s titulky vybrán převod do textové podoby pomocí metody OCR a je zvolena varianta "SubPictures to Text via OCR".



Vše potřebné je připraveno a vy začnete s převodem titulků stisknutím tlačítka "Start" v dolní části okna.

Nyní se otevře další okno, kde se vás již bude program dotazovat na jednotlivé znaky, které v titulkách detekuje, a bude po vás chtít, abyste ke každému z nich přiřadili příslušný textový ekvivalent. Ten podle zobrazeného zvýrazněného znaku vepíšete do textového pole "Full this (these) character(s)..." a potvrdíte tlačítkem "OK".



Zde by bylo vhodné poznamenat, že na DVD se mohou titulky vyskytovat v různém typu formátování. Text tedy může být zobrazen buď normálně, případně kurzívou či tučně. Před zadáním znaků těchto odlišných typů formátování, vždy zaškrtněte příslušný mód vpravo od tlačítka "OK". Nezapomeňte však, přepnout zpět na normální písmo poté, co již nebudou dotazovány znaky v kurzívě či jiném formátu písma.



Pro názornost je na následujícím obrázku znázorněno zadání znaku titulku zobrazeného v kurzívě.



Jakmile jednou daný znak zadáte, při jeho další detekci se na něj již program nebude znovu dotazovat a automaticky jej přiřadí. O průběhu převodu titulků se můžete informovat v horní střední části hlavního okna programu, kde je procentuální ukazatel již převedených titulků.



Po určité době, kdy programu zadáte drtivou většinu všech znaků, se program může dotazovat pouze na všelijaké patvary, chybně rozpoznané znaky a slitky několika znaků dohromady. Jak se s těmito situacemi vypořádat ukážu na konci tohoto návodu.

Někdy se také může stát, že program není schopný z nejrůznějších důvodů rozpoznat celý zobrazený titulek, natož jeho jednotlivé znaky, a dotáže se na zadání celého zobrazeného textu. V tom případě přepiště do textového pole ručně celý zobrazený text a potvrďte jej tlačítkem "Done" v pravém dolním rohu otevřeného dialogového okna.



Poté, co pomocí programu projedete celý soubor a zadáte všechny znaky a případně i řádky, které se v titulkách vyskytovaly, zobrazí se vám toto dialogové okno.



Nyní je vhodné provést automatické opravy chyb, které mohly převodem titulků nastat. K tomu slouží nástroj programu ke kterému se dostanete přes menu "Corrections -> Post OCR Spelling Correction" nebo prostřednictvím tlačítka situovaném v horní střední části okna. Jedná se o opravy záměněných písmen "I" a "l", malých a velkých písmen, atd.

Otevře se vám nové dialogové okno programu pro automatické opravy chybně detekovaných znaků. Doporučuji zanechat nastavení tak, jak je na následujícím uvedeném obrázku, pouze s tím, že případně vyberete jazyk, pro který jste titulky převáděli. V našem vzorovém případě se jednalo o titulky v češtině, tak zvolíme jazyk český. A to jak v samotném předdefinovaném seznamu jazyků "Czech (Cestina)", tak v roletce položky "Try to correct orthography".



Po nastavení oprav stiskěte v dolní části okna tlačítko "Correct!"

Nyní jsou již opravy provedeny a je možné výsledné titulky uložit do požadovaného textového souboru. Ještě před samotným uložením je ovšem vhodné zvolit si výstupní formát titulků, tedy do jakého vámi preferovaného formátu chcete titulky uložit, zda do srt, sub, či některého jiného. Formát si vyberete v dialogovém okně, které aktivujete přes menu "Output Format -> Set Output Format" nebo prostřednictvím tlačítka .



Já osobně preferuji formát SubRip (*.srt).

Po vybrání vámi preferovaného formátu titulků z nabízeného seznamu a jeho potvrzení tlačítkem "Convert to this Format" v dolní části okna, již opravdu zbývá titulky pouze uložit do samostatného textového souboru. Toho docílíte opět dvěma možnými způsoby, buď přes menu "File -> Save As" nebo prostřednictvím tlačítka v pravé horní části okna.

V případě titulků v češtině, a samozřejmě mnoha dalších jazycích, které mají nestandardní znaky v abecedě, se vás může program dotázat na kódování ukládaného titulkového souboru.



V případě češtiny zvolte možnost "Yes" a uložte titulky v kódování UniCode. Otevře se vám poslední okno programu, ve kterém už pouze stisknete v pravé horní části okna tlačítko "Save" a titulky uložíte na vámi vybrané místo pevného disku.



Po uložení a zavření programu, naleznete ve vámi zvoleném adresáři převedený soubor titulků.





Jak již bylo výše řečeno, po určité době, kdy programu zadáte drtivou většinu všech znaků, se program může dotazovat pouze na všelijaké patvary, chybně rozpoznané znaky a slitky několika znaků dohromady. Zde jsou pro názornost některé z nich, se kterými se při převodu titulků můžete setkat, společně s uvedenými postupy, jak je správně přiřadit. Jedná se o moje vlastní poznatky vycházející z praktických zkušeností.



Někdy program detekuje samotný háček z písmen "ď" nebo "ť" poté, co jste zadali samostatné znaky "d" nebo "t". Zde doporučuji místo háčku zadat do textového pole apostrof a potvrdit jej tlačítkem "OK". Háček bude přiřazen ke správnému písmenu při automatických opravách chyb detekce, které byly popsány již dříve.



Někdy budou současně detekovány dva i více znaků. Jednoduše do textového pole opište všechny zobrazené znaky a potvrďte je tlačítkem "OK".



Někdy program detekuje háček nad písmeny "ť" nebo "ď" až jako součást následujícího znaku. Poté, co jste v předchozím kroce zadali samostatné znaky "t" nebo "d", opište nyní všechny zvýrazněné znaky, místo háčku opět zadejte apostrof, a potvrďte tlačítkem "OK". Háček bude přiřazen ke správnému písmenu opět při automatických opravách chyb detekce. Na tomto obrázku je taky patrné zadávání písma v kurzívě (zaškrtnutá volba Italic), jak bylo popsáno výše.



Stejně tak může někdy program chybně detekovat čárku nebo tečku nad písmenem "i" či jinou samohláskou až jako součást následujícího znaku. V tomto případě doporučuji zadat všechny zobrazené zvýrazněné znaky společně s předcházejícím znakem s diakritikou a takto vyplněné textové pole potvrdit tlačítkem "OK". Chybně detekovaný znak bude v následujícím kroku buď nově detekován jako znak bez diakritiky, v tom případě potvrďte tlačítkem "OK" prázdné nevyplněné textové pole, nebo bude automaticky přiřazen již dříve zadaný shodný znak bez diakritiky. V tomto případě bude posloupnost dvou znaků (první s diakritikou a druhý bez, např. "íi") vyhodnocena pouze jako znak s diakritikou při následných automatických opravách chyb detekce.









Někdy program detekuje diakritiku následujícího znaku naopak dříve a to buď samostatně nebo společně s předchozím znakem. Nejčastěji se jedná o háček nad písmeny "ř", "š", apod., popřípadě tečku či čárku nad písmenem "i". V tomto případě doporučuji zadat všechny zobrazené zvýrazněné znaky společně s následujícím znakem s diakritikou a takto vyplněné textové pole potvrdit tlačítkem "OK". Chybně detekovaný znak bude v následujícím kroku buď nově detekován jako znak bez diakritiky, v tom případě potvrďte tlačítkem "OK" prázdné nevyplněné textové pole, nebo bude automaticky přiřazen již dříve zadaný shodný znak bez diakritiky. V tomto případě bude posloupnost dvou znaků (první s diakritikou a druhý bez, např. "řr") vyhodnocena pouze jako znak s diakritikou při následných automatických opravách chyb detekce.



V případě detekce uvozovek, doporučuji pro každý dotazovaný zvýrazněný znak zadat do textového pole apostrof a potvrdit jej tlačítkem "OK". Každá dvojice takto samostatně zadaných apostrofů bude následně spojena do znaku uvozovek opět při automatických opravách chyb detekce.



Speciálním znakem je symbol procenta "%", který program vždy detekuje na 3 samostatné znaky: levý a pravý „kroužek“ a lomítko uprostřed. V případě detekce tohoto symbolu, doporučuji zadat do textového pole pouze jednou znak "%" při první detekci (levý "kroužek") a při zbývajících dvou detekcích (lomítko a pravý "kroužek") potvrdit pouze prázdné nevyplněné textové pole tlačítkem "OK".



Posledním příkladem, který zde uvedu, je chybná detekce diakritiky (háčku "ˇ" či čárky "´"), která zasahuje až z dalšího řádku titulku. V tomto případě zadejte do textového pole všechny zobrazené zvýrazněné znaky a přidejte k nim nakonec samostatný znak háčku či čárky a tento celý zadaný řetězec potvrďte tlačítkem "OK". Těchto případů většinou naštěstí mnoho nebývá. Zde nezbývá nic jiného než následně otevřít soubor již uložených titulků v některém z textových editorů (např. Notepad) a vyhledat postupně v celém souboru samostatné znaky háčku "ˇ" či čárky "´". V takto nalezených titulcích tyto znaky manuálně smazat a opravit chybějící diakritiku v druhém řádku tam, kde logicky a vizuálně chybí.

Doufám, že se mi podařilo objasnil základní principy, kterými je možné se vypořádat s nejčastěji se vyskytujícími případy, kdy program chybně detekuje zobrazené znaky. I tak vřele doporučuji si po uložení textového souboru titulků tento soubor otevřít v některém z textových editorů a zběžně jej vizuálně prolétnout, zda-li v něm nezůstaly některé nesrovnalosti a pokud ano, tak je následně manuálně opravit.