Automatické opravy titulků

Dlouho jsem přemýšlel, co uděláme s tím, že velká část videí má titulky s chybami.

Zvažoval jsem několik variant, včetně toho, že u videa budou nějaké badge a podobně, jak jste navrhovali.

Jako programátorovi mi to ale nedalo a snažil jsem se vymyslet, jak to zautomatizovat (neuvěříte, jaké skvosty jsou na interntu ke stažení a nikdo o nich neví; od 35 GB korpusu češtiny kde jsou označené věty a každé slovo má otagované mluvnické kategorie, po nějaké docela pokročilé morfologické nástroje.)

No nebudu vás dlouze napínat, výsledek je tohle: všechny poslední revize co máme, se zvýrazněnými návrhy na vylepšení: https://report.khanovaskola.cz/share/korekce.html

Otázka na vás je, co teda s tím chceme dělat. Můžu automaticky opravit slova která mají právě jeden návrh. Bude to chybovat, ale i tak by to myslím bylo ve výsledku lepší. Další možnost, která je sice víc práce – ale přijde mi lepší – je, že udělám (na reportu?) nějaký systém. Asi by to fungovalo tak, že by to zobrazilo velký textový editor a zvýraznilo ty chyby. Byla by tam možnost návrh aplikovat nebo ho nepoužít. Po vyřešení všech návrhů by se to uložilo na amaru a dál by se to na Kš dostalo jako normální revize.

Můžu to také nějak začlenit do reportu, jestli vás napadá jak. Asi mi to dává smysl jenom pro nové revize, resp. u revize zobrazovat u toho nového „zeleného“ případné návrhy na opravu?

4 Likes

To bych nedělal. Je tam mnoho špatného. Třeba celou geometrii by to rázem zkomolilo - úhly BED nebo DBA to opravuje na BĚD a DBÁ atd. Věřím, že by tam po automatické korekci nezůstal jediný úhel dobře :smile:.

To se mi líbí. Ještě bych tam ale doplnil možnost opravit to slovo vstupem editora. Často to v těch ukázkách najde chybu, ale žádné navrhované řešení není dobré.

Já bych to aplikoval zatím úplně na všechny nové revize (s vyjjimkou toho bota, který opravy bude nahrávat z Reportu na Amaru). Pokud video bude hotové, tak zmizí z New v Reportu a zajímat nás nebude. A pokud ano, tak věřím, že těch chyb automatické opravy zase tolik nebude.
Zajímalo by mě ale, zda půjde v jednom zobrazit, jak změny od poslední opravy, tak automatickou korekci. Možná by se tam na to hodil nějaký “switch”.

1 Like

To vypadá velmi dobře. Ještě to zkusím promyslet. Každopádně souhlasím s Otou, zcela automaticky bych to nedělal.

Ještě mě napadlo, dá se ten systém vylepšovat přidáváním slov do slovníku? Tím by se to časem mohlo vylepšovat a postupně tak zvyšovat spolehlivost. Např. teď je v titulcích správně slovo tRNA, ale navrhuje mi to “trna”. Po přidání tRNA do slovníku by bylo vše v pořádku.

Jinak dodávám, že tento systém neřeší zcela špatnou kvalitu titulků. Zbavíme se překlepů, ale to je jen část problému. Mezi jiné problémy patří např. špatné časování, např. že jsou titulky příliš rychlé.

Jinak pokud už by se vymýšlel systém, jak upravovat titulky mimo Amaru, tak bych se zamyslel nad tím, zda potom nedat možnost opravit titulky přímo na KŠ, s tím že by to mohl dělat kdokoli (model Wikipedie). To by nám z dlouhodobého hlediska mohlo dost pomoci. Navíc bychom tím jasně dali najevo, že jsme komunitní web. Myslím, že tohle byla dost důležitá přípomínka na posledníchůzi - v současné době návštěvník moc nepozná, že jsme komunitní web a v principu očekává, že to co tam je, tak je na 100% dobře.

1 Like

Osobně si myslím, že pokud někde chybí háček nebo čárka nad písmenem, je to úplně minoritní problém. Jestli napíšu běžně nebo bežně, když jde o rychlý titulek, polovina lidí si toho ani nevšimne. Myslím, že je fajn o tom vědět, když to takhle máme na jednom místě, ale teď jsem třeba opravovala pár videí, která ani nevím, jak je možné, že se vůbec můžou na ten web dostat. Ale jsou tam, normálně zařazená ve schématu. Špatné časování, chybějící titulky, stylistická pravidla ignorována, zalamování titulků do dvou řádků úplně chybí.

To je podle mě daleko závažnější problém. Neříkám, že těch videí je hodně, u spousty, co teď jedu z webu, jsou úpravy čistě kosmetického rázu. Ale nedivím se, že se nám pak vyčítá kvalita, když se tam objeví taková videa. Řešením by bylo to nějak odlišit na webu, pak je to jasné a nikdo nás nemůže nařknout z něčeho, od čeho se částečně distancujeme (říkám částečně, protože to video je pořád na webu a tím pádem by to mělo být tak, že si za tím stát budeme). Ať už to bude ve stylu odznáčku nebo čehokoliv jiného. Na mě jako na uživatele bude daleko bude příjemněji působit, když se mi tam ukáže něco zeleného, co budu chápat jako “ano, můžu si být jistý, že video neobsahuje chyby a můžu všechno, co je v titulcích přeloženo, brát jako že je absolutně správně”.

2 Likes

Souhlasím, ale asi se shodneme, že dokuď jsou v titulkách tyhle chyby, které jsem napsal – třeba obzvlášt místo obzvlášť, a takhle asi ještě tak dvoutisíckrát – tak nemá cenu opravovat jiné chyby. Tyhle slovníkové jdou opravit za jedno odpoledne a je to chyba, která člověka prašťí na první pohled a zdrtí důvěru, kterou k nám (wishful thinking) měl. Samozřejmě chyby o kterých píšeš jsou pak hned další na řadě.

Myslím si, že nemáš pravdu. Mě do očí taková chyba nepraští, když se snažím v té rychlosti přečíst všechny titulky, pochopit je a ještě k tomu sledovat, co Sal dělá/píše. Ale možná to je prostě jiné vnímání a tebe to naopak praští, nevím… Myslím, že nejdřív se musí co nejdříve vyeliminovat tyhle špatná videa a překlepy se při opravování těhle videí budou opravovat postupně. Ale daleko větší průšvih jsou ta komplet špatná videa, to jsem chtěla říct…

2 Likes

Zautomatizovat opravy překlepů

  • zobrazení v txt editoru se zvýrazněnými chybami + možnost návrh aplikovat / opravit editorem / přidat do slovníku/ nepoužít
  • po vyřešení na Amaru a následné překlopení na KŠ

je velmi užitečná pomoc, která by (doufám) neměla výrazně zdržovat od oprav opravdu špatných překladů (ty by měly mít prioritu, ale automaticky opravit nejdou :frowning: ).

Takže za mě: určitě ano

jen na vysvětlenou:
Amara se stejně jako Khan Academy v čase výrazně mění. Časování překladů před 2-4 lety vypadalo úplně jinak (o hodně hůř). Navíc následné překlady daného videa do jiných jazyků rozhodily časování českého překladu.

Stylistická pravidla neexistovala, zalamování titulků nikdo neřešil (Amara tehdy žádné návrhy kdy zalomit titulek neposkytovala).

Neexistoval Report (vycházela jsem z celkem zoufalé .csv tabulky, co sem tam (nepravidelně) v KA vyprodukovali.

Na “starý web” jsem tak dávala všechny hotové překlady (100%) do kategorií podle Khan Academy.

Nebylo to optimální, ale byla to funkční cesta, jak nějakým způsobem růst a ukázat, že překlady běží (+ na starém webu byla možnost upravit titulky pro každého) pro překladatele i sponzory.

Rozhodně souhlas. Ale stejně jako Petra to vidím jako až druhý problém. Hlavní otázka je podle mě (a asi i Milana a Petry), jak naložit s těmi videi, co jsou hodně špatně (chápu, že je to asi otázka na jiné vlákno). Osobně jsem pro pro nějaký systém, kdy návštěvník ihned pozná, jakou kvalitu od titulků může očekávat.

2 Likes

Přeformuluji: to co říkáte, že je nejdůležitější, jsou samozřejmě velké chyby. Ale opravit gramatické chyby je na jedno odpoledne, takže to uděláme první, protože je to nejvíc zisk za nejmíň práce.

1 Like

Chápu a souhlasím s tím. :thumbsup:
Ale pořád zůstává otázka, jak vyřešit komplet špatná videa na webu. Nepřijde mi jako dobrý nápad je tam nechat jen tak být.

Jj, asi by bylo dobré je minimálně dát jako nedostupná z vyhledávání. Nevím jeslti s tím můžeme ale dělat něco jiného, než je prostě přeložit / opravit / nahradit nějakým lepším videem – je to rozhodně časově hodně náročný, ale co se dá dělat.

Ok, hotovo, prošel jsem to a tímto to asi označuji za uzavřené :smile:

Pro zajímavost: nejčastější chyba byla z nějakého důvodu tučnák (vs tučňák). Asi měl ten člověk obtíže napsat ň…

4 Likes

Celý víkend jsem byl fuč, tak mě čekalo velmi milé překvapení. Koukal jsem na opravy a jsou super :smiley: !

Skvělý, úžasný…až na jednu drobnost (omlouvám se, nechci být škarohlíd :smile:)

Pokud to dobře chápu, tak jsi toho bota aplikoval i na revize, které byly v kategorii New na reportu a které třeba ještě vůbec nebyly Approved a nejsou ani na KŠ. Mě třeba zmizelo 16 videí chemických kvůli tomu. U té chemie bych si to nějak mohl zpětně dohledat, ale v celé kategorii New byla spousta videí.

Jedno z řešení by bylo, kdybys někde hodil tabulku, kde bys vypsal videa, které nebyly Approved před Grammar Botem.
Uživatelsky přijemnější by bylo, kdyby se ty videa daly všechny nějak zpět do kategorie New na reportu.

EDIT: Ještě tam může být problém v tom, že pokud se dalo approved video, které nebylo kompletní, tak se přestane zobrazovat v sekci Translate…

Díky za upozornění, vím o tom a měl jsem naplánované řešení, ale původně jsem čekal, až report natáhne všechny změny. Pustil jsem to ale rovnou teď. Řešení je, že tyhle revize přejímají stav poslední revize před tím.

1 Like

This topic was automatically closed after 45 hours. New replies are no longer allowed.