Joe
Joe - avatar

Sádzanie textu - rozsekané odstavce v PDFkách

Otázočka na sádzačov textu: prečo má veľa PDFiek (v našom kontexte napríklad elektronické verzie pravidiel) tak rozsekané niektoré odstavce?

Väčšina textu tečie v PDFku "prirodzene", ergo nie je problém ju označiť a skopírovať, ale niektoré riadky/odstavce/rámiky sú rozhodené minimálne v poradí (teda po skopírovaní textu z nich sú napríklad prehádzané riadky), alebo pri výbere textu musí človek postupovať po riadkoch, keďže inak sa mu označí aj nechcený text z iných odstavcov/rámikov/atď.

Predpokladám, že je to rozdielnym nalievaním textu medzi textovými rámcami pri sádzaní, prípadne nedodržovanie niektorých konvencií, ale nechám sa poučiť...

Samostatnou kapitolou je neschopnosť skopírovať blok textu bez toho, aby boli riadky porozdeľované tvrdým odriadkovaním (takže ich musí človek stále znovu spájať do ostavcov)... Robí toto nejaký PDF post-processing, ktorý odstavec vždy rozseká podľa aktuálnych riadkov?

---------------
Prekladateľ Joe
2.6.2020 12:27:33 | Upraveno autorem (porovnej)

PDF neni dokument
Duvod je v podstate jednoduchy: PDF neni format, ktery mel primarne slouzit k tomu aby se z nej cokoliv ziskalo zpet.

Je to "obraz" tiskove strany. Jedina podstatna vec je ze se to vytiskne na papir vzdy stejne (tedy alespon vetsinou - to by bylo na delsi rozbor zabyvat se nekompatibilitou PDF pri tisku).

Jediny rozdil vuci "fotce/obrazku" je v tom, ze ta data porad MOHOU BYT ulozena v tom PDF souboru jako jednotlive objekty (obrazky, vektorove obrazce, text nejaky fontem). Ale neexistuje zadny duvod aby to tak program, ktery PDF generuje delal. Klidne tam text muze ulozit jako "krivky" - protoze cilem je to vytisknout, ne kopirovat zpatky z dokumentu.

Rozdil vuci dokumentu ve Wordu je v tom, ze PDF uz prave neni "editovatelne". Dokonce se da digitalne podepsat tak aby byla jistota, ze to je "original".

To, ze obcas je mozne PDF zpetne rozebrat je spise bonus, kdy jsou data ulozena v takove podobe. Pokud tomu tak neni, tak proste ... smula. Je nutne pouzit nejake OCR z obrazku a nebo to rucne opsat :-)

Edit: jeste upresneni k tomu textu:
Text v PDF NIKDY neni tvoren odstavcem. V PDF je v nejlepsim pripade vlozena informace, ze na strance na pozici (X1=100,Y1=100) je text "Ahoj" a pak pozici (X2=100,Y2=200) je text "Lidi". To ze to clovek vnima jako dva odstavce je sice pekne, ale zadna takova informace v PDF neni - takze pak se muze ten kdo cte pokus zamyslet a rict "Y2 je vetsi nez Y1"... to asi bude novy radek, a nebo taky ne.

5.6.2020 13:25:00 | Upraveno autorem (porovnej)

PDF
Záleží z jakého programu bylo PDF exportováno, PDF exportované z InDesignu není problém použít pro kopírování, pokuď byl zdroj dat třeba CorelDraw (hlavně starší verze) tak kopírovat text skoro nejde - při vybírání textu se přeskakují slova a dává to divné výsledky.

5.6.2020 14:27:49

Program
Ano na programu zalezi nejvic a take na obsahu, ktery se tam uklada.

A pokud napr. das export z Photoshopu do PDF a je tam text oznaceny stylem "faux bold" (jakysi falesny bold) tak ono to proste nema moc sanci do toho PDF ten "efekt" nejak rozumne vlozit - a nezbyva nez to tam dat jako obrazek (a taky protoze je to Photoshop, ktery se na tvorbu takovych podkladu v podstate vubec nehodi).

5.6.2020 16:32:10

PDF
Ako bolo povedane, PDF nie je format na podklady pre text. Koniec. Nic viac, nic menej sa s tym neda robit, mozes trpiet ak chces.
Ako DTPakovi, ak mi nejaky amater posle texty v PDF - neriersim a odmietam s tym cokolvek robit.

5.6.2020 16:46:01

PDF
@Isek: áno, ale to je práve dané tým, čo písal robkin

Ja by som len ešte pridal to, že existuje veľa online PDF konvertorov, a každý z nich Ti vyexportuje text z PDF nejak inak, takže dosť často sa stáva, že keď ich použiješ niekoľko, že nájdeš aj taký, ktorý Ti dané PDF prerobí do celkom použiteľného textu... ale áno, nemusí sa to podariť vždy.

5.6.2020 16:51:53

Vybíráme z Bazaru

Reykholt (v angličtině, Uwe Rosenberg)
Reykholt (v angličtině, Uwe Rosenberg)
Akt. cena: 900 Kč
Končí za: 4 dny

Offcanvas