Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро [TWDragon] (fb2) читать постранично, страница - 5
[Настройки текста] [Cбросить фильтры]
2.3 Опции обработки
Когда все границы выставлены как положено, приходит время расстановки опций. Встряхнитесь, ибо тут нужно предельное внимание – даже один неверный шаг наверняка будет стоить вам потраченных нервов и процессорного времени. Итак, перед нами секция опций программы ScanKromsator. Помните, что большинство выставляемых опций относятся только к выбранной странице! Чтобы распространить устанавливаемую опцию на все страницы, нужно при включении флажка или щелчке на кнопке держать нажатой клавишу Ctrl! Начнем с вкладки Page и пройдем по опциям последовательно слева направо. Уже упомянутый флажок Split отвечает за разбиение на страницы. Флажки Deskew (выровнять) и Despeckle (очистить от мусора) установлены по умолчанию для всех страниц. Флажки Art (свободный наклон) и Ortho (принудительный поворот) задают специальное выравнивание страницы. В подавляющем большинстве случаев можно обойтись без них. Группа параметров Page align (выравнивание текста) сообщают программе о типе верстки страницы. Буква А в списках означает автоматическое детектирование верстки. Практически для любой книги (если только это не зоологический справочник с обилием таблиц, вклеек и разной версткой по разделам) выравнивание текста по горизонтали следует выставить по центру («С»), а вертикальное – автомат («А»). Вертикальное выравнивание стоит устанавливать только для страниц, имеющих явно нестандартную верстку (например, когда в текст книги включаются формы документов, выровненные посередине высоты страницы).Вкладка Book.
На этой вкладке задаются единицы измерения (Units), величины добавляемых полей (Gaps) и размеры выходного изображения. Особое внимание стоит уделить полям Gap value (ширина поля). При обработке ScanKromsator добавит белое поле именно такой ширины в изображение страницы. Величину добавляемых полей можно установить в интервале 180-250 в зависимости от изначальной ширины полей книги. Флажок vert.gap = hor.gap уравнивает ширину горизонтальных и вертикальных полей. Остальные параметры можно не трогать, кроме флажка Merge pages after split (объединить после разбиения). Этот флажок пригодится, например, когда книга готовится к печати полными разворотами на листах альбомного формата (так иногда собирают дубликаты в библиотеках). Если этот флажок установлен, на выходе вы получите страницы с полями, склеенные по переплету.
Вкладка Files
На этой вкладке в поле Output folder (папка назначения) задается имя папки для выходных файлов, а в поле Ouput Prefix (префикс имени выходного файла) можно ввести «добавку» к имени файла, которая позволит отличить «сырые» сканы от обработанных. Параметры Start from / Step (Начальный номер/шаг) задают именование выходных файлов. Особого внимания заслуживает группа параметров Ouput Format (выходной формат). В первом по счету списке выставляется формат упаковки TIFF-файла (уже упомянутый TIFF Uncompress). Следующий список задает разрешение вывода (DPI). Здесь нужно ОБЯЗАТЕЛЬНО выставить 600 dpi! Это включит оверсемплинг и облегчит в дальнейшем задачу распознавания, сжатия и печати.
Зачем нужен оверсемплинг? При распознавании текста программа «оконтуривает» символы по их контрасту с окружающим полем страницы. Затем полученные контуры сравниваются с эталонными, содержащимися в языковой базе данных. Если процент сходства достаточно велик, контур признается распознанным как тот или иной символ шрифта. В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту «бумажного» символа придется ровно вдвое больше пикселов
Последние комментарии
1 день 11 часов назад
1 день 12 часов назад
1 день 13 часов назад
2 дней 27 минут назад
2 дней 44 минут назад
2 дней 1 час назад