Вы можете помочь в распознавании (OCR) либгена
- Для комментирования войдите или зарегистрируйтесь
Stager проработал метод массового распознавания djvu-части либгена, в которой числится приблизительно 80 000 книг без текстового слоя. Вы можете принять участие и помочь в создании коллекции, пригодной для полнотекстового поиска. Страница начинания: http://lbc.rsl.ru/massocr/
Если вы хотите присоединиться к инициативе - вам нужно иметь компьютер под управлением Linux, с установленной программой tesseract для распознавания, ocrodjvu для обработки djvu файлов, и скриптом на python, координирующим работу.
Описание скрипта, инструкции по установке, ссылки на скачивание.
обсуждение на форуме либгена: http://genofond.org/viewtopic.php?p=38917#p38917
Пожалуйста, присодединяйтесь - вместе результат заставит себя ждать возможно не год, а пару месяцев!
идея интересная... а нельзя файнридером распознавать и назад в djvu? хотя... смысл? тогда уж выводить в doc хотя бы... а ссылок на тессеракт на данном сайте нету... вот djvu express 5.5 довольно сносно распознает автоматом (с ОЦРкой от Iris), хотя базы там такие же, как в Iris 12 corporate (такие же кривые)... лучше бы отработать идею подключения баз языков от файнридера, а то слишком много лишней работы получается (импорт в файнридер - распознавание - вычитка - вклейка)
Последние комментарии
15 часов 46 минут назад
18 часов 3 минут назад
1 день 8 часов назад
1 день 8 часов назад
1 день 14 часов назад
1 день 17 часов назад