Р4сп0з_авАаие

четверг, 12 декабря 2013

20:25

DaarkWel

А своп такой огромный, как айсберг в океане!..

Это я с распознавалкой текста играюсь, OCRfeeder (это гуй для нескольких движков распознавания, я пользуюсь tesseract), а он внезапно всю память съел и от свопа немаленький такой кусочек откусил. Впрочем, виновата, возможно, кривенькая пдфка-исходник.

Кстати: тессеракт не будет работать без английских баз, даже если есть любые другие, причём это, как у кодописцев водится, не баг, а фича. Но во многих дистрибутивах жёсткую зависимость между tesseract и tesseract-data-eng не прописали, что стоило мне некоторого количества нервов и времени.

Распознаваю книжку Монтейру Лобату «Сказки тётушки Настасии», которой, как это не странно, в текстовом виде в сети нету. А кривенькую пдфку читать в читалке ваще неудобно...

@темы: книги, linux, софт