Criando lindos PDFs a partir de livros ou xerox

Quem nunca foi salvo por um PDF para estudar na universidade?

Quem costuma estudar por PDFs deve estar acostumado a encontrar PDFs de toda qualidade. Desde aqueles que são nada mais que fotos grosseiras e desfocadas de um xerox de 2 páginas lado-a-lado até aqueles que cada página está visível e bem enquadrada (para ler num e-reader) e podemos selecionar/copiar/colar o texto com o mouse.

Veremos aqui como fazer PDFs desse último tipo.

Não é difícil nem muito trabalhoso fazer bons PDFs, mas como daremos preferência, em primeiro lugar, à software livre, e, em segundo e desesperado lugar, ao software grátis, nosso fluxo de trabalho será dividido entre GNU/Linux e Android.

No GNU/Linux iremos escanear, recortar e montar o PDF (usando apenas ferramentas livres).

Infelizmente, não conheço uma boa ferramenta de OCR (O ptical C haracter R ecognition) para GNU/Linux. A consequência é que podemos fazer nesse sistema operacional um PDF de lindas páginas bem recortadas mas não um PDF que maravilhosamente reconheça/selecione/copie/cole linhas de texto.

Portanto, a parte do OCR será feita via Android. Se você não faz questão de selecionar/copiar/colar o texto, pode ignorar a parte do Android.

0. Pré-requisitos

  1. Computador com GNU/Linux.
  2. Scanner.
  3. Smartphone com Android.

1. Escaneando (via GNU/Linux)

O aplicativo utilizado será o software livre gscan2pdf.

  1. Após abrir o aplicativo, vá em “Arquivo” → “Digitalizar”.

  2. Utilize as seguintes configurações:

    • Em “Modo de digitalização”:
      • “Modo de digitalização”: “Linhas”
      • “Resolução de digitalização”: “300” dpi (é a resolução recomendada para OCR)
    • Em “Opções de página”:
      • Em “Pós-processamento”, mantenha desmarcada a opção “Imagens digitalizadas com OCR” (faremos isso de forma superior via Android).
      • Em “Pós-processamento”, se desejado, as imagens podem ser automaticamente rotacionadas em “Girar”. (Algo opcional, pois podem ser rotacionadas posteriormente).
      • Se desejado, salve a presente configuração em “Perfis de digitalização” com um nome do tipo “Texto sem OCR”.
  3. Pressione “Digitalizar” e escaneie todas as páginas desejadas.

    Caso tenhas escaneado 2 páginas de cada vez (lado-a-lado) ou, simplesmente, que deseje recortar a página para um tamanho menor … podemos usar a ferramenta “Cortar”. No primeiro caso, é importante recortar para que o OCR analise o conteúdo de texto de cada página sem misturar as páginas. E em ambos os casos, é vantajoso recortar para que o conteúdo caiba em pequenos dispositivos (como leitores de ebook).

  4. [OPCIONAL] Recortando as páginas todas com o mesmo tamanho:

    Há duas situações em que recortar as páginas é extremamente útil.
    A primeira é quando o material escaneado é composto por folhas contendo duas páginas.
    A segunda é quando a página possui grandes margens que tornam a leitura inadequada em e-readers.
    Para ambos os casos, podemos seguir os passos abaixo:

    1. [OPCIONAL] Caso exista mais de uma página por folha escaneada:
      Vá na lista de folhas (coluna da esquerda) e com um “Ctrl + C”/“Ctrl + V” duplique as folhas.
      Isso porque a página recortada substitui a folha escaneada … e se temos mais de uma página por folha, necessitaremos de tantas cópias de folha quanto páginas ela contenha.

    2. Vá em “Visualizar” → “Selecionar” e faça um molde de corte que acomode de forma “justa” a página.
      [DICA] Escolha uma página de texto padrão para usar seu futuro corte como molde para todas as páginas.
      (Normalmente, páginas de capa, sumário, etc., não são bons moldes. Páginas de texto de meio de capítulo são boas pois usam todo o espaço possível e, portanto, não corremos risco de fazer um molde de corte menor que o necessário.)

    3. Vá em “Ferramentas” → “Cortar”:

      1. “Seleção de páginas” → “Selecionado”.
      2. Pressione “Aplicar”. Pronto!
      • Caso o corte seja exatamente o mesmo em diversas folhas:
        basta selecionar todas as folhas desejadas antes de utilizar a ferramenta “Cortar”.
      • Caso o corte algo seja diferente em cada página:
        Pelo menos, cortamos a primeira de nossas páginas e temos um molde!
        Para as próximas páginas:
        1. Clique na próxima página da lista.
        2. Acomode o molde de corte na área desejada.
        3. Repita o passo de ir em “Ferramentas” → “Cortar”, “Aplicar”.
  5. Salvando

    • Se não necessitamos de OCR:
      basta salvarmos o PDF e pronto (já pode aproveitar o dia)!
      Vá em “Arquivo” → “Salvar”:
      1. “Seleção de páginas” → “Todos”
      2. “Tipo de imagem”: “PDF”
      3. [OPCIONAL] “Document Metadata”: Preencha os dados desejados (útil para uso em e-readers)
      4. Pressione “Salvar”
    • Se necessitamos de OCR:
      salvaremos todas as páginas no formato “PNG” para continuar no Android (próxima seção).
      1. “Seleção de páginas” → “Todos”
      2. “Tipo de imagem”: “PNG”
      3. Pressione “Salvar”

2. OCR (via Android)

O aplicativo utilizado será o software proprietário mas grátis Adobe Scan.

  1. Torne os PNGs acessíveis para seu Android.
    Eu fiz isso via Google Drive, mas podemos simplesmente copiar as fotos via cabo USB, etc.
  2. Abra o aplicativo Adobe Scan e pressione “X” para sair do modo de captura de imagem.
  3. Vá em “Digitalizações”, “+”, “Digitalizar usando Fotos”, “Mostrar todas as fotos”. Localize os PNGs do texto e importe.
    • Antes de importar as imagens, ordene elas por ordem alfabética.
    • Caso o texto tenha mais de 25 páginas, será necessário criar PDFs de 25 em 25 páginas e juntá-los depois no gscan2pdf (GNU/Linux). Isso pq a Adobe não permite utilizar OCRs para quantidades maiores de páginas.
    • Provavelmente as páginas estarão fora de ordem, há um ícone na interface que permite ordenar manualmente. Opcionalmente, podemos abrir o PDF no gscan2pdf (GNU/Linux) e reordenar (para muitas páginas é mais prático e rápido).
  4. Clique em “Salvar PDF”. Será gerado um PDF com OCR.
    (Não esqueça de enviar o PDF para algum lugar ou acessá-lo via https://cloud.acrobat.com/recent)
    • Se seu PDF possui menos de 25 páginas e você ordenou as páginas no Adobe Scan, parabéns, é fim de caminho.
    • Caso contrário, devemos fazer as últimas edições via no GNU/Linux.

3. [OPCIONAL] Últimos ajustes (via GNU/Linux)

Obs: O gscan2pdf também faz todas as funções listadas abaixo mas aparentemente os PDFs gerados no Adobe Scan tem algum grau de incompatibilidade com o mesmo e ao utilizarmos o gscan2pdf nesses arquivos ocorre uma piora do OCR da Adobe (linhas ficam levemente deslocadas, quebras de linhas inesperadas, etc.). Por isso, recomendo evitarem o gscan2pdf e utilizarem as ferramentas abordadas abaixo.

3.1. [OPCIONAL] Reorganizando a ordem das páginas

Caso seu texto esteja com as páginas fora de ordem:

Com o PDF Mod

Basta abrir o PDF e ir arrastando as páginas para a ordem desejada.

Com o gscan2pdf (veja a ressalva)

  • para poucas páginas: arrastar e soltar na coluna da esquerda.
  • para muitas páginas (e quando sabemos o número delas): definir o número de cada página.
    Com isso, a página vai automaticamente para sua posição correta.
    Para numerar uma página (ou várias), selecione na coluna da esquerda e com o botão direito do mouse escolha “Re-numerar”:
    1. “Seleção de páginas” → “Selecionado”
    2. “Iniciar”: “Número da página”
    3. “Clique em Renumber”

3.2. [OPCIONAL] Juntando PDFs

Caso seu texto possua mais de 25 páginas, a Adobe infelizmente exigiu que você gerasse mais de um PDF para utilizar o OCR deles. Então, vamos juntá-los! Faremos isso através do PDF Mod:

Abra o último PDF no PDF Mod e vá adicionando os PDFs em ordem decrescente. Para adicionar um PDF: “Arquivo” → “Inserir de…”.

Seguir a ordem decrescente é necessário porque cada novo PDF inserido tem suas páginas colocadas no início do PDF final.

Pronto, temos todas as páginas reunidas e prontas para serem salvas num único PDF.

Obs: O gscan2pdf também faz essa função porém temos essa ressalva.

3.3.[OPCIONAL] Recortando as páginas

Sim, ensinamos como recortar páginas acima com o gscan2pdf (já falei na ressalva?). Ensinaremos aqui a fazer o mesmo com uma ferramenta alternativa chamada PDF-Shuffler (também é software livre).

A maior motivação para usar essa ferramenta é que ela é muito mais rápida para abrir PDFs com grande quantidades de páginas (casos em que o gscan2pdf demora muito e pode até travar).

O crop é prático especialmente quando todas as páginas tem as mesmas regiões em branco. Pode-se aplicar um mesmo crop a todas as páginas desejadas. É prática para xerox contendo 2 páginas por folha (primeiro aplicamos um crop de “50% à direita” para pegarmos a página da esquerda, depois um crop de “50% à esquerda” para pegarmos a página da direita).

Como fazer:

  1. Abra o arquivo no “PDF-Shuffler”.
  2. A opção está em EditCrop.
    Embora não possua preview antes da operação, podemos ver se o resultado agradou e caso negativo, reaplicar a operação (pois essa não é cumulativa - aka, um crop posterior substitui o anterior).

Obs: Os metadados serão apagados ao salvar. Teremos de usar uma ferramenta como o PDF Mod para adicionar novamente os metadados.

3.4. [OPCIONAL] Definindo metadados (Título, Autor, Assunto, Palavra-chave)

Podemos utilizar o software livre PDF Mod para definir os metadados. Com ele podemos editar os metadados: Título, Autor, Palavras-chave, Assunto.

Isso é muito útil quanto temos um PDF com metadados incorretos e que por isso dificultam seu uso em e-readers.

Para isso, basta:

  1. Abra o arquivo no “PDF Mod”.
  2. A opção está em ArquivoPropriedades.

(Outra alternativa mais flexível e poderosa que o PDF Mod é o utilitário de linha de comando exiftool, mas isso fica para outro post.
Ah, um exemplo rápido: $ exiftool -Title="As estrelas descem à Terra" -Author="Theodor W Adorno" -Subject="Sociology" -Keywords="Sociology, Astrology" Livro_do_Adorno.pdf)

Conclusão

Com o passo-a-passo acima temos os meios para gerar bons PDFs sem gastar nenhum tostão.
Eles são adequados para ler em e-readers e para marcarmos o texto com anotações e destaques.