Eliminación Automática de Cabeceras y Pies de Página en Archivos PDF con Python

En el manejo de documentos PDF, es común encontrarse con la necesidad de limpiar las páginas de elementos redundantes como cabeceras y pies de página. Esto es particularmente útil en la preparación de documentos para análisis de texto o la creación de documentos uniformes. En este artículo, exploraremos cómo utilizar Python y la biblioteca PyMuPDF para automatizar la eliminación de cabeceras y pies de página en archivos PDF.

Tabla de contenidos

Introducción a PyMuPDF

PyMuPDF, también conocido como fitz, es una biblioteca poderosa que permite la manipulación de documentos PDF. Con PyMuPDF, podemos acceder a los elementos individuales en cada página del PDF, lo que nos permite realizar operaciones complejas como la eliminación de texto en áreas específicas.

Instalación de PyMuPDF

Antes de comenzar, debemos instalar la biblioteca PyMuPDF. Esto se puede hacer fácilmente utilizando pip:

pip install PyMuPDF

Código para Eliminar Cabeceras y Pies de Página

A continuación, presentamos un script en Python que detecta y elimina las cabeceras y pies de página de un documento PDF. El script permite definir la altura de las áreas de cabecera y pie de página a eliminar, y guarda el documento resultante en una nueva ruta especificada.

import fitz

def remove_headers_and_footers(input_pdf, output_pdf, header_height=50, footer_height=50):
    """
    Elimina cabeceras y pies de página de un PDF.

    :param input_pdf: Ruta del archivo PDF de entrada.
    :param output_pdf: Ruta del archivo PDF de salida.
    :param header_height: Altura de la cabecera a eliminar en puntos.
    :param footer_height: Altura del pie de página a eliminar en puntos.
    """
    doc = fitz.open(input_pdf)
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        # Tamaño de la página
        page_width, page_height = page.rect.width, page.rect.height

        # Definir las áreas de la cabecera y el pie de página
        header_rect = fitz.Rect(0, 0, page_width, header_height)
        footer_rect = fitz.Rect(0, page_height - footer_height, page_width, page_height)

        # Eliminar texto en las áreas definidas
        page.delete_text(header_rect)
        page.delete_text(footer_rect)

    # Guardar el nuevo PDF
    doc.save(output_pdf)
    doc.close()

# Ejemplo de uso
input_pdf = "input.pdf"
output_pdf = "output.pdf"
remove_headers_and_footers(input_pdf, output_pdf)

Explicación del Código

Importación y Apertura del PDF:

   import fitz
   doc = fitz.open(input_pdf)

Iteración a través de las Páginas:
El script recorre cada página del documento PDF utilizando un bucle.

   for page_num in range(len(doc)):
       page = doc.load_page(page_num)

Definición de Áreas para Cabecera y Pie de Página:
Se definen dos rectángulos que representan las áreas de la cabecera y el pie de página, basados en las alturas especificadas.

   page_width, page_height = page.rect.width, page.rect.height
   header_rect = fitz.Rect(0, 0, page_width, header_height)
   footer_rect = fitz.Rect(0, page_height - footer_height, page_width, page_height)

Eliminación del Texto:
El método delete_text se usa para eliminar cualquier texto dentro de las áreas definidas.

   page.delete_text(header_rect)
   page.delete_text(footer_rect)

Guardado del PDF Modificado:
Finalmente, el documento modificado se guarda en la ruta especificada.

   doc.save(output_pdf)
   doc.close()

Uso del Script

Para utilizar este script, simplemente reemplaza input.pdf y output.pdf con las rutas correspondientes a tus archivos PDF de entrada y salida. También puedes ajustar las alturas de la cabecera y el pie de página según sea necesario.

# Ejemplo de uso
input_pdf = "input.pdf"
output_pdf = "output.pdf"
remove_headers_and_footers(input_pdf, output_pdf)

Conclusión

La eliminación de cabeceras y pies de página en documentos PDF puede ser una tarea repetitiva y tediosa si se realiza manualmente. Sin embargo, con el uso de PyMuPDF y Python, este proceso se puede automatizar de manera eficiente, ahorrando tiempo y esfuerzo. Este script proporciona una solución flexible y fácil de usar para limpiar tus documentos PDF y prepararlos para su uso posterior.