Guía práctica para activar OCR en Spectacle con Plasma 6.6 o superior

Extraer texto con Spectacle

Desde febrero, coincidiendo con el lanzamiento de Plasma 6.6, Spectacle ofrece la capacidad de extraer texto de las capturas de pantalla mediante reconocimiento óptico de caracteres (OCR). Sin embargo, esta funcionalidad no aparece de forma automática; para verla y utilizarse es necesario instalar componentes adicionales. A continuación se detalla cómo activar el soporte para OCR en Spectacle, siempre que se esté usando Plasma 6.6 o una versión posterior.

Activar el soporte para OCR en Spectacle en Plasma 6.6 o posterior

Tras actualizar o realizar una nueva captura, es posible que la opción de extraer texto no esté presente en la interfaz. No obstante, basta con instalar los paquetes de Tesseract y sus datos de idioma para habilitar la función. Un ejemplo práctico se ilustra en el material oficial de KDE, donde se muestra el flujo de activación y un vídeo de demostración.

En Spectacle, al abrir los ajustes, la sección OCR puede indicar que no está disponible. Esto es normal si no se han instalado los paquetes necesarios. Spectacle utiliza Tesseract OCR como motor de backend para realizar el reconocimiento de texto.

Para que la opción aparezca, se deben instalar los paquetes de Tesseract correspondientes. En una distribución basada en Arch como Manjaro, los paquetes necesarios son:

  • tesseract
  • tesseract-data-osd
  • tesseract-data-cat
  • tesseract-data-eng
  • tesseract-data-spa

Una captura similar a las imágenes del artículo original mostrará cómo los nombres de los idiomas pueden variar según la distribución. En este caso, los sufijos -cat, -eng y -spa corresponden al catalán, inglés y español, respectivamente; tesseract es el paquete principal y -osd se usa para permitir la detección de orientación del texto.

Si se requieren más idiomas, basta con instalar los paquetes correspondientes, por ejemplo -ita para italiano, -fra para francés o -rus para ruso.

Instalación de lo necesario

La forma de instalar varía según la distribución. En Manjaro, se puede usar Pamac o, desde la terminal, con el comando:

sudo pacman -S tesseract tesseract-data-osd tesseract-data-cat tesseract-data-eng tesseract-data-spa

En Debian, Ubuntu y derivados, el paquete suele llamarse tesseract-ocr y sus datos de idioma se gestionan mediante paquetes adicionales como tesseract-ocr-spa, tesseract-ocr-eng, etc. OpenSUSE utiliza un esquema similar con nombres de paquetes equivalentes.

Una vez completada la instalación, al intentar realizar una captura y seleccionar Extraer texto, aparecerá la opción OCR. Al activarla, el texto capturado podrá copiarse al portapapeles o abrirse en un editor de textos, según la notificación mostrada.

Ojo: hay que activar los idiomas desde los ajustes

Cuando la opción pasa a estar disponible, los ajustes OCR muestran dos apartados principales: la selección de idiomas y las opciones de comportamiento tras la extracción. En la selección de idiomas se marcan los idiomas que se desean reconocer y se puede verificar qué idiomas están instalados y soportados.

  • Selección de los idiomas: cajas de verificación para elegir los que se desean detectar.
  • Cerrar tras la extracción: opción que determina si se guarda automáticamente o se mantiene el resultado en el portapapeles. Personalmente, prefiero dejarlo desmarcado para copiar cada resultado al portapapeles.

Con estos pasos, Spectacle contará con la capacidad de lectura de texto en las capturas, aprovechando la potencia de Tesseract. En pocas palabras: la funcionalidad OCR no llega por defecto, pero con unos pocos paquetes instalados, la utilidad queda plenamente operativa.

from Linux Adictos https://ift.tt/aGAxyPi
via IFTTT