Skip to content

maudoin/cam2ocr2speech

Repository files navigation

📘 Application déconnectée pour la lecture vocale de document PDF et création de PDF textuel à partir d'image

📘 PDF Document Voice Reader & PDF text creation from image

📄 Présentation

Cette application est conçue pour aider les personnes atteintes de troubles "dys" (dyslexie, dyspraxie, etc.) à travailler sur des documents papier à l'aide d'un ordinateur, sans internet. Elle permet :

  • 🔊 De lire à voix haute le texte sélectionné dans un PDF.
  • 📝 D'ajouter du texte sur un PDF et de l'imprimer.
  • 🖼️ De transformer une image en PDF avec une couche de texte sélectionnable par reconnaissance de caractères.
  • ✂️ De détecter automatiquement le contour d'une feuille sur une image pour redresser automatiquement le texte ou le redresser manuellement.
  • ⌹ D'utiliser des marqueurs (cf. masque de page Aruco à découper) pour redresser et recoller rapidement deux captures d’une même page A4
  • 🕮 D'utiliser des marqueurs (cf. masque de page Aruco Book à découper) pour redresser rapidement un extrait de livre
  • 📷 De capturer une image depuis une webcam ou d'importer une image depuis un fichier.
  • 🇫🇷 De choisir la langue de reconnaissance de texte et la voix parmi: français, anglais, allemand, italien et espagnol.
  • 🌐 Tout est calculé dans l'application sans connexion internet
  • 📗 Manuel utilisateur

📄 Overview

This offline application supports individuals with "dys" disorders (e.g., dyslexia, dyspraxia) in working with physical text documents using a computer. It provides the following features:

  • 🔊 Reads aloud selected text from PDFs using Text-to-Speech (TTS).
  • 📝 Adding Text and Printing PDF
  • 🖼️ Generates a PDF from an image with selectable text layer via character recognition (OCR).
  • ✂️ Automatically detects document boundaries in images for perspective correction and edit contours manually.
  • Aruco marker detection to de-skew and stitch two capture from a single A4 sheet.
  • 🕮 Aruco Book marker detection to de-skew curved book pages.
  • 📷 Captures images using a webcam or loads images from files.
  • 🇬🇧 UI, OCR, and Voice are available in the following languages: French, English, German, Italian, and Spanish.
  • 🌐 Fully Offline
  • 📗 User manual

Mode Redressement de livre:

Book de-skewing capture mode:

Mise en place de la feuille
Sheet positioning
Cadrage vidéo
Video framing
Image redressed
De-skewed image
Mise en place de la page de marqueurs syr le livre Capture vidéo Résulat

Mode Redressement/Recollage automatique:

Automatic multipart A4 sheet stitching:

Mise en place de la feuille
Sheet positioning
Verification du cadrage
Framing checkup
Verification de la netteté
Focus checkup
Mise en place de la page sur les marqueurs Placement des marqueurs Controle de netteté
Passage automatique à la partie 2
Automatic switch to part 2
Cadrage de la partie 2
Part 2 framing
Stabilisation de la partie 2
Part 2 focus
Ajustement de la suture
Stitching adjustment
Placement des marqueurs de la page 2 Placement des marqueurs de la page 2 Placement des marqueurs de la page 2 Ajustement de la suture

Mode PDF / Lecture vocale:

PDF / Read aloud mode:

image

Mode webcam:

Webcam mode:

image

Mode image / redressement:

Image / Deskewing mode:

image


⚙️ Technologies Used

  • 🧠 The application is developed in JavaScript and uses Electron to deliver a native desktop experience.
  • 🔍 Tesseract v6.0.1 for Optical Character Recognition (OCR) GitHub - Tesseract.js OCR
  • 🗣️ piper-tts-web (7c4b54d) for Text-to-Speech (TTS) GitHub - Piper TTS Web
  • 📄 pdf.js v5.3.93 by Mozilla for PDF rendering and editing GitHub - Mozilla PDF.js
  • 🖼️ openCV.js v4.0 for image processing and contour detection docs.opencv.org


🇩🇪 Deutsch (automatisch generiert)


📘 PDF-Dokumenten-Sprachleser & PDF-Text-Erstellung aus Bildern

📄 Übersicht

Diese Offline-Anwendung unterstützt Personen mit „Dys“-Störungen (z. B. Dyslexie, Dyspraxie) bei der Arbeit mit physischen Textdokumenten am Computer. Sie bietet folgende Funktionen:

  • 🔊 Liest ausgewählten Text aus PDFs mit Text-to-Speech (TTS) vor.
  • 📝 Text hinzufügen und PDF drucken
  • 🖼️ Generiert ein PDF aus einem Bild mit auswählbarer Textebene mittels optischer Zeichenerkennung (OCR).
  • ✂️ Erkennt automatisch Dokumentgrenzen in Bildern zur Perspektivkorrektur und ermöglicht manuelle Konturbearbeitung.
  • ⌹ Erkennt Aruco-Marker zum Entzerren und Zusammenfügen von zwei Aufnahmen einer A4-Seite.
  • 🕮 Aruco-Buch (doc/arucoBook.pdf): Markererkennung zur Entzerrung von gebogenen Buchseiten.
  • 📷 Erfasst Bilder mit einer Webcam oder lädt Bilder aus Dateien.
  • 🇩🇪 Benutzeroberfläche (UI), OCR und Sprache sind in den folgenden Sprachen verfügbar: Französisch, Englisch, Deutsch, Italienisch und Spanisch.
  • 🌐 Vollständig offline
  • 📗 Benutzerhandbuch

Dieser Text wurde automatisch generiert.


🇮🇹 Italiano (testo generato automaticamente)


📘 Lettore vocale PDF & Creazione di testo PDF da immagine

📄 Panoramica

Questa applicazione offline supporta persone con disturbi “dys” (ad es. dislessia, disprassia) nella gestione di documenti di testo cartacei con il computer. Offre le seguenti funzionalità:

  • 🔊 Legge ad alta voce il testo selezionato dai PDF con Text-to-Speech (TTS).
  • 📝 Aggiungi testo e stampa PDF
  • 🖼️ Genera un PDF da un’immagine con livello di testo selezionabile tramite riconoscimento ottico dei caratteri (OCR).
  • ✂️ Rileva automaticamente i confini del documento nelle immagini per la correzione prospettica e consente la modifica manuale dei contorni.
  • ⌹ Rileva i marker Aruco per correggere la distorsione e unire due acquisizioni di un foglio A4.
  • 🕮 Libro Aruco (doc/arucoBook.pdf): rilevamento dei marker per correggere la distorsione delle pagine curve dei libri.
  • 📷 Acquisisce immagini tramite webcam o carica file di immagini.
  • 🇮🇹 Interfaccia utente (UI), OCR e voce disponibili nelle seguenti lingue: francese, inglese, tedesco, italiano e spagnolo.
  • 🌐 Completamente offline
  • 📗 Manuale utente

Questo testo è stato generato automaticamente.


🇪🇸 Español (texto generado automáticamente)


📘 Lector de voz de PDF y creación de texto PDF desde imagen

📄 Descripción general

Esta aplicación offline ayuda a personas con trastornos “dys” (p. ej., dislexia, dispraxia) a trabajar con documentos de texto físicos con la ayuda de un ordenador. Ofrece las siguientes funciones:

  • 🔊 Lee en voz alta el texto seleccionado de archivos PDF con Text-to-Speech (TTS).
  • 📝 Agrega texto e imprime PDF
  • 🖼️ Genera un PDF desde una imagen con capa de texto seleccionable mediante reconocimiento óptico de caracteres (OCR).
  • ✂️ Detecta automáticamente los límites del documento en las imágenes para corregir la perspectiva y permite editar manualmente los contornos.
  • ⌹ Detecta marcadores Aruco para corregir la distorsión y unir dos capturas de una sola hoja A4.
  • 🕮 Libro Aruco (doc/arucoBook.pdf): detección de marcadores para corregir la distorsión de páginas curvas de libros.
  • 📷 Captura imágenes con una cámara web o carga archivos de imagen.
  • 🇪🇸 Interfaz de usuario (UI), OCR y voz disponibles en los siguientes idiomas: francés, inglés, alemán, italiano y español.
  • 🌐 Totalmente offline
  • 📗 Manual de usuario

Este texto ha sido generado automáticamente.

About

Create pdfs with voiced text layer from webcam input

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors