Ne pas hésiter à lire http://fr.wikipedia.org/wiki/Reconnaissance_vocale et http://en.wikipedia.org/wiki/Speech_recognition pour l'état de l'art actuel pour le "speech-to-text".
Note : oui le titre de cette page ReconnaissanceVocale est erroné (même si les liens ci-dessous en parlent avec cvoicecontrol par exemple), quand j'aurai le courage je créerai ReconnaissanceParole
Quelques utilisations en reconnaissance de la parole
- ReconnaissanceVocaleEnregistrement autant vérifier sa configuration au préalable (il me manque des éléments de qualité des micros, à revoir)
- ReconnaissanceVocaleCmusphinx sphinx4 est le plus élaboré à ce que je lis partout, cela fonctionne correctement en anglais
- ReconnaissanceVocalePraat praat (GPL) enregistrement/traitement des sons, reconnaissances de phonèmes
- ReconnaissanceVocaleJulius utilisation de julius (enregistrement déjà) et une reconnaissance qui fonctionne à peu près (avec julian)
Liens intéressants
http://wiki.eagle-usb.tuxfamily.org/wakka.php?wiki=ReconnaissanceVocale [fr] mes prises de notes précédentes, liens vers articles sur le sujet de la reconnaissance vocale et quelques autres utilisationshttp://wiki.eagle-usb.tuxfamily.org/wakka.php?wiki=SemantiqueEtLangue [fr] sujets connexes avec dictionnaires, correcteurs orthographe et grammaire
cvoicecontrol
http://www.kiecza.net/daniel/linux/cvoicecontrol/index.html [en] présentation et utilisation de cvoicecontrol pour de la reconnaissance vocale mono-locuteurhttp://innovexpo.itee.uq.edu.au/2002/projects/s355665/thesis.pdf [en] une thèse présentant l'utilisation de cvoicecontrol et festival pour du chat bluetooth par téléphone
praat
http://www.fon.hum.uva.nl/praat/ [en] enregistrement / traitement des sons avec praat (GPL)http://www.fon.hum.uva.nl/praat/download_sources.html téléchargement
http://pierrou.free.fr/indexpraat.htm [fr] tutoriel
cmusphinx
http://cmusphinx.sourceforge.net/html/cmusphinx.php [en]http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4
Julius
http://julius.sourceforge.jp/en_index.php?q=index-en.html [en] Open-Source Large Vocabulary CSR Engine Julius, a high-performance, two-pass large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developershttp://sourceforge.net/projects/speech2text/ [en] ready-to-use interface for the julius CSR engine
liens généraux
http://www.dev.voxforge.org/projects/Main/wiki/VoxForgeDevWikihttp://www.ece.msstate.edu/research/isip/projects/speech/index.html [en]
http://larswiki.atrc.utoronto.ca/wiki [en] Linux Accessibility Resource Site
http://freetts.sourceforge.net/demo/JSAPI/Player/README.html [en]
http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/index.html [en] spécification JSAPI
http://communicator.sourceforge.net/sites/MITRE/distributions/OSTK-20021004/sr/JSAPISpeech/doc/index.html [en] wrapper JSAPI
http://freetts.sourceforge.net/docs/index.php [en] FreeTTS et utiliser sa propre voix grâce aux outils de festvox
http://wiki.tuxisalive.com/index.php/Speech_recognition [en] essais similaires
http://cpk.auc.dk/~tb/speech/ [en] ressources disponibles au cpk (HTK , programmes, ...)
http://www.limsi.fr/Individu/barras/publis/jep96mjc.ps.gz [fr] D-DAL : UN SYSTEME DE DICTEE VOCALE DEVELOPPE SOUS L'ENVIRONNEMENT HTK Le but de cet article est de présenter les différents principes et techniques qui permettent l'implémentation d'un système de dictée vocale, à moyen vocabulaire (quelques dizaines de milliers de mots), fondé sur les modèles de Markov cachés.
http://mambo.ucsc.edu/psl/speech.html [en] beaucoup de liens sur la parole
http://fr.wikipedia.org/wiki/Reconnaissance_vocale
http://www.tsi.enst.fr/~cfaure/intro/Intro4.html [fr] cours Brève introduction à la Reconnaissance des Formes
http://r.battault.free.fr/probatoire/probatoire.html [fr] Sujet 1998 : La reconnaissance vocale, techniques utilisées, applications actuelles et futures.
http://julien.pinquier.free.fr/These/these/these.html [fr] Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
http://sourceforge.net/projects/voxforge
http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4 (java, GPL)
http://noel.feld.cvut.cz/speechlab/start.php?page=download&lang=en [en] Speech Processing Group (czech)
http://www.irisa.fr/metiss/guig/spro/ [en] (GPL) SPro free speech signal processing toolkit which provides runtime commands implementing standard feature extraction algorithms for speech related applications
http://www-lium.univ-lemans.fr/tools/index.php?option=com_content&task=view&id=20&Itemid=38 [en] BSD/MIT The LIUM Speech Project has developed some tools and resources in order to implement an entire automatic speech recognition (ASR) system.
http://web.archive.org/web/20040824162053/http://xvoice.arborius.net/xvoice-sphinx/RunningSphinxTrain [en] sphinx2 training for speech-dependant recognition
http://xvoice.sourceforge.net/xvoice-sphinx/ [en] xvoice était basé sur ViaVoice mais un projet avec sphinx existe aussi
http://project.uet.itgo.com/speech.htm [en] des explications claires sur la reconnaissance de la parole et la synthèse de la parole
https://linuxfr.org/2004/09/13/17194.html [fr] ces logiciels manipulent des mots, dates, heures et endroits (villes, états, ...). De plus, IBM donne des outils d'édition de la parole à la Fondation Eclipse
https://sourceforge.net/projects/slapi/ [en] Scalable Language API - An architecture for natural-language applications including speech recognition, speech synthesis, semantics, lexicons, machine translation and language identification. (Open Group Test Suite License libre ?) documentation en CC-by-nd :/
http://sourceforge.net/projects/emofilt/ EmoFilt enables the free-for-non-commercial-use speech synthesis engine MBROLA to sound emotional by manipulating the phonetic description. Originally written in C++, emofilt is now completely rewritten and ported to Java.
http://emofilt.sourceforge.net/
http://emosamples.syntheticspeech.de/ examples of synthesized emotional speech
http://trac.annodex.net/wiki/SphinxSpeechTranscription [en] links to speech recognitionhttp://emosamples.syntheticspeech.de/ examples of synthesized emotional speech
http://ask.slashdot.org/story/13/12/30/1649234/ask-slashdot-effective-reasonably-priced-conferencing-speech-to-text speech to text for deaf people
corpus de voix
http://linuxfr.org/forums/general-general/posts/choix-de-clause-cchttp://groupeaa.limsi.fr/corpus:synthese:start
https://tech.slashdot.org/story/19/02/28/2136229/mozilla-updates-common-voice-dataset-with-1400-hours-of-speech-across-18-languages
accessibilité
- dasher pour sélectionner des lettres (possibilité d'utiliser un dictionnaire français pour sélectionner les mots)
- orca dans GNOME propose un framework pour l'accessibilité
http://www.culte.org/projets/biglux/install/lao/ (plus actif récemment mais on ne sait jamais)
http://www.antigoone.tuxfamily.org/index.html (Informatique Accessible aux Aveugles et Mal Voyants)
http://orthophonielibre.wordpress.com/
CategoryLangFr CategoryHobby CategoryStateOfTheArt