La reconnaissance de la parole a beaucoup évolué depuis que j'en faisais sur mon Apple IIe en monolocuteur (autour de 1985). Maintenant le multi-locuteur avec vocabulaire limité est correctement possible (et déjà utilisé par exemple dans les messageries vocales).
Ne pas hésiter à lire http://fr.wikipedia.org/wiki/Reconnaissance_vocale et http://en.wikipedia.org/wiki/Speech_recognition pour l'état de l'art actuel pour le "speech-to-text".

Note : oui le titre de cette page ReconnaissanceVocale est erroné (même si les liens ci-dessous en parlent avec cvoicecontrol par exemple), quand j'aurai le courage je créerai ReconnaissanceParole

Quelques utilisations en reconnaissance de la parole

et aussi SyntheseVocaleEspeak pour ne pas me parler qu'à moi-même et commencer un dialogue ;-)

Liens intéressants

http://wiki.eagle-usb.tuxfamily.org/wakka.php?wiki=ReconnaissanceVocale [fr] mes prises de notes précédentes, liens vers articles sur le sujet de la reconnaissance vocale et quelques autres utilisations
http://wiki.eagle-usb.tuxfamily.org/wakka.php?wiki=SemantiqueEtLangue [fr] sujets connexes avec dictionnaires, correcteurs orthographe et grammaire

cvoicecontrol
http://www.kiecza.net/daniel/linux/cvoicecontrol/index.html [en] présentation et utilisation de cvoicecontrol pour de la reconnaissance vocale mono-locuteur
http://innovexpo.itee.uq.edu.au/2002/projects/s355665/thesis.pdf [en] une thèse présentant l'utilisation de cvoicecontrol et festival pour du chat bluetooth par téléphone

praat
http://www.fon.hum.uva.nl/praat/ [en] enregistrement / traitement des sons avec praat (GPL)
http://www.fon.hum.uva.nl/praat/download_sources.html téléchargement
http://pierrou.free.fr/indexpraat.htm [fr] tutoriel

cmusphinx
http://cmusphinx.sourceforge.net/html/cmusphinx.php [en]
http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4

Julius
http://julius.sourceforge.jp/en_index.php?q=index-en.html [en] Open-Source Large Vocabulary CSR Engine Julius, a high-performance, two-pass large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers
http://sourceforge.net/projects/speech2text/ [en] ready-to-use interface for the julius CSR engine

liens généraux
http://www.dev.voxforge.org/projects/Main/wiki/VoxForgeDevWiki
http://www.ece.msstate.edu/research/isip/projects/speech/index.html [en]
http://larswiki.atrc.utoronto.ca/wiki [en] Linux Accessibility Resource Site
http://freetts.sourceforge.net/demo/JSAPI/Player/README.html [en]
http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/index.html [en] spécification JSAPI
http://communicator.sourceforge.net/sites/MITRE/distributions/OSTK-20021004/sr/JSAPISpeech/doc/index.html [en] wrapper JSAPI
http://freetts.sourceforge.net/docs/index.php [en] FreeTTS et utiliser sa propre voix grâce aux outils de festvox
http://wiki.tuxisalive.com/index.php/Speech_recognition [en] essais similaires
http://cpk.auc.dk/~tb/speech/ [en] ressources disponibles au cpk (HTK , programmes, ...)
http://www.limsi.fr/Individu/barras/publis/jep96mjc.ps.gz [fr] D-DAL : UN SYSTEME DE DICTEE VOCALE DEVELOPPE SOUS L'ENVIRONNEMENT HTK Le but de cet article est de présenter les différents principes et techniques qui permettent l'implémentation d'un système de dictée vocale, à moyen vocabulaire (quelques dizaines de milliers de mots), fondé sur les modèles de Markov cachés.
http://mambo.ucsc.edu/psl/speech.html [en] beaucoup de liens sur la parole
http://fr.wikipedia.org/wiki/Reconnaissance_vocale
http://www.tsi.enst.fr/~cfaure/intro/Intro4.html [fr] cours Brève introduction à la Reconnaissance des Formes
http://r.battault.free.fr/probatoire/probatoire.html [fr] Sujet 1998 : La reconnaissance vocale, techniques utilisées, applications actuelles et futures.
http://julien.pinquier.free.fr/These/these/these.html [fr] Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
http://sourceforge.net/projects/voxforge
http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4 (java, GPL)
http://noel.feld.cvut.cz/speechlab/start.php?page=download&lang=en [en] Speech Processing Group (czech)
http://www.irisa.fr/metiss/guig/spro/ [en] (GPL) SPro free speech signal processing toolkit which provides runtime commands implementing standard feature extraction algorithms for speech related applications
http://www-lium.univ-lemans.fr/tools/index.php?option=com_content&task=view&id=20&Itemid=38 [en] BSD/MIT The LIUM Speech Project has developed some tools and resources in order to implement an entire automatic speech recognition (ASR) system.
http://web.archive.org/web/20040824162053/http://xvoice.arborius.net/xvoice-sphinx/RunningSphinxTrain [en] sphinx2 training for speech-dependant recognition
http://xvoice.sourceforge.net/xvoice-sphinx/ [en] xvoice était basé sur ViaVoice mais un projet avec sphinx existe aussi
http://project.uet.itgo.com/speech.htm [en] des explications claires sur la reconnaissance de la parole et la synthèse de la parole
https://linuxfr.org/2004/09/13/17194.html [fr] ces logiciels manipulent des mots, dates, heures et endroits (villes, états, ...). De plus, IBM donne des outils d'édition de la parole à la Fondation Eclipse
https://sourceforge.net/projects/slapi/ [en] Scalable Language API - An architecture for natural-language applications including speech recognition, speech synthesis, semantics, lexicons, machine translation and language identification. (Open Group Test Suite License libre ?) documentation en CC-by-nd :/
http://sourceforge.net/projects/emofilt/ EmoFilt enables the free-for-non-commercial-use speech synthesis engine MBROLA to sound emotional by manipulating the phonetic description. Originally written in C++, emofilt is now completely rewritten and ported to Java. http://trac.annodex.net/wiki/SphinxSpeechTranscription [en] links to speech recognition
http://ask.slashdot.org/story/13/12/30/1649234/ask-slashdot-effective-reasonably-priced-conferencing-speech-to-text speech to text for deaf people

corpus de voix
http://linuxfr.org/forums/general-general/posts/choix-de-clause-cc
http://groupeaa.limsi.fr/corpus:synthese:start
https://tech.slashdot.org/story/19/02/28/2136229/mozilla-updates-common-voice-dataset-with-1400-hours-of-speech-across-18-languages


accessibilité


http://www.culte.org/projets/biglux/install/lao/ (plus actif récemment mais on ne sait jamais)
http://www.antigoone.tuxfamily.org/index.html (Informatique Accessible aux Aveugles et Mal Voyants)
http://orthophonielibre.wordpress.com/



CategoryLangFr CategoryHobby CategoryStateOfTheArt
Valid XHTML :: Valid CSS: :: Powered by WikkaWiki