Wiki source for ReconnaissanceVocale


Show raw source

La reconnaissance de la parole a beaucoup évolué depuis que j'en faisais sur mon Apple IIe en monolocuteur (autour de 1985). Maintenant le multi-locuteur avec vocabulaire limité est correctement possible (et déjà utilisé par exemple dans les messageries vocales).
Ne pas hésiter à lire http://fr.wikipedia.org/wiki/Reconnaissance_vocale et http://en.wikipedia.org/wiki/Speech_recognition pour l'état de l'art actuel pour le "speech-to-text".

**Note** : oui le titre de cette page ReconnaissanceVocale est erroné (même si les liens ci-dessous en parlent avec cvoicecontrol par exemple), quand j'aurai le courage je créerai ReconnaissanceParole

===Quelques utilisations en reconnaissance de la parole===
~- ReconnaissanceVocaleEnregistrement autant vérifier sa configuration au préalable (il me manque des éléments de qualité des micros, à revoir)
~- ReconnaissanceVocaleCmusphinx sphinx4 est le plus élaboré à ce que je lis partout, cela fonctionne correctement en anglais
~- ReconnaissanceVocalePraat praat (GPL) enregistrement/traitement des sons, reconnaissances de phonèmes
~- ReconnaissanceVocaleJulius utilisation de julius (enregistrement déjà) et une reconnaissance qui fonctionne à peu près (avec julian)
et aussi SyntheseVocaleEspeak pour ne pas me parler qu'à moi-même et commencer un dialogue ;-)

===Liens intéressants===
http://wiki.eagle-usb.org/wakka.php?wiki=ReconnaissanceVocale [fr] mes prises de notes précédentes, liens vers articles sur le sujet de la reconnaissance vocale et quelques autres utilisations
http://wiki.eagle-usb.org/wakka.php?wiki=SemantiqueEtLangue [fr] sujets connexes avec dictionnaires, correcteurs orthographe et grammaire

==cvoicecontrol==
http://www.kiecza.net/daniel/linux/cvoicecontrol/index.html [en] présentation et utilisation de cvoicecontrol pour de la reconnaissance vocale mono-locuteur
http://innovexpo.itee.uq.edu.au/2002/projects/s355665/thesis.pdf [en] une thèse présentant l'utilisation de cvoicecontrol et festival pour du chat bluetooth par téléphone

==praat==
http://www.fon.hum.uva.nl/praat/ [en] enregistrement / traitement des sons avec praat (GPL)
http://www.fon.hum.uva.nl/praat/download_sources.html téléchargement
http://pierrou.free.fr/indexpraat.htm [fr] tutoriel

==cmusphinx==
http://cmusphinx.sourceforge.net/html/cmusphinx.php [en]
http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4

==Julius==
http://julius.sourceforge.jp/en_index.php?q=index-en.html [en] Open-Source Large Vocabulary CSR Engine Julius, a high-performance, two-pass large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers
http://sourceforge.net/projects/speech2text/ [en] ready-to-use interface for the julius CSR engine

==liens généraux==
http://www.dev.voxforge.org/projects/Main/wiki/VoxForgeDevWiki
http://www.ece.msstate.edu/research/isip/projects/speech/index.html [en]
http://larswiki.atrc.utoronto.ca/wiki [en] Linux Accessibility Resource Site
http://freetts.sourceforge.net/demo/JSAPI/Player/README.html [en]
http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/index.html [en] spécification JSAPI
http://communicator.sourceforge.net/sites/MITRE/distributions/OSTK-20021004/sr/JSAPISpeech/doc/index.html [en] wrapper JSAPI
http://freetts.sourceforge.net/docs/index.php [en] ""FreeTTS"" et utiliser sa propre voix grâce aux outils de festvox
http://wiki.tuxisalive.com/index.php/Speech_recognition [en] essais similaires
http://cpk.auc.dk/~tb/speech/ [en] ressources disponibles au cpk (HTK , programmes, ...)
http://www.limsi.fr/Individu/barras/publis/jep96mjc.ps.gz [fr] D-DAL : UN SYSTEME DE DICTEE VOCALE DEVELOPPE SOUS L'ENVIRONNEMENT HTK Le but de cet article est de présenter les différents principes et techniques qui permettent l'implémentation d'un système de dictée vocale, à moyen vocabulaire (quelques dizaines de milliers de mots), fondé sur les modèles de Markov cachés.
http://mambo.ucsc.edu/psl/speech.html [en] beaucoup de liens sur la parole
http://fr.wikipedia.org/wiki/Reconnaissance_vocale
http://www.tsi.enst.fr/~cfaure/intro/Intro4.html [fr] cours Brève introduction à la Reconnaissance des Formes
http://r.battault.free.fr/probatoire/probatoire.html [fr] Sujet 1998 : La reconnaissance vocale, techniques utilisées, applications actuelles et futures.
http://julien.pinquier.free.fr/These/these/these.html [fr] Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
http://sourceforge.net/projects/voxforge
http://brewer123.home.comcast.net/projects/speechlion/ [en] Speech-controlled Desktop based on Sphinx-4 (java, GPL)
http://noel.feld.cvut.cz/speechlab/start.php?page=download&lang=en [en] Speech Processing Group (czech)
http://www.irisa.fr/metiss/guig/spro/ [en] (GPL) SPro free speech signal processing toolkit which provides runtime commands implementing standard feature extraction algorithms for speech related applications
http://www-lium.univ-lemans.fr/tools/index.php?option=com_content&task=view&id=20&Itemid=38 [en] BSD/MIT The LIUM Speech Project has developed some tools and resources in order to implement an entire automatic speech recognition (ASR) system.
http://web.archive.org/web/20040824162053/http://xvoice.arborius.net/xvoice-sphinx/RunningSphinxTrain [en] sphinx2 training for speech-dependant recognition
http://xvoice.sourceforge.net/xvoice-sphinx/ [en] xvoice était basé sur ""ViaVoice"" mais un projet avec sphinx existe aussi
http://project.uet.itgo.com/speech.htm [en] des explications claires sur la reconnaissance de la parole et la synthèse de la parole
https://linuxfr.org/2004/09/13/17194.html [fr] ces logiciels manipulent des mots, dates, heures et endroits (villes, états, ...). De plus, IBM donne des outils d'édition de la parole à la Fondation Eclipse
https://sourceforge.net/projects/slapi/ [en] Scalable Language API - An architecture for natural-language applications including speech recognition, speech synthesis, semantics, lexicons, machine translation and language identification. (Open Group Test Suite License libre ?) documentation en CC-by-nd :/
http://sourceforge.net/projects/emofilt/ EmoFilt enables the free-for-non-commercial-use speech synthesis engine MBROLA to sound emotional by manipulating the phonetic description. Originally written in ""C++"", emofilt is now completely rewritten and ported to Java.
http://emofilt.sourceforge.net/
http://emosamples.syntheticspeech.de/ examples of synthesized emotional speech
http://trac.annodex.net/wiki/SphinxSpeechTranscription [en] links to speech recognition
http://ask.slashdot.org/story/13/12/30/1649234/ask-slashdot-effective-reasonably-priced-conferencing-speech-to-text speech to text for deaf people

==corpus de voix==
http://linuxfr.org/forums/general-general/posts/choix-de-clause-cc
http://groupeaa.limsi.fr/corpus:synthese:start
https://tech.slashdot.org/story/19/02/28/2136229/mozilla-updates-common-voice-dataset-with-1400-hours-of-speech-across-18-languages


===accessibilité===
~- dasher pour sélectionner des lettres (possibilité d'utiliser un dictionnaire français pour sélectionner les mots)
~- orca dans GNOME propose un framework pour l'accessibilité

http://www.culte.org/projets/biglux/install/lao/ (plus actif récemment mais on ne sait jamais)
http://www.antigoone.tuxfamily.org/index.html (Informatique Accessible aux Aveugles et Mal Voyants)
http://orthophonielibre.wordpress.com/


----
CategoryLangFr CategoryHobby CategoryStateOfTheArt
Valid XHTML :: Valid CSS: :: Powered by WikkaWiki