Speech-to-Text (STT)

Le Speech-to-Text (STT), ou reconnaissance automatique de la parole (ASR), est la technologie qui convertit la parole humaine en texte ecrit.

Solutions STT modernes :

• Whisper (OpenAI) : open source, multilingue, tres precis
• Google Speech-to-Text : temps reel, 125+ langues
• Azure Speech (Microsoft) : enterprise, personnalisable
• AssemblyAI : API specialisee, diarization
• Deepgram : rapide, temps reel

Capacites :

• Transcription temps reel ou en batch
• Diarization (identification des locuteurs)
• Detection de la langue
• Ponctuation automatique
• Reconnaissance de termes specifiques

Applications : sous-titrage automatique, dictee vocale, transcription de reunions, centres d'appel, accessibilite. Whisper d'OpenAI a democratise le STT de haute qualite grace a sa nature open source.

Ressources externes

Termes lies

Text-to-Speech (TTS)

NLP (Natural Language Processing)

Multimodal