Comment Siri fonctionne-t-il ?

Céroce · octobre 2011

Je vous fais part de cet article que j'ai trouvé fort instructif.

AliGator · octobre 2011

Très intéressant.

Pour avoir bossé également dans la segmentation de phonèmes et le traitement de signal, je suis assez d'accord avec son analyse dans l'ensemble.

Mais je me pose quand même une question : si en général il est vrai qu'on pense au système 3 couches (SpeechToText + Analyse + Services), parfois les 2 premiers peuvent être fortement liés, le premier n'ayant pas toujours besoin d'être complet : il serait cohérent d'avoir plutôt un système d'analyse de voix directement.

Je pense qu'une autre possibilité de fonctionnement de Siri est de faire l'analyse directement sur la signature sonore " d'autant que la réduction du bruit peut être plus efficace aussi, puisque la composante principale de la signature sonore sera la même s'il y a du bruit autour " par exemple via ce que l'on appelle "l'analyse des composantes principales" (ou ACP, en langage de traitement de signal).

Ca n'empêche pas de garder la brique S2T quand même pour les mots qui ne sont pas les mots clés (ou "verbes"), genre pour la partie "le langage Objective-C" de la commande "Siri, donne moi des informations sur le langage Objective-C", mais pour détecter que c'est une commande (verbe) de type "rechercher sur wikipedia" l'ACP ou anaylise similaire directement sur le son peut être une autre piste de fonctionnement... au final c'est loin d'être simple ce genre de système, je peux vous le garantir, et bien souvent pas aussi "découpé" en modules si indépendants que ça !

Comment Siri fonctionne-t-il ?

Réponses