bon... on va commencer par un petit schéma ^^
_________6
_________5
_________4
1__2__3_____7__8__9
_________10
_________11
_________12
imaginons que la bouche 3 donne FA - FO - FI - FE et la bouche 4 donne DA - DI - DO - DE pour réussir à faire "dire" le bon texte tu cliques sur la bouche 3 jusqu´à ce que tu entendes FO, même opération avec la bouche 4 jusqu´à entendre "DO". Maintenant tu n´as plus qu´à cliquer sur la bouche 3 puis la 4 pour entendre dire "FI-DE"
bon évidemment mon exemple, est con parce qu´il ne comprends que 2 syllabes alors qu´il faut en mettre 6 dans le jeu, mais le principe reste le même, tu repères quelle bouche donne le bon son, tu la cales sur la syllabe d´avant et après qund tout est calé tu cliques successivement sur les bonnes bouches qui doivent te dire les bonnes syllabes.
Astuce : quand tu as trouvé la bonne syllabe, elle clignote rouge dans la zone de texte.
voilà j´espère que c´est plus clair 
Note que je ne peux pas vraiment faire mieux lol