Problème 1: La transcription
Le mot écrit reflète plus ou moins le mot parlé. Les règles établissent les relations sons-lettres. Pourquoi alors l'Arabe Muhammad ou le Russe Gorbatchev ont plusieurs orthographes différentes? Parce qu'il n'y a pas de règles standardisées.Problème 2: Les variantes - résultat de l'évolution naturelle
Il y a deux cents ans beaucoup de monde ne savait pas lire et écrire. On savait son nom, mais pas le règles d'orthographe - s'il en existait. À cause de ça, et en ajoutant l'influence des différents patois, les noms de famille ont développé plein de variantes. Par exemple: Shakespeare, Shakespere, Shakespear, Shakspeare, Shackspeare, Shakspere etc.Problème 3: Le transfert des données
Les erreurs surviennent lorsque les transmissions techniques ne marchent pas bien:- transfert des données à l'oral, par exemple au téléphone
- dactylographie, surtout des documents écrits à la main
- erreurs de scannérisation - erreurs de reconnaissance optique de caractères (ROC)
- différences entre les langues et fausses suppositions
Solution: Name Variant Generator
Le générateur de variantes liste les variantes connues dans source de données et étend la liste en s'appuyant sur des règles. Les règles sont utiles notamment lorsque les noms sont transcrits d'un alphabet étranger.Exemples de variantes
- Margaret: Margarethe, Margareth, Margrethe, Margareta, Märta, Peggy, Peggi, Meg, ...
- Schmidt: Schmitt, Schmied, Schmid, Smith, Smythe, Laforge, ...
- Mohammed: Muhammad, Mihammad, Mohamed, Mohamet, Mohammad, Mahmed, Mahmood, Mahmoud, Mahmud, ...
- Andrey: Andrei, Andrej, Andy, Andi, Andrew, Andreas, ...
Exemple d'application
Une interrogation dans votre base de données vous montre uniquement les match? parfaits. Avec le variant generator vous trouverez le nom que vous cherchez même s'il est stocké ou indexé avec un orthographe différente. Pour des résults optimaux, la recherche inclut un n-gram index pour trouver également les fautes d'orthographe.» Contact

















