Profiquoi ? -> Profiling ! ( profilage )
Le profiling est un art permettant d’établir l’ébauche de l’identité d’une personne, à partir par exemple de ses écrits, mais aussi de ses faits et gestes, de ses fréquentations, … ( Dans la suite, nous parlerons de tout ce qui se rapporte au profiling de l’auteur d’un écrit ).
Tout d’abord, le pourquoi du profiling ?
Le profiling est utilisé par certains services comme la criminologie, afin par exemple de dresser un profil psychologique d’un criminel. Ces informations permettent d’orienter une enquête, de “trier” des suspects, de comprendre certaine chose, ou encore d’amener à en découvrir de nouvelle ( un certain profil peut indiquer un certain lieu, .. ) . Dans notre contexte, nous essairons de dresser le profil d’un auteur afin de le comparer à celui d’un autre. Celà nous permettra de savoir si tout d’abord l’auteur est bien une unique personne, son pays natal, son sexe, son niveau d’étude, …. et ensuite, en le comparant à celui d’un autre, déterminer si les deux auteurs ont des chances de n’être qu’un(e) .
“Ont des chances”, car en effet, le profiling est une science inexacte, mais qui repose néanmoins sur des études pertinentes, d’ordre social, psychologique,…
Pour donner des chiffres, les chances d’obtenir un profil completement juste sont d’environ 16% ( ce qui, vous en conviendrez, est très faible ). Néanmoins, les risques de confrontations de deux auteurs ( c’est à dire affirmer que deux textes d’auteurs différents, sont en fait écrit par une entitée unique ) sont de 0.24% ( inférieure à 1%, d’où l’intérêt de l’utilisation de cette méthode
).
Maintenant, comment se passe concrètement l’analyse d’un profil :
Tout d’abord, il faut acquérir le plus de documents de l’auteur, être certains qu’ils sont bien de lui. Ces documents devront aussi être les plus longs possibles ( difficile de mener une analyse pertinente sur un texte de 300 mots … ) . En général, pour un WebUser, on choisira des sources comme les blogs / forums / sites perso en général, lieu de grandes ressources.
Le profiling peut désormais débuter. Il va se dérouler en 5 étapes, qui sont les suivantes :
- Détermination du Sexe
- Analyse du “lexique mental”
- Statistiques vocabulaires, et mots/groupe de mot importants
- Analyse de la ponctuation
- Analyse de la longueur des phrases
-
Détermination du Sexe : Un homme et une femme utilisent des mots différents, et avec des fréquences différentes. L’analyse de la fréquence de ces mots “cible” conclut sur un genre masculin, féminin, ou un égalitée. La précision de cette méthode est de l’ordre de 60/70% . Cette méthode permet aussi de déterminer le pays d’origine de l’auteur. En effet, pour un texte écrit en anglais, la méthode sera plutôt précise pour un Americain, mais indiquera en général une égalité pour un Européen ( et donc un britannique pure souche ). Ces mêmes “scores” permettent aussi de différencier deux personnes : une personne indiqué pour mâle à 62% sera surement différente d’une indiquée à 88%.
-
Analyse du “lexique mental” : Le lexique mental représente tous les mots connus par une personne. Un mot qui n’a jamais été entendu ne sera jamais utilisé, et un mot qui n’est pas employé dans son contexte légitime indique une méconnaissance de son sens. Cette méthode permet de comparer une langue maternel d’une langue apprise lors d’études, avec une précision supérieure à 80% . Cela peut aussi entrainer une distinction de niveaux d’études. En français, l’utilisation de mots comme “épars;ecclésiastique;dot;encens;solennité;scélérat;baïonnette;funérailles;précipitamment;…” dans leur contexte exact indiquera que la personne jouit surement d’un niveau d’étude respectable.
-
- Statistiques vocabulaires, et mots/groupe de mot importants : Certain mots et certaines expressions sont plus répétées que d’autres, suivant généralement le lieu d’origine et le parcours d’étude. Il n’est pas difficile en lisant un texte français de savoir si la personne vient d’un milieu “rural” ou plutôt d’un milieu “urbain”. En Amérique, deux personnes provenant du même état ont des statistiques vocabulaires voisines de l’ordre de 40% .
-
Analyse de la ponctuation : Il y a tellement de manière d’aérer son texte … L’analyse de la fréquence d’apparition des caractères comme , ; ! ? ( ) ” ‘ et l’écart entre ces derniers ( en particuliers les virgules ) est une approche très distinctive, c’est à dire qu’affirmer que deux résultats d’analyse de ponctuation différents proviennent d’un même auteur est quasiment à coup sur faux. Vous remarquerez, très cher lecteur, que j’ai tendance personnellement à utiliser beaucoup de virgule, sans être excessif ( du moins j’essaye
). - Analyse de la longueur des phrases : En plus de l’analyse de la fréquence des signes de ponctuations, l’analyse de la longueur des phrases est très instructive. Pour me reprendre en exemple, j’ai tendance à écrire des phrases de 20 à 30 mots ( phrases donc assez longues ). Cette analyse permet surtout de déterminer si deux auteurs distincts ont écrits deux articles distincts ( et non l’inverse : deux articles distincts provenant du même auteur => haut niveau de faux positif ).
Le manque de documentation ( surtout francophone ) sur ce sujet m’oblige malheuresement à terminer mon article ici. Je vous invite à lire la comparaison entre n3td3v et Gobbles Security réalisée par Hacker Factor ( english ). L’auteur dresse d’abord le profil de n3td3v, qui s’avère être en faite 3 personnes distinctes, puis dresse celui de Gobbles Security, tout en le comparant à ses premiers résultats.
Même s’il ne conclut pas, et même si le profiling est somme toute une science assez subjective, son risque d’erreur s’il affirmait que Gobbles Security et n3td3v désigne un unique groupe, serait de l’ordre de 1 pour 100 000 000 ( sans commentaire
).
Si vous avez de la documentation sur le sujet, surtout, n’hésitez pas, je suis preneur
.
Sur ceux, il se fait tard, et à moins d’avoir envie de comparer un texte écrit par quelqu’un de sobre et réveillé à celui de quelqu’un dans mon état actuel …. eh bien Bonne nuit ![]()