Qu’est-ce que le filtre SafeSearch de Google et quel est son fonctionnement ?

Tout ce qui est lié aux recherches effectuées dans Google a un facteur interne que nous ne pouvons pas, à première vue, observer. C’est ce qui se produit avec tout type de recherche, y compris celles qui se réfèrent à des images.

Vous pouvez donc trouver des résultats d’images qui correspondent davantage à ce que vous recherchez. Dans le même ordre d’idée, ce filtre peut être utilisé pour éviter que des images obscènes n’apparaissent dans le moteur de recherche. Il est donc idéal pour contrôler les recherches de vos enfants sur l’internet et les protéger.

Le filtre SafeSearch, c’est quoi ?

SafeSearch est un filtre du moteur de recherche Google qui vise à protéger les enfants des sites web et des images considérés comme réservés aux adultes, comme la pornographie et d’autres contenus potentiellement offensants.

Ce filtre doit être activé pour qu’il fonctionne, et il est recommandé de l’activer dans votre compte Google.

Ainsi, les personnes qui souhaitent rechercher des images dans Google à l’aide de ce filtre peuvent mieux gérer l’ensemble de leur recherche.

La plupart des personnes effectuent des recherches avec une “recherche sûre modérée”.

Comme nous l’avons dit, vous pouvez supposer que la plupart des utilisateurs de Google Image Search recherchent dans les paramètres par défaut “Modéré”.

Si vous avez un site web avec de nombreuses images et que certaines d’entre elles sont bien placées dans la recherche d’images, vous pouvez obtenir de nombreux visiteurs grâce à Google Image Search.

Les images, qui étaient auparavant (presque) toutes dans la recherche d’images modérée, n’étaient affichées dans la recherche d’images pendant cette période que si vous changiez le filtre SafeSearch sur “Off”.

Nous avons fait des recherches : pendant cette période, nous n’avons pratiquement reçu aucune visite par le biais de la recherche d’images. La proportion de ceux qui ont fait des recherches avec Safesearch était pratiquement nulle.

Par conséquent, si vous gérez un site web “normal” avec des images “normales”, il est absolument nécessaire qu’il soit répertorié dans la recherche d’images modérée. Tout le reste est une perte de temps.

Après les recherches que nous avons effectuées ces derniers jours, il n’est pas rare que des images entrent dans le filtre. Il est probable que beaucoup ne le remarquent même pas.

Selon votre site, une grande majorité des visiteurs peuvent passer par la recherche d’images sur Google. Mais beaucoup d’entreprises n’ont peut-être pas ou ne réalisent pas le potentiel en fonction de leur secteur comme le domaine de l’ameublement par exemple.

Comment savoir si le filtre SafeSearch est activé ?

Consultez le site de recherche d’images de Google, vous devez d’abord consulter la “recherche d’images modérée” pour voir combien d’images sont affichées. Et ensuite, désactivez le filtre : combien d’images sont affichées maintenant ?

Si c’est identique, pas de problème. Cependant, si elles diffèrent et que moins d’images sont affichées dans la recherche d’images modérée, cela indique clairement que certaines images seront filtrées. Si vous le voyez, publiez-le dans les commentaires.

Mais comment des images individuelles ou même un domaine entier peuvent-ils entrer dans le filtre ?

Comment fonctionne le filtre de recherche Google Image Search ?

Maintenant, cela devient spéculatif. Parce que Google ne donne aucun indice. Quelles méthodes, fonctions et critères Google utilise-t-il pour filtrer les images ? Nous allons essayer systématiquement : quelles fonctions Google peut-il extraire ?

  • Analyse du matériel graphique
  • Analyse des noms de fichiers
  • Analyse du texte attribué à l’image ou à la page sur laquelle l’image apparaît.
  • Analyse des liens (entrants et sortants)
  • Messages des utilisateurs sur les contenus offensants

Analyse d’images “réelles”

Le premier point “Analyse du matériel photographique” est certainement le plus simple. Bien sûr, il existe maintenant de nombreux algorithmes qui permettent d’analyser les images. Elles se sont répandues. Un exemple est la reconnaissance automatique des visages, qui fonctionne aujourd’hui dans pratiquement tous les appareils photo numériques.

Google lui-même offre avec “Images similaires” une fonction qui provient évidemment de l’évaluation des informations sur les images. Cependant, aussi bon qu’il puisse être en partie, il est et reste très défectueux. Un vélo de côté est très facile à identifier. Mais un vélo de face est beaucoup plus compliqué.

La principale application de la véritable “analyse d’image” se trouve sans doute dans les “modèles d’images stéréotypées” dans le domaine de la pornographie ou des armes (violence). Ici, les caractéristiques de l’image précédemment définies peuvent être déterminées relativement facilement.

Cependant, l’analyse de l’image reste floue. Par exemple, NerdInSkirt a pu prouver il y a quelque temps que les photos de nus en noir et blanc ne sont pas filtrées si le nom du fichier et le texte qui l’entoure sont totalement inoffensifs (voir “Google Image Search : Bad Neighbourhood”).

Analyse des noms de fichiers d’images

Comme pour l’optimisation des images, l’information textuelle est la source d’information la plus importante dans l’analyse des images de Google.

Tous les textes disponibles, éventuellement avec des pondérations différentes, jouent certainement un rôle à cet égard. Le point central est probablement le nom du fichier : une image portant le titre “explicite-hardcore-p***.jpg” a probablement de relativement bonnes chances d’être filtrée immédiatement.

Analyse de texte

Google sait aussi, bien sûr, que la plupart des images n’ont pas de nom de fichier descriptif. Au lieu de cela, trop souvent, seuls des chiffres cryptiques et des colonnes de lettres (provenant de l’appareil photo numérique ou d’un mauvais CMS) sont utilisés.

Par conséquent, outre le nom du fichier, le texte qui l’entoure et le titre du site web jouent un rôle important. Google est maintenant assez bon pour vérifier la sémantique de ces textes. Au moins lorsqu’il s’agit de découvrir certains contenus. Un texte offensant sera relativement facile à identifier en raison des termes et expressions utilisés.

Et c’est précisément là que réside le danger pour les sites web normaux. En effet, l’algorithme de filtrage peut mal interpréter un texte dans lequel apparaissent certains termes.

Analyse des liens

Le truc avec les liens est relativement simple : si une page renvoie à des pages “critiques”, les images flottent dans le plus grand danger. Et si des images sont liées à ces sites, c’est encore plus vrai. C’est, comme je l’ai dit, spéculatif et non prouvé, mais je crois qu’il est possible d’obtenir des images d’un point de vue critique. En montrant des images inoffensives dans un contexte offensif comme les hotlinks.

Le deuxième point concerne certainement les liens sortants : si une page renvoie (du point de vue de Google) à des sites web clairement offensants, cela pose certainement un problème pour les images de la page.

Filtrage SafeSearch par les messages des utilisateurs

Que se passe-t-il si les utilisateurs signalent une image comme étant choquante ? Bien sûr, on pourrait penser au début que l’image serait immédiatement bloquée dans la “recherche d’image modérée”.

Mais comme souvent, ce serait trop facile. Parce qu’alors quelqu’un pourrait facilement éliminer toute la concurrence jusqu’à ce que sa propre image soit en position 1.

Non, les messages des utilisateurs ne sont probablement qu’une indication. Il est possible qu’une image soit automatiquement rejetée après un certain nombre de messages d’utilisateurs, ou bien l’image est-elle vérifiée manuellement par un employé de Google ?

Le filtre peut également comporter plusieurs étapes, et plus vous recevrez de messages, plus vous contrôlerez de manière critique les signaux restants.

Si vous regardez la page officielle d’enregistrement de Google, vous pouvez supposer que les images sont vérifiées manuellement.

Images dans l’oeil du filtre

Jusqu’à présent, nous avons observé deux variantes. Le second ne pourrait donc être qu’un effet différé du premier. Ce qui est certain, c’est qu’un domaine complet, c’est-à-dire toutes les images attribuées à ce domaine, peut entrer dans le filtre de recherche d’images.

La deuxième possibilité est que seules des images individuelles ou des groupes d’images peuvent glisser dans un filtre.

Les images uniques signifient que toutes les autres images d’un domaine ne sont pas affectées. Des groupes d’images peuvent être trouvés dans un dossier selon mes observations (évidemment anciennes).

Cela signifie que seules les images qui se trouvent dans un certain dossier peuvent être triées et que toutes les autres images peuvent être trouvées dans la “recherche d’images modérée”.

Comme je l’ai dit, ce sont des observations relativement anciennes. Peut-être que la recherche d’images était si lente à cette époque que l’ampleur de la catastrophe n’a pas pu être développée du tout parce que j’ai rapidement adapté les textes à nouveau. Si quelqu’un découvre quelque chose ici ou peut faire part de ses propres observations, j’en serai ravi.

Les images filtrées restent de toute façon dans la recherche d’images

À ce stade, une observation brève et intéressante : un domaine était complètement interdit pour la recherche d’images modérées. Mais étonnamment seulement le domaine ou les pages.

Dans la grande majorité des cas, les images sont restées visibles dans la recherche d’images modérée. Qu’est-ce qui ne va pas ? Parce qu’il y a de nombreuses copies ou liens de plusieurs de mes photos.

Bien que Google exécute des copies d’images sous un identifiant, les images (apparemment) critiques ne sont pas supprimées. Google modifie simplement la destination du lien dans la recherche d’images. Ingo “Putzlowitsch” en a déjà fait l’expérience et l’a décrite : “Tout pour le chat”.

C’est peut-être un bug. Mais je soupçonne plutôt qu’on peut en déduire quelque chose : Google ne critique pas du tout les images, mais le contexte.

S’il s’agissait de l’image elle-même (par exemple, parce qu’elle a été interprétée comme offensante par “l’analyse de l’image réelle”), elle serait certainement attachée à l’identification de l’image en tant qu’information. Ensuite, toutes les copies devraient également disparaître de la recherche d’images modérées. Dans notre cas, ce n’était pas le cas.

Problème principal : texte mal compris

La cause de la disparition d’images inoffensives se trouve sans doute dans le texte qui l’entoure. Google ne sanctionne pas les images, mais le texte de la page correspondante. Pour moi, il s’avère que les photos n’ont pas été signalées comme “offensantes”, mais nous avons fait des erreurs dans le texte.

Mais aujourd’hui, ce n’est pas seulement un visage ou une image qui a disparu, mais tous. Par conséquent, nous supposons également qu’il ne s’agissait pas d’un passage spécifique du texte, mais de la “totalité des textes” concernant ce domaine.

Nous avons probablement utilisé des formulations glissantes dans trop d’endroits. Cela a permis de surmonter un obstacle “critique”, qui à son tour a placé l’ensemble du domaine dans un contexte offensif. Et par précaution, Google a supprimé toutes les images de l’index. Comme nous l’avons dit : tout est parti dans le brouillard, mais de mon point de vue plausible….

Pourquoi les photos sont-elles sanctionnées, et non la page ?

La grande question demeure : si Google trouve un texte douteux de son point de vue, pourquoi les images sortent-elles de la recherche d’images et non de la page de recherche organique du web ? Une chose est claire : aucune des parties n’a perdu ne serait-ce qu’une seule position dans la recherche organique. …?

Un petit clic pour évaluer l'article