À la suite de l’article d’hier, consacré à l’utilisation des opérateurs booléens dans Google, je vais maintenant évoquer les opérateurs de recherche, appelés aussi opérateurs de ciblage.
Mais avant d’aller plus loin et afin de simplifier la compréhension des six premiers opérateurs présentés, il faut savoir que Google vous permet de rechercher dans (au moins) trois parties distinctes des pages web qu’il indexe :
- leur URL
- leur titre,
- leur corps du texte
Les opérateurs de recherche (ou de ciblage)
intitle:
Cet opérateur permet de rechercher des pages dont le titre contient un mot-clé spécifique. Seul le mot qui suit immédiatement « intitle: » est pris en compte dans la recherche du titre. Par exemple, « intitle:veille » trouvera des pages ayant le mot « veille » dans leur titre (c’est-à-dire dans leur balise HTML title).
Règle d’or pour les opérateurs à venir : pas d’espace ni avant, ni après les « : », sinon ça ne fonctionne plus.
Cet opérateur fonctionne aussi pour les expressions exactes. Par exemple :
allintitle:
Similaire à « intitle: », mais permet de rechercher plusieurs mots-clés dans le titre. Les mots qui suivent « allintitle: » doivent être présents dans le titre de la page, dans n’importe quel ordre.
Exemple : allintitle:veille « intelligence économique » influence
Attention, il y a des pièges !
Si le résultat n°3 comporte bien les mots-clés recherchés. Cela ne semble pas être le cas de résultats 1 et 2. Or, si l’on ouvre chacune de ces pages, on retrouve bien nos trois mots-clés.
- Résultat 1 : les trois mots-clés sont bien présents dans le titre de la page (à droite)
- Résultat 2 : le mot influence est bien dans le titre, mais pas visible du fait de la quantité de texte affichée par Google (à droite)
Une autre erreur classique avec ces opérateurs (et les prochains), consiste à les écrire avec une majuscule. Ainsi, si j’écris « Intitle:marketing » (ex 2 ci-dessous) au lieu d' »intitle:marketing » (ex 1 ci-dessous), Google va penser qu’il s’agit d’un mot-clé et me proposer des pages dans lesquelles « intitle: » est cité en tant que mot-clé. Il ne comprendra pas que je lui demande de rechercher des pages qui comportent le mot « marketing » dans le titre. Il est d’ailleurs facile de constater qu’il ne recherche alors plus dans le titre puisqu’il met en gras des éléments du corps de texte (exemple 2).
intext:
Cet opérateur recherche un mot-clé spécifiquement dans le corps du texte d’une page web, c’est-à-dire dans la balise body du code HTML. Par exemple, « intext:veille » trouvera des pages contenant le mot « veille » dans leur contenu. Que le mot « veille » soit ou non présent dans le titre n’a donc pas d’impact ici, comme on le constate ici avec le deuxième résultat.
allintext:
Similaire à « intext: », mais permet de rechercher plusieurs mots-clés dans le contenu de la page. Tous les mots spécifiés doivent être présents dans le corps du texte.
Exemple : allintext:veille influence
inurl:
Cet opérateur recherche un mot-clé spécifique dans l’URL d’une page web. Par exemple, « inurl:veille » trouvera des pages dont l’URL contient le mot « veille ».
allinurl:
Similaire à « inurl: », mais permet de rechercher plusieurs mots-clés dans l’URL. Tous les mots spécifiés doivent être présents dans l’URL.
Exemple : allinurl:veille influence
site:
Cet opérateur, très utile, permet de restreindre la recherche à un seul site web ou à un domaine spécifique, en utilisant son adresse web, ou URL (Uniform Resource Locator).
Avant d’aller plus loin et afin de mieux les exploiter, un bref rappel sur les éléments qui composent une URL :
L’opérateur « site: » va nous permettre de rechercher des mots-clés dans un site web. Plus précisément dans les sous-domaines, le domaine, l’extension de domaine et le chemin.
Voyons maintenant quelques exemples :
Exemple 1 : Je recherche les pages qui évoquent le thème de la sécurité civile sur le site du ministère de l’Intérieur.
site:www.interieur.gouv.fr/ « sécurité civile »
Exemple 2 : Je recherche les pages qui évoquent le thème de la sécurité civile sur les sous-domaines du site du ministère de l’Intérieur.
site:interieur.gouv.fr/ « sécurité civile »
Cette requête, dans laquelle j’ai supprimé le sous-domaine web (www), permet de découvrir des sous-sites du ministère de l’Intérieur.
Exemple 3 : Je recherche les pages qui évoquent le thème de la sécurité civile sur les sites se terminant en « gouv.fr », c’est-à-dire l’ensemble de sites gouvernementaux français.
site:gouv.fr/ « sécurité civile »
On constate que l’on obtient, par exemple, des résultats provenant de Légifrance ou de sites préfectoraux.
Exemple 4 : Je recherche les pages qui évoquent le thème de la sécurité civile dans une sous-partie du site du ministère de l’Intérieur. Par exemple, la rubrique « Actualités » :
site:www.interieur.gouv.fr/actualites/ « sécurité civile »
On constate que Google n’a recherché que dans le répertoire d’actualités du site. Bien entendu, il aura fallu repérer au préalable la bonne URL à lui fournir.
Le fait d’ajouter le protocole (https:// ou http://) « site: » n’est pas un problème dans les cas 1 et 4 ci-dessous (par exemple : site:https://www.interieur.gouv.fr/actualites/ insécurité). Si vous ne faites pas la distinction dans ces usages, partez du principe qu’il ne vaut mieux pas indiquer le protocole avec l’opérateur « site: »)
filetype: (ou ext:)
Cet opérateur permet de rechercher des fichiers d’un type spécifique. Par exemple, des PDF, des Powerpoint, Word, Excel… Il suffit pour cela d’ajouter à l’opérateur le type d’extension qui vous intéresse (pdf, pptx, docx, xlsx,…).
Attention, cela ne fonctionne pas (ou plutôt ne fonctionne plus) avec des fichiers epub ou mp3
100% des résultats obtenus ici doivent être des PDF comportant le mot « veille » dans le titre ou dans le corps de texte. Si ce n’est pas le cas, alors ce n’est pas Google qui s’est trompé…
Les opérateurs obsolètes
Au fil des années, Google a ajouté puis supprimé de nombreux opérateurs, mais comme ses équipes communiquent assez discrètement à ce sujet, seule une veille sur ces évolutions permet de les suivre. Ainsi, parmi les opérateurs supprimés qui étaient les plus utiles aux professionnels de l’information, l’on retrouve :
- ~ (tilde), qui permettait de rechercher avec les synonymes d’un mot dans une requête. Il a été supprimé en 2013.
- +, qui forçait Google à remonter des résultats dans lesquels un mot était écrit d’une manière précise. Par exemple, si je souhaitais obtenir des pages mentionnant electricité (mal accentué), plutôt qu’électricité, il suffisait que j’écrive ma requête ainsi : +electricité . Il a été supprimé en 2011, mais il est toujours possible de forcer l’écriture d’un mot. Il suffit pour cela de l’entourer de guillemets, comme s’il s’agissait d’une expression exacte. Par exemple « electricité »
- link: qui était utilisé pour rechercher des pages liant à un domaine ou une URL spécifique. Il a été abandonné en 2017. Il semble depuis fonctionner de manière totalement erratique, selon la météo, le cours boursier, le résultat des élections ou tout autre critère qui vous plaira. Quoi qu’il en soit, il n’est plus fiable.
- related: qui permettait de découvrir d’autres sites traitant de sujets similaires ou en relation avec un site donné. Sa suppression a été annoncée en juillet 2023.
- # (hashtag), qui était utilisé pour rechercher des hashtags sur Google+. Il a été abandonné en 2019 lors de la fermeture de ce réseau social
- cache: qui permettait de trouver la dernière version indexée d’une page web, même si elle n’était plus en ligne. Il a été supprimé cette année.
Il y a encore beaucoup à dire sur la recherche et notamment sur la manière de mixer opérateurs booléens et opérateurs de ciblage. Ce sera le sujet d’un prochain article.
En attendant, bons tests !
