À propos d’Applebot

Consultez cet article pour en savoir davantage sur Applebot, le robot d’indexation d’Apple.

Les données explorées par Applebot sont utilisées pour alimenter diverses fonctionnalités, comme la technologie de recherche intégrée à de nombreuses expériences d’utilisation dans l’écosystème d’Apple, notamment Spotlight, Siri et Safari. L’autorisation d’Applebot dans le fichier robots.txt permet l’affichage du contenu de sites Web dans les résultats de recherche des utilisateurs Apple du monde entier dans ces produits.

Les données explorées par Applebot peuvent également être utilisées pour la formation des modèles de base d’Apple qui alimentent les fonctionnalités d’IA génératives des produits Apple, y compris Apple Intelligence, les services et les outils de développement. Les éditeurs Web peuvent refuser que leur contenu soit utilisé pour entraîner des modèles de base génératifs en interdisant Applebot-Extended dans le fichier robots.txt.

Les données explorées par Applebot peuvent permettre de fournir un contexte supplémentaire et du contenu à jour lorsque des modèles d’IA sont utilisés pour générer des résultats à afficher dans les produits et services Apple. Par exemple, les réponses à des questions de connaissances générales dans Siri et Rechercher qui peuvent inclure des liens vers des sources et des sites web utilisés pour générer la réponse. Les éditeurs web peuvent interdire l’utilisation de leur contenu dans ces réponses basées sur les connaissances générales en appliquant la balise méta nosnippet à du contenu spécifique.

Même si vous désactivez Applebot-Extended et ajoutez la balise méta nosnippet au contenu de votre site web, les instructions de votre site web peuvent toujours permettre à Applebot d’indexer vos pages web. Votre contenu restera détectable par Spotlight, Siri et Safari, ainsi que par d’autres fonctionnalités à l’échelle du système sur les appareils Apple.

Reconnaître Applebot

Le trafic provenant d’Applebot est généralement identifié à l’aide d’un DNS inverse dans le domaine *.applebot.apple.com.

Vous pouvez également faire correspondre l’adresse IP avec l’un des préfixes CIDR indiqués dans le fichier JSON suivant : préfixes CIDR associés aux adresses IP d’Applebot.

DNS inverse

La commande host peut permettre de déterminer si une adresse IP appartient à Applebot.  Les exemples suivants montrent la commande host et son résultat :

$ host 17-58-101-179.applebot.apple.com

17-58-101-179.applebot.apple.com has address 17.58.101.179.

On peut également utiliser la commande host pour vérifier que le DNS renvoie à la même adresse IP :

$ host 17.58.101.179

179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

Agents utilisateurs

Un agent utilisateur aide les webmestres à identifier le trafic des robots d’indexation, ce qui leur permet d’obtenir des rapports d’accès précis sur leur activité et de contrôler l’accès au site avec le fichier robots.txt.

Applebot alimente plusieurs agents utilisateurs, y compris Rechercher et Podcasts.

Rechercher

Pour l’exploration et le rendu des recherches sur le Web, Applebot utilise le format suivant :

La chaîne d’agent utilisateur contient « Applebot » et d’autres renseignements. Le format général est le suivant :

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Exemple pour un ordinateur de bureau :

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, comme Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Exemple pour un appareil mobile :

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

Parfois, Applebot mettra à jour la version du navigateur annoncée tout en conservant le format général ci-dessus.

Robots d’indexation spéciaux

Propriétés en ligne Apple

Le trafic iTMS peut provenir d’hôtes applebot.apple.com. Il sera identifié par l’agent utilisateur suivant :

User-Agent: iTMS

L’agent utilisateur iTMS ne respecte pas les directives robots.txt, car il ne s’agit pas d’un robot d’indexation de recherche général. L’agent utilisateur iTMS explore uniquement les URL associées au contenu enregistré sur Apple Podcasts.

Personnaliser les règles du fichier robot.txt

Applebot respecte les directives robots.txt standard dans les explorations de recherche générales destinées à Applebot. Dans l’exemple suivant, Applebot n’essaie pas d’indexer les documents répertoriés sous /private/ ou /not-allowed/ :

User-agent: Applebot

Allow: /

Disallow: /private/

User-agent: *

Disallow: /not-allowed/

Si les instructions de robot ne mentionnent pas Applebot, mais qu’elles mentionnent Googlebot, le robot d’Apple suivra les instructions de Googlebot. Applebot ne suit pas le délai d’indexation.

Applebot est conçu pour être efficace et s’ajustera afin de limiter l’impact sur les propriétaires de sites. Par exemple, pour éviter de surcharger les serveurs de site, le taux d’indexation d’Applebot s’ajuste automatiquement lorsqu’un site ralentit ou renvoie des erreurs. Apple met également en cache le contenu exploré pour réduire l’exploration inutile. L’identification du contenu qui n’a pas besoin d’être exploré réduit les coûts d’infrastructure pour les propriétaires de sites et rend Internet plus efficace dans son ensemble.

Rendu et règles pour les robots

Applebot peut faire le rendu du contenu de votre site Web dans un navigateur. Si javascript, CSS et d’autres ressources sont bloquées par le fichier robots.txt, il ne pourra peut-être pas faire correctement le rendu du contenu. Sont comprises les ressources XHR, JS et CSS possiblement nécessaires à la page.

Pour qu’Applebot puisse indexer le meilleur contenu de la page, assurez-vous que tout ce qui est nécessaire au rendu de la page pour l’utilisateur soit aussi accessible à Applebot. Autrement, assurez-vous que le rendu de la page se fasse proprement, même si toutes les ressources ne sont pas accessibles. C’est ce qu’on appelle fréquemment le fonctionnement dégradé.

Personnalisation des règles d’indexation pour Applebot

Applebot prend en charge les balises méta pour robots dans les documents HTML. Pour spécifier les règles pour robots dans les balises méta, placez les balises dans la section <head> du document :

<html>

<head>

<meta name="robots" content="noindex"/>

...

</head>

<body>...</body>

</html>

Applebot prend également en charge les directives suivantes :

  • noindex : Applebot n’indexera pas cette page, et elle ne figurera pas dans les suggestions Spotlight ou Siri.

  • nosnippet : Toutes les suggestions faisant référence à cette URL ne comprendront que le titre de la page. Apple n’utilisera pas les données étiquetées nosnippet as additional context and up-to-date content when AI models are used to generate output for display in Apple products and services.

  • nofollow : Applebot ne suivra aucun lien sur la page.

  • none : Applebot n’indexera pas cette page, n’extraira aucun contenu, ni ne suivra de lien sur celle-ci, comme décrit ci-dessus.

  • all : Applebot fournit le document pour les suggestions et génère des extraits de son contenu, ce qui permet d’afficher une brève description de la page à côté d’une image représentative.

Pour mettre plusieurs directives dans une même balise méta, utilisez une liste dont les éléments sont séparés par des virgules ou plusieurs balises méta.

Exemple :

<meta name="robots" content="nosnippet, noindex”>

<meta name="robots" content=“noindex">

<meta name="robots" content=“nosnippet">

<meta name="applebot" content=“nosnippet">

Utiliser l’en-tête HTTP X-Robots-Tag

Applebot prend également en charge les directives d’indexation fournies via l’en-tête de réponse HTTP X-Robots-Tag. Cette fonction est utile pour les ressources autres que HTML (comme les fichiers PDF ou les images) pour lesquelles les balises méta ne peuvent pas être utilisées, ou lorsque vous souhaitez appliquer des directives au niveau du serveur. Pour appliquer une directive à Applebot :

X-Robots-Tag: applebot: nosnippet

Marquer le contenu avec péage numérique

Applebot prend en charge la propriété schema.org isAccessibleForFree pour identifier les pages soumises à un péage numérique, à un accès limité ou à un abonnement. Ajoutez la propriété à vos données structurées au niveau de la page dans JSON-LD :

<script type="application/ld+json">

{

"@context": "https://schema.org",

"isAccessibleForFree": false

}

</script>

Les pages marquées isAccessibleForFree: false peuvent s’afficher dans les résultats de recherche, mais Applebot n’utilisera pas ce contenu comme contexte supplémentaire lorsque des modèles d’IA seront utilisés pour générer des résultats à afficher dans les produits et services Apple. Ce signal s’applique au niveau de la page. L’annotation au niveau de la section à l’aide de hasPart n’est pas prise en charge. Pour interdire l’utilisation de votre contenu à des fins de formation des modèles de base d’Apple, utilisez Applebot-Extended décrit dans la section suivante.

Applebot-Extended et le contrôle de l’utilisation des données

En plus de suivre toutes les règles et directives du fichier robots.txt, Apple dispose d’un agent utilisateur secondaire, Applebot-Extended, qui donne aux éditeurs Web des contrôles supplémentaires sur l’utilisation du contenu de leur site Web par Apple.

Avec Applebot-Extended, les éditeurs web peuvent interdire l’utilisation du contenu de leur site web à des fins de formation des modèles de base généralistes d’Apple qui alimentent les fonctionnalités d’IA générative des produits Apple, notamment Apple Intelligence, les services et les outils de développement.

Vous pouvez ajouter la règle suivante dans le fichier robots.txt pour interdire Applebot-Extended :

User-agent: Applebot-Extended

Disallow: /private/

Applebot-Extended n’explore pas les pages Web. Les pages Web qui interdisent Applebot-Extended peuvent toujours être affichées dans les résultats de recherche. Applebot-Extended est uniquement utilisé pour définir l’utilisation des données explorées par l’agent utilisateur d’Applebot.

L’autorisation d’Applebot-Extended contribuera à l’amélioration des capacités et de la qualité des modèles d’IA générative d’Apple au fil du temps.

À propos du classement des résultats de recherche

La recherche Apple peut tenir compte des facteurs suivants pour le classement des résultats de recherche sur le Web :

  • Interactions agrégées des utilisateurs avec les résultats de recherche.

  • Pertinence et correspondance des termes de recherche par rapport aux sujets et au contenu des pages Web.

  • Nombre et qualité des liens provenant d’autres pages sur le Web.

  • Signaux basés sur la position de l’utilisateur (données approximatives).

  • Caractéristiques de conception de la page Web.

Les résultats de recherche peuvent prendre en compte les facteurs ci-dessus sans importance (prédéterminée) de classement. Les utilisateurs de la recherche sont assujettis à la politique de confidentialité de l’article Suggestions Siri, recherche et confidentialité.

Nous joindre

Si vous avez des questions ou des préoccupations, veuillez nous écrire à l’adresse applebot@apple.com.

Les renseignements sur les produits qui ne sont pas fabriqués par Apple ou sur les sites Web indépendants qui ne sont pas gérés ni vérifiés par Apple sont fournis sans recommandation ni approbation de la part d’Apple. Apple décline toute responsabilité quant à la sélection, au bon fonctionnement ou à l’utilisation de sites Web ou de produits de tiers. Apple ne fait aucune déclaration et n’offre aucune garantie quant à l’exactitude ou à la fiabilité de ces sites web de tiers. Communiquez avec le fournisseur pour en savoir plus.

Date de publication: