À propos d’Applebot

Consultez cet article pour en savoir plus sur Applebot, le robot d’indexation d’Apple.

Les données explorées par Applebot sont utilisées pour alimenter diverses fonctionnalités, telles que la technologie de recherche intégrée à de nombreuses expériences utilisateur de l’écosystème d’Apple, notamment Spotlight, Siri et Safari. L’activation d’Applebot dans robots.txt permet au contenu des sites web d’apparaître dans les résultats de recherche des utilisateurs d’Apple du monde entier dans ces produits.

Les données explorées par Applebot peuvent également être utilisées pour entraîner les modèles de fondation Apple sous-jacents aux fonctionnalités d’IA générative disponibles sur les produits Apple, y compris Apple Intelligence, les services et les outils de développement. Afin d’empêcher que leur contenu soit utilisé pour entraîner les modèles de fondation génératifs, les éditeurs web peuvent désactiver Applebot-Extended dans le fichier robots.txt.

Les données explorées par Applebot peuvent être utilisées pour fournir un contexte supplémentaire et du contenu à jour lorsque des modèles d’IA sont utilisés pour générer des résultats à afficher dans les produits et services Apple. Par exemple, les réponses à des questions de culture générale dans Siri et Search , qui peuvent inclure des liens vers des sources et des sites web utilisés pour aider à générer la réponse. Afin d’empêcher que leur contenu soit utilisé pour répondre à ces questions de culture générale, les éditeurs web peuvent appliquer la balise méta nosnippet à un contenu spécifique.

Même si vous désactivez Applebot-Extended et appliquez la balise méta nosnippet au contenu de votre site web, les instructions de votre site web peuvent toujours permettre à Applebot d’explorer vos pages web. Votre contenu restera détectable par Spotlight, Siri et Safari, ainsi que d’autres fonctionnalités système des appareils Apple.

Identifier Applebot

Le trafic provenant d’Applebot est généralement identifié à l’aide du service DNS inversé dans le domaine *.applebot.apple.com.

Une autre façon consiste à faire correspondre l’adresse IP avec un préfixe CIDR contenu dans le fichier JSON suivant : Applebot IP CIDRs.

Service DNS inversé

La commande hôte peut être utilisée pour déterminer si une adresse IP fait partie d’Applebot. Ces exemples illustrent la commande host et son résultat :

$ host 17-58-101-179.applebot.apple.com

17-58-101-179.applebot.apple.com has address 17.58.101.179.

La commande host peut également être utilisée pour vérifier que le DNS pointe vers la même adresse IP :

$ host 17.58.101.179

179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

Agents utilisateurs

Les agents utilisateurs aident les webmasters à identifier le trafic des robots d’indexation, afin qu’ils puissent obtenir des rapports précis sur l’historique d’accès lié à l’activité des robots d’indexation et contrôler l’accès au site via robots.txt.

Applebot alimente plusieurs agents utilisateurs, notamment Search et Podcasts.

Search

Pour l’indexation et le rendu web de la recherche, Applebot utilise le format suivant :

La chaîne user-agent contient la mention « Applebot », ainsi que des informations supplémentaires. Voici le format général :

Mozilla/5.0 (Appareil; version_OS) AppleWebKit/version_WebKit (KHTML, like Gecko) Version/version_Safari [Mobile/version_Mobile] Safari/version_WebKit (Applebot/version_Applebot; +http://www.apple.com/go/applebot)

Mozilla/5.0 (Appareil; version_OS) AppleWebKit/version_WebKit (KHTML, like Gecko) Version/version_Safari [Mobile/version_Mobile] Safari/version_WebKit (Applebot/version_Applebot; +http://www.apple.com/go/applebot)

Exemple pour ordinateurs de bureau :

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Exemple pour appareils mobiles :

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

De temps en temps, Applebot mettra à jour la version du navigateur utilisé tout en restant dans le format général ci-dessus.

Robots d’indexation spéciaux

Propriétés d’Apple en ligne

Le trafic iTMS peut provenir d’hôtes applebot.apple.com et est identifié par l’agent utilisateur suivant :

User-Agent: iTMS

L’agent utilisateur iTMS ne suit pas robots.txt, car il ne s’agit pas d’un robot d’indexation de recherche général. L’agent utilisateur iTMS explore uniquement les URL associées au contenu enregistré sur Apple Podcasts.

Personnaliser les règles robot.txt

Applebot respecte les directives robots.txt standard dans les explorations de recherche générales ciblées sur Applebot. Dans cet exemple, Applebot n’essaie pas d’indexer les documents répertoriés sous /private/ ou /not-allowed/ :

User-agent: Applebot

Allow: /

Disallow: /private/

User-agent: *

Disallow: /not-allowed/

Si les instructions du fichier robots.txt ne font pas état d’Applebot, mais de Googlebot, le robot d’Apple suit alors celles se rapportant à Googlebot. Applebot ne suit pas les règles crawl-delay.

Applebot est conçu pour être efficace et s’ajuste pour minimiser l’impact sur les propriétaires de sites. Par exemple, pour éviter de surcharger les serveurs de sites, le taux d’exploration d’Applebot diminue automatiquement lorsqu’un site ralentit ou renvoie des erreurs. Apple met également en cache le contenu exploré pour réduire les explorations inutiles. L’identification du contenu qui n’a pas besoin d’être exploré réduit les coûts d’infrastructure pour les propriétaires de sites et rend Internet plus efficace dans son ensemble.

Rendu et règles relatives au robot

Applebot peut afficher le contenu de votre site web dans un navigateur. Si javascript, CSS et d’autres ressources sont bloquées via robots.txt, il ne pourra peut-être pas afficher correctement le contenu. Cela inclut les ressources XHR, JS et CSS dont la page pourrait avoir besoin.

Pour qu’Applebot indexe le meilleur contenu pour la page, assurez-vous que tout ce dont un utilisateur a besoin pour afficher la page est disponible pour Applebot. Vous pouvez également vous assurer que le site web s’affiche correctement, même si toutes les ressources ne sont pas disponibles. Cette technique est souvent appelée « dégradation gracieuse ».

Personnaliser les règles d’indexation pour Applebot

Applebot prend en charge les balises méta robots dans les documents HTML. Afin de spécifier les règles pour robots dans les balises méta, placez les balises dans la section <head> du document :

<html>

<head>

<meta name="robots" content="noindex"/>

...

</head>

<body>...</body>

</html>

Applebot prend également en charge les directives suivantes :

  • noindex : Applebot n’indexera pas cette page, et elle n’apparaîtra pas dans les suggestions Spotlight ou Siri.

  • nosnippet : Applebot ne générera pas de description ou de réponse web pour la page. Toutes les suggestions faisant référence à cette URL ne comprendront que le titre de la page. Apple n’utilise pas les données associées à une balise nosnippet pour fournir un contexte supplémentaire et du contenu à jour lorsque des modèles d’IA sont utilisés pour générer des résultats à afficher dans les produits et services Apple.

  • nofollow : Applebot ne suivra aucun lien sur la page.

  • none : Applebot n’indexera pas cette page, n’extraira aucun contenu ni ne suivra aucun lien sur celle-ci, comme décrit ci-dessus.

  • all : Applebot fournit le document pour les suggestions et génère des extraits de son contenu, permettant d’afficher une brève description de la page à côté d’une image représentative. Applebot peut suivre des liens sur la page pour fournir plus de suggestions.

Pour mettre plusieurs directives dans une même balise méta, utilisez une liste séparée par des virgules ou plusieurs balises méta.

Exemple :

<meta name="robots" content="nosnippet, noindex”>

<meta name="robots" content=“noindex">

<meta name="robots" content=“nosnippet">

<meta name="applebot" content=“nosnippet">

Utilisation de l’en-tête HTTP X-Robots-Tag

Applebot prend également en charge les directives d’indexation transmises via l’en-tête de réponse HTTP X-Robots-Tag. Ceci est utile pour les ressources non HTML (telles que les PDF ou les images) pour lesquelles les balises méta ne peuvent pas être utilisées, ou lorsque vous souhaitez appliquer des directives au niveau du serveur. Pour appliquer une directive à Applebot :

X-Robots-Tag: applebot: nosnippet

Marquage du contenu protégé par paywall

Applebot prend en charge la propriété schema.org isAccessibleForFree pour identifier les pages protégées par un paywall, un accès limité ou un abonnement. Ajoutez la propriété à vos données structurées au niveau de la page en JSON-LD :

<script type="application/ld+json">

{

"@context": "https://schema.org",

"isAccessibleForFree": false

}

</script>

Les pages marquées isAccessibleForFree: false peuvent apparaître dans les résultats de recherche, mais Applebot n’utilise pas ce contenu comme contexte supplémentaire lorsque des modèles d’IA sont utilisés pour générer du contenu à afficher dans les produits et services Apple. Ce signal s’applique au niveau de la page. Le marquage au niveau de la section à l’aide de hasPart n’est pas pris en charge. Pour empêcher que votre contenu soit utilisé pour entraîner les modèles de fondation Apple, utilisez Applebot-Extended décrit dans la section suivante.

Applebot-Extended et contrôle de l’utilisation des données

En plus de suivre toutes les règles et directives de robots.txt, Apple dispose d’un agent utilisateur secondaire, Applebot-Extended, qui fournit aux éditeurs web des contrôles supplémentaires sur la façon dont le contenu de leurs sites web peut être utilisé par Apple.

Avec Applebot-Extended, les éditeurs web peuvent choisir de refuser que le contenu de leurs sites web soit utilisé pour former les modèles de fondation d’usage général d’Apple servant de socle aux fonctionnalités d’IA générative des produits Apple, notamment Apple Intelligence, les services et les outils de développement.

Vous pouvez ajouter une règle dans robots.txt pour désactiver Applebot-Extended, comme suit :

User-agent: Applebot-Extended

Disallow: /private/

Applebot-Extended n’explore pas les pages web. Les pages web qui désactivent Applebot-Extended peuvent quand même être incluses dans les résultats de recherche. Applebot-Extended est utilisé uniquement pour déterminer comment utiliser les données explorées par l’agent utilisateur Applebot.

L’activation d’Applebot-Extended permet d’améliorer les capacités et la qualité des modèles d’IA générative d’Apple au fil du temps.

À propos du classement des recherches

Apple Search peut prendre en compte les facteurs suivants lors du classement des résultats de recherche sur le Web :

  • Engagement global des utilisateurs vis-à-vis des résultats de recherche

  • Pertinence et correspondance des termes de recherche avec les sujets et le contenu des pages web

  • Nombre et qualité des liens provenant d’autres pages du web

  • Signaux basés sur la localisation de l’utilisateur (données approximatives)

  • Caractéristiques de conception de la page web

Les résultats de la recherche peuvent utiliser les facteurs ci-dessus sans ordre d’importance (prédéterminé). Les utilisateurs de Search sont soumis à l’engagement de confidentialité stipulé dans l’article Suggestions Siri, recherche et confidentialité.

Nous contacter

Si vous avez des questions ou des préoccupations, veuillez nous contacter à l’adresse applebot@apple.com.

Les informations se rapportant à des produits non fabriqués par Apple, ou à des sites web indépendants qui ne sont ni contrôlés ni testés par Apple, sont fournies uniquement à titre indicatif et ne sont ni recommandées ni approuvées par Apple. Apple ne saurait être tenu responsable de problèmes liés à l’utilisation de tels sites ou produits tiers, ou à leurs performances. Apple ne garantit en aucune façon la fiabilité d’un site web tiers ni l’exactitude des informations que ce dernier propose. Contactez le fournisseur pour obtenir des informations supplémentaires.

Date de publication: