Over Applebot

Lees hier meer over Applebot, de webcrawler voor Apple.

De gegevens die door Applebot worden gecrawld, liggen ten grondslag aan verschillende functies, zoals de zoektechnologie geïntegreerd in veel gebruikerservaringen in het ecosysteem van Apple, waaronder Spotlight, Siri en Safari. Door Applebot in te schakelen in robots.txt in deze producten, kan websitemateriaal in de zoekresultaten worden weergegeven voor Apple gebruikers over de hele wereld.

De gegevens die door Applebot worden gecrawld, kunnen ook worden gebruikt om de basismodellen van Apple te trainen voor generatieve AI-functies in Apple-producten, waaronder Apple Intelligence, Services en Developer Tools. Webuitgevers kunnen ervoor kiezen om hun materiaal niet te laten gebruiken om de generatieve basismodellen te trainen door Applebot-Extended niet toe te staan in het robots.txt-bestand.

Applebot-gecrawlde gegevens kunnen worden gebruikt om aanvullende context en actuele inhoud te bieden als AI-modellen worden gebruikt om uitvoer te genereren voor weergave in Apple producten en services. De antwoorden op vragen over brede wereldkennis in Siri en Zoek, kunnen bijvoorbeeld links bevatten naar bronnen en websites die zijn gebruikt om het antwoord te genereren. Webuitgevers kunnen ervoor kiezen dat hun inhoud niet wordt gebruikt in deze antwoorden met brede wereldkennis door de nosnippet metatag toe te passen op specifieke inhoud.

Zelfs als je Applebot-Extended niet toestaat en websitecontent tagt met de nosnippet metatag, kunnen je website-instructies Applebot nog steeds toestaan je webpagina's te crawlen. Je inhoud blijft vindbaar via Spotlight, Siri en Safari, evenals andere systeemwijde functies op Apple apparaten.

Applebot identificeren

Verkeer afkomstig van Applebot wordt over het algemeen geïdentificeerd door reverse DNS in het domein *.applebot.apple.com te gebruiken.

Een andere manier is om het IP-adres te matchen met een CIDR-voorvoegsel in het volgende JSON-bestand: Applebot IP CIDRs.

Omgekeerde DNS

Het commando 'host' kan worden gebruikt om te bepalen of een IP-adres deel uitmaakt van Applebot. Hier zijn enkele voorbeelden van het commando 'host' en de resultaten ervan:

$ host 17-58-101-179.applebot.apple.com

17-58-101-179.applebot.apple.com heeft adres 17.58.101.179.

Het commando 'host' kan ook worden gebruikt om te controleren of de DNS naar hetzelfde IP-adres verwijst:

$ host 17.58.101.179

179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

User-agents

Met een user-agent kunnen webmasters crawler-verkeer te identificeren, zodat ze nauwkeurige logboekrapporten over toegang van crawleractiviteit kunnen krijgen en de toegang tot de site kunnen controleren via robots.txt.

Applebot vormt de basis voor verschillende user-agents, waaronder Zoek en Podcasts.

Zoek

Voor web-crawlen en weergeven van de functie 'Zoek', gebruikt Applebot het volgende formaat:

De tekenreeks 'user-agent' bevat 'Applebot' en andere gegevens. Het algemene formaat ziet er als volgt uit:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Voorbeeld voor desktop:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Voorbeeld voor mobiel:

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

Soms zal Applebot de geadverteerde browserversie bijwerken maar het algemene hierboven aangegeven formaat aanhouden.

Speciale crawlers

Apple online-eigendommen

iTMS-verkeer kan afkomstig zijn van applebot.apple.com -hosts, en zal worden geïdentificeerd door de volgende user-agent:

User-agent: iTMS

De iTMS-user-agent volgt robots.txt niet, omdat het geen algemene zoekcrawler is. De iTMS-user-agent crawlt alleen URL's die zijn gekoppeld aan geregistreerde inhoud op Apple Podcasts.

robot.txt-regels aanpassen

Applebot respecteert de standaardregels voor aanwijzingen in robots.txt in algemene zoekcrawls die gericht zijn aan Applebot. In dit voorbeeld zal Applebot niet proberen om documenten te crawlen die zich bevinden onder '/private/' of '/not-allowed/':

User-agent: Applebot

Allow: /

Disallow: /private/

User-agent: *

Disallow: /not-allowed/

Als 'Applebot' niet in de instructies voor robots wordt vermeld, maar 'Googlebot' wel, volgt de Apple robot de Googlebot-instructies. Applebot volgt geen crawl-vertraging.

Applebot is ontworpen om efficiënt te zijn en past zich aan om de impact op site-eigenaren te minimaliseren. Om bijvoorbeeld te voorkomen dat servers van sites overbelast raken, past de crawlsnelheid van Applebot automatisch aan wanneer een site vertraagt of fouten retourneert. Apple slaat gecrawlde inhoud ook op in de cache om onnodig crawlen te verminderen. Door inhoud te identificeren die niet hoeft te worden gecrawld, dalen de infrastructuurkosten voor site-eigenaren en wordt het internet als geheel efficiënter.

Weergave en robotregels

Applebot kan de inhoud van je website weergeven in een browser. Als javascript, CSS en andere bronnen worden geblokkeerd via robots.txt, kan Applebot de inhoud mogelijk niet correct weergeven. Dit geldt ook voor eventuele XHR, JS en CSS die voor de pagina vereist zijn.

Om Applebot het beste materiaal voor de pagina te laten indexeren, moet je ervoor zorgen dat alles wat een gebruiker nodig heeft om de pagina weer te geven, beschikbaar is voor Applebot. Je kunt er ook voor zorgen dat de website netjes wordt weergegeven, ook al zijn niet alle bronnen beschikbaar. Dit wordt vaak 'graceful degradation' (elegante versobering) genoemd.

Indexeringsregels voor Applebot aanpassen

Applebot ondersteunt robots-metatags in HTML-documenten. Om robotregels op te geven in metatags, zet je de tags in de <kopsectie> van het document:

<html>

<head>

<meta name="robots" content="noindex"/>

...

</head>

<body>...</body>

</html>

Applebot ondersteunt verder de volgende aanwijzingen:

  • noindex: Applebot indexeert deze pagina niet en de pagina wordt niet weergegeven in de suggesties van Spotlight of Siri.

  • nosnippet: Applebot maakt geen beschrijving of webantwoord voor de pagina. Suggesties voor het bezoeken van deze URL bevatten alleen de paginatitel. Apple gebruikt geen gegevens met de tag nosnippet als aanvullende context en actuele inhoud als AI-modellen worden gebruikt om uitvoer te genereren voor weergave in Apple producten en services.

  • nofollow: Applebot volgt de links op de pagina niet.

  • none: Applebot indexeert de pagina niet, creëert geen beschrijving van de pagina en volgt de links op de pagina niet, zoals hierboven beschreven.

  • all: Applebot biedt het document aan bij suggesties en maakt een beschrijving van de inhoud, zodat er een korte beschrijving van de pagina kan worden weergegeven naast een representatieve afbeelding. Applebot volgt mogelijk ook de links op de pagina om meer suggesties te kunnen leveren.

Gebruik een door komma's gescheiden lijst of meerdere metatags om meerdere aanwijzingen in een enkele metatag te plaatsen.

Voorbeeld:

<meta name="robots" content="nosnippet, noindex”>

<meta name="robots" content=“noindex">

<meta name="robots" content=“nosnippet">

<meta name="applebot" content=“nosnippet">

De X-Robots-Tag HTTP-header gebruiken

Applebot ondersteunt ook indexeringsaanwijzingen die worden geleverd via de HTTP-antwoordheader X-Robots-Tag. Dit is handig voor niet-HTML-bronnen, zoals pdf's of afbeeldingen, waar metatags niet kunnen worden gebruikt, of als je aanwijzingen op serverniveau wilt toepassen. Een aanwijzing toepassen op Applebot:

X-Robots-Tag: applebot: nosnippet

Betaald materiaal markeren

Applebot ondersteunt de schema.org isAccessibleForFree eigenschap om pagina's te identificeren die zich achter een betaalmuur, beperkte toegang of abonnement bevinden. Voeg de eigenschap toe aan je gestructureerde gegevens op paginaniveau in JSON-LD:

<script type="application/ld+json">

{

"@context": "https://schema.org",

"isAccessibleForFree": false

}

</script>

Pages gemarkeerd isAccessibleForFree: false komen in aanmerking voor weergave in zoekresultaten, maar Applebot gebruikt die inhoud niet als aanvullende context als AI-modellen worden gebruikt om uitvoer te genereren voor weergave in Apple-producten en -services. Dit signaal is van toepassing op paginaniveau. Opmaak op sectieniveau met hasPart wordt niet ondersteund. Als je niet wilt dat je inhoud wordt gebruikt om de basismodellen van Apple te trainen, gebruik je Applebot-Extended zoals beschreven in het volgende gedeelte.

Applebot-Extended en gegevensgebruik beheren

Naast het volgen van alle robots.txt-regels en -aanwijzingen, heeft Apple een secundaire user-agent, Applebot-Extended, die webuitgevers extra controle biedt over hoe het materiaal op hun website kan worden gebruikt door Apple.

Met Applebot-Extended kunnen webuitgevers ervoor kiezen om de inhoud van hun website niet te laten gebruiken om de algemene basismodellen van Apple te trainen voor generatieve AI-functies in Apple producten, waaronder Apple Intelligence, Services en Developer Tools.

Je kunt een regel toevoegen in robots.txt om Applebot-Extended niet toe te staan, als volgt:

User-agent: Applebot-Extended

Disallow: /private/

Applebot-Extended crawlt geen webpagina's. Webpagina's die het gebruik van Applebot-Extended niet toestaan, kunnen nog steeds worden opgenomen in de zoekresultaten. Applebot-Extended wordt alleen gebruikt om te bepalen hoe de gegevens moeten worden gebruikt die door de Applebot-user-agent zijn gecrawld.

Het toestaan van Applebot-Extended zal de mogelijkheden en kwaliteit van de generatieve AI-modellen van Apple in de loop van de tijd helpen verbeteren.

Over de rangschikking van zoekresultaten

De functie 'Zoek' in Apple software houdt bij het rangschikken van zoekresultaten op het internet mogelijk rekening met de volgende factoren:

  • Geaggregeerde gebruikersbetrokkenheid bij zoekresultaten

  • Relevantie en mate van overeenkomst van zoektermen met onderwerpen en inhoud van webpagina's

  • Aantal en kwaliteit van links vanaf andere pagina's op internet

  • Signalen die zijn gebruikt om de locatie van de gebruiker te bepalen (geschatte gegevens)

  • Ontwerpkenmerken van webpagina's

Bij de bepaling van de rangschikking van zoekresultaten staat niet van tevoren vast welke invloed de bovenstaande factoren hebben. Voor gebruikers van 'Zoek' geldt het privacybeleid in Siri-suggesties, zoeken en privacy.

Neem contact met ons op

Bij vragen of opmerkingen kun je contact met ons opnemen via applebot@apple.com.

Informatie over producten die niet door Apple zijn gemaakt of externe websites die niet door Apple worden beheerd of getest, wordt verstrekt zonder aanbeveling of goedkeuring. Apple aanvaardt geen aansprakelijkheid wat betreft de keuze, de prestaties of het gebruik van websites of producten van derden. Apple doet geen enkele toezegging met betrekking tot de juistheid of de betrouwbaarheid van websites van derden. Neem contact op met de leverancier voor meer informatie.

Publicatiedatum: