關於 Applebot

了解 Applebot (Apple 的網絡爬蟲)。

Applebot 檢索的資料用於支援各種功能,例如整合到 Apple 生態系統中很多使用者體驗的搜尋技術,包括 Spotlight、Siri 和 Safari。在 robots.txt 啟用 Applebot,可讓網站內容出現在全球 Apple 使用者透過這類產品獲得的搜尋結果中。

Applebot 檢索的資料亦可能會用於協助訓練 Apple 基礎模型,以支援 Apple 產品的生成式 AI 功能,包括 Apple Intelligence、服務和開發者工具。網絡出版商只要在 robots.txt 檔案不允許 Applebot-Extended,就可以選擇停止讓其內容用於訓練生成式基礎模型。

使用 AI 模型產生要在 Apple 產品和服務顯示的輸出內容時,Applebot 檢索的資料可能會用於提供額外背景和最新內容。例如,在 Siri 和「搜尋」中回答廣泛的世界知識問題,當中可能包括用於產生答案的來源和網站連結。網絡發佈者可以為特定內容套用 nosnippet 中繼標籤,選擇不讓其內容用於這些廣泛的世界知識答案。

即使你禁止 Applebot-Extended 並使用 nosnippet 中繼標籤標記網站內容,你的網站指示仍可能允許 Applebot 檢索網頁。Spotlight、Siri 和 Safari 以及 Apple 裝置上的其他全系統功能仍可以搜尋到你的內容。

識別 Applebot

來自 Applebot 的流量一般透過 *.applebot.apple.com 網域的反向 DNS 作為識別。

另一種方法是將 IP 位址與以下 JSON 檔案中的 CIDR 前置碼配對:Applebot IP CIDR

反向 DNS

主機指令可用於判斷 IP 位址是否屬 Applebot 的一部分。以下例子顯示主機指令及其結果:

$ host 17-58-101-179.applebot.apple.com

17-58-101-179.applebot.apple.com has address 17.58.101.179.

主機指令也可以用來驗證 DNS 指向相同的 IP 位址:

$ host 17.58.101.179

179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

用戶代理程式

用戶代理程式可協助網站管理員識別檢索器流量,從而取得準確的檢索器活動存取記錄報告,並控制透過 robots.txt 對網站的存取。

Applebot 支援多個用戶代理程式,包括「搜尋」和 Podcast。

搜尋

Applebot 使用以下格式作搜尋網絡檢索和轉譯:

使用者代理程式字串包含「Applebot」和其他資料。以下是一般格式:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

桌面電腦的範例:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

流動裝置的範例:

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

有時候,Applebot 會更新其發佈的瀏覽器版本,同時保留上述一般格式。

特殊檢索程式

Apple 網上屬性

iTMS 流量可能來自 applebot.apple.com 主機,並由以下用户代理程式識別:

User-Agent: iTMS

iTMS 用戶代理程式並非一般搜尋檢索器,因此不會遵循 robots.txt。iTMS 用户代理程式只會檢索與 Apple Podcast 上已註冊內容關聯的 URL。

自訂 robot.txt 規則

在以 Applebot 為目標的一般搜尋檢索中,Applebot 會遵守標準 robots.txt 指令。在此例子中,Applebot 不會嘗試對 /private/ 或 /not-allowed/ 底下的文件進行編目:

User-agent: Applebot

Allow: /

Disallow: /private/

User-agent: *

Disallow: /not-allowed/

如果機械人指示沒有提及 Applebot 但提及 Googlebot,則 Apple 機械人將遵守 Googlebot 的指示。Applebot 不會遵循 crawl-delay。

Applebot 的設計旨在提高效率,並會作出調整,盡量減少對網站擁有者的影響。例如,為避免網站伺服器超載,Applebot 的檢索率會在網站速度變慢或傳回錯誤時自動調整。Apple 亦會快取已檢索內容,以減少不必要的檢索。識別無需檢索的內容,可降低網站擁有者的基礎架構成本,並提升互聯網的整體效率。

轉譯和機械人規則

Applebot 可能會在瀏覽器中轉譯你的網站內容。如果透過 robots.txt 封鎖 javascript、CSS 和其他資源,可能會無法正確轉譯內容。其中包括頁面可能需要的 XHR、JS 和 CSS。

為了讓 Applebot 建立頁面的最佳內容索引,請確定 Applebot 能夠使用供使用者轉譯頁面所需的任何資料。或者,即使所有資源皆無法使用,也要確定網站可以完全轉譯。這通常稱為「從容退化」。

自訂 Applebot 的索引規則

Applebot 支援 HTML 文件的機械人中繼標籤。如要指定中繼標籤的機械人規則,請將標籤放在文件的 <head> 部分:

<html>

<head>

<meta name="robots" content="noindex"/>

...

</head>

<body>...</body>

</html>

Applebot 也支援以下指令:

  • noindex:Applebot 不會建立頁面索引,也不會在「Spotlight 建議」或「Siri 建議」中顯示。

  • nosnippet:Applebot 不會就頁面產生描述或網頁答案。任何進入此網址的建議只會包括頁面標題。使用 AI 模型產生要在 Apple 產品和服務顯示的輸出內容時,Apple 不會將標記為 nosnippet 的資料用於提供額外背景和最新內容

  • nofollow:Applebot 不會追蹤頁面上的任何連結。

  • none:如上文所述,Applebot 不會建立頁面索引、截取頁面片段或開啟頁面上的連結。

  • all:Applebot 會提供建議文件並截取網頁摘要,以便在能代表該頁面的圖片旁邊顯示簡短的頁面描述。Applebot 可能會追蹤頁面連結,以提供進一步建議。

如要在單一中繼標籤放入多項指令,請使用逗號分隔的清單或多個中繼標籤。

範例:

<meta name="robots" content="nosnippet, noindex”>

<meta name="robots" content=“noindex">

<meta name="robots" content=“nosnippet">

<meta name="applebot" content=“nosnippet">

使用 X-Robots-Tag HTTP 標題

Applebot 亦支援透過 X-Robots-Tag HTTP 回應標題傳送的索引指令。這適用於無法使用中繼標籤的非 HTML 資源 (例如 PDF 或圖片),或你想在伺服器層級套用指令的情況。如要套用指令至 Applebot:

X-Robots-Tag: applebot: nosnippet

標記需付費訂閱的內容

Applebot 支援 schema.org isAccessibleForFree 屬性,以識別需付費訂閱、計量付費或設訂閱條件的網頁。請將屬性加至 JSON-LD 的頁面層級結構化資料中:

<script type="application/ld+json">

{

"@context": "https://schema.org",

"isAccessibleForFree": false

}

</script>

標記為 isAccessibleForFree: false 的頁面符合資格在搜尋結果中顯示,但使用 AI 模型產生要在 Apple 產品和服務顯示的輸出內容時,Applebot 不會將有關內容用於提供額外背景。此訊號適用於頁面層級。不支援使用 hasPart 進行章節層級標記。如要拒絕將你的內容用於訓練 Apple 的基礎模型,請使用下一節所述的 Applebot-Extended。

Applebot-Extended 和控制資料用量

除了遵守所有 robots.txt 規則和指令外,Apple 還有一個輔助用戶代理程式 Applebot-Extended,可讓網絡發佈者進一步控制 Apple 使用其網站內容的方式。

透過 Applebot-Extended,網絡發佈者可以選擇不讓其網站內容用於訓練 Apple 的一般用途基礎模型,這類模型旨在支援 Apple 產品 (包括 Apple Intelligence、服務和開發者工具) 的生成式 AI 功能。

你可以在 robots.txt 加入禁止 Applebot-Extended 的規則,如下所示:

User-agent: Applebot-Extended

Disallow: /private/

Applebot-Extended 不會檢索網頁。不允許 Applebot-Extended 的網頁仍可能會納入搜尋結果中。Applebot-Extended 僅用於判斷 Applebot 用戶代理程式所檢索資料的使用方式。

允許 Applebot-Extended 有助隨時間提升 Apple 生成式 AI 模型的功能和品質。

關於搜尋排名

「Apple 搜尋」計算網頁搜尋結果排名時,可能會考慮以下因素:

  • 彙整使用者與搜尋結果的互動率

  • 搜尋詞彙與網頁主題和內容的相關性和相符性

  • 來自網絡上其他頁面的連結數量和品質

  • 以使用者所在地點為基礎的訊號 (近似資料)

  • 網頁設計特性

搜尋結果可能會使用上述沒有 (預定) 排名重要性的因素。「搜尋」的使用者必須遵守「Siri 建議、搜尋與私隱政策」中的私隱政策。

聯絡我們

如有任何問題或疑慮,請傳送電郵到 applebot@apple.com 與我們聯絡。

對於非 Apple 製造產品,或者並非由 Apple 控制或測試的獨立網站,其相關資訊的提供不應詮釋為受到 Apple 所推薦或認可。Apple 對於第三方網站或產品的選擇、效能或使用,概不承擔任何責任。Apple 對於第三方網站的準確性或可靠性不作任何聲明。如需進一步資料,請聯絡相關供應商

發佈日期: