Giới thiệu về Applebot

Tìm hiểu về Applebot, trình thu thập dữ liệu web cho Apple.

Dữ liệu mà Applebot thu thập được dùng để hỗ trợ nhiều tính năng, chẳng hạn như công nghệ tìm kiếm được tích hợp vào nhiều trải nghiệm người dùng trong hệ sinh thái của Apple, bao gồm Spotlight, Siri và Safari. Việc kích hoạt Applebot trong robots.txt giúp hiển thị nội dung trang web trong kết quả tìm kiếm cho người dùng Apple trên toàn thế giới trong các sản phẩm này.

Dữ liệu do Applebot thu thập cũng có thể được sử dụng để giúp huấn luyện mô hình nền tảng của Apple hỗ trợ các tính năng AI tạo sinh trên sản phẩm Apple, bao gồm Apple Intelligence, Dịch vụ và Công cụ dành cho nhà phát triển. Nhà xuất bản web có thể chọn không cấp quyền sử dụng nội dung của họ để huấn luyện các mô hình tạo sinh nền tảng bằng cách không cho phép Applebot-Extended trong tệp robots.txt.

Dữ liệu mà Applebot thu thập có thể được sử dụng để cung cấp ngữ cảnh bổ sung và nội dung cập nhật khi các mô hình AI được dùng để tạo đầu ra nhằm hiển thị trong các sản phẩm và dịch vụ của Apple. Ví dụ: trả lời các câu hỏi về kiến thức tổng quát về thế giới trong Siri và Tìm kiếm, trong đó có thể bao gồm các liên kết đến nguồn và trang web được sử dụng để giúp tạo câu trả lời. Các nhà xuất bản web có thể chọn không cho phép sử dụng nội dung của họ trong các câu trả lời dựa trên kiến thức tổng quát về thế giới này bằng cách áp dụng thẻ meta nosnippet cho nội dung cụ thể.

Ngay cả khi bạn không cho phép Applebot-Extended và gắn thẻ nội dung trang web bằng thẻ meta nosnippet, các hướng dẫn dành cho trang web của bạn vẫn có thể cho phép Applebot thu thập dữ liệu các trang web của bạn. Nội dung của bạn vẫn có thể được tìm thấy qua Spotlight, Siri và Safari, cũng như các tính năng khác trên toàn hệ thống trên thiết bị Apple.

Nhận dạng Applebot

Lưu lượng truy cập đến từ Applebot thường được xác định bằng cách sử dụng DNS ngược trong miền *.applebot.apple.com.

Một cách khác là khớp địa chỉ IP với tiền tố CIDR có trong tệp JSON sau: CIDR IP của Applebot.

DNS ngược

Lệnh máy chủ có thể được dùng để xác định xem địa chỉ IP có phải là một phần của Applebot hay không. Những ví dụ này hiển thị lệnh máy chủ và kết quả của nó:

$ host 17-58-101-179.applebot.apple.com

17-58-101-179.applebot.apple.com has address 17.58.101.179.

Lệnh máy chủ cũng có thể được dùng để xác minh rằng DNS trỏ đến cùng một địa chỉ IP:

$ host 17.58.101.179

179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

Tác nhân người dùng

Tác nhân người dùng giúp quản trị viên web xác định lưu lượng truy cập của trình thu thập dữ liệu, từ đó họ có thể nhận được báo cáo nhật ký truy cập chính xác về hoạt động của trình thu thập dữ liệu và kiểm soát quyền truy cập vào trang web thông qua robots.txt.

Applebot hỗ trợ một số tác nhân người dùng, bao gồm Tìm kiếm và Podcast.

Tìm kiếm

Để thu thập và hiển thị dữ liệu web tìm kiếm, Applebot sử dụng định dạng sau:

Chuỗi tác nhân người dùng chứa “Applebot” và các thông tin khác. Dưới đây là định dạng chung:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Ví dụ cho máy tính:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Ví dụ cho thiết bị di động:

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

Đôi khi, Applebot sẽ cập nhật phiên bản trình duyệt mà Applebot quảng cáo trong khi vẫn giữ nguyên định dạng chung ở trên.

Trình thu thập dữ liệu chuyên biệt

Tài nguyên trực tuyến của Apple

Lưu lượng truy cập iTMS có thể đến từ máy chủ applebot.apple.com và sẽ được nhận dạng bằng tác nhân người dùng sau:

User-Agent: iTMS

Tác nhân người dùng iTMS không tuân theo robots.txt vì đây không phải là trình thu thập dữ liệu tìm kiếm chung. Tác nhân người dùng iTMS chỉ thu thập dữ liệu các URL được liên kết với nội dung đã đăng ký trên Apple Podcasts.

Tùy chỉnh các quy tắc robot.txt

Applebot tuân theo lệnh robots.txt tiêu chuẩn trong các hoạt động thu thập dữ liệu tìm kiếm chung nhắm vào Applebot. Trong ví dụ này, Applebot không cố gắng thu thập thông tin các tài liệu ở mục /private/ hoặc /not-allowed/:

User-agent: Applebot

Allow: /

Disallow: /private/

User-agent: *

Disallow: /not-allowed/

Nếu chỉ dẫn của robot không đề cập đến Applebot nhưng lại đề cập đến Googlebot thì robot Apple sẽ làm theo chỉ dẫn của Googlebot. Applebot không tuân theo crawl-delay.

Applebot được thiết kế để hoạt động hiệu quả và sẽ điều chỉnh để giảm thiểu tác động đến chủ sở hữu trang web. Ví dụ: để tránh làm quá tải máy chủ trang web, tốc độ thu thập dữ liệu của Applebot sẽ tự động điều chỉnh khi trang web chạy chậm hoặc trả về lỗi. Apple cũng lưu nội dung đã thu thập vào bộ nhớ đệm để giảm hoạt động thu thập dữ liệu không cần thiết. Việc xác định nội dung không cần thu thập dữ liệu giúp giảm chi phí cơ sở hạ tầng cho chủ sở hữu trang web và giúp Internet nói chung hoạt động hiệu quả hơn.

Quy tắc kết xuất và robot

Applebot có thể hiển thị nội dung trang web của bạn trong trình duyệt. Nếu javascript, CSS và các tài nguyên khác bị chặn thông qua robots.txt thì Applebot có thể không hiển thị được nội dung một cách chính xác. Các nội dung này bao gồm XHR, JS và CSS mà trang có thể yêu cầu.

Để Applebot lập chỉ mục nội dung tốt nhất cho trang, hãy đảm bảo rằng mọi thứ cần thiết để người dùng hiển thị trang đều có sẵn cho Applebot. Ngoài ra, hãy đảm bảo rằng trang web hiển thị rõ ràng, ngay cả khi tất cả tài nguyên không có sẵn. Điều này thường được gọi là khả năng thích ứng với phiên bản cũ.

Tùy chỉnh các quy tắc lập chỉ mục cho Applebot

Applebot hỗ trợ thẻ meta robot trong tài liệu HTML. Để chỉ định các quy tắc robot trong thẻ meta, hãy đặt các thẻ vào phần <đầu> (head) của tài liệu:

<html>

<head>

<meta name="robots" content="noindex"/>

...

</head>

<body>...</body>

</html>

Applebot cũng hỗ trợ các lệnh sau:

  • Noindex: Applebot sẽ không lập chỉ mục trang này và trang sẽ không xuất hiện trong Gợi ý Spotlight hoặc Gợi ý của Siri.

  • nosnippet: Applebot sẽ không tạo nội dung mô tả hoặc câu trả lời trên web cho trang đó. Mọi gợi ý truy cập URL này sẽ chỉ bao gồm tiêu đề của trang. Apple sẽ không sử dụng dữ liệu được gắn thẻ nosnippet làm ngữ cảnh bổ sung và nội dung cập nhật khi các mô hình AI được dùng để tạo đầu ra nhằm hiển thị trong các sản phẩm và dịch vụ của Apple.

  • nofollow: Applebot sẽ không truy cập bất kỳ liên kết nào trên trang.

  • none: Applebot sẽ không lập chỉ mục, trích đoạn hoặc theo dõi các liên kết trên trang như được mô tả ở trên.

  • all: Applebot cung cấp tài liệu để gợi ý và đoạn mã để mô tả ngắn gọn về trang có thể xuất hiện bên cạnh hình ảnh đại diện. Applebot có thể truy cập các liên kết trên trang để cung cấp thêm gợi ý.

Để đặt nhiều lệnh trong một thẻ meta, hãy sử dụng danh sách được phân tách bằng dấu phẩy hoặc nhiều thẻ meta.

Ví dụ:

<meta name="robots" content="nosnippet, noindex”>

<meta name="robots" content=“noindex">

<meta name="robots" content=“nosnippet">

<meta name="applebot" content=“nosnippet">

Sử dụng tiêu đề HTTP X-Robots-Tag

Applebot cũng hỗ trợ các chỉ thị lập chỉ mục được cung cấp qua tiêu đề phản hồi HTTP X-Robots-Tag. Điều này hữu ích đối với các tài nguyên không phải HTML (chẳng hạn như tệp PDF hoặc hình ảnh) không thể dùng thẻ meta, hoặc khi bạn muốn áp dụng chỉ thị ở cấp máy chủ. Để áp dụng chỉ thị cho Applebot:

X-Robots-Tag: applebot: nosnippet

Đánh dấu nội dung có tường phí

Applebot hỗ trợ thuộc tính schema.org isAccessibleForFree để xác định các trang nằm sau tường phí, có quyền truy cập theo hạn mức hoặc yêu cầu đăng ký. Thêm thuộc tính vào dữ liệu có cấu trúc cấp trang của bạn trong JSON-LD:

<script type="application/ld+json">

{

"@context": "https://schema.org",

"isAccessibleForFree": false

}

</script>

Các trang được đánh dấu isAccessibleForFree: false đủ điều kiện xuất hiện trong kết quả tìm kiếm, nhưng Applebot sẽ không sử dụng nội dung đó làm ngữ cảnh bổ sung khi các mô hình AI được dùng để tạo đầu ra nhằm hiển thị trong các sản phẩm và dịch vụ của Apple. Tín hiệu này áp dụng ở cấp trang. Đánh dấu cấp phần bằng hasPart không được hỗ trợ. Để chọn không cho phép sử dụng nội dung của bạn để huấn luyện các mô hình nền tảng của Apple, hãy dùng Applebot-Extended được mô tả trong phần tiếp theo.

Applebot-Extended và việc kiểm soát mức sử dụng dữ liệu

Ngoài việc tuân theo tất cả các quy tắc và lệnh robots.txt, Apple còn có tác nhân người dùng phụ, Applebot-Extended, tác nhân này cung cấp cho nhà xuất bản web các biện pháp kiểm soát bổ sung về cách Apple có thể sử dụng nội dung trang web của họ.

Với Applebot-Extended, các nhà xuất bản web có thể chọn không cho phép sử dụng nội dung trang web của họ để huấn luyện mô hình nền tảng đa dụng của Apple, vốn hỗ trợ các tính năng AI tạo sinh trên các sản phẩm của Apple, bao gồm Apple Intelligence, Dịch vụ và Công cụ dành cho nhà phát triển.

Bạn có thể thêm quy tắc trong robots.txt để không cho phép Applebot-Extended như sau:

User-agent: Applebot-Extended

Disallow: /private/

Applebot-Extended không thu thập dữ liệu trang web. Các trang web không cho phép Applebot-Extended vẫn có thể xuất hiện trong kết quả tìm kiếm. Applebot-Extended chỉ được dùng để xác định cách sử dụng dữ liệu được thu thập bởi tác nhân người dùng của Applebot.

Việc cho phép Applebot-Extended sẽ giúp cải thiện khả năng và chất lượng của các mô hình AI tạo sinh của Apple theo thời gian.

Về thứ hạng tìm kiếm

Apple Tìm kiếm có thể tính đến những nhân tố sau đây khi xếp hạng kết quả tìm kiếm trên web:

  • Sự tương tác tổng hợp của người dùng với kết quả tìm kiếm

  • Mức độ liên quan và mức độ phù hợp của các cụm từ tìm kiếm với chủ đề và nội dung trang web

  • Số lượng và chất lượng liên kết từ các trang khác trên web

  • Tín hiệu dựa trên vị trí của người dùng (dữ liệu gần đúng)

  • Đặc điểm thiết kế trang web

Kết quả tìm kiếm có thể sử dụng các nhân tố trên mà không có tầm quan trọng (được xác định trước) của thứ hạng. Người dùng Tìm kiếm phải tuân theo chính sách quyền riêng tư trong Gợi ý của Siri, Tìm kiếm & Quyền riêng tư.

Liên hệ với chúng tôi

Nếu bạn có thắc mắc hoặc quan ngại, vui lòng liên hệ với chúng tôi theo địa chỉ applebot@apple.com.

Apple không đề xuất hay chứng thực thông tin về các sản phẩm không do Apple sản xuất hoặc các trang web độc lập không chịu sự kiểm soát hay kiểm tra của Apple. Apple không chịu trách nhiệm về việc lựa chọn, hiệu suất hay việc sử dụng trang web hoặc sản phẩm của bên thứ ba. Apple không đưa ra tuyên bố nào về tính chính xác hay độ tin cậy của trang web bên thứ ba. Liên lạc với nhà cung cấp để biết thêm thông tin.

Ngày đăng: