bingbot

954 0 0

Bingbot是什么

Bingbot 是微软 Bing 搜索引擎的官方网络爬虫（俗称“必应蜘蛛”）。在信息检索流程中，它负责发现 URL、下载网页资源，并将可索引内容交由 Bing 的索引与排序系统处理；其身份、抓取策略与呈现方式均以微软官方文档与站长工具说明为准。

对面向海外流量、多引擎分发或企业合规披露（访问日志审计）的网站而言，准确识别 Bingbot、理解其抓取边界，与页面能否被稳定收录、能否在 Bing 结果中获得曝光直接相关。

User-Agent 可被伪造：UA 仅作弱信号。生产环境应使用反向 DNS + 正向 DNS双查或 Verify Bingbot（站长账户内或公开工具页）做强验证。
抓取控制：站点级偏好通常通过 robots.txt 声明；细粒度问题（抓取压力、重要 URL）建议在 Bing Webmaster Tools 中结合“抓取”“索引”类报告与 IndexNow（Bing 支持）等机制协同处理。
下方表格：在筛选框输入关键词可快速过滤行；「复制表格」会复制当前可见行为制表符分隔文本，便于粘贴到 Excel 或记事本。

必应Bingbot常见User-Agent（UA）大全

爬虫名称	角色说明	典型 User-Agent（官方示例中的模式）
Bingbot	必应标准爬虫，承担大部分日常抓取与索引相关请求；含桌面渲染型、兼容型与移动型等变体。	`Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36` `Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)` `Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)`
AdIdxBot	用于必应广告（Bing Ads）：抓取广告及广告所链向的落地页，用于质量审核；含桌面与移动 UA。	`Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)` `Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)` `Mozilla/5.0 (Windows Phone 8.1; ARM; Trident/7.0; Touch; rv:11.0; IEMobile/11.0; NOKIA; Lumia 530) like Gecko (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)`
BingPreview	为必应生成页面快照 / 预览（如部分应用或结果中的预览体验）；含桌面与移动变体。与主索引爬虫 Bingbot 不同，UA 中通常可见 `BingPreview` 标识。	`Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b` `Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 BingPreview/1.0b` 具体版本号可能更新，请以官方爬虫说明与 Verify Bingbot 为准。
MicrosoftPreview	为微软旗下产品生成页面快照 / 预览；含桌面与移动变体。	`Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview) Chrome/W.X.Y.Z Safari/537.36` `Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview)`
BingVideoPreview	用于在必应中提供视频预览；含桌面、兼容型与移动变体。	`Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots) Chrome/W.X.Y.Z Safari/537.36` `Mozilla/5.0 (compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots)` `Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots)`

官方原文与更新：Which crawlers does Bing use? · 验证方式：How to verify Bingbot

Bingbot的工作原理

从站点运维视角，可将 Bingbot 的工作流概括为“发现 → 调度 → 获取 → 解析 → 入索引管线”，与主流商业搜索引擎爬虫在宏观上一致，但具体配额、重试与质量信号权重由 Bing 内部策略决定，且不对外公开细节。

发现：通过外链、站内链接、sitemap（及站长工具提交）等渠道扩充待抓 URL 集合；
调度：按站点健康度、更新频率、历史抓取结果等安排优先级与节奏（可理解为广义的“抓取预算”管理）；
获取：发起 HTTP(S) 请求，遵循响应状态、重定向与 robots.txt 等信号；
解析：提取正文、链接图、结构化标记（如 JSON-LD）及可索引元数据；
索引与排序：进入 Bing 索引与排序管线——被抓取不等于被收录，更不保证有排名。

同一站点上除标准 bingbot 外，还可能见到 AdIdxBot、各类 Preview 爬虫等；它们服务不同产品场景，UA 与行为特征亦不同，分析日志时宜分开统计。

如何验证Bingbot是否真实（IP 反查方法）

微软官方说明：若日志中出现形似 Bingbot 的 UA，应通过反向 DNS确认主机名以 search.msn.com 结尾，再对该主机名做正向 DNS，确认解析回的 IP 与日志中的来源 IP 一致——两步缺一不可。仅靠 UA 或仅靠 IP 段匹配均不足以作为严谨的身份认定依据。

操作步骤

从访问日志提取客户端源 IP；
对该 IP 做反向 DNS（PTR），得到形如 msnbot-…-….search.msn.com 的主机名；
确认该主机名以 search.msn.com 结尾（与官方表述一致）；
再对该主机名做正向 A/AAAA 解析，确认结果与步骤 1 的 IP 相同。

亦可使用必应提供的 Verify Bingbot（公开页）或站长工具内同名功能，减少手工命令误差。

命令行示例（Windows `nslookup`）

nslookup 157.55.39.1
nslookup msnbot-157-55-33-18.search.msn.com

第二行主机名请替换为你在反向解析中实际得到的名称；官方文档示例见 How to verify Bingbot。

命令行示例（Linux `host`）

host 157.55.39.1
host msnbot-157-55-33-18.search.msn.com

若日志中的来源地址为 IPv6，验证逻辑相同：对 PTR 与对应的 AAAA 正向解析做一致性核对即可。

Bingbot 常见 IP 段（仅供参考）

必应明确不建议依赖硬编码 IP 或静态 CIDR 表做长期放行/拦截：地址池会变更。若必须在防火墙或 WAF 侧做 IP 校验，应优先采用上文反向 + 正向 DNS流程；需要机器可读列表时，可使用微软提供的 bingbot.json（官方说明要求每日刷新该列表）。

下表列出 bingbot.json 中当前公布的 IPv4 前缀（ipv4Prefix），便于与日志中的源 IP 做粗匹配；若 JSON 中出现 ipv6Prefix，须一并以线上文件为准。本站正文为摘录，可能与微软实时文件不一致，请务必直接拉取 JSON 并每日刷新。

IPv4 前缀（CIDR）	掩码
`157.55.39.0/24`	/24
`207.46.13.0/24`	/24
`40.77.167.0/24`	/24
`13.66.139.0/24`	/24
`13.66.144.0/24`	/24
`52.167.144.0/24`	/24
`40.77.202.0/24`	/24
`40.77.177.0/24`	/24
`65.55.210.0/24`	/24
`40.77.139.0/25`	/25
`199.30.24.0/23`	/23
`40.77.178.0/23`	/23
`40.77.188.0/22`	/22
`13.67.10.16/28`	/28
`13.69.66.240/28`	/28
`13.71.172.224/28`	/28
`139.217.52.0/28`	/28
`191.233.204.224/28`	/28
`20.36.108.32/28`	/28
`20.43.120.16/28`	/28
`40.79.131.208/28`	/28
`40.79.186.176/28`	/28
`52.231.148.0/28`	/28
`20.79.107.240/28`	/28
`51.105.67.0/28`	/28
`20.125.163.80/28`	/28
`20.74.197.0/28`	/28
`20.15.133.160/27`	/27

再次说明：上表不能替代反向/正向 DNS 验证；亦不等于「凡是微软 IP 都是 Bingbot」。收录与抓取问题请结合 Bing Webmaster Tools 中的爬取/索引报告排查。

为什么不能只通过 IP 判断 Bingbot？

仅凭来源 IP 做白名单或封禁，在工程上属于弱策略，原因包括：

云与 CDN 架构下，爬虫出口 IP 会扩容、迁移或轮换；静态列表必然滞后；
日志中的“可疑 UA”与任意 IP 的组合都可能是伪造或代理转发；
即便 IP 属于微软地址空间，仍需 rDNS/fDNS 双查才能与“必应爬虫”这一应用层身份对齐。

实务上：UA 用于粗筛，身份确认以DNS 双查或官方 Verify 工具为准。

Bing 官方验证方式（要点回顾）

与微软文档一致，可记为一句：PTR 主机名以 search.msn.com 结尾，且该主机名正向解析回同一来源 IP。完整步骤、工具链接与 nslookup 示例见上文「如何验证 Bingbot 是否真实」。典型 PTR 形如 msnbot-157-55-39-1.search.msn.com（以实际日志为准）。

Bingbot 抓取行为特点

节奏随站点而变：抓取频率与站点规模、更新频率、响应稳定性及历史抓取成功率等相关，并非固定周期；
尊重 robots 声明：通常按 robots.txt 的 Allow/Disallow 处理；若规则写法歧义或存在多子域，建议在站长工具中核对实际抓取样例；
多类型资源：除 HTML 外，亦可能请求图片、脚本、样式等与渲染/预览相关的资源（视产品与爬虫类型而定）；
与其他爬虫并存：同一站点可能同时出现标准索引爬虫与 Preview/广告类爬虫，日志分析时宜按 UA 与验证结果分桶。
robots 扩展指令：除 Allow/Disallow 外，若使用 Crawl-delay 等扩展写法，效果因爬虫与版本而异，应以必应当前 robots.txt 帮助为准，并避免与多 User-agent 块规则冲突。

站点侧实践要点（运维与 SEO）

下列条目便于与发布流程、服务器配置对齐，用于降低“可访问但不可索引”的风险（不替代官方指南）：

传输与证书：全站 HTTPS、证书链完整且在有效期内；尽量避免混合内容导致关键资源加载失败。
重定向与状态码：缩短跳转链、消除循环；规范使用 301/302；避免用 HTTP 200 搭配空壳或错误模板形成软 404。
JavaScript 与可爬性：现代商业搜索引擎普遍具备 JavaScript 渲染能力（必应亦不例外），但关键正文、主导航与规范 URL 仍建议在首屏 HTML 或稳定 DOM 中可读，以降低渲染超时、依赖失败带来的抓取损失。
IndexNow 与例行抓取：IndexNow 用于主动通知 URL 变更，与 Bingbot 的周期性发现/抓取互补，不能理解为可替代常规爬取或保证收录。
站点地图：在 Sitemaps 帮助所述约束内维护 sitemap，并与站内链接、robots.txt 引用保持一致，便于发现与优先级信号协同。

访问日志建议保留的字段

便于抓取审计、伪造 UA 排查与容量规划，建议在原始访问日志或等价遥测中至少保留：

字段/概念	典型用途
时间戳（建议含时区）	与发布窗口、故障时段、抓取突增对齐
客户端 IP（IPv4/IPv6）	PTR/fDNS 验证、地理与 ASN 辅助分析（ASN 非身份证明）
请求方法、路径与查询串	区分 GET/HEAD、识别重复 URL 变体与异常扫描
HTTP 状态码与响应字节数	发现 4xx/5xx 模式、异常小页与大文件拖慢
`User-Agent`	爬虫粗分类（须再做强验证）
`Referer`（若存在）	辅助理解部分跳转场景；不可用于强身份认定
TLS/协议版本（可选）	排查握手中断、协议协商失败

Bingbot 对 SEO 的影响

Bingbot 是 Bing 自然搜索流量的技术入口之一：未被可靠抓取与处理的内容，通常难以进入索引并获得稳定展现。可操作的关联维度包括：

可爬性：状态码、重定向链、软 404、孤岛页面、错误 canonical 等均可能导致“抓了但不可用”；
信息架构：内链深度、分页与列表页规则、sitemap 与重要入口 URL 是否一致；
性能与可用性：高频 5xx/超时会被解读为站点不稳定，间接影响抓取意愿；
内容与规范：重复内容、薄内容、结构化数据错误等影响的是索引与排序阶段，而非爬虫身份本身。

若 Bingbot 持续无法访问或大量 URL 处于“已发现未抓取”等状态，应优先在 Bing Webmaster Tools 查看具体错误类型，再对照服务器与路由配置逐项修复。

如何屏蔽 Bingbot 访问

若目标是合规地拒绝索引，首选 robots.txt 或页面级 noindex（按场景选择），以便爬虫能“读懂意图”。单纯按 UA 返回 403 易被伪造 UA 绕过，且可能误伤经过代理或检测工具的请求。

1. robots.txt（推荐用于全站不抓）

User-agent: bingbot
Disallow: /

声明后，必应通常会尊重 Disallow（具体以官方文档为准）；是否立即停抓取决于缓存与调度，并非毫秒级生效。

2. Nginx：按 UA 拒绝（仅作补充，弱安全）

if ($http_user_agent ~* "bingbot") {
    return 403;
}

3. Apache：按 UA 拒绝（同上）

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} bingbot [NC]
RewriteRule .* - [F,L]

后果说明：拒绝 Bingbot 通常会导致 Bing 无法收录或更新页面；若仅为限流，宜在站长工具中调整抓取相关设置，而非长期 403。

常见问题

Bingbot 多久抓取一次？
没有对外固定的全局周期。可观察：近期内容更新频率、服务器错误率、Bing Webmaster Tools 中的爬取统计与“URL 检查”结果；重大改版后可配合 sitemap 与 IndexNow 缩短发现时间（不保证收录）。

Bing 不收录或收录慢怎么办？
建议按序自查：① robots.txt 与页面 noindex；② 4xx/5xx 与重定向环；③ canonical 是否指向错误 URL；④ 是否大量重复/空壳页；⑤ 站长工具中是否有明确拒绝或抓取异常提示。

日志里 UA 是 bingbot，是否一定是必应？
不一定。必须以反向 + 正向 DNS 或 Verify Bingbot 工具核实。

遇到大量自称 Bingbot 的异常流量怎么办？
先按上文做 DNS 双查：未通过验证的，按普通恶意或垃圾流量在 WAF/速率限制策略中处置；通过验证的，再排查是否因站点错误配置导致爬虫重试或抓取异常 URL。

总结

Bingbot 是 Bing 生态中的核心抓取组件之一，其工作体现为可验证的网络请求与可分析的日志行为。站点侧应以官方验证方法识别爬虫，以可爬性、规范性与内容质量支撑索引与排序；需要屏蔽时优先使用 robots.txt 等声明式手段，并理解其对收录的直接影响。文中 UA 与 IP 段可能随微软更新而变化，请以 Which crawlers does Bing use? 及验证文档为准。