bingbot
Bingbot是什么
Bingbot 是微软 Bing 搜索引擎的官方网络爬虫(俗称“必应蜘蛛”)。在信息检索流程中,它负责发现 URL、下载网页资源,并将可索引内容交由 Bing 的索引与排序系统处理;其身份、抓取策略与呈现方式均以微软官方文档与站长工具说明为准。
对面向海外流量、多引擎分发或企业合规披露(访问日志审计)的网站而言,准确识别 Bingbot、理解其抓取边界,与页面能否被稳定收录、能否在 Bing 结果中获得曝光直接相关。
- User-Agent 可被伪造:UA 仅作弱信号。生产环境应使用反向 DNS + 正向 DNS双查或 Verify Bingbot(站长账户内或公开工具页)做强验证。
- 抓取控制:站点级偏好通常通过
robots.txt声明;细粒度问题(抓取压力、重要 URL)建议在 Bing Webmaster Tools 中结合“抓取”“索引”类报告与 IndexNow(Bing 支持)等机制协同处理。 - 下方表格:在筛选框输入关键词可快速过滤行;「复制表格」会复制当前可见行为制表符分隔文本,便于粘贴到 Excel 或记事本。
必应Bingbot常见User-Agent(UA)大全
| 爬虫名称 | 角色说明 | 典型 User-Agent(官方示例中的模式) |
|---|---|---|
| Bingbot | 必应标准爬虫,承担大部分日常抓取与索引相关请求;含桌面渲染型、兼容型与移动型等变体。 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36
|
| AdIdxBot | 用于必应广告(Bing Ads):抓取广告及广告所链向的落地页,用于质量审核;含桌面与移动 UA。 | Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)
|
| BingPreview | 为必应生成页面快照 / 预览(如部分应用或结果中的预览体验);含桌面与移动变体。与主索引爬虫 Bingbot 不同,UA 中通常可见 BingPreview 标识。 |
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b
具体版本号可能更新,请以 官方爬虫说明 与 Verify Bingbot 为准。 |
| MicrosoftPreview | 为微软旗下产品生成页面快照 / 预览;含桌面与移动变体。 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview) Chrome/W.X.Y.Z Safari/537.36
|
| BingVideoPreview | 用于在必应中提供视频预览;含桌面、兼容型与移动变体。 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots) Chrome/W.X.Y.Z Safari/537.36
|
官方原文与更新:Which crawlers does Bing use? · 验证方式:How to verify Bingbot
Bingbot的工作原理
从站点运维视角,可将 Bingbot 的工作流概括为“发现 → 调度 → 获取 → 解析 → 入索引管线”,与主流商业搜索引擎爬虫在宏观上一致,但具体配额、重试与质量信号权重由 Bing 内部策略决定,且不对外公开细节。
- 发现:通过外链、站内链接、
sitemap(及站长工具提交)等渠道扩充待抓 URL 集合; - 调度:按站点健康度、更新频率、历史抓取结果等安排优先级与节奏(可理解为广义的“抓取预算”管理);
- 获取:发起 HTTP(S) 请求,遵循响应状态、重定向与
robots.txt等信号; - 解析:提取正文、链接图、结构化标记(如 JSON-LD)及可索引元数据;
- 索引与排序:进入 Bing 索引与排序管线——被抓取不等于被收录,更不保证有排名。
同一站点上除标准 bingbot 外,还可能见到 AdIdxBot、各类 Preview 爬虫等;它们服务不同产品场景,UA 与行为特征亦不同,分析日志时宜分开统计。
如何验证Bingbot是否真实(IP 反查方法)
微软官方说明:若日志中出现形似 Bingbot 的 UA,应通过反向 DNS确认主机名以 search.msn.com 结尾,再对该主机名做正向 DNS,确认解析回的 IP 与日志中的来源 IP 一致——两步缺一不可。仅靠 UA 或仅靠 IP 段匹配均不足以作为严谨的身份认定依据。
操作步骤
- 从访问日志提取客户端源 IP;
- 对该 IP 做反向 DNS(PTR),得到形如
msnbot-…-….search.msn.com的主机名; - 确认该主机名以
search.msn.com结尾(与官方表述一致); - 再对该主机名做正向 A/AAAA 解析,确认结果与步骤 1 的 IP 相同。
亦可使用必应提供的 Verify Bingbot(公开页) 或站长工具内同名功能,减少手工命令误差。
命令行示例(Windows nslookup)
nslookup 157.55.39.1
nslookup msnbot-157-55-33-18.search.msn.com
第二行主机名请替换为你在反向解析中实际得到的名称;官方文档示例见 How to verify Bingbot。
命令行示例(Linux host)
host 157.55.39.1
host msnbot-157-55-33-18.search.msn.com
若日志中的来源地址为 IPv6,验证逻辑相同:对 PTR 与对应的 AAAA 正向解析做一致性核对即可。
Bingbot 常见 IP 段(仅供参考)
必应明确不建议依赖硬编码 IP 或静态 CIDR 表做长期放行/拦截:地址池会变更。若必须在防火墙或 WAF 侧做 IP 校验,应优先采用上文反向 + 正向 DNS流程;需要机器可读列表时,可使用微软提供的 bingbot.json(官方说明要求每日刷新该列表)。
下表列出 bingbot.json 中当前公布的 IPv4 前缀(ipv4Prefix),便于与日志中的源 IP 做粗匹配;若 JSON 中出现 ipv6Prefix,须一并以线上文件为准。本站正文为摘录,可能与微软实时文件不一致,请务必直接拉取 JSON 并每日刷新。
| IPv4 前缀(CIDR) | 掩码 |
|---|---|
157.55.39.0/24 |
/24 |
207.46.13.0/24 |
/24 |
40.77.167.0/24 |
/24 |
13.66.139.0/24 |
/24 |
13.66.144.0/24 |
/24 |
52.167.144.0/24 |
/24 |
40.77.202.0/24 |
/24 |
40.77.177.0/24 |
/24 |
65.55.210.0/24 |
/24 |
40.77.139.0/25 |
/25 |
199.30.24.0/23 |
/23 |
40.77.178.0/23 |
/23 |
40.77.188.0/22 |
/22 |
13.67.10.16/28 |
/28 |
13.69.66.240/28 |
/28 |
13.71.172.224/28 |
/28 |
139.217.52.0/28 |
/28 |
191.233.204.224/28 |
/28 |
20.36.108.32/28 |
/28 |
20.43.120.16/28 |
/28 |
40.79.131.208/28 |
/28 |
40.79.186.176/28 |
/28 |
52.231.148.0/28 |
/28 |
20.79.107.240/28 |
/28 |
51.105.67.0/28 |
/28 |
20.125.163.80/28 |
/28 |
20.74.197.0/28 |
/28 |
20.15.133.160/27 |
/27 |
再次说明:上表不能替代反向/正向 DNS 验证;亦不等于「凡是微软 IP 都是 Bingbot」。收录与抓取问题请结合 Bing Webmaster Tools 中的爬取/索引报告排查。
为什么不能只通过 IP 判断 Bingbot?
仅凭来源 IP 做白名单或封禁,在工程上属于弱策略,原因包括:
- 云与 CDN 架构下,爬虫出口 IP 会扩容、迁移或轮换;静态列表必然滞后;
- 日志中的“可疑 UA”与任意 IP 的组合都可能是伪造或代理转发;
- 即便 IP 属于微软地址空间,仍需 rDNS/fDNS 双查才能与“必应爬虫”这一应用层身份对齐。
实务上:UA 用于粗筛,身份确认以DNS 双查或官方 Verify 工具为准。
Bing 官方验证方式(要点回顾)
与微软文档一致,可记为一句:PTR 主机名以 search.msn.com 结尾,且该主机名正向解析回同一来源 IP。完整步骤、工具链接与 nslookup 示例见上文「如何验证 Bingbot 是否真实」。典型 PTR 形如 msnbot-157-55-39-1.search.msn.com(以实际日志为准)。
Bingbot 抓取行为特点
- 节奏随站点而变:抓取频率与站点规模、更新频率、响应稳定性及历史抓取成功率等相关,并非固定周期;
- 尊重 robots 声明:通常按
robots.txt的 Allow/Disallow 处理;若规则写法歧义或存在多子域,建议在站长工具中核对实际抓取样例; - 多类型资源:除 HTML 外,亦可能请求图片、脚本、样式等与渲染/预览相关的资源(视产品与爬虫类型而定);
- 与其他爬虫并存:同一站点可能同时出现标准索引爬虫与 Preview/广告类爬虫,日志分析时宜按 UA 与验证结果分桶。
- robots 扩展指令:除 Allow/Disallow 外,若使用
Crawl-delay等扩展写法,效果因爬虫与版本而异,应以必应当前 robots.txt 帮助 为准,并避免与多User-agent块规则冲突。
站点侧实践要点(运维与 SEO)
下列条目便于与发布流程、服务器配置对齐,用于降低“可访问但不可索引”的风险(不替代官方指南):
- 传输与证书:全站 HTTPS、证书链完整且在有效期内;尽量避免混合内容导致关键资源加载失败。
- 重定向与状态码:缩短跳转链、消除循环;规范使用 301/302;避免用 HTTP 200 搭配空壳或错误模板形成软 404。
- JavaScript 与可爬性:现代商业搜索引擎普遍具备 JavaScript 渲染能力(必应亦不例外),但关键正文、主导航与规范 URL 仍建议在首屏 HTML 或稳定 DOM 中可读,以降低渲染超时、依赖失败带来的抓取损失。
- IndexNow 与例行抓取:IndexNow 用于主动通知 URL 变更,与 Bingbot 的周期性发现/抓取互补,不能理解为可替代常规爬取或保证收录。
- 站点地图:在 Sitemaps 帮助所述约束内维护 sitemap,并与站内链接、
robots.txt引用保持一致,便于发现与优先级信号协同。
访问日志建议保留的字段
便于抓取审计、伪造 UA 排查与容量规划,建议在原始访问日志或等价遥测中至少保留:
| 字段/概念 | 典型用途 |
|---|---|
| 时间戳(建议含时区) | 与发布窗口、故障时段、抓取突增对齐 |
| 客户端 IP(IPv4/IPv6) | PTR/fDNS 验证、地理与 ASN 辅助分析(ASN 非身份证明) |
| 请求方法、路径与查询串 | 区分 GET/HEAD、识别重复 URL 变体与异常扫描 |
| HTTP 状态码与响应字节数 | 发现 4xx/5xx 模式、异常小页与大文件拖慢 |
User-Agent |
爬虫粗分类(须再做强验证) |
Referer(若存在) |
辅助理解部分跳转场景;不可用于强身份认定 |
| TLS/协议版本(可选) | 排查握手中断、协议协商失败 |
Bingbot 对 SEO 的影响
Bingbot 是 Bing 自然搜索流量的技术入口之一:未被可靠抓取与处理的内容,通常难以进入索引并获得稳定展现。可操作的关联维度包括:
- 可爬性:状态码、重定向链、软 404、孤岛页面、错误
canonical等均可能导致“抓了但不可用”; - 信息架构:内链深度、分页与列表页规则、sitemap 与重要入口 URL 是否一致;
- 性能与可用性:高频 5xx/超时会被解读为站点不稳定,间接影响抓取意愿;
- 内容与规范:重复内容、薄内容、结构化数据错误等影响的是索引与排序阶段,而非爬虫身份本身。
若 Bingbot 持续无法访问或大量 URL 处于“已发现未抓取”等状态,应优先在 Bing Webmaster Tools 查看具体错误类型,再对照服务器与路由配置逐项修复。
如何屏蔽 Bingbot 访问
若目标是合规地拒绝索引,首选 robots.txt 或页面级 noindex(按场景选择),以便爬虫能“读懂意图”。单纯按 UA 返回 403 易被伪造 UA 绕过,且可能误伤经过代理或检测工具的请求。
1. robots.txt(推荐用于全站不抓)
User-agent: bingbot
Disallow: /
声明后,必应通常会尊重 Disallow(具体以官方文档为准);是否立即停抓取决于缓存与调度,并非毫秒级生效。
2. Nginx:按 UA 拒绝(仅作补充,弱安全)
if ($http_user_agent ~* "bingbot") {
return 403;
}
3. Apache:按 UA 拒绝(同上)
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} bingbot [NC]
RewriteRule .* - [F,L]
后果说明:拒绝 Bingbot 通常会导致 Bing 无法收录或更新页面;若仅为限流,宜在站长工具中调整抓取相关设置,而非长期 403。
常见问题
Bingbot 多久抓取一次?
没有对外固定的全局周期。可观察:近期内容更新频率、服务器错误率、Bing Webmaster Tools 中的爬取统计与“URL 检查”结果;重大改版后可配合 sitemap 与 IndexNow 缩短发现时间(不保证收录)。
Bing 不收录或收录慢怎么办?
建议按序自查:① robots.txt 与页面 noindex;② 4xx/5xx 与重定向环;③ canonical 是否指向错误 URL;④ 是否大量重复/空壳页;⑤ 站长工具中是否有明确拒绝或抓取异常提示。
日志里 UA 是 bingbot,是否一定是必应?
不一定。必须以反向 + 正向 DNS 或 Verify Bingbot 工具核实。
遇到大量自称 Bingbot 的异常流量怎么办?
先按上文做 DNS 双查:未通过验证的,按普通恶意或垃圾流量在 WAF/速率限制策略中处置;通过验证的,再排查是否因站点错误配置导致爬虫重试或抓取异常 URL。
总结
Bingbot 是 Bing 生态中的核心抓取组件之一,其工作体现为可验证的网络请求与可分析的日志行为。站点侧应以官方验证方法识别爬虫,以可爬性、规范性与内容质量支撑索引与排序;需要屏蔽时优先使用 robots.txt 等声明式手段,并理解其对收录的直接影响。文中 UA 与 IP 段可能随微软更新而变化,请以 Which crawlers does Bing use? 及验证文档为准。