bingbot

Bingbot是什么

Bingbot 是微软 Bing 搜索引擎官方网络爬虫(俗称“必应蜘蛛”)。在信息检索流程中,它负责发现 URL、下载网页资源,并将可索引内容交由 Bing 的索引与排序系统处理;其身份、抓取策略与呈现方式均以微软官方文档与站长工具说明为准。

对面向海外流量、多引擎分发或企业合规披露(访问日志审计)的网站而言,准确识别 Bingbot、理解其抓取边界,与页面能否被稳定收录、能否在 Bing 结果中获得曝光直接相关。

  • User-Agent 可被伪造:UA 仅作弱信号。生产环境应使用反向 DNS + 正向 DNS双查或 Verify Bingbot(站长账户内或公开工具页)做强验证
  • 抓取控制:站点级偏好通常通过 robots.txt 声明;细粒度问题(抓取压力、重要 URL)建议在 Bing Webmaster Tools 中结合“抓取”“索引”类报告与 IndexNow(Bing 支持)等机制协同处理。
  • 下方表格:在筛选框输入关键词可快速过滤行;「复制表格」会复制当前可见行为制表符分隔文本,便于粘贴到 Excel 或记事本。

必应Bingbot常见User-Agent(UA)大全

爬虫名称 角色说明 典型 User-Agent(官方示例中的模式)
Bingbot 必应标准爬虫,承担大部分日常抓取与索引相关请求;含桌面渲染型、兼容型与移动型等变体。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

AdIdxBot 用于必应广告(Bing Ads):抓取广告及广告所链向的落地页,用于质量审核;含桌面与移动 UA。 Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 (Windows Phone 8.1; ARM; Trident/7.0; Touch; rv:11.0; IEMobile/11.0; NOKIA; Lumia 530) like Gecko (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)

BingPreview 为必应生成页面快照 / 预览(如部分应用或结果中的预览体验);含桌面与移动变体。与主索引爬虫 Bingbot 不同,UA 中通常可见 BingPreview 标识。 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 BingPreview/1.0b

具体版本号可能更新,请以 官方爬虫说明 与 Verify Bingbot 为准。

MicrosoftPreview 为微软旗下产品生成页面快照 / 预览;含桌面与移动变体。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview) Chrome/W.X.Y.Z Safari/537.36

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview)

BingVideoPreview 用于在必应中提供视频预览;含桌面、兼容型与移动变体。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots) Chrome/W.X.Y.Z Safari/537.36

Mozilla/5.0 (compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; BingVideoPreview/1.0; +https://aka.ms/microsoftbots)

官方原文与更新:Which crawlers does Bing use? · 验证方式:How to verify Bingbot

Bingbot的工作原理

从站点运维视角,可将 Bingbot 的工作流概括为“发现 → 调度 → 获取 → 解析 → 入索引管线”,与主流商业搜索引擎爬虫在宏观上一致,但具体配额、重试与质量信号权重由 Bing 内部策略决定,且不对外公开细节。

  1. 发现:通过外链、站内链接、sitemap(及站长工具提交)等渠道扩充待抓 URL 集合;
  2. 调度:按站点健康度、更新频率、历史抓取结果等安排优先级与节奏(可理解为广义的“抓取预算”管理);
  3. 获取:发起 HTTP(S) 请求,遵循响应状态、重定向与 robots.txt 等信号;
  4. 解析:提取正文、链接图、结构化标记(如 JSON-LD)及可索引元数据;
  5. 索引与排序:进入 Bing 索引与排序管线——被抓取不等于被收录,更不保证有排名。

同一站点上除标准 bingbot 外,还可能见到 AdIdxBot、各类 Preview 爬虫等;它们服务不同产品场景,UA 与行为特征亦不同,分析日志时宜分开统计。

如何验证Bingbot是否真实(IP 反查方法)

微软官方说明:若日志中出现形似 Bingbot 的 UA,应通过反向 DNS确认主机名search.msn.com 结尾,再对该主机名做正向 DNS,确认解析回的 IP 与日志中的来源 IP 一致——两步缺一不可。仅靠 UA 或仅靠 IP 段匹配均不足以作为严谨的身份认定依据。

操作步骤

  1. 从访问日志提取客户端源 IP;
  2. 对该 IP 做反向 DNS(PTR),得到形如 msnbot-…-….search.msn.com 的主机名;
  3. 确认该主机名search.msn.com 结尾(与官方表述一致);
  4. 再对该主机名做正向 A/AAAA 解析,确认结果与步骤 1 的 IP 相同。

亦可使用必应提供的 Verify Bingbot(公开页) 或站长工具内同名功能,减少手工命令误差。

命令行示例(Windows nslookup

nslookup 157.55.39.1
nslookup msnbot-157-55-33-18.search.msn.com

第二行主机名请替换为你在反向解析中实际得到的名称;官方文档示例见 How to verify Bingbot

命令行示例(Linux host

host 157.55.39.1
host msnbot-157-55-33-18.search.msn.com

若日志中的来源地址为 IPv6,验证逻辑相同:对 PTR 与对应的 AAAA 正向解析做一致性核对即可。

Bingbot 常见 IP 段(仅供参考)

必应明确不建议依赖硬编码 IP 或静态 CIDR 表做长期放行/拦截:地址池会变更。若必须在防火墙或 WAF 侧做 IP 校验,应优先采用上文反向 + 正向 DNS流程;需要机器可读列表时,可使用微软提供的 bingbot.json(官方说明要求每日刷新该列表)。

下表列出 bingbot.json 中当前公布的 IPv4 前缀(ipv4Prefix,便于与日志中的源 IP 做粗匹配;若 JSON 中出现 ipv6Prefix,须一并以线上文件为准。本站正文为摘录,可能与微软实时文件不一致,请务必直接拉取 JSON 并每日刷新

IPv4 前缀(CIDR) 掩码
157.55.39.0/24 /24
207.46.13.0/24 /24
40.77.167.0/24 /24
13.66.139.0/24 /24
13.66.144.0/24 /24
52.167.144.0/24 /24
40.77.202.0/24 /24
40.77.177.0/24 /24
65.55.210.0/24 /24
40.77.139.0/25 /25
199.30.24.0/23 /23
40.77.178.0/23 /23
40.77.188.0/22 /22
13.67.10.16/28 /28
13.69.66.240/28 /28
13.71.172.224/28 /28
139.217.52.0/28 /28
191.233.204.224/28 /28
20.36.108.32/28 /28
20.43.120.16/28 /28
40.79.131.208/28 /28
40.79.186.176/28 /28
52.231.148.0/28 /28
20.79.107.240/28 /28
51.105.67.0/28 /28
20.125.163.80/28 /28
20.74.197.0/28 /28
20.15.133.160/27 /27

再次说明:上表不能替代反向/正向 DNS 验证;亦不等于「凡是微软 IP 都是 Bingbot」。收录与抓取问题请结合 Bing Webmaster Tools 中的爬取/索引报告排查。

为什么不能只通过 IP 判断 Bingbot?

仅凭来源 IP 做白名单或封禁,在工程上属于弱策略,原因包括:

  • 云与 CDN 架构下,爬虫出口 IP 会扩容、迁移或轮换;静态列表必然滞后;
  • 日志中的“可疑 UA”与任意 IP 的组合都可能是伪造或代理转发;
  • 即便 IP 属于微软地址空间,仍需 rDNS/fDNS 双查才能与“必应爬虫”这一应用层身份对齐。

实务上:UA 用于粗筛,身份确认以DNS 双查或官方 Verify 工具为准。

Bing 官方验证方式(要点回顾)

与微软文档一致,可记为一句:PTR 主机名以 search.msn.com 结尾,且该主机名正向解析回同一来源 IP。完整步骤、工具链接与 nslookup 示例见上文「如何验证 Bingbot 是否真实」。典型 PTR 形如 msnbot-157-55-39-1.search.msn.com(以实际日志为准)。

Bingbot 抓取行为特点

  • 节奏随站点而变:抓取频率与站点规模、更新频率、响应稳定性及历史抓取成功率等相关,并非固定周期;
  • 尊重 robots 声明:通常按 robots.txt 的 Allow/Disallow 处理;若规则写法歧义或存在多子域,建议在站长工具中核对实际抓取样例;
  • 多类型资源:除 HTML 外,亦可能请求图片、脚本、样式等与渲染/预览相关的资源(视产品与爬虫类型而定);
  • 与其他爬虫并存:同一站点可能同时出现标准索引爬虫与 Preview/广告类爬虫,日志分析时宜按 UA 与验证结果分桶。
  • robots 扩展指令:除 Allow/Disallow 外,若使用 Crawl-delay 等扩展写法,效果因爬虫与版本而异,应以必应当前 robots.txt 帮助 为准,并避免与多 User-agent 块规则冲突。

站点侧实践要点(运维与 SEO)

下列条目便于与发布流程、服务器配置对齐,用于降低“可访问但不可索引”的风险(不替代官方指南):

  • 传输与证书:全站 HTTPS、证书链完整且在有效期内;尽量避免混合内容导致关键资源加载失败。
  • 重定向与状态码:缩短跳转链、消除循环;规范使用 301/302;避免用 HTTP 200 搭配空壳或错误模板形成软 404
  • JavaScript 与可爬性:现代商业搜索引擎普遍具备 JavaScript 渲染能力(必应亦不例外),但关键正文、主导航与规范 URL 仍建议在首屏 HTML 或稳定 DOM 中可读,以降低渲染超时、依赖失败带来的抓取损失。
  • IndexNow 与例行抓取IndexNow 用于主动通知 URL 变更,与 Bingbot 的周期性发现/抓取互补,不能理解为可替代常规爬取或保证收录。
  • 站点地图:在 Sitemaps 帮助所述约束内维护 sitemap,并与站内链接、robots.txt 引用保持一致,便于发现与优先级信号协同。

访问日志建议保留的字段

便于抓取审计、伪造 UA 排查与容量规划,建议在原始访问日志或等价遥测中至少保留:

字段/概念 典型用途
时间戳(建议含时区) 与发布窗口、故障时段、抓取突增对齐
客户端 IP(IPv4/IPv6) PTR/fDNS 验证、地理与 ASN 辅助分析(ASN 非身份证明)
请求方法、路径与查询串 区分 GET/HEAD、识别重复 URL 变体与异常扫描
HTTP 状态码与响应字节数 发现 4xx/5xx 模式、异常小页与大文件拖慢
User-Agent 爬虫粗分类(须再做强验证)
Referer(若存在) 辅助理解部分跳转场景;不可用于强身份认定
TLS/协议版本(可选) 排查握手中断、协议协商失败

Bingbot 对 SEO 的影响

Bingbot 是 Bing 自然搜索流量的技术入口之一:未被可靠抓取与处理的内容,通常难以进入索引并获得稳定展现。可操作的关联维度包括:

  • 可爬性:状态码、重定向链、软 404、孤岛页面、错误 canonical 等均可能导致“抓了但不可用”;
  • 信息架构:内链深度、分页与列表页规则、sitemap 与重要入口 URL 是否一致;
  • 性能与可用性:高频 5xx/超时会被解读为站点不稳定,间接影响抓取意愿;
  • 内容与规范:重复内容、薄内容、结构化数据错误等影响的是索引与排序阶段,而非爬虫身份本身。

若 Bingbot 持续无法访问或大量 URL 处于“已发现未抓取”等状态,应优先在 Bing Webmaster Tools 查看具体错误类型,再对照服务器与路由配置逐项修复。

如何屏蔽 Bingbot 访问

若目标是合规地拒绝索引,首选 robots.txt 或页面级 noindex(按场景选择),以便爬虫能“读懂意图”。单纯按 UA 返回 403 易被伪造 UA 绕过,且可能误伤经过代理或检测工具的请求。

1. robots.txt(推荐用于全站不抓)

User-agent: bingbot
Disallow: /

声明后,必应通常会尊重 Disallow(具体以官方文档为准);是否立即停抓取决于缓存与调度,并非毫秒级生效。

2. Nginx:按 UA 拒绝(仅作补充,弱安全)

if ($http_user_agent ~* "bingbot") {
    return 403;
}

3. Apache:按 UA 拒绝(同上)

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} bingbot [NC]
RewriteRule .* - [F,L]

后果说明:拒绝 Bingbot 通常会导致 Bing 无法收录或更新页面;若仅为限流,宜在站长工具中调整抓取相关设置,而非长期 403。

常见问题

Bingbot 多久抓取一次?
没有对外固定的全局周期。可观察:近期内容更新频率、服务器错误率、Bing Webmaster Tools 中的爬取统计与“URL 检查”结果;重大改版后可配合 sitemap 与 IndexNow 缩短发现时间(不保证收录)。

Bing 不收录或收录慢怎么办?
建议按序自查:① robots.txt 与页面 noindex;② 4xx/5xx 与重定向环;③ canonical 是否指向错误 URL;④ 是否大量重复/空壳页;⑤ 站长工具中是否有明确拒绝或抓取异常提示。

日志里 UA 是 bingbot,是否一定是必应?
不一定。必须以反向 + 正向 DNS 或 Verify Bingbot 工具核实。

遇到大量自称 Bingbot 的异常流量怎么办?
先按上文做 DNS 双查:未通过验证的,按普通恶意或垃圾流量在 WAF/速率限制策略中处置;通过验证的,再排查是否因站点错误配置导致爬虫重试或抓取异常 URL。

总结

Bingbot 是 Bing 生态中的核心抓取组件之一,其工作体现为可验证的网络请求与可分析的日志行为。站点侧应以官方验证方法识别爬虫,以可爬性、规范性与内容质量支撑索引与排序;需要屏蔽时优先使用 robots.txt 等声明式手段,并理解其对收录的直接影响。文中 UA 与 IP 段可能随微软更新而变化,请以 Which crawlers does Bing use? 及验证文档为准。

上一篇:Yahoo Slurp
下一篇:YoudaoBot
© 原创声明:本文由 四六啦工具 于 1 年 前发表在 搜索引擎蜘蛛UA查询 分类目录中,最后更新于2026年4月15日,转载请注明本文永久链接:https://www.46.la/bingbot

相关文章

暂无评论

本文暂时没有评论,来添加一个吧(●'◡'●)