NHK RSS 抓取踩坑总结

📌 项目背景与目标

为了搭建一套日语 N1 学习自动化系统，计划实现以下数据流拓扑：

NHK Easy 新闻 ➔ Python 自动流式获取 ➔ GPT 智能化摘要/单词提取 ➔ Telegram Bot 精准推送

🛑 第一阶段：基于 Requests+BS4 的传统爬虫尝试

1. 现象与痛点：403 Forbidden 拦截

最初尝试使用标准的 requests.get() 配合 BeautifulSoup 直接抓取 NHK Easy 新闻官网，但在终端遭遇了硬拦截：

状态码：403 Forbidden
页面内容：エラー 403 Forbidden | NHK

❌ 前期错误认知：误以为是自己的 CSS Selector 写错、HTML 结构发生变动或 BeautifulSoup 解析失效。

💡 根本原因分析：NHK 设有反爬机制，检测到了 Requests 默认的 User-Agent、Python 爬虫指纹以及非真实浏览器的 TLS 特征，在网络层直接拒绝了访问。也就是说，程序根本没有拿到真正的网页 HTML。

🛠️ 避坑经验总结

[!CAUTION] 核心铁律：拒绝盲调 Selector

在编写解析逻辑前，永远先验证请求的有效性。不要在错误的 HTML 或空 Response 上浪费时间。

Python

# 正确的 Debug 调试三板斧
print(f"Status Code: {response.status_code}")
print(f"Content Length: {len(response.text)}")
print(f"Preview:\n{response.text[:500]}")

[!TIP] 实用技巧：所见即所得

遇到解析异常时，将内容持久化为本地 HTML，直接用浏览器肉眼确认，比盲猜快十倍：

Python
with open("debug.html", "w", encoding="utf-8") as f:
    f.write(response.text)

🚀 终极解决方案：引入 `cloudscraper`

通过 cloudscraper 替代原生 requests，自动模拟浏览器特征、User-Agent 以及 TLS 指纹，完美绕过 Cloudflare 等常见反爬网关。

Python

import cloudscraper

# 创建反爬绕过实例
scraper = cloudscraper.create_scraper()
response = scraper.get(url)

📡 第二阶段：动态 HTML 解析困局与向 RSS 的升维

1. 现象与痛点：不稳定的 DOM 结构

即使成功拿到了 200 OK 的真实 HTML，依然高频出现 soup.select() 抓取不到内容的情况。

💡 原因剖析：新闻类门户网站的首页 HTML 属于“高频变动资产”。

页面结构频繁改版。

前端混淆的 Class 名称动态变化。

部分核心内容采用异步延迟加载。

[!NOTE] 架构思维的转变：RSS > HTML

HTML：面向人类用户，注重视觉呈现，极易改版，反爬严苛。

RSS (XML)：面向程序接口，字段标准化（Title/Link/Description），结构稳定，天然适合自动化工程。

🚀 正确方案

放弃解析网页 DOM，直接对接 NHK 官方 RSS 全球新闻源：

https://www3.nhk.or.jp/rss/news/cat0.xml

🪺 第三阶段：`feedparser` 的隐藏陷阱

1. 现象与痛点：`feed.entries` 返回空列表

在浏览器中明明可以正常打开上述 XML 地址，但在代码中使用 feedparser.parse(url) 时，获取到的条目却为空。

💡 原因剖析：很多第三方解析库（如 feedparser、BeautifulSoup 的某些网络扩展）在传入 URL 时，其内部会自动发起底层网络请求。而这些隐藏的请求不会携带你配置的 headers 或 cloudscraper 代理，导致在库的内部再次触发了 NHK 的 403 拦截。

看似是解析失败，本质上依然是网络请求被拒。

🚀 终极稳定版代码框架

解耦原则：自己负责安全地获取数据，再把干净的数据交给工具解析。

Python

import cloudscraper
import feedparser

# 1. 定义数据源
rss_url = "https://www3.nhk.or.jp/rss/news/cat0.xml"

# 2. 绕过反爬机制安全获取 XML 文本
scraper = cloudscraper.create_scraper()
response = scraper.get(rss_url)
xml_content = response.text

# 3. 将解成本地字符串的 XML 交付给 feedparser 解析（避免其内部二次请求）
feed = feedparser.parse(xml_content)

# 4. 结构化数据提取
for entry in feed.entries:
    print(f"标题: {entry.title}")
    print(f"链接: {entry.link}")
    print(f"摘要: {entry.description}")
    print("-" * 30)

🛠️ 自动化开发核心方法论

【确认请求成功】➔ 【验证真实内容】➔ 【本地持久化观察结构】➔ 【编写/优化解析逻辑】

NHK RSS 抓取踩坑总结

📌 项目背景与目标

🛑 第一阶段：基于 Requests+BS4 的传统爬虫尝试

1. 现象与痛点：403 Forbidden 拦截

🛠️ 避坑经验总结

🚀 终极解决方案：引入 cloudscraper

📡 第二阶段：动态 HTML 解析困局与向 RSS 的升维

1. 现象与痛点：不稳定的 DOM 结构

🚀 正确方案

🪺 第三阶段：feedparser 的隐藏陷阱

1. 现象与痛点：feed.entries 返回空列表

🚀 终极稳定版代码框架

🛠️ 自动化开发核心方法论

🚀 终极解决方案：引入 `cloudscraper`

🪺 第三阶段：`feedparser` 的隐藏陷阱

1. 现象与痛点：`feed.entries` 返回空列表