新闻网站与解析的已知问题

可能永远无法工作的网站类型

  • 使用JavaScript生成页面的网站。目前暂无浏览器集成计划。

  • 需要付费墙的网站。对于付费客户,这种情况可能适用于下面提到的"需要登录的网站"情况的注意事项。

  • 发布日期以div内容形式编写,没有任何特殊类或标记

  • 受Cloudflair或类似服务保护的网站。没有浏览器集成(Selenium或类似工具)的情况下可能无法正常工作。

  • 包含扫描新闻文章内容的网站。目前暂未计划集成OCR功能。

  • 拥有自己的“阅读器”且外观类似PDF或电子书的网站。

需要您登录的网站

这些开箱即用不可行。您可能需要通过提供登录过程中设置的cookie来尝试实现抓取功能。 这意味着您必须在浏览器中登录,然后将cookie从浏览器复制到脚本中。

希望我能尽快写一篇关于如何实现这个功能的小教程。

fox13now.com

某些文章,例如这一篇 在元标签中未包含正确的作者信息。 提到的文章将"CNN Wire"作为作者,但实际作者是"Leigh Ann Caldwell"。似乎 从外部网站转载的文章会将来源网站列为作者。 这不是脚本的问题,而是网站本身的问题。可以通过为该网站创建 自定义解析函数来覆盖此行为。您需要解析article.html并从那里获取作者信息。

finance.yahoo.com

该网站有一个“阅读更多”按钮。

我们已知无法正常工作的网站

已知不兼容网站列表

网站

无法使用的原因

最后检查日期

https://ec.europa.eu/commission/presscorner/home/en

网站使用JavaScript生成

2023-10-28

https://www.newspapers.com/

扫描内容

2023-10-28

https://www.alarabiya.net/

受到cloudflair保护

2023-11-03

https://www.investors.com

受perimeterx保护

2023-11-05

https://www.chicagobusiness.com/

受某些框架保护

2023-11-18