新闻网站与解析的已知问题

可能永远无法工作的网站类型

使用JavaScript生成页面的网站。目前暂无浏览器集成计划。
需要付费墙的网站。对于付费客户，这种情况可能适用于下面提到的"需要登录的网站"情况的注意事项。
发布日期以div内容形式编写，没有任何特殊类或标记
受Cloudflair或类似服务保护的网站。没有浏览器集成（Selenium或类似工具）的情况下可能无法正常工作。
包含扫描新闻文章内容的网站。目前暂未计划集成OCR功能。
拥有自己的“阅读器”且外观类似PDF或电子书的网站。

需要您登录的网站

这些开箱即用不可行。您可能需要通过提供登录过程中设置的cookie来尝试实现抓取功能。这意味着您必须在浏览器中登录，然后将cookie从浏览器复制到脚本中。

希望我能尽快写一篇关于如何实现这个功能的小教程。

fox13now.com

某些文章，例如这一篇在元标签中未包含正确的作者信息。提到的文章将"CNN Wire"作为作者，但实际作者是"Leigh Ann Caldwell"。似乎从外部网站转载的文章会将来源网站列为作者。这不是脚本的问题，而是网站本身的问题。可以通过为该网站创建自定义解析函数来覆盖此行为。您需要解析article.html并从那里获取作者信息。

finance.yahoo.com

该网站有一个“阅读更多”按钮。

我们已知无法正常工作的网站

已知不兼容网站列表
网站	无法使用的原因	最后检查日期
https://ec.europa.eu/commission/presscorner/home/en	网站使用JavaScript生成	2023-10-28
https://www.newspapers.com/	扫描内容	2023-10-28
https://www.alarabiya.net/	受到cloudflair保护	2023-11-03
https://www.investors.com	受perimeterx保护	2023-11-05
https://www.chicagobusiness.com/	受某些框架保护	2023-11-18