新闻网站与解析的已知问题
可能永远无法工作的网站类型
使用JavaScript生成页面的网站。目前暂无浏览器集成计划。
需要付费墙的网站。对于付费客户,这种情况可能适用于下面提到的"需要登录的网站"情况的注意事项。
发布日期以div内容形式编写,没有任何特殊类或标记
受Cloudflair或类似服务保护的网站。没有浏览器集成(Selenium或类似工具)的情况下可能无法正常工作。
包含扫描新闻文章内容的网站。目前暂未计划集成OCR功能。
拥有自己的“阅读器”且外观类似PDF或电子书的网站。
需要您登录的网站
这些开箱即用不可行。您可能需要通过提供登录过程中设置的cookie来尝试实现抓取功能。 这意味着您必须在浏览器中登录,然后将cookie从浏览器复制到脚本中。
希望我能尽快写一篇关于如何实现这个功能的小教程。
fox13now.com
某些文章,例如这一篇 在元标签中未包含正确的作者信息。 提到的文章将"CNN Wire"作为作者,但实际作者是"Leigh Ann Caldwell"。似乎 从外部网站转载的文章会将来源网站列为作者。 这不是脚本的问题,而是网站本身的问题。可以通过为该网站创建 自定义解析函数来覆盖此行为。您需要解析article.html并从那里获取作者信息。
finance.yahoo.com
该网站有一个“阅读更多”按钮。
我们已知无法正常工作的网站
网站 |
无法使用的原因 |
最后检查日期 |
|---|---|---|
网站使用JavaScript生成 |
2023-10-28 |
|
扫描内容 |
2023-10-28 |
|
受到cloudflair保护 |
2023-11-03 |
|
受perimeterx保护 |
2023-11-05 |
|
受某些框架保护 |
2023-11-18 |