安装

流水线

您可以通过pip简单地安装newspaper4k

pip install newspaper4k

最佳实践是使用虚拟环境,如 virtualenv:

virtualenv venv
source venv/bin/activate
pip install newspaper4k

Github最新版本

如果你想从GitHub安装最新版本,可以执行以下操作:

pip install git+https://github.com/AndyTheFactory/newspaper4k.git

要求

newspaper4k 需要 Python 3.8 及以上版本才能运行。未在更低版本上进行测试。

newspaper4k 包具有以下依赖项:

  • beautifulsoup4

  • feedparser

  • 结巴分词3k

  • lxml

  • 自然语言工具包

  • 请求

  • tldextract

  • 枕头

  • PyYAML

  • feedfinder2

  • 微型分词器

  • pythainlp

使用方法

最快开始的方式是导入newspaper模块并调用article函数:

import newspaper
a = newspaper.article('https://edition.cnn.com/2023/11/08/china/china-blizzard-disruption-intl-hnk/index.html')
print(a.title)

article 函数创建一个 Article 对象,下载文章并解析它。Article 对象具有多个属性,例如 titleauthorstexttop_image

可以通过以下代码实现相同效果:

import newspaper
a = newspaper.article('https://edition.cnn.com/2023/11/08/china/china-blizzard-disruption-intl-hnk/index.html')
a.download()
a.parse()
print(a.title)