安装
流水线
您可以通过pip简单地安装newspaper4k:
pip install newspaper4k
最佳实践是使用虚拟环境,如 virtualenv:
virtualenv venv
source venv/bin/activate
pip install newspaper4k
Github最新版本
如果你想从GitHub安装最新版本,可以执行以下操作:
pip install git+https://github.com/AndyTheFactory/newspaper4k.git
要求
newspaper4k 需要 Python 3.8 及以上版本才能运行。未在更低版本上进行测试。
newspaper4k 包具有以下依赖项:
beautifulsoup4
feedparser
结巴分词3k
lxml
自然语言工具包
请求
tldextract
枕头
PyYAML
feedfinder2
微型分词器
pythainlp
使用方法
最快开始的方式是导入newspaper模块并调用article函数:
import newspaper
a = newspaper.article('https://edition.cnn.com/2023/11/08/china/china-blizzard-disruption-intl-hnk/index.html')
print(a.title)
article 函数创建一个 Article 对象,下载文章并解析它。Article 对象具有多个属性,例如
title、authors、text 和 top_image。
可以通过以下代码实现相同效果:
import newspaper
a = newspaper.article('https://edition.cnn.com/2023/11/08/china/china-blizzard-disruption-intl-hnk/index.html')
a.download()
a.parse()
print(a.title)