网页文章提取器

从网页中提取完整文章正文和元数据

Home/Communication/网页文章提取器

What is it?

从网页中提取完整文章正文和元数据,去除导航、广告等干扰元素,生成干净可读的文章文本。

How to use it?

提供 URL 后,技能自动抓取网页,识别主要文章内容,提取干净文本及标题、作者、发布日期等元数据。

Key Features

  • 从网页文章提取干净正文文本
  • 提取标题、作者、日期等元数据
  • 适配多种网站布局和 CMS 平台
  • 与 Tapestry 技能集成构建内容处理管道
  • 保留文章结构和格式
View on GitHub

GitHub Stats

Stars
Forks
Last Update
License
MIT
Version
1.0.0

Categories

Features