跳至内容

HTML

HTML处理功能使您能够高效解析HTML内容。以下您将找到关于在GenAIScript中使用HTML相关API的指南。

概述

HTML处理函数允许您将HTML内容转换为文本或Markdown格式,有助于为各种自动化任务提取和操作内容。

convertToText

将HTML内容转换为纯文本。这对于从网页中提取可读文本非常有用。

const htmlContent = "<p>Hello, world!</p>"
const text = HTML.HTMLToText(htmlContent)
// Output will be: "Hello, world!"

convertToMarkdown

将HTML转换为Markdown格式。此函数在内容迁移项目或将网页内容集成到基于markdown的系统时非常实用。

const htmlContent = "<p>Hello, <strong>world</strong>!</p>"
const markdown = HTML.HTMLToMarkdown(htmlContent)
// Output will be: "Hello, **world**!"

默认情况下,转换器会生成GitHub风格的Markdown。您可以通过将disableGfm参数设置为true来禁用此行为。

const markdown = HTML.HTMLToMarkdown(htmlContent, { disableGfm: true })

convertTablesToJSON

该函数专门用于从HTML内容中提取表格并将其转换为JSON格式。对于网页上的数据提取任务非常有用。

const tables = await HTML.convertTablesToJSON(htmlContent)
const table = tables[0]
defData("DATA", table)