HTML
HTML处理功能使您能够高效解析HTML内容。以下您将找到关于在GenAIScript中使用HTML相关API的指南。
概述
HTML处理函数允许您将HTML内容转换为文本或Markdown格式,有助于为各种自动化任务提取和操作内容。
convertToText
将HTML内容转换为纯文本。这对于从网页中提取可读文本非常有用。
const htmlContent = "<p>Hello, world!</p>"const text = HTML.HTMLToText(htmlContent)// Output will be: "Hello, world!"
convertToMarkdown
将HTML转换为Markdown格式。此函数在内容迁移项目或将网页内容集成到基于markdown的系统时非常实用。
const htmlContent = "<p>Hello, <strong>world</strong>!</p>"const markdown = HTML.HTMLToMarkdown(htmlContent)// Output will be: "Hello, **world**!"
默认情况下,转换器会生成GitHub风格的Markdown。您可以通过将disableGfm
参数设置为true
来禁用此行为。
const markdown = HTML.HTMLToMarkdown(htmlContent, { disableGfm: true })
convertTablesToJSON
该函数专门用于从HTML内容中提取表格并将其转换为JSON格式。对于网页上的数据提取任务非常有用。
const tables = await HTML.convertTablesToJSON(htmlContent)const table = tables[0]
defData("DATA", table)