mishushakov

llm-scraper

mishushakov

Turn any webpage into structured data using LLMs

AI 简介

LLM Scraper 是一个 TypeScript 库,用于从任何网页中提取结构化数据。它支持多种语言模型(如 GPT、Sonnet、Gemini、Llama 和 Qwen 系列),并允许用户通过 Zod 或 JSON Schema 定义数据模式,确保了类型安全。基于 Playwright 框架,LLM Scraper 提供了六种格式化模式,包括 HTML、原始 HTML、Markdown、文本、图片和自定义内容加载,能够满足不同场景下的数据抓取需求。此外,该工具还支持流式对象处理与代码生成,适用于需要高效且灵活地从网页中抽取信息的开发者或研究者。

TypeScript
MIT License
6.8k
Stars
452
Forks
34
Watchers
3
Issues

Star 增长

今日0
近 7 天+34
近 30 天+434
综合评分90.97
默认分支main