接口
每个文档加载器都可以定义自己的参数,但它们共享一个通用的API:.load()– 一次性加载所有文档。.lazy_load()– 懒加载文档流,适用于大数据集。
按类别
网页
以下文档加载器允许您加载网页。| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
| 非结构化 | 使用 Unstructured 加载和解析网页 | 包 |
| RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
| Sitemap | 抓取给定网站地图上的所有页面 | 包 |
| Spider | 返回 LLM 准备数据的爬虫和抓取器 | API |
| Firecrawl | 可本地部署的 API 服务 | API |
| Docling | 使用 Docling 加载和解析网页 | 包 |
| Hyperbrowser | 运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
| AgentQL | 使用 AgentQL 查询或自然语言提示从任何网页进行网页交互和结构化数据提取 | API |
PDF文件
以下文档加载器允许您加载PDF文档。| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 pypdf 加载和解析 PDF 文件 | 包 |
| Unstructured | 使用 Unstructured 的开源库加载 PDF 文件 | 包 |
| Amazon Textract | 使用 AWS API 加载 PDF 文件 | API |
| MathPix | 使用 MathPix 加载 PDF 文件 | 包 |
| PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
| PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown | 包 |
| PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
| Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
| Docling | 使用 Docling 加载 PDF 文件 | 包 |
| UnDatasIO | 使用 UnDatasIO 加载 PDF 文件 | 包 |
| OpenDataLoader PDF | 使用 OpenDataLoader PDF 加载 PDF 文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜欢的云服务提供商加载文档。| 文档加载器 | 描述 | 合作伙伴包 | API参考 |
|---|---|---|---|
| AWS S3 目录 | 从AWS S3目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 文件 | 从AWS S3文件加载文档 | ❌ | S3FileLoader |
| Azure AI 数据 | 从Azure AI服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob存储 | 从Azure Blob存储加载文档 | ✅ | AzureBlobStorageLoader |
| Dropbox | 从Dropbox加载文档 | ❌ | DropboxLoader |
| Google Cloud Storage 目录 | 从GCS存储桶加载文档 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage 文件 | 从GCS文件对象加载文档 | ✅ | GCSFileLoader |
| Google Drive | 从Google Drive加载文档(仅限Google Docs) | ✅ | GoogleDriveLoader |
| 华为OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| 华为OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| Microsoft OneDrive | 从Microsoft OneDrive加载文档 | ❌ | OneDriveLoader |
| Microsoft SharePoint | 从Microsoft SharePoint加载文档 | ❌ | SharePointLoader |
| 腾讯COS 目录 | 从腾讯云对象存储服务目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| 腾讯COS 文件 | 从腾讯云对象存储服务文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。| 文档加载器 | API 参考文档 |
|---|---|
TwitterTweetLoader | |
RedditPostsLoader |