接口
每个文档加载器都可以定义自己的参数,但它们共享一个通用的API:.load(): 一次性加载所有文档。.loadAndSplit(): 一次性加载所有文档并将它们分割成更小的文档。
按类别
LangChain.js 将文档加载器分为两种不同的类别:文件加载器
如果您想贡献一个集成,请参阅贡献集成。
PDF文件
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PDFLoader | 使用 pdf-parse 加载并解析 PDF 文件 | 包 |
常见文件类型
专用文件加载器
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| DirectoryLoader | 使用自定义加载器映射从目录中加载所有文件 | 包 |
| UnstructuredLoader | 使用非结构化API加载多种文件类型 | API |
| MultiFileLoader | 从多个单独的文件路径加载数据 | 包 |
| ChatGPT | 加载ChatGPT对话导出 | 包 |
| Notion Markdown | 加载以Markdown格式导出的Notion页面 | 包 |
| OpenAI Whisper Audio | 使用OpenAI Whisper API转录音频文件 | API |
网页加载器
网页
| 文档加载器 | 描述 | 网页支持 | 包/API |
|---|---|---|---|
| Cheerio | 使用 Cheerio 加载网页(轻量级,不执行 JavaScript) | ✅ | 包 |
| Playwright | 使用 Playwright 加载动态网页(支持 JavaScript 渲染) | ❌ | 包 |
| Puppeteer | 使用 Puppeteer 加载动态网页(无头 Chrome) | ❌ | 包 |
| FireCrawl | 爬取并将网站转换为 LLM 准备好的 Markdown 格式 | ✅ | API |
| Spider | 快速爬虫,将网站转换为 HTML、Markdown 或文本 | ✅ | API |
| RecursiveUrlLoader | 递归加载遵循链接的网页 | ❌ | 包 |
| Sitemap | 从 sitemap.xml 加载所有页面 | ✅ | 包 |
| Browserbase | 使用具有隐身模式的托管无头浏览器加载网页 | ✅ | API |
| WebPDFLoader | 在网页环境中加载 PDF 文件 | ✅ | 包 |
云服务提供商
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
| S3 | 从 AWS S3 存储桶中加载文件 | ❌ | 包 |
| Azure Blob Storage Container | 从 Azure Blob Storage 容器中加载所有文件 | ❌ | 包 |
| Azure Blob Storage File | 从 Azure Blob Storage 加载单个文件 | ❌ | 包 |
| Google Cloud Storage | 从 Google Cloud Storage 存储桶中加载文件 | ❌ | 包 |
| Google Cloud SQL for PostgreSQL | 从 Cloud SQL PostgreSQL 数据库中加载文档 | ✅ | 包 |
生产力工具
| 文档加载器 | 描述 | 网页支持 | 包/API |
|---|---|---|---|
| Notion API | 通过API加载Notion页面和数据库 | ✅ | API |
| Figma | 加载Figma文件数据 | ✅ | API |
| Confluence | 从Confluence空间加载页面 | ❌ | API |
| GitHub | 从GitHub仓库加载文件 | ✅ | API |
| GitBook | 加载GitBook文档页面 | ✅ | 包 |
| Jira | 从Jira项目加载问题 | ❌ | API |
| Airtable | 从Airtable基础加载记录 | ✅ | API |
| Taskade | 加载Taskade项目数据 | ✅ | API |
搜索与数据API
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
| SearchAPI | 从 SearchAPI(Google、YouTube 等)加载网络搜索结果 | ✅ | API |
| SerpAPI | 从 SerpAPI 加载网络搜索结果 | ✅ | API |
| Apify Dataset | 从 Apify 平台加载抓取数据 | ✅ | API |
音频与视频
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
| YouTube | 加载YouTube视频字幕 | ✅ | 包 |
| AssemblyAI | 使用AssemblyAI API转录音频和视频文件 | ✅ | API |
| Sonix | 使用Sonix API转录音频文件 | ❌ | API |
其他
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
| Couchbase | 使用 SQL++ 查询从 Couchbase 数据库加载文档 | ✅ | 包 |
| LangSmith | 从 LangSmith 加载数据集和轨迹 | ✅ | API |
| Hacker News | 加载 Hacker News 线程和评论 | ✅ | 包 |
| IMSDB | 从互联网电影剧本数据库加载电影剧本 | ✅ | 包 |
| College Confidential | 从 College Confidential 加载大学信息 | ✅ | 包 |
| Blockchain Data | 通过 Sort.xyz API 加载区块链数据(NFTs,交易) | ✅ | API |