Skip to main content
文档加载器提供了一个标准接口,用于从不同的来源(如Slack、Notion或Google Drive)读取数据,并将其转换为LangChain的文档格式。这确保了无论数据来源如何,都可以一致地处理数据。 所有文档加载器都实现了BaseLoader接口。

接口

每个文档加载器都可以定义自己的参数,但它们共享一个通用的API:
  • .load(): 一次性加载所有文档。
  • .loadAndSplit(): 一次性加载所有文档并将它们分割成更小的文档。
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv";

const loader = new CSVLoader(
  ...  // <-- Integration specific parameters here
);
const data = await loader.load();

按类别

LangChain.js 将文档加载器分为两种不同的类别:

文件加载器

如果您想贡献一个集成,请参阅贡献集成

PDF文件

文档加载器描述包/API
PDFLoader使用 pdf-parse 加载并解析 PDF 文件

常见文件类型

文档加载器描述包/API
CSV从CSV文件加载数据,支持配置列提取
JSON使用JSON指针加载JSON文件,以定位特定键
JSONLines从JSONLines/JSONL文件加载数据
Text加载纯文本文件
DOCX加载Microsoft Word文档(.docx和.doc格式)
EPUB加载EPUB文件,可选章节拆分
PPTX加载PowerPoint演示文稿
Subtitles加载字幕文件(.srt格式)

专用文件加载器

文档加载器描述包/API
DirectoryLoader使用自定义加载器映射从目录中加载所有文件
UnstructuredLoader使用非结构化API加载多种文件类型API
MultiFileLoader从多个单独的文件路径加载数据
ChatGPT加载ChatGPT对话导出
Notion Markdown加载以Markdown格式导出的Notion页面
OpenAI Whisper Audio使用OpenAI Whisper API转录音频文件API

网页加载器

网页

文档加载器描述网页支持包/API
Cheerio使用 Cheerio 加载网页(轻量级,不执行 JavaScript)
Playwright使用 Playwright 加载动态网页(支持 JavaScript 渲染)
Puppeteer使用 Puppeteer 加载动态网页(无头 Chrome)
FireCrawl爬取并将网站转换为 LLM 准备好的 Markdown 格式API
Spider快速爬虫,将网站转换为 HTML、Markdown 或文本API
RecursiveUrlLoader递归加载遵循链接的网页
Sitemap从 sitemap.xml 加载所有页面
Browserbase使用具有隐身模式的托管无头浏览器加载网页API
WebPDFLoader在网页环境中加载 PDF 文件

云服务提供商

文档加载器描述网络支持包/API
S3从 AWS S3 存储桶中加载文件
Azure Blob Storage Container从 Azure Blob Storage 容器中加载所有文件
Azure Blob Storage File从 Azure Blob Storage 加载单个文件
Google Cloud Storage从 Google Cloud Storage 存储桶中加载文件
Google Cloud SQL for PostgreSQL从 Cloud SQL PostgreSQL 数据库中加载文档

生产力工具

文档加载器描述网页支持包/API
Notion API通过API加载Notion页面和数据库API
Figma加载Figma文件数据API
Confluence从Confluence空间加载页面API
GitHub从GitHub仓库加载文件API
GitBook加载GitBook文档页面
Jira从Jira项目加载问题API
Airtable从Airtable基础加载记录API
Taskade加载Taskade项目数据API

搜索与数据API

文档加载器描述网络支持包/API
SearchAPI从 SearchAPI(Google、YouTube 等)加载网络搜索结果API
SerpAPI从 SerpAPI 加载网络搜索结果API
Apify Dataset从 Apify 平台加载抓取数据API

音频与视频

文档加载器描述网络支持包/API
YouTube加载YouTube视频字幕
AssemblyAI使用AssemblyAI API转录音频和视频文件API
Sonix使用Sonix API转录音频文件API

其他

文档加载器描述网络支持包/API
Couchbase使用 SQL++ 查询从 Couchbase 数据库加载文档
LangSmith从 LangSmith 加载数据集和轨迹API
Hacker News加载 Hacker News 线程和评论
IMSDB从互联网电影剧本数据库加载电影剧本
College Confidential从 College Confidential 加载大学信息
Blockchain Data通过 Sort.xyz API 加载区块链数据(NFTs,交易)API

所有文档加载器

Airtable

Apify Dataset

AssemblyAI Audio Transcript

Azure Blob Storage Container

Azure Blob Storage File

Blockchain Data

Browserbase

ChatGPT

Cheerio

College Confidential

Confluence

Couchbase

CSV

DirectoryLoader

DOCX

EPUB

Figma

FireCrawl

GitHub

GitBook

Google Cloud SQL for PostgreSQL

Google Cloud Storage

Hacker News

IMSDB

Jira

JSON

JSONLines

LangSmith

MultiFileLoader

Notion API

Notion Markdown

OpenAI Whisper Audio

PDFLoader

Playwright

PPTX

Puppeteer

RecursiveUrlLoader

S3

SearchAPI

SerpAPI

Sitemap

Sonix Audio

Spider

Subtitles

Taskade

Text

UnstructuredLoader

WebPDFLoader

YouTube