Skip to main content
文档加载器提供了一个标准接口,用于从不同的来源(如Slack、Notion或Google Drive)读取数据到LangChain的文档格式。 这确保了无论来源如何,数据都可以得到一致的处理。 所有文档加载器都实现了BaseLoader接口。

接口

每个文档加载器都可以定义自己的参数,但它们共享一个通用的API:
  • .load() – 一次性加载所有文档。
  • .lazy_load() – 懒加载文档流,适用于大数据集。
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # Integration-specific parameters here
)

# Load all documents
documents = loader.load()

# For large datasets, lazily load documents
for document in loader.lazy_load():
    print(document)

按类别

网页

以下文档加载器允许您加载网页。
文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
非结构化使用 Unstructured 加载和解析网页
RecursiveURL从根 URL 递归抓取所有子链接
Sitemap抓取给定网站地图上的所有页面
Spider返回 LLM 准备数据的爬虫和抓取器API
Firecrawl可本地部署的 API 服务API
Docling使用 Docling 加载和解析网页
Hyperbrowser运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站API
AgentQL使用 AgentQL 查询或自然语言提示从任何网页进行网页交互和结构化数据提取API

PDF文件

以下文档加载器允许您加载PDF文档。
文档加载器描述包/API
PyPDF使用 pypdf 加载和解析 PDF 文件
Unstructured使用 Unstructured 的开源库加载 PDF 文件
Amazon Textract使用 AWS API 加载 PDF 文件API
MathPix使用 MathPix 加载 PDF 文件
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown
PDFMiner使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling使用 Docling 加载 PDF 文件
UnDatasIO使用 UnDatasIO 加载 PDF 文件
OpenDataLoader PDF使用 OpenDataLoader PDF 加载 PDF 文件

云服务提供商

以下文档加载器允许您从您喜欢的云服务提供商加载文档。
文档加载器描述合作伙伴包API参考
AWS S3 目录从AWS S3目录加载文档S3DirectoryLoader
AWS S3 文件从AWS S3文件加载文档S3FileLoader
Azure AI 数据从Azure AI服务加载文档AzureAIDataLoader
Azure Blob存储从Azure Blob存储加载文档AzureBlobStorageLoader
Dropbox从Dropbox加载文档DropboxLoader
Google Cloud Storage 目录从GCS存储桶加载文档GCSDirectoryLoader
Google Cloud Storage 文件从GCS文件对象加载文档GCSFileLoader
Google Drive从Google Drive加载文档(仅限Google Docs)GoogleDriveLoader
华为OBS 目录从华为对象存储服务目录加载文档OBSDirectoryLoader
华为OBS 文件从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从Microsoft OneDrive加载文档OneDriveLoader
Microsoft SharePoint从Microsoft SharePoint加载文档SharePointLoader
腾讯COS 目录从腾讯云对象存储服务目录加载文档TencentCOSDirectoryLoader
腾讯COS 文件从腾讯云对象存储服务文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

生产力工具

以下文档加载器允许您从常用的生产力工具中加载数据。

常见文件类型

以下文档加载器允许您从常见的数据格式中加载数据。

所有文档加载器

acreom

AgentQLLoader

AirbyteLoader

Airtable

Alibaba Cloud MaxCompute

Amazon Textract

Apify Dataset

ArxivLoader

AssemblyAI Audio Transcripts

AstraDB

Async Chromium

AsyncHtml

Athena

AWS S3 Directory

AWS S3 File

AZLyrics

Azure AI Data

Azure Blob Storage

Azure AI Document Intelligence

BibTeX

BiliBili

Blackboard

Blockchain

Box

Brave Search

Browserbase

Browserless

BSHTMLLoader

Cassandra

ChatGPT Data

College Confidential

Concurrent Loader

Confluence

CoNLL-U

Copy Paste

Couchbase

CSV

Cube Semantic Layer

Datadog Logs

Dedoc

Diffbot

Discord

Docling

Docugami

Docusaurus

Dropbox

Email

EPub

Etherscan

EverNote

Facebook Chat

Fauna

Figma

FireCrawl

Geopandas

Git

GitBook

GitHub

Glue Catalog

Google AlloyDB for PostgreSQL

Google BigQuery

Google Bigtable

Google Cloud SQL for SQL Server

Google Cloud SQL for MySQL

Google Cloud SQL for PostgreSQL

Google Cloud Storage Directory

Google Cloud Storage File

Google Firestore in Datastore Mode

Google Drive

Google El Carro for Oracle Workloads

Google Firestore (Native Mode)

Google Memorystore for Redis

Google Spanner

Google Speech-to-Text

Grobid

Gutenberg

Hacker News

Huawei OBS Directory

Huawei OBS File

HuggingFace Dataset

HyperbrowserLoader

iFixit

Images

Image Captions

IMSDb

Iugu

Joplin

JSONLoader

Jupyter Notebook

Kinetica

lakeFS

LangSmith

LarkSuite (FeiShu)

LLM Sherpa

Mastodon

MathPixPDFLoader

MediaWiki Dump

Merge Documents Loader

MHTML

Microsoft Excel

Microsoft OneDrive

Microsoft OneNote

Microsoft PowerPoint

Microsoft SharePoint

Microsoft Word

Near Blockchain

Modern Treasury

MongoDB

Needle Document Loader

News URL

Notion DB

Nuclia

Obsidian

OpenDataLoader PDF

Open Document Format (ODT)

Open City Data

Oracle Autonomous Database

Oracle AI Vector Search

Org-mode

Outline Document Loader

Pandas DataFrame

PDFMinerLoader

PDFPlumber

Pebblo Safe DocumentLoader

Polaris AI DataInsight

Polars DataFrame

Dell PowerScale

Psychic

PubMed

PullMdLoader

PyMuPDFLoader

PyMuPDF4LLM

PyPDFDirectoryLoader

PyPDFium2Loader

PyPDFLoader

PySpark

Quip

ReadTheDocs Documentation

Recursive URL

Reddit

Roam

Rockset

rspace

RSS Feeds

RST

scrapfly

ScrapingAnt

SingleStore

Sitemap

Slack

Snowflake

Source Code

Spider

Spreedly

Stripe

Subtitle

SurrealDB

Telegram

Tencent COS Directory

Tencent COS File

TensorFlow Datasets

TiDB

2Markdown

TOML

Trello

TSV

Twitter

UnDatasIO

Unstructured

UnstructuredMarkdownLoader

UnstructuredPDFLoader

Upstage

URL

Vsdx

Weather

WebBaseLoader

WhatsApp Chat

Wikipedia

UnstructuredXMLLoader

Xorbits Pandas DataFrame

YouTube Audio

YouTube Transcripts

YoutubeLoaderDL

Yuque

ZeroxPDFLoader