URL to Markdown

Convert webpage HTML into Markdown that is easier to use in RAG/LLM pipelines.

This repo has two parts:

Web app (index.html) for manual conversion
CLI (cli/) for scripted and batch workflows

What It Does

Converts HTML to Markdown (Turndown + GFM)
Supports CSS selector targeting (--selector / selector input)
Cleans common page noise (ads, nav, cookie banners, hidden elements)
Optional media stripping with context placeholders
Optional link stripping
Table normalization/alignment
Code fence language detection from HTML classes
Metadata extraction (title/meta tags/canonical/Open Graph/Twitter + JSON-LD)
Basic boilerplate dedupe in output
Smart content fallback when converting full body

Current Limits (Important)

Web app fetching relies on public CORS proxies.
Web app cannot reliably handle many JS-rendered, anti-bot, or authenticated pages.
CLI --render-js needs Playwright installed and a browser binary available.
This project does not do chunking, embedding, retrieval, or vector indexing.

Quick Start

Web App

Open index.html directly, or serve locally:

python -m http.server 8000

Then open http://localhost:8000.

CLI

cd cli
npm install
node bin/md4llm.js https://example.com

Optional JS-render support:

npm install playwright
npx playwright install chromium

CLI Examples

# Basic conversion
md4llm https://example.com

# Extract only article content
md4llm https://example.com -s "article" -o output.md

# JSON output with metadata
md4llm https://example.com --meta --format json

# Strip links and media for cleaner embeddings
md4llm https://example.com --no-links --strip-media

# Batch mode
md4llm --batch urls.txt -o ./output/

# Use browser rendering for JS-heavy pages
md4llm https://example.com/docs --render-js-auto

Web Options

Align Tables
Strip Media
Smart Clean
Extract Meta
Keep Links

Keyboard Shortcuts (Web)

Ctrl+Enter: Convert
Ctrl+Shift+C: Copy output
Ctrl+Shift+F: Fetch URL
Ctrl+Shift+X: Clear input
?: Show help
Esc: Close modal

Output Shape (JSON)

{
  "markdown": "...",
  "metadata": {},
  "sourceUrl": "https://example.com/page",
  "selector": "article",
  "timestamp": "2026-03-08T12:00:00.000Z",
  "options": {},
  "stats": {
    "characters": 0,
    "words": 0,
    "lines": 0
  }
}

RAG/LLM Use (Minimal Guidance)

Typical flow:

Convert page(s) to Markdown with relevant selector/options.
Normalize/chunk in your ingestion pipeline.
Store chunks + metadata in your retrieval store.

Next Steps

Add golden-fixture regression tests with real pages (docs/blogs/forums/tables-heavy pages).
Add a --chunk mode in CLI (size/overlap/token-estimate) for direct ingestion prep.
Add a first-party fetch service for the web app (replace public CORS proxies).
Add quality scoring in JSON output (content ratio, link density, boilerplate ratio).
Add deterministic normalization profiles (strict, balanced, raw) for different training/indexing use cases.

Project Layout

index.html
app.html
css/main.css
js/app.js
js/config.js
cli/

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
cli		cli
css		css
js		js
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.html		app.html
example.md		example.md
index.html		index.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

URL to Markdown

What It Does

Current Limits (Important)

Quick Start

Web App

CLI

CLI Examples

Web Options

Keyboard Shortcuts (Web)

Output Shape (JSON)

RAG/LLM Use (Minimal Guidance)

Next Steps

Project Layout

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

URL to Markdown

What It Does

Current Limits (Important)

Quick Start

Web App

CLI

CLI Examples

Web Options

Keyboard Shortcuts (Web)

Output Shape (JSON)

RAG/LLM Use (Minimal Guidance)

Next Steps

Project Layout

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages