Nuovo servizio

Docparse API

Converti PDF, DOC, DOCX, RTF e ODT in Markdown strutturato con intestazioni, articoli e tabelle preservate. OCR italiano integrato per scansioni, infrastruttura in Italia e fatturazione per pagina trasparente.

Input PDF
CCNL_Studi_Professionali.pdf
88 pagine · 2.4 MB
Articolo 1 — Premessa
Le parti firmatarie…
[tabella retribuzioni]
Articolo 2 — Sfera…
Output Markdown
# CCNL Studi Professionali

## Articolo 1 — Premessa
Le parti firmatarie del…

| Livello | Min. | Max. |
|---------|------|------|
| Q | 2150 | 2680 |
Fatturazione per pagina elaborata
Tariffa unica per pagina, identica per PDF testuali e scansioni con OCR. Nessun costo per upload o conversioni interne (.doc, .docx, .rtf, .odt).

Tutto quello che serve per estrarre testo strutturato

Conversione documentale, OCR italiano, estrazione tabelle e auto-conversione dei formati Office. Un solo endpoint, una sola chiave.

PDF → Markdown

PDF testuali con intestazioni, articoli, elenchi e tabelle preservate in Markdown standard. Pronti per LLM, RAG e indicizzazione.

Per pagina elaborata
POST /v1/convert/pdf-to-markdown

DOC, DOCX, RTF, ODT

Carica direttamente i formati Office: vengono convertiti server-side in PDF tramite LibreOffice headless e poi processati. Nessun pre-processing lato client.

+3–8 s di overhead conversione
POST /v1/convert/pdf-to-markdown

OCR italiano nativo

Per PDF interamente scansionati: OCR italiano accelerato su hardware dedicato. Lingua bilingue supportata (es. ita,eng per CCNL).

Stessa tariffa — per pagina
POST /v1/ocr/scanned

Tabelle estratte

Tabelle restituite sia inline nel Markdown sia come array tables[] separato per parsing programmatico.

Incluso nel prezzo
extract_tables=true

Da URL pubblico

In alternativa all'upload, passa direttamente l'URL di un PDF pubblico in JSON: il gateway lo scarica e processa per te.

Zero passaggi client
{"url": "https://….pdf"}

Range pagine

Processa solo le pagine che ti servono con pages_range. Utile per documenti voluminosi (CCNL, manuali, atti) di cui ti interessa una sezione specifica.

Risparmio proporzionale
pages_range=1-50,80-90

Perché RunAI Docparse

Documenti italiani, OCR italiano, dati che restano in Italia. Estrazione strutturata pronta per LLM, RAG e workflow normativi (CCNL, atti, contratti, bilanci) senza passare per gateway esteri.

Inizia ora
  • OCR italiano nativo — addestrato per la lingua italiana, gestisce correttamente accenti, nomi propri e terminologia tecnica.
  • Zero data retention — PDF e Markdown estratti non vengono salvati dopo la risposta, log tecnici minimi.
  • Fatturazione per pagina — al millesimo di centesimo, in euro, senza minimi mensili.
  • Latenza italiana — PDF testuali tipici elaborati in 8–60 s, scansioni grandi accodate sul nodo libero.
  • Cluster multi-nodo — bilanciamento automatico sui nodi italiani: il gateway sceglie sempre quello con la coda più corta.

Integrazione in 3 minuti

Carica un file, ricevi Markdown. Funziona con multipart o con un URL pubblico, e il payload di risposta è auto-descrittivo.

curl "https://api.runai.it/v1/convert/pdf-to-markdown" \
  -H "X-API-KEY: YOUR_API_KEY" \
  -F "file=@CCNL_Studi_Professionali.pdf" \
  -F "extract_tables=true"

# Risposta JSON (estratto)
{
  "engine": "runai-docparse",
  "markdown": "# CCNL Studi Professionali\n\n## Articolo 1 ...",
  "metadata": { "n_pages": 88, "language": "ita", "has_text_layer": true },
  "tables": [ ... ],
  "elapsed_s": 18.4
}
curl "https://api.runai.it/v1/convert/pdf-to-markdown" \
  -H "X-API-KEY: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/contract.pdf",
    "force_ocr": false,
    "extract_tables": true
  }'

# Stesso schema di risposta della variante upload
curl "https://api.runai.it/v1/ocr/scanned" \
  -H "X-API-KEY: YOUR_API_KEY" \
  -F "file=@scansione_atto_notarile.pdf" \
  -F "lang=ita" \
  -F "dpi=200"

# Per scansioni > 100 pp imposta timeout client ≥ 30 minuti

Casi d'uso reali

Pensato per documenti italiani complessi: contratti, normativa, atti, bilanci. Pronto da combinare con un modello RunAI Inference per estrazione strutturata.

CCNL & contrattualistica

Estrai articoli, livelli retributivi e tabelle da CCNL e accordi sindacali. Il Markdown preserva la struttura per LLM downstream.

Atti notarili & sentenze

OCR italiano nativo su scansioni di atti, decreti e sentenze, anche con bollini, timbri e numerazione marginale.

Bilanci & fascicoli

Tabelle finanziarie estratte come array tables[], pronte per analisi quantitativa e cross-check con LLM.

Manuali & normativa tecnica

Documenti tecnici lunghi (200+ pagine) con sezioni e sotto-sezioni: usa pages_range per processare solo i capitoli rilevanti.

PA & enti pubblici

Bandi, delibere, circolari: dati che restano in Italia, niente trasferimenti USA, GDPR-friendly per PA e settori regolamentati.

RAG & knowledge base

Output Markdown standard pronto per chunking, embeddings e indicizzazione vettoriale. Combina con RunAI Inference per estrazione strutturata.

Documenti sotto controllo

Infrastruttura fisicamente in Italia, zero data retention, nessun PDF conservato dopo la risposta. Ideale per settori regolamentati come legal, sanità, finance e PA.

Scopri la nostra policy privacy

Trasforma i tuoi PDF in dati strutturati

PDF, DOC, scansioni: un solo endpoint, OCR italiano nativo, dati in Italia, fatturazione per pagina in euro. Prova in 3 minuti.