Converti PDF, DOC, DOCX, RTF e ODT in Markdown strutturato con intestazioni, articoli e tabelle preservate. OCR italiano integrato per scansioni, infrastruttura in Italia e fatturazione per pagina trasparente.
Conversione documentale, OCR italiano, estrazione tabelle e auto-conversione dei formati Office. Un solo endpoint, una sola chiave.
PDF testuali con intestazioni, articoli, elenchi e tabelle preservate in Markdown standard. Pronti per LLM, RAG e indicizzazione.
POST /v1/convert/pdf-to-markdown
Carica direttamente i formati Office: vengono convertiti server-side in PDF tramite LibreOffice headless e poi processati. Nessun pre-processing lato client.
POST /v1/convert/pdf-to-markdown
Per PDF interamente scansionati: OCR italiano accelerato su hardware dedicato. Lingua bilingue supportata (es. ita,eng per CCNL).
POST /v1/ocr/scanned
Tabelle restituite sia inline nel Markdown sia come array tables[] separato per parsing programmatico.
extract_tables=true
In alternativa all'upload, passa direttamente l'URL di un PDF pubblico in JSON: il gateway lo scarica e processa per te.
{"url": "https://….pdf"}
Processa solo le pagine che ti servono con pages_range. Utile per documenti voluminosi (CCNL, manuali, atti) di cui ti interessa una sezione specifica.
pages_range=1-50,80-90
Documenti italiani, OCR italiano, dati che restano in Italia. Estrazione strutturata pronta per LLM, RAG e workflow normativi (CCNL, atti, contratti, bilanci) senza passare per gateway esteri.
Inizia oraCarica un file, ricevi Markdown. Funziona con multipart o con un URL pubblico, e il payload di risposta è auto-descrittivo.
curl "https://api.runai.it/v1/convert/pdf-to-markdown" \ -H "X-API-KEY: YOUR_API_KEY" \ -F "file=@CCNL_Studi_Professionali.pdf" \ -F "extract_tables=true" # Risposta JSON (estratto) { "engine": "runai-docparse", "markdown": "# CCNL Studi Professionali\n\n## Articolo 1 ...", "metadata": { "n_pages": 88, "language": "ita", "has_text_layer": true }, "tables": [ ... ], "elapsed_s": 18.4 }
curl "https://api.runai.it/v1/convert/pdf-to-markdown" \ -H "X-API-KEY: YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com/contract.pdf", "force_ocr": false, "extract_tables": true }' # Stesso schema di risposta della variante upload
curl "https://api.runai.it/v1/ocr/scanned" \ -H "X-API-KEY: YOUR_API_KEY" \ -F "file=@scansione_atto_notarile.pdf" \ -F "lang=ita" \ -F "dpi=200" # Per scansioni > 100 pp imposta timeout client ≥ 30 minuti
Pensato per documenti italiani complessi: contratti, normativa, atti, bilanci. Pronto da combinare con un modello RunAI Inference per estrazione strutturata.
Estrai articoli, livelli retributivi e tabelle da CCNL e accordi sindacali. Il Markdown preserva la struttura per LLM downstream.
OCR italiano nativo su scansioni di atti, decreti e sentenze, anche con bollini, timbri e numerazione marginale.
Tabelle finanziarie estratte come array tables[], pronte per analisi quantitativa e cross-check con LLM.
Documenti tecnici lunghi (200+ pagine) con sezioni e sotto-sezioni: usa pages_range per processare solo i capitoli rilevanti.
Bandi, delibere, circolari: dati che restano in Italia, niente trasferimenti USA, GDPR-friendly per PA e settori regolamentati.
Output Markdown standard pronto per chunking, embeddings e indicizzazione vettoriale. Combina con RunAI Inference per estrazione strutturata.
Infrastruttura fisicamente in Italia, zero data retention, nessun PDF conservato dopo la risposta. Ideale per settori regolamentati come legal, sanità, finance e PA.
Scopri la nostra policy privacyPDF, DOC, scansioni: un solo endpoint, OCR italiano nativo, dati in Italia, fatturazione per pagina in euro. Prova in 3 minuti.