Cualquier página de la web,
lista para tu IA.

Tu sidekick en la extracción de datos web.

URL a extraer

Privacidad

Reemplaza la PII por «PERSONA_1», «CUIT_2»…

Salida

Markdown limpio del contenido principal.

Fetch & evasión

Tier de fetch

Auto escala solo si la bloquean. Forzar browser (3) para páginas que cargan con JavaScript.

Proxy de salida · opcional, para sitios duros

Conviene uno residencial para sitios duros (ML, gobierno). Desde tu casa quizás no haga falta. Solo en este job · se guarda en tu navegador.

Cookies de sesión

o usar las del navegador (sin extensión):

Para páginas tras login o ubicación. Usar las del navegador (Fisherboy las lee del perfil local, igual que la extensión), un cookies.txt exportado, o el formato nombre=valor. Solo en este job · leer del navegador requiere rol dios.

Anti-CAPTCHA · API URL

Anti-CAPTCHA · API key

Solver externo (estilo 2captcha), último recurso. Sin esto, la defensa es escalar de tier.

Recorrido & datos

Capturar API/XHR oculto

Trae el JSON que la página ya consume (SPAs, grids dinámicos). Lo más confiable.

Araña profunda · tarántula

Spider que captura el API de cada nodo → árbol de DATOS. Lenta (un browser por página) y solo rol dios. Usa profundidad + páginas máx.

Barrer paginado

Recorre todas las páginas (postback ASP.NET · "siguiente" · ?page=) y junta los hipervínculos.

Araña (profundidad)

Sigue links internos en árbol hasta esa profundidad y arma la jerarquía.

Páginas máximas

Alcance del recorrido

"Sección" sigue solo links bajo el path de la URL (evita vagar por el menú). Siempre descarta navegación/chrome (login, carrito, términos…).

Una URL alcanza para empezar. Para sitios con JavaScript, el tier browser; para SPAs, Capturar API. La privacidad se aplica antes de entregar.