Tu sidekick en la extracción de datos web.
Reemplaza la PII por «PERSONA_1», «CUIT_2»…
Markdown limpio del contenido principal.
Auto escala solo si la bloquean. Forzar browser (3) para páginas que cargan con JavaScript.
Conviene uno residencial para sitios duros (ML, gobierno). Desde tu casa quizás no haga falta. Solo en este job · se guarda en tu navegador.
Para páginas tras login o ubicación. Usar las del navegador (Fisherboy las lee del perfil local, igual que la extensión), un cookies.txt exportado, o el formato nombre=valor. Solo en este job · leer del navegador requiere rol dios.
Solver externo (estilo 2captcha), último recurso. Sin esto, la defensa es escalar de tier.
Trae el JSON que la página ya consume (SPAs, grids dinámicos). Lo más confiable.
Spider que captura el API de cada nodo → árbol de DATOS. Lenta (un browser por página) y solo rol dios. Usa profundidad + páginas máx.
Recorre todas las páginas (postback ASP.NET · "siguiente" · ?page=) y junta los hipervínculos.
Sigue links internos en árbol hasta esa profundidad y arma la jerarquía.
"Sección" sigue solo links bajo el path de la URL (evita vagar por el menú). Siempre descarta navegación/chrome (login, carrito, términos…).
Una URL alcanza para empezar. Para sitios con JavaScript, el tier browser; para SPAs, Capturar API. La privacidad se aplica antes de entregar.
Tu clave de acceso
tu clave define el rol — dios · ángel · humano