Cómo enrollar o wget una página web?

votos
16

Me gustaría hacer un trabajo de cron nocturno que busque mi página de stackoverflow y la diferencie de la página del día anterior, para que pueda ver un resumen de cambios de mis preguntas, respuestas, clasificación, etc.

Desafortunadamente, no pude obtener el conjunto correcto de cookies, etc., para que esto funcione. ¿Algunas ideas?

Además, cuando finalice la versión beta, ¿se podrá acceder a mi página de estado sin iniciar sesión?

Publicado el 05/08/2008 a las 21:38
fuente por usuario
En otros idiomas...                            


5 respuestas

votos
9

Su página de estado está disponible ahora sin iniciar sesión (haga clic en cerrar sesión y pruébelo). Cuando la cookie beta está desactivada, no habrá nada entre usted y su página de estado.

Para wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Respondida el 05/08/2008 a las 21:43
fuente por usuario

votos
6

De Mark Harrison

Y esto es lo que funciona ...

curl -s --cookie soba =. https://stackoverflow.com/users

Y para wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Respondida el 05/08/2008 a las 23:04
fuente por usuario

votos
3

Buena idea :)

Supongo que has usado wget's

--load-cookies (filename)

podría ayudar un poco, pero podría ser más fácil usar algo como Mechanize (en Perl o python) para imitar un navegador más completamente para obtener una buena araña.

Respondida el 05/08/2008 a las 21:43
fuente por usuario

votos
2

Y esto es lo que funciona ...

curl -s --cookie soba=. http://stackoverflow.com/users
Respondida el 05/08/2008 a las 22:22
fuente por usuario

votos
2

No pude encontrar la manera de hacer que las cookies funcionen tampoco, pero pude acceder a mi página de estado en mi navegador mientras estaba desconectado, así que supongo que esto funcionará una vez que stackoverflow se haga público.

Esta es una idea interesante, pero ¿no recoges los diffs del código html subyacente? ¿Tiene una estrategia para evitar terminar con un diff del html y no con el contenido real?

Respondida el 05/08/2008 a las 21:46
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more