Por diversas razones, un programa puede requerir el acceso al contenido de una página web.
Las soluciones más simples realizan la descarga de la página estableciendo una conexión TCP con el servidor, enviando una petición HTTP y leyendo el código HTML que el servidor entrega como respuesta.
Pero este procedimiento falla cuando se accede a un servidor con contenido dinámico. En un servidor de este tipo, parte del contenido es generado mediante código javascript que se ejecuta cuando finaliza la carga de la página, normalmente asociado al evento “onload”. Este código javascript puede interactuar con el DOM de la página,obtener contenido adicional mediante peticiones ajax, etc., de modo que el contenido final de la página puede ser muy disinto del que entrega el servidor inicialmente.
En este artículo vamos a ver la manera de utiliza la libreríar Java HtmlUnit, que implementa un navegador completo con intérprete Javascript, que sólo carece de un interfaz de usuario. De este modo podemos descargar las páginas de un sitio dinámico, y acceder por programa al mismo código HTML que presenta en pantalla un navegador convencional cuando termina la carga de la página y se ha ejecutado el código javascript de inicialización de la misma.
...
FUENTE: http://blog.openalfa.com/como-trabajar-con-un-navegador-con-javascript-en-java/
Anuncio
lunes, 8 de julio de 2013
Acceder a Webs desde Java como si fuera el Navegador HTMLUNIT
"HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser."
Fuente: http://htmlunit.sourceforge.net/
Fuente: http://htmlunit.sourceforge.net/
Suscribirse a:
Comentarios (Atom)