AppletTalk.com Forum Index AppletTalk.com
Java discussions newsgroups
 
Archives   FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

Parsing d'une page HTML avec Swing

 
Post new topic   Reply to topic    AppletTalk.com Forum Index -> Language Java (Français)
View previous topic :: View next topic  
Author Message
Guest






PostPosted: Fri May 11, 2007 12:01 am    Post subject: Parsing d'une page HTML avec Swing Reply with quote



Salut à tous,
J'ai un probleme avec la commande HTMLEditorKit().read(..,..,..) de
swing.

En gros j'utilise (du moins j'essaye) la classe HTMLDocumentLinks qui
à été développé par eTecks qui est en libre accés a l'adresse <a
href="http://www.eteks.com/tips/HTMLDocumentLinks.java"
target="_blank">http://www.eteks.com/tips/HTMLDocumentLinks.java</a>.
J'ai tout simplement fait un copier/coller de la classe. Je l'execute
avec Eclipse 2.3, JDK, JRE qui de ce coté là ne devrait pas poser de
probléme car je fait tourner une application jsp (servlet, etc...).
Mais voila, erreur au resultat : Exeption
javax.swing.text.ChangedCharSetException.

Du coté du code :
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream
()));

// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);

Jusque là tout va bien. Mais là... :
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();

.... il part en exception !!!

Quelqu'un aurait il une idée ???
Merci beaucoup d'avance.
Back to top
Guest






PostPosted: Fri May 11, 2007 12:10 am    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote



Encore moi...
Désolé,je metsla version d'eclipse mais pas celle de java 8-C :
JRE : jre1.5.0_11
JDK : jdk1.6.0_01

Donc voila, je pense pas que cela vienne du fait que je n'ai pas Swing
car il me semble qu'il est déjà installé dans cette version du JDK...
Je me trompe ???
Back to top
TestMan
Guest





PostPosted: Sun May 13, 2007 2:58 pm    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote



Lordthias (AT) googlemail (DOT) com a écrit :
Quote:
Salut à tous,
J'ai un probleme avec la commande HTMLEditorKit().read(..,..,..) de
swing.

En gros j'utilise (du moins j'essaye) la classe HTMLDocumentLinks qui
à été développé par eTecks qui est en libre accés a l'adresse <a
href="http://www.eteks.com/tips/HTMLDocumentLinks.java"
target="_blank">http://www.eteks.com/tips/HTMLDocumentLinks.java</a>.
J'ai tout simplement fait un copier/coller de la classe. Je l'execute
avec Eclipse 2.3, JDK, JRE qui de ce coté là ne devrait pas poser de
probléme car je fait tourner une application jsp (servlet, etc...).
Mais voila, erreur au resultat : Exeption
javax.swing.text.ChangedCharSetException.

Du coté du code :
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream
()));

// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);

Jusque là tout va bien. Mais là... :
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();

... il part en exception !!!

Quelqu'un aurait il une idée ???
Merci beaucoup d'avance.

Bonjour,


D'aprés votre exception (et sans être devin), vous devez peut-être avoir
un soucis du coté de l'encodage du document pointé par l'URL.

Commencez par vérifier que votre page est bien valide, ensuite, vérifiez
dans le code pourquoi Java vous lance cette exception, et corrigee le tir.

Si vous n'avez pas trouvé, merci de nous mettre une trace d'exception
plus complète afin que l'on puisse creuser le point. Précisez aussi la
version de la VM lancée (1.5 ou 1.6 ? ce n'est pas clair dans votre 2e
message)

A+
TM
Back to top
Guest






PostPosted: Mon May 14, 2007 6:24 pm    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote

Bonjour et merci pour la reponse.

En faite, je fait plus ou moins un robots d'indexation (on appelera ça
comme ça).
Donc impossible de savoir d'avance si les pages sont valides.

J'ai trouvé trés peu d'info sur HTMLEditorKit() et il m'est donc assez
difficile de "corriger le tir".
La seule chose que je sais,c'est que ça craque sur la ligne :

Quote:
new HTMLEditorKit ().read (urlReader, doc, 0);

et l'exception qu'il me sort et belle et bien... :

Quote:
javax.swing.text.ChangedCharSetException

.... uniquement.

La machine virtuel est la 1.6.

Je vais essayer de tout reprendre du début (ie. ciao la classe de
eTecks).

Merci quand meme.


On 13 mai, 11:58, TestMan <n...@example.com> wrote:
Quote:
Lordth...@googlemail.com a écrit :

Salut à tous,
J'ai un probleme avec la commande HTMLEditorKit().read(..,..,..) de
swing.

En gros j'utilise (du moins j'essaye) la classe HTMLDocumentLinks qui
à été développé par eTecks qui est en libre accés a l'adresse <a
href="http://www.eteks.com/tips/HTMLDocumentLinks.java"
target="_blank">http://www.eteks.com/tips/HTMLDocumentLinks.java</a>.
J'ai tout simplement fait un copier/coller de la classe. Je l'execute
avec Eclipse 2.3, JDK, JRE qui de ce coté là ne devrait pas poser de
probléme car je fait tourner une application jsp (servlet, etc...).
Mais voila, erreur au resultat : Exeption
javax.swing.text.ChangedCharSetException.

Du coté du code :
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream
()));

// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);

Jusque là tout va bien. Mais là... :
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();

... il part en exception !!!

Quelqu'un aurait il une idée ???
Merci beaucoup d'avance.

Bonjour,

D'aprés votre exception (et sans être devin), vous devez peut-être avoir
un soucis du coté de l'encodage du document pointé par l'URL.

Commencez par vérifier que votre page est bien valide, ensuite, vérifiez
dans le code pourquoi Java vous lance cette exception, et corrigee le tir.

Si vous n'avez pas trouvé, merci de nous mettre une trace d'exception
plus complète afin que l'on puisse creuser le point. Précisez aussi la
version de la VM lancée (1.5 ou 1.6 ? ce n'est pas clair dans votre 2e
message)

A+
TM
Back to top
TestMan
Guest





PostPosted: Tue May 15, 2007 1:02 am    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote

Lordthias (AT) googlemail (DOT) com a écrit :
Quote:
Bonjour et merci pour la reponse.

On 13 mai, 11:58, TestMan <n...@example.com> wrote:
Lordth...@googlemail.com a écrit :

Salut à tous,
J'ai un probleme avec la commande HTMLEditorKit().read(..,..,..) de
swing.
En gros j'utilise (du moins j'essaye) la classe HTMLDocumentLinks qui
à été développé par eTecks qui est en libre accés a l'adresse <a
href="http://www.eteks.com/tips/HTMLDocumentLinks.java"
target="_blank">http://www.eteks.com/tips/HTMLDocumentLinks.java</a>.
J'ai tout simplement fait un copier/coller de la classe. Je l'execute
avec Eclipse 2.3, JDK, JRE qui de ce coté là ne devrait pas poser de
probléme car je fait tourner une application jsp (servlet, etc...).
Mais voila, erreur au resultat : Exeption
javax.swing.text.ChangedCharSetException.
Du coté du code :
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream
()));
// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);
Jusque là tout va bien. Mais là... :
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();
... il part en exception !!!
Quelqu'un aurait il une idée ???
Merci beaucoup d'avance.
Bonjour,

D'aprés votre exception (et sans être devin), vous devez peut-être avoir
un soucis du coté de l'encodage du document pointé par l'URL.

Commencez par vérifier que votre page est bien valide, ensuite, vérifiez
dans le code pourquoi Java vous lance cette exception, et corrigee le tir.

Si vous n'avez pas trouvé, merci de nous mettre une trace d'exception
plus complète afin que l'on puisse creuser le point. Précisez aussi la
version de la VM lancée (1.5 ou 1.6 ? ce n'est pas clair dans votre 2e
message)

A+
TM

En faite, je fait plus ou moins un robots d'indexation (on appelera ça
comme ça).
Donc impossible de savoir d'avance si les pages sont valides.

J'ai trouvé trés peu d'info sur HTMLEditorKit() et il m'est donc assez
difficile de "corriger le tir".
La seule chose que je sais,c'est que ça craque sur la ligne :

new HTMLEditorKit ().read (urlReader, doc, 0);

et l'exception qu'il me sort et belle et bien... :

javax.swing.text.ChangedCharSetException

... uniquement.

La machine virtuel est la 1.6.

Je vais essayer de tout reprendre du début (ie. ciao la classe de
eTecks).

Merci quand meme.



Bonjour,

Si vous cherchez à indexer, il y a fort à parier que vous avez plutôt
vesoin de parser votre "HTML de la vraie vie" (lire, truc pourave limite
valide en SGML), alors il vous plutôt un parseur de HTML. Si c'est le
vas, il faut plutôt aller vers :

http://java-source.net/open-source/html-parsers

J'ai un petit faible pour le vétéran qu'est JTidy, mais je laisserais à
d'autre le soin de vous conseil le meilleur ...

A+
TM
Back to top
Guest






PostPosted: Tue May 15, 2007 1:13 pm    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote

Ca c'est du lien Wink Merci beaucoup.

En faite c'est pas vraiment un robot d'indexation (d'où le :"on
appelera ça comme ça").
Plus précisement, je cherche à parser le code HTML afin d'en récuperer
les données qui m'interesse et constituer une base de données XML
traitable par la suite. Donc pas vraiment de l'indexation mais l'idée
y est.
Ca aurait pu ètre fait en PHP et "quelques" expressions régulières.
Mais c'était une bonne occasion pour moi de me lancer dans les JSP et
MVC.

En tout cas merci pour le lien, je vais fouiller un peu. Il y aura
surement de quoi faire mon bonheur.

A+

On 14 mai, 22:02, TestMan <n...@example.com> wrote:
Quote:
Lordth...@googlemail.com a écrit :



Bonjour et merci pour la reponse.

On 13 mai, 11:58, TestMan <n...@example.com> wrote:
Lordth...@googlemail.com a écrit :

Salut à tous,
J'ai un probleme avec la commande HTMLEditorKit().read(..,..,..) de
swing.
En gros j'utilise (du moins j'essaye) la classe HTMLDocumentLinks qui
à été développé par eTecks qui est en libre accés a l'adresse <a
href="http://www.eteks.com/tips/HTMLDocumentLinks.java"
target="_blank">http://www.eteks.com/tips/HTMLDocumentLinks.java</a>.
J'ai tout simplement fait un copier/coller de la classe. Je l'execute
avec Eclipse 2.3, JDK, JRE qui de ce coté là ne devrait pas poser de
probléme car je fait tourner une application jsp (servlet, etc...).
Mais voila, erreur au resultat : Exeption
javax.swing.text.ChangedCharSetException.
Du coté du code :
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream
()));
// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);
Jusque là tout va bien. Mais là... :
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();
... il part en exception !!!
Quelqu'un aurait il une idée ???
Merci beaucoup d'avance.
Bonjour,

D'aprés votre exception (et sans être devin), vous devez peut-être avoir
un soucis du coté de l'encodage du document pointé par l'URL.

Commencez par vérifier que votre page est bien valide, ensuite, vérifiez
dans le code pourquoi Java vous lance cette exception, et corrigee le tir.

Si vous n'avez pas trouvé, merci de nous mettre une trace d'exception
plus complète afin que l'on puisse creuser le point. Précisez aussi la
version de la VM lancée (1.5 ou 1.6 ? ce n'est pas clair dans votre 2e
message)

A+
TM

En faite, je fait plus ou moins un robots d'indexation (on appelera ça
comme ça).
Donc impossible de savoir d'avance si les pages sont valides.

J'ai trouvé trés peu d'info sur HTMLEditorKit() et il m'est donc assez
difficile de "corriger le tir".
La seule chose que je sais,c'est que ça craque sur la ligne :

new HTMLEditorKit ().read (urlReader, doc, 0);

et l'exception qu'il me sort et belle et bien... :

javax.swing.text.ChangedCharSetException

... uniquement.

La machine virtuel est la 1.6.

Je vais essayer de tout reprendre du début (ie. ciao la classe de
eTecks).

Merci quand meme.

Bonjour,

Si vous cherchez à indexer, il y a fort à parier que vous avez plutôt
vesoin de parser votre "HTML de la vraie vie" (lire, truc pourave limite
valide en SGML), alors il vous plutôt un parseur de HTML. Si c'est le
vas, il faut plutôt aller vers :

http://java-source.net/open-source/html-parsers

J'ai un petit faible pour le vétéran qu'est JTidy, mais je laisserais à
d'autre le soin de vous conseil le meilleur ...

A+
TM
Back to top
Zazoun
Guest





PostPosted: Tue May 15, 2007 2:38 pm    Post subject: Re: Parsing d'une page HTML avec Swing Reply with quote

Quote:
En tout cas merci pour le lien, je vais fouiller un peu. Il y aura
surement de quoi faire mon bonheur.

Avec un problème similaire et la même liste de choix j'ai choisi HTML
Parser (http://htmlparser.sourceforge.net/), qui présente comme
avantages :
- une licence assez permissive (LGPL)
- des mises à jour assez régulières
- le support de l'XHTML
Back to top
Display posts from previous:   
Post new topic   Reply to topic    AppletTalk.com Forum Index -> Language Java (Français) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2006 phpBB Group
SEO toolkit © 2004-2006 webmedic.