Aller au contenu
  • Pas encore inscrit ?

    Pourquoi ne pas vous inscrire ? C'est simple, rapide et gratuit.
    Pour en savoir plus, lisez Les avantages de l'inscription... et la Charte de Zébulon.
    De plus, les messages que vous postez en tant qu'invité restent invisibles tant qu'un modérateur ne les a pas validés. Inscrivez-vous, ce sera un gain de temps pour tout le monde, vous, les helpeurs et les modérateurs ! :wink:

Capture d'informations sur internet ... Au secoursssss ^^


greg08
 Partager

Messages recommandés

Bonjour, je suis étudiant en IUT informatique et je suis actuellement en stage Entreprise. Le but de mon stage est de créer un logiciel de capture d'informations (en c++) sur internet concernant des garages.

Ce logiciel prendra en parametre des adresses de sites tels que www.opel.be ou encore www.peugeot.be et le but de mon logiciel est de trouver automatiquement la page "réseau" qui affiche les réseaux constructeurs, de rentrer automatiquement le nom des villes et enfin d'afficher le code source de cette derniere page concernant la ville choisie afin de récupérer les noms des garages associées à leur adresses et numero de fax etc ...

 

Si vous aviez des idées , quelques pistes pour me mettre sur la voie ou bien quelques sources qui pourraient me débloquer , je vous en serais très reconaissant.

Merci :P

Lien vers le commentaire
Partager sur d’autres sites

ca s'apelle un parser...

c'est qqch qui comprend les informations et j'ai une idee mais c;est en perl

 

tu as un enorme probleme c'est que tu doit programer un parser specifique pour chaque site web a la place d'un parseur generique

inspire toi de libconf(GPL)

leur probleme est semblable:comprendre un fichier de configuration

ils l'ont resolu en perl en stoquant les information et en les comprenant plutot que des mauvais parseurs generaux(qui font pleins d'erreurs) ou des parseurs uniquement specifiques

 

ils ont une aproche situee entre les deux permettant d'etre efficace mais sans erreurs...

les fichiers de configurations sont classes en fonction du type de leurs structure et il est extrement facile d'ajouter un fichier de configuration grace a ce genre d'aproche

 

si tu compte uttiliser ca:

-c'est acessible depuis c et c++

-c'est en perl donc ca risque de tourner sous windows

-tu devra sans doute modifier ce parseur qui est en GPL,c'est permis si tu redistribue les sources du parseur modifie,,que tu change son nom(genre GarageParser au lieu de Libconf) et aussi que tu dise sur quoi c'est base en citant l'auteur...(dans les fichiers ou est mis l'auteur et la licence,par exemple "based on libconf by machintruc"),il est evident que tu doit garder la meme licence pour la version modifiee mais tu restera proprietaire des modifications,c'est a dire que tes modifications seront distribues en GPL mais que si tu veux vendre uniquement les modifications,tu peux car tu est l'auteur et tu peux re-licencier(cela n'enleve pas la gpl mais c'est juste que tu peux AUSSI distribuer ca diferament,un peu comme si un chanteur distribuait sa chanson a la radio mais aussi en cd)

il sufit donc de lire la gpl et de demander a qqn si tu sait pas tres bien quoi faire...

 

sinon demande dans des forums linux si des trucs specifique a ton probleme existe deja...

Modifié par KewlCat
Lien vers le commentaire
Partager sur d’autres sites

c'est que tu doit programer un parser specifique pour chaque site web

Euh... Tu as du mal lire...

"le but de mon logiciel est de trouver automatiquement la page "réseau" qui affiche les réseaux constructeurs" en paramtrant le site Web à étudier.

 

D'ailleurs, de quel "libconf" parles-tu ? Parce que le projet GNU de ce nom ne sert qu'à étudier des fichiers de configuration formatés d'une certaine manière. Il s'agit, pour greg08, d'essayer de comprendre le contenu de pages Web dont il ne gère absolument pas la mise en page...

 

Avant d'entrer dans des détails aussi pointus que la licence dans laquelle il va devoir redistribuer son travail (si toutefois il a à le faire), tu ferais mieux de te concentrer sur l'adéquation entre le problème exposé et la "solution" que tu proposes sans jamais entrer réellement dans les détails...

 

Perso je verrais bien un aspirateur de sites qui ne conserve que les infos pertinentes des pages Web et qui cherche à savoir si ça ressemble à des formats d'adresses connus... Mais bon, si on savait exactement à quels problèmes précis greg08 est confronté (au lieu de juste "c'est mon boulot, vous auriez pas des idées ?"), on pourrait peut-être orienter les recherches, ou fournir des astuces...

Il est difficile d'intervenir avant la phase de conception, et là il semblerait qu'on en soit toujours dans la phase de rédaction du cahier des charges...

 

Note : tu comptes faire comment pour les sites faits en Flash ?

Lien vers le commentaire
Partager sur d’autres sites

Euh... Tu as du mal lire...

"le but de mon logiciel est de trouver automatiquement la page "réseau" qui affiche les réseaux constructeurs" en paramtrant le site Web à étudier.

 

D'ailleurs, de quel "libconf" parles-tu ? Parce que le projet GNU de ce nom ne sert qu'à étudier des fichiers de configuration formatés d'une certaine manière. Il s'agit, pour greg08, d'essayer de comprendre le contenu de pages Web dont il ne gère absolument pas la mise en page...

 

Avant d'entrer dans des détails aussi pointus que la licence dans laquelle il va devoir redistribuer son travail (si toutefois il a à le faire), tu ferais mieux de te concentrer sur l'adéquation entre le problème exposé et la "solution" que tu proposes sans jamais entrer réellement dans les détails...

 

Perso je verrais bien un aspirateur de sites qui ne conserve que les infos pertinentes des pages Web et qui cherche à savoir si ça ressemble à des formats d'adresses connus... Mais bon, si on savait exactement à quels problèmes précis greg08 est confronté (au lieu de juste "c'est mon boulot, vous auriez pas des idées ?"), on pourrait peut-être orienter les recherches, ou fournir des astuces...

Il est difficile d'intervenir avant la phase de conception, et là il semblerait qu'on en soit toujours dans la phase de rédaction du cahier des charges...

 

Note : tu comptes faire comment pour les sites faits en Flash ?

 

 

j'ai juste voulu aider et je ne rentre dans des problemes de liceneces uniquement parce que des personnes la conaissant pas bien l'interpretent souvent mal

 

je lui ait presente un modele de parseur tres interessant d'ont il pouvait S'INSPIRER,et s'il voulait l'uttiliser je leui ait dit comment

 

mais si c'est 100% automatique...alors la c'est 1000 fois plus complique,de plus je ne comprend pas pourquoi ca doit etre si complique quand il est simple de faire un programme qui uttilise des simples fichiers ou sont stoques les adresse des pages web et des modeles generaux et particuliers pour le parser

 

pour les sites en flash ca doit etre galere...

faut qqch qui decompose le flash...

Modifié par spagetti&prosciutto
Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.
Remarque : votre message nécessitera l’approbation d’un modérateur avant de pouvoir être visible.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

 Partager

  • En ligne récemment   0 membre est en ligne

    • Aucun utilisateur enregistré regarde cette page.
×
×
  • Créer...