Retour à la page principale

Joueb.com est une communauté de construction de jouebs
(joueb = journal web, traduction de weblog et blog).

En quelques clics et gratuitement, vous pouvez vous inscrire pour participer aux jouebs et si vous le souhaitez créer votre joueb.

Page principale - Créer un blog - Perdu ? Lisez la documentation et visitez le joueb d'aide.
1er concours de programmation de Google
Envie de gagner $10000 ? Envie d'une visite VIP de Google a Mountain View en Californie ? Envie de jouer avec un index de deux milliards de pages web ? Le concours de programmation de Google est fait pour vous ! On peut participer a plusieurs, alors si on trouve une meilleure idee que compter la proportion exacte des sites web qui utilisent le positionnement par CSS, on pourrait tenter l'experience. Je vous laisse la visite VIP, j'y ai deja eu droit, moi je prends les $10000. :O) Des idees ?
Ecrit par Biz, le Jeudi 7 Février 2002, 04:15 dans la rubrique "Nouvelles".

Commentaires :

xelarbak
xelarbak
07-02-02 à 09:05

Clause abusive ?

Comme il est souvent remarqué sur leur forum dédié, la clause concernant l'appartenance des programmes proposés semble un peu abusive...
Même si on ne gagne pas, google semble pouvoir faire ce qu'il veut de ce qu'on a proposé.

Et puis, 10.000 $ ca me parait très peu payé pour ce genre de chose !

 
Blaise
Blaise
07-02-02 à 10:48

idees...

Bof, la clause, c'est toujours la meme

sinon, je pensais a un lossy compression scheme: on retire tous les mots signoficatifs, on passe tout en miniscule, on reire la pnctuation, il reste 26 +1 +10 = 37 caracteres. On applique un code de huffman a table fixe (une table par langue)
En plus, ca ne ralentis pas la recherche: il suffit de coder la chaine recherchee de la meme facon

plus utile et plus original, une fonction wthout genealogy
Quand on cherche un copain sur google, il y a toujours une floppe de liste de noms qui te sautent au visage. Moi, j'aime bien l'utiliser comme annuaire,mais la genealogie, bof...Trouver un moyen de faciliter l'utilisation comme annuaire, ca serait pas mal.
J'ai aucune idee de comment faire

 
Biz
Biz
07-02-02 à 18:53

Re: idees...

J'ai une autre idee : on parse toutes les adresses e-mail de toutes les pages web du monde, et on les mets sur un DVD-ROM. Ensuite on peut vendre le DVD $9,999.99 aux personnes qui aiment lire des listes d'adresses e-mail. Ca existe il parait, un peu comme les gens qui lisent l'annuaire dans les motels pour s'endormir une fois qu'ils ont fini la Bible des Gideons. Il suffit que Google vende un seul DVD et ils rentrent presque dans leurs frais. :O)

 
xelarbak
xelarbak
07-02-02 à 20:01

Re: idees...

C'est vrai que j'aime bien l'idée de retirer tous les mots _significatifs_ mais ca risque de compliquer les recherches non ?


 
Biz
Biz
08-02-02 à 02:33

Re: idees...

>on reire la pnctuation

n pt glmt nlvr ls vlls pr cmprssr ncr pls

 
gg
gg
08-02-02 à 03:30

Open problems d'apres la directrice de recherche de google...

c'est sur sa page web http://www.henzinger.com/monika/
le lien a suivre est:
Web Information Retrieval at ICDE'2000 (16th International Conference on Data Engineering)

en gros pour la partie application il sont plutot clair sur ce qui les interesse: clustering, classification et detection des duplicates.

J'ai fait pas mal de clustering et de classification dans le passe mais j'ai pas encore essaye la detectection de duplicates. Ca doit pas etre evident de scaler le problem a 2 milliards de pages.

Sinon je me suis toujours demande pourquoi il n'ont pas encore fait un truc du genre Temoa pour la presentation des different concepts trouves pour la requete. Ca fait plusieurs annees que des algos sont publies et ca marche pas trop mal.



 
Biz
Biz
08-02-02 à 03:39

Question bete

La taille du fichier et un truc genre MD5, ca ne suffit pas pour faire un identifiant unique des fichiers? 2 milliards, c'est pas si grand que ca. A peine 2 puissance 31 ou 32.. donc en creant un identifiant sur 64 bits ca doit etre suffisant, non ? 8 octets fois 2 milliards, ca fait juste 16 Go. :)

 
Lutin
Lutin
11-02-02 à 09:35

Re: Question bete

Tiens, ça me fait penser: on pourrait utiliser les mots pour essayer de trouver des collisions dans MD5, par exemple :-)

Comment? Le logiciel doit avoir un intérêt? Ah :-)

 


Logo dessiné par Johan Roirand.
Version  XML  -- Joueb.com est une plateforme d'hébergement gérée par l'association 1901 ViaBloga.