En quelques clics et gratuitement, vous pouvez vous inscrire pour participer aux jouebs et si vous le souhaitez créer votre joueb.
1er concours de programmation de Google
Envie de gagner $10000 ? Envie d'une visite VIP de Google a Mountain View en Californie ? Envie de jouer avec un index de deux milliards de pages web ? Le concours de programmation de Google est fait pour vous ! On peut participer a plusieurs, alors si on trouve une meilleure idee que compter la proportion exacte des sites web qui utilisent le positionnement par CSS, on pourrait tenter l'experience. Je vous laisse la visite VIP, j'y ai deja eu droit, moi je prends les $10000. :O) Des idees ?
Ecrit par Biz, le Jeudi 7 Février 2002, 04:15 dans la rubrique "Nouvelles".
Commentaires :
idees...
Bof, la clause, c'est toujours la meme
sinon, je pensais a un lossy compression scheme: on retire tous les mots signoficatifs, on passe tout en miniscule, on reire la pnctuation, il reste 26 +1 +10 = 37 caracteres. On applique un code de huffman a table fixe (une table par langue)
En plus, ca ne ralentis pas la recherche: il suffit de coder la chaine recherchee de la meme facon
plus utile et plus original, une fonction wthout genealogy
Quand on cherche un copain sur google, il y a toujours une floppe de liste de noms qui te sautent au visage. Moi, j'aime bien l'utiliser comme annuaire,mais la genealogie, bof...Trouver un moyen de faciliter l'utilisation comme annuaire, ca serait pas mal.
J'ai aucune idee de comment faire
sinon, je pensais a un lossy compression scheme: on retire tous les mots signoficatifs, on passe tout en miniscule, on reire la pnctuation, il reste 26 +1 +10 = 37 caracteres. On applique un code de huffman a table fixe (une table par langue)
En plus, ca ne ralentis pas la recherche: il suffit de coder la chaine recherchee de la meme facon
plus utile et plus original, une fonction wthout genealogy
Quand on cherche un copain sur google, il y a toujours une floppe de liste de noms qui te sautent au visage. Moi, j'aime bien l'utiliser comme annuaire,mais la genealogie, bof...Trouver un moyen de faciliter l'utilisation comme annuaire, ca serait pas mal.
J'ai aucune idee de comment faire
Re: idees...
J'ai une autre idee : on parse toutes les adresses e-mail de toutes les pages web du monde, et on les mets sur un DVD-ROM. Ensuite on peut vendre le DVD $9,999.99 aux personnes qui aiment lire des listes d'adresses e-mail. Ca existe il parait, un peu comme les gens qui lisent l'annuaire dans les motels pour s'endormir une fois qu'ils ont fini la Bible des Gideons. Il suffit que Google vende un seul DVD et ils rentrent presque dans leurs frais. :O)
Re: idees...
C'est vrai que j'aime bien l'idée de retirer tous les mots _significatifs_ mais ca risque de compliquer les recherches non ?
Open problems d'apres la directrice de recherche de google...
c'est sur sa page web http://www.henzinger.com/monika/
le lien a suivre est:
Web Information Retrieval at ICDE'2000 (16th International Conference on Data Engineering)
en gros pour la partie application il sont plutot clair sur ce qui les interesse: clustering, classification et detection des duplicates.
J'ai fait pas mal de clustering et de classification dans le passe mais j'ai pas encore essaye la detectection de duplicates. Ca doit pas etre evident de scaler le problem a 2 milliards de pages.
Sinon je me suis toujours demande pourquoi il n'ont pas encore fait un truc du genre Temoa pour la presentation des different concepts trouves pour la requete. Ca fait plusieurs annees que des algos sont publies et ca marche pas trop mal.
le lien a suivre est:
Web Information Retrieval at ICDE'2000 (16th International Conference on Data Engineering)
en gros pour la partie application il sont plutot clair sur ce qui les interesse: clustering, classification et detection des duplicates.
J'ai fait pas mal de clustering et de classification dans le passe mais j'ai pas encore essaye la detectection de duplicates. Ca doit pas etre evident de scaler le problem a 2 milliards de pages.
Sinon je me suis toujours demande pourquoi il n'ont pas encore fait un truc du genre Temoa pour la presentation des different concepts trouves pour la requete. Ca fait plusieurs annees que des algos sont publies et ca marche pas trop mal.
Question bete
La taille du fichier et un truc genre MD5, ca ne suffit pas pour faire un identifiant unique des fichiers? 2 milliards, c'est pas si grand que ca. A peine 2 puissance 31 ou 32.. donc en creant un identifiant sur 64 bits ca doit etre suffisant, non ? 8 octets fois 2 milliards, ca fait juste 16 Go. :)
Re: Question bete
Tiens, ça me fait penser: on pourrait utiliser les mots pour essayer de trouver des collisions dans MD5, par exemple :-)
Comment? Le logiciel doit avoir un intérêt? Ah :-)
Comment? Le logiciel doit avoir un intérêt? Ah :-)
xelarbak
Clause abusive ?
Même si on ne gagne pas, google semble pouvoir faire ce qu'il veut de ce qu'on a proposé.
Et puis, 10.000 $ ca me parait très peu payé pour ce genre de chose !