nuevo índice de 5.000 millones de páginas web - Despierta

La "Fundación Common Crawl" presenta ahora gratuitamente un nuevo índice de 5.000 millones de páginas web

La Fundación Common Crawl ha anunciado hoy que en Amazon EC2 se aloja un índice de libre acceso con 5 millones de páginas web, con su page rank, sus gráficos de enlaces y demás datos de análisis. «Es fundamental [en] una sociedad como la nuestra, basada en la información, que la recuperación de datos de la web sea libre y accesible para todo aquel que desee utilizarlos», ha escrito en el blog de la organización Lisa Green, directora de la fundación.

La Fundación Common Crawl es una organización dedicada a combatir la caída de los precios de la recuperación y almacenamiento de datos en beneficio de «los particulares, los grupos universitarios, las pequeñas iniciativas, las grandes empresas, los gobiernos y las entidades sin ánimo de lucro». Está dirigida por Gilad Elbaz, antecesor de Google AdSense y consejero delegado de la iniciativa de plataforma de datos Factual . Acompaña a Gilad Elbaz en el consejo de la fundación Carl Malamud , defensor del dominio público en Internet y Nova Spivack , empresario de la web. La directora, Lisa Green, llegó a la fundación a través de Creative Commons.

La fundación expone el alcance del proyecto del siguiente modo:

«Common Crawl es una iniciativa de recuperación de datos a escala web y, como tal, cada versión de nuestro índice contiene miles de millones de documentos de los sitios más dispares que hemos conseguido rastrear. Este conjunto de datos puede tener una envergadura de decenas de terabites, lo que vuelve muy costosa y poco práctica la transferencia del conjunto a terceros que puedan estar interesados. Además, ejecutar alguna clase de operación de proceso de datos sobre un conjunto de información de semejante envergadura requiere técnicas de procesamiento paralelo y un grupo de terminales potencialmente muy elevado.

»Por fortuna para nosotros, la infraestructura de computación en nube EC2/S3 de Amazon nos proporciona tanto una capacidad de almacenamiento ilimitada como acceso localizado a una nube de computación elástica».

La organización se creó hace tres años, y solo ahora ha empezado a hablar de sí misma en público y cree que el libre acceso a toda esta información podría desembocar en «una nueva oleada de innovación, educación e investigación».

James Walker, defensor de la web libre, coincide: «un archivo de la web accesible sin restricciones, que no sea propiedad de Google ni controle Google, allana el terreno de juego de forma bastante significativa para la investigación y la innovación».

Marshall Kirkpatrick
Readwriteweb