El Buscador de la RAU

Es un producto de información creado y administrado por la Red Académica Uruguaya (RAU), que se propone facilitar la localización de los documentos que presentan tanto sus propias páginas (WWW de la RAU), como las páginas de sus nodos (un total de 142 sitios WWW de Uruguay) 
RAUdo, El Buscador de la RAU


Nota 1:  Rogamos a Uds. nos comuniquen si conocen a algún sitio de la RAU que no este incluído, muchas gracias.

Nota 2:  El programa entrega información sobre errores internos de los distintos servidores (como páginas que no existen).



La manera como opera RAUdo: estrategia de operación
* Se indiza cada palabra de los documentos. Cada documento es examinado y todas las palabras presentes en el documento son extraídas y almacenadas.
Las palabras tales como: la, los, de, etc. no son indizadas (stopword).
Además cada palabra tiene un contexto que esta definido por el código HTML que se le aplica. Por ejemplo, palabras que están entre <h1>...</h1> tienen un contexto diferente de las palabras dentro del title del documento.
Cada contexto tiene un "peso" asociado por lo que algunos contextos son más importantes que otros 'title_factor' y 'heading_factor_4'.
Además del contexto de una palabra, la ubicación de la palabra dentro del documento es usada para asignar el "peso" de la misma;  a palabras que aparecen al comienzo de un documento se les asigna mas "peso" que a palabras en el final.
Por último el número de ocurrencias de una palabra dentro de un documento también es tomado en cuenta.
Todas estos factores combinados le dan a una palabra en un documento un "peso", que es almacenado en la base de datos de las palabras.
* El algoritmo de búsqueda básicamente funciona así:
Cada palabra es buscada, y se genera una lista de documentos en los que ocurre la palabra. A cada documento se le asigna un "peso" que es computado usando el "peso" combinado de todas las palabras que tiene la lista de resultados. Una vez que todos los documentos han sido identificados, son ordenados por "peso". Al documento con "peso" mayor se le asigna el número máximo de estrellas **** para los demás documentos se hace una escala descendente desde ahí. Luego los resultados son ordenados. Este ordenamiento se determina con el "peso" asociado de las palabras buscadas y el "peso" del algoritmo que generó la palabra.
El "peso" de la palabra es determinado por el lugar que ocupa dentro de un documento. Así, las palabras en el título de un documento tienen mayor "peso" que al final de él.

Sitios donde se mide el "peso" de una palabra dentro del documento; "keywords", "title", "headers", "backlink", "description", "date".



Notificación de actualización de páginas
* Existe también la posibilidad de indicarle al ht://Dig que notifique en el futuro "algo" acerca de determinada página HTML. La notificación la hará a través de correo electrónico conteniendo la URL de la página más alguna información adicional.

ht://Dig detecta usos especiales de la etiqueta <META> en documentos HTML. Las etiquetas <META> deberán ir entre <HEAD> y </HEAD> de un documento HTML.

Por ejemplo:

     <HTML>
     <HEAD>

     <META NAME="htdig-email" CONTENT="usuario@nodo.edu.uy">
     <META NAME="htdig-email-subject" CONTENT="Actualizar la página de Links hoy!!!">
     <META NAME="htdig-notification-date" CONTENT="10/13/1999">
     <TITLE>Página de Links</TITLE>
     </HEAD>
     <BODY>

          Cuerpo del documento

     </BODY>
     </HTML>

Después de 10/13/1999 usuario@nodo.edu.uy recibirá un correo electrónico que tendrá la siguiente forma:

     From: ht://Dig email notification service
     To: usuario@nodo.edu.uy
     Subject: Actualizar la página de Links hoy!!!
 

     The following page was tagged to notify you after 10/13/1999.

     URL: http://www.sdsu.edu/~turtle/index.html
     Date: 10/13/1999
     Subject: Actualizar la página de Links hoy!!!

Los atributos relacionados a la etiqueta especial <META> de notificación son:

     NAME="htdig-email" CONTENT="email address [, email address] ..."
     NAME="htdig-notification-date" CONTENT="earliest notification date"
     NAME="htdig-email-subject" CONTENT="notification message subject"



Descripciones de los valores posibles para los atributos:

htdig-email

Esta es la dirección de correo electrónico a la cual se envía la notificación.
Se pueden poner varias direcciones separadas por coma. Si no se pone ninguna dirección, no se envía notificación.
htdig-notification-date
Esta es la fecha a partir de la cual la notificación debería ser enviada. El formato es mes / día / año, o si se usa iso_8601 se debe poner
año - mes - día. Asegurarse de que el año tiene cuatro dígitos. Esto significa que se debe usar 1999 en lugar de 99.
Si no se pone ninguna fecha, no se envía notificación. Si se da una fecha pero no esta bien formada, una notificación de este error será enviada. Para las fechas correctas, una notificación se enviará cada vez que el sistema ejecute el servicio de notificación, después de la fecha dada. Para no recibir mas notificaciones se debe quitar la fecha de notificación en el documento.
htdig-email-subject
Aquí se especifica el subject del mensaje de notificación. Este es atributo opcional. Notar que si se quiere poner espacios en el subject, se debe escribir el texto entre comillas (").
* htdig-keywords
El contenido de este campo debe ser una lista de palabras separadas por un espacio. Estas palabras obtendrán un "peso" muy alto. Este campo se puede usar para definir sinónimos dentro de un documento. Por ejemplo, si se tiene un documento sobre educación superior en Uruguay, sinónimos podrían ser:
            "Educación superior educación terciaria universidades Universidad".
En consecuencia este documento puede ser encontrado por cualquiera de esas palabras, estén o no en el texto.
<HTML>
     <HEAD>
     <META NAME="htdig-keywords" CONTENT="Educación superior
     educación terciaria universidades Universidad">
     <META NAME="htdig-email" CONTENT="usuario@nodo.edu.uy">
     <TITLE>Página de Links</TITLE>
     </HEAD>
     <BODY>

          Cuerpo del Documento

     </BODY>
     </HTML>


Sitios Indizados:
Lista de sitios indizados por sus nombres...
Lista de URLs:

RAUdo usa tecnología 

Volver a RAUdo Home RAU Correo Electrónico