Intervento di Cinzia Bucchioni 18/11/2005: Internet: motori di ricerca e testi pieni

 

Lettura consigliata: volume RIDI / METITIERI http://www.laterza.it/bibliotecheinrete/

 

Internet è un grande contenitore, con molta documentazione di pura promozione commerciale, e nessun controllo sulla attendibilità delle fonti.

Uno dei problemi delle biblioteche è la conservazione del web: esiste Internet Archive http://www.archive.org/   – ma per conservare si deve selezionare….

 

Finora abbiamo parlato di cataloghi e banche dati bibliografiche (bibliografie), cioè descrizioni bibliografiche su web. Ma possiamo anche parlare di testi su web.

Invero ogni pagina web è un testo; ma per semplificare ora atteniamoci alla definizione classica di testi.

Come abbiamo detto, ci sono grandi progetti per arricchire web di contenuti culturali:

si parla di progetti di digitalizzazione.

Quando si parla di digitalizzazione, ci si può riferire a due diversi risultati:

-         si scannerizza, si producono immagini (e ci si ferma)

-         sulle immagini ottenute, si applica un sw OCR (Optical Character Recognizion): si ottengono file di testo (posso fare ricerche di parole nel testo, etc.)

 

Oltre ai testi digitalizzati, le biblioteche sono interessate anche ai testi digitali nativi (di nuova produzione), se rilevanti dal punto di vista dei contenuti.

 

Dal punto di vista dell’accessibilità, possiamo individuare vari “tipi di testi”:

 

1) a libero accesso su Internet:

-         testi classici variamente digitalizzati (grandi progetti di full text) http://www.humnet.unipi.it/lm2/ris_testi.shtml 

-         testi critici open access (riviste open access; appositi repository OAI http://www.openarchives.org/ - http://www.openarchives.org/service/listproviders.html ; pagine web di studiosi e istituzioni )

2) accessibili a pagamento

-         testi classici digitalizzati con accuratezza filologica (non ne abbiamo)

-         riviste a pagamento http://biblio.adm.unipi.it/Banchedati.html  

 

Dal punto di vista di ciò che web rende visibile, ci sono poi due diverse situazioni:

-         le pagine web statiche, che sono indicizzate e trovate dai motori di ricerca

-         le banche dati (presentate in pagine dinamiche), che NON lo sono (deep web)

 

((( Sono in corso vari tentativi di superare tale divisione:

OCLC espone il proprio catalogo attraverso OAI,

La bilioteca australiana: http://www.nla.gov.au/nla/staffpaper/2005/boston2.html

OAI ha sviluppato un’interfaccia per i motori di ricerca

ScholarGoogle e Scirus cercano nei testi a pagamento  )))

 

I Motori di ricerca si basano su algoritmi “segreti”; l’intelligenza dell’algoritmo non sta nel trovare le pagine che contengono certe parole, ciò è tecnologicamente banale; ma nello scegliere le pagine da presentare per prime (poiché ogni ricerca reperisce milioni di pagine, solo le prima 10 o 20 vengono effettivamente guardate).

I motori di ricerca di solito non cercano nel web profondo; spesso non cercano nel web a pagamento. I servizi commerciali fanno di tutto per “mettersi in mostra” tramite essi.

1. google http://www.google.it/  è il più famoso ed efficace: il segreto è mettere in ordine di rilevanza sulla base di titolo etc.; ma soprattutto di quante volte viene linkata dalle altre pagine quella in questione (analisi citazionale). Offre tanti optional: definizioni, traduzioni etc.

- scholar.google http://scholar.google.com/

- print.google: http://print.google.com/ ; http://print.google.com/googleprint/library.html

2. vivisimo

3. scirus

4. yahoo

(http://www.humnet.unipi.it/lm2/risorse.shtml )

 

La Linguistica Computazionale

Altro settore è quello dei sw e dei “testi” (ma in questo caso si parla di corpora, per gli studi linguistici:  http://www.di.unipi.it/~mancav/santini/risorse/

Si raccolgono campioni di lingua selezionati in vari modi a seconda delle finalità dello studio, e su di essi di applicano i più vari algoritmi di analisi; questo è il grande campo della lingusitica computazionale, che rientra nell’ambito degli studi sull’intelligenza artificiale; che mette in campo strumenti di analisi (morfologica, sintatica, semantica) dei campioni linguistici; analisi statistiche quantitative (occorrenze, co-occorrenze, distanze, prossimità etc.); modelli congnitivi e di rappresentazione dei signficati. Un’applicazione titpica e molto irrisa è la traduzione artificiale

(vedi google; o http://www.hojohnlee.com/weblog/