Intervento di Cinzia Bucchioni al Corso Bibliografia e Biblioteconomia - Fac. Lingue

Motori di ricerca e Testi pieni

Lettura consigliata: volume RIDI / METITIERI http://www.laterza.it/bibliotecheinrete/

Internet è un grande contenitore, con molta documentazione di pura promozione commerciale, e nessun controllo sulla attendibilità delle fonti.

Uno dei problemi delle biblioteche è la conservazione del web: esiste Internet Archive http://www.archive.org/– ma per conservare si deve selezionare.

Finora abbiamo parlato di cataloghi e banche dati bibliografiche (bibliografie), cioè descrizioni bibliografiche su web. Ma possiamo anche parlare di testi su web.

Invero ogni pagina web è un testo; ma per semplificare ora atteniamoci alla definizione classica di testi.

Come abbiamo detto, ci sono grandi progetti per arricchire web di contenuti culturali: si parla di progetti di digitalizzazione. Quando si parla di digitalizzazione, ci si può riferire a due diversi risultati:

Oltre ai testi digitalizzati, le biblioteche sono interessate anche ai testi digitali nativi (di nuova produzione), se rilevanti dal punto di vista dei contenuti.

Dal punto di vista dell’accessibilità, possiamo individuare vari “tipi di testi”:

  1. a libero accesso su Internet:
  2. accessibili a pagamento

Dal punto di vista di ciò che web rende visibile, ci sono poi due diverse situazioni:

Ma i nuovi sviluppi di Internet vanno nella direzione di superare tale divisione:

ATTENZIONE: i Motori di ricerca si basano su algoritmi “segreti”; l’intelligenza dell’algoritmo non sta nel trovare le pagine che contengono certe parole, ciò è tecnologicamente banale; ma nello scegliere le pagine da presentare per prime (poiché ogni ricerca reperisce milioni di pagine, solo le prima 10 o 20 vengono effettivamente guardate).
I motori di ricerca tradizionalemente non cercano nel web profondo; spesso non cercano nel web a pagamento. I servizi commerciali fanno di tutto per “mettersi in mostra” tramite essi.

  1. google http://www.google.it/ è il più famoso ed efficace: il segreto è mettere in ordine di rilevanza sulla base di titolo etc.; ma soprattutto di quante volte viene linkata dalle altre pagine quella in questione (analisi citazionale). Offre tanti optional: definizioni, traduzioni, etc.; e varie ricerche speciali: su un sito, in una lingua, chiamato da, solo immagini; e ancora:
  2. vivisimo
  3. scirus
  4. yahoo
  5. altavista
  6. virgilio, etc.
(http://www.humnet.unipi.it/lm2/risorse.shtml)

Come citare i documenti digitali

La scienza come noi la conosciamo e' costruzione collettiva che puo' andare avanti a partire dalle acquisizione passate; il paradigma della comunicazione scientifica della nostra epoca si basa dunque sulla rintracciabilita' della fonte e verificabilita' delle affermazioni. Questo e' garantito dalle corrette documentazioni e citazioni. Come sapete esistono vari stili citazionali, tutti finalizzati alla distinzione chiara del tipi di documento e di supporto, alla rintracciabilita' della fonte per la verifica. Riferimenti: questo: e questo; e questo per i blog

Interoperabilità

Uno dei princilai problemi dell'ambiente digitale e' quello del colloquio tra i sistemi. Consderazioni immediatamente commerciali possono indurre ogni piattaforma a porsi come dominante ed esclusiva, a trattenre l'utente all'interno del proprio ambiente per escludere i concorrenti commerciali. Questa preoccupante tendenza si e' manifestata anche tra i fornitori di contentuti accademici. (cfr. gli enormi problemi di gestione degli abbonamenti ai periodici elettronici). La "resistenza" a questa e' data dalla parola d'ordine INTEROPERABILITA, al cui servizio sono tutti i vari tipi di standard (cfr. un dispositivo di esempio:il resolver).

La Linguistica Computazionale

Altro settore è quello dei sw e dei “testi” (ma in questo caso si parla di corpora, per gli studi linguistici:  http://www.di.unipi.it/~mancav/santini/risorse/

Si raccolgono campioni di lingua selezionati in vari modi a seconda delle finalità dello studio, e su di essi di applicano i più vari algoritmi di analisi; questo è il grande campo della lingusitica computazionale, che rientra nell’ambito degli studi sull’intelligenza artificiale; che mette in campo strumenti di analisi (morfologica, sintatica, semantica) dei campioni linguistici; analisi statistiche quantitative (occorrenze, co-occorrenze, distanze, prossimità etc.); modelli congnitivi e di rappresentazione dei signficati. Un’applicazione titpica e molto irrisa è la traduzione artificiale

(vedi google; o http://www.hojohnlee.com/weblog/