JADT 2010: diario di bordo – terza parte

di  Matteo Borsacchi

La terza e ultima plenary session del JADT 2010 è dedicata al Web As Corpus, un progetto e una community di studiosi che sviluppano e condividono strumenti per la raccolta di corpora testuali dal web. Marco Baroni ne è l’esponente italiano più attivo, avendo contribuito alla versione italiana di Treetagger, il più diffuso lemmatizzatore open source, e alla costruzione di Wacky, un mastodontico corpus per l’analisi linguistica ricavato attraverso lo spidering del web.

Il linguaggio naturale è un fenomeno talmente complesso che anche i campioni più estesi, come i corpora da diversi Gigabyte assemblati dagli spider del progetto WAC, non sembrano mai sufficienti a garantire un livello accettabile di rappresentatività; meritano quindi considerazione i nuovi sforzi presentati da Baroni per sfruttare quell’inesauribile riserva di conversazioni sociali che è il web 2.0. La strada che appare più promettente è il coinvolgimento degli utenti Internet attraverso i social network per spingerli a produrre testi ad hoc, per gioco o spirito di collaborazione, da usare poi come input per nuove ricerche.

DISCORSO ORALE E CLASSIFICAZIONE AUTOMATICA

I due contributi seguenti si distinguono per la capacità di applicare il freddo calcolo automatico alle dimensioni più intime dei comportamenti linguistici.

Riprendendo l’idea di uno studio su Agatha Christie e la degenerazione delle facoltà linguistiche,  Pascual Cantos Gòmez ha analizzato i discorsi di un malato di Alzheimer molto particolare, il Primo Ministro inglese Harold Wilson, ritiratosi nel 1976 per l’aggravarsi delle sue condizioni. L’intento dello studio è scoprire i segni del disturbo nelle sue fasi precliniche, attraverso la sola osservazione del linguaggio. Con l’aggravarsi della malattia nei discorsi del politico cominciano a prevalere formule e ripetizioni, facilmente rintracciati da un’analisi degli n-grammi (i segmenti ripetuti di due o più parole). A quale funzione assolvono le ripetizioni? Semplice significante della demenza incombente o strategia inconscia per reagire all’indebolimento delle proprie facoltà, oppure un tentativo della persona di mascherare la propria disabilità? Se quest’ultima intenzione operava nel ministro, conclude l’autore,  possiamo dire che ha avuto successo, perché né la stampa né i colleghi si accorsero della malattia fino a quando non venne rese pubblica. Chissà se i software sapranno fare meglio.

Susanna Pallini si è occupata, insieme a Mauro La Torre, della classificazione automatica di narrazioni autobiografiche. Vista la recente scomparsa di La Torre, che ha curato gli aspetti informatici della ricerca, è la psicologa a presentarne obiettivi e risultati sorvolando sul lato tecnico. A un gruppo di studenti è stato chiesto di descrivere un episodio significativo che riguardasse il proprio rapporto con gli insegnanti nei primi anni di scuola. I frammenti autobiografici sono stati assegnati a differenti Sistemi Motivazionali Interpersonali (SMI)  operanti nel rapporto insegnante/alunno e riconducibili a tre categorie: attaccamento/accudimento, cooperazione, agonismo. Un paradigma interpretativo forte permette di comprendere meglio l’utilità e le sfide dell’analisi lessicometrica, ad esempio nel caso degli n-grammi: se “braccio” da solo non è un forte indicatore, è chiaro che “in braccio” rimanda immediatamente ad un ricordo di attaccamento/accudimento.

SOFTWARE E METODOLOGIE

Alla presentazione di software nuovi o semplicemente aggiornati era dedicata un’intera sezione del convegno con tanto di (piccola) aula dedicata.

Se tra gli italiani rileviamo una certa standardizzazione su questo fronte (la maggioranza delle ricerche utilizzava Taltac2 con  successivo passaggio in Spad-T per l’analisi fattoriale) i francesi si mostrano più eclettici sia nelle metodologie di ricerca sia nello sviluppo di nuovi software o di nuove funzioni da implementare in quelli esistenti.

La più interessante tra le proposte viste è sicuramente Treecloud: un software di semplice utilizzo, con strumenti di analisi già diffusi ma mai integrati in una sola soluzione, con un sistema di visualizzazione dei risultati significativo e al tempo stesso gradevole. Il programma opera sul testo un’analisi delle frequenze, effettua poi l’analisi delle co-occorrenze sulle parole più frequenti (se ne può scegliere il numero) e restituisce un output grafico che, come il nome suggerisce, è un incrocio tra una tagcloud e un grafo ad albero: le parole più importanti e i loro legami permettono di identificare, disposti fra i rami della treecloud, gli argomenti principali del discorso.

Chiudiamo la rassegna con due approfondimenti metodologici: Annibale Elia ha presentato delle grammatiche locali per il riconoscimento automatico e la classificazione delle FAQ sull’Informazione Comunitaria Europea. Il procedimento statistico di formalizzazione delle domande è molto sofisticato e si basa su un sistema di automi a stati finiti. Ciò su cui permangono dubbi è l’utilità di uno strumento simile: l’obiettivo è un’alternativa a Google capace di apprendere le forme del linguaggio naturale e proporre un’interazione più mirata e “umana” con l’utente. Simili tentativi non hanno riscosso successo in passato, perché sembra che gli utenti preferiscano alfabetizzarsi alle funzioni di Google piuttosto che pretendere che il software si avvicini a loro.

Lo sforzo del Gruppo dottorandi RASS-MESS è invece mirato a confrontare e possibilmente integrare l’approccio lessicometrico e quello ermeneutico all’analisi del testo. Le lettere dei disoccupati a Repubblica passano dapprima per Taltac2 e le sue liste di parole, poi per Nvivo e le annotazioni dell’interprete: purtroppo i risultati non coincidono. L’analisi del lessico identifica differenziandole tipologie di lavoro, competenze, sesso ed età dei disoccupati,  la sensibilità del lettore si arrende invece di fronte all’unità del loro vissuto emotivo. Ma dove risiedono queste differenze e queste unità? Nei testi, nella realtà, o piuttosto nelle nelle categorie cognitive e nelle metodologie scelte per indagarle?

Per leggere la seconda parte del diario di bordo del JADT 2010 vai qui

Scrivi un commento

L'indirizzo email non sarà pubblicato.

*