Università degli Studi di Pavia

Dipartimento di Studi Umanistici

HomeDidatticaCorsi › Linguistica computazionale (c.p.)

Linguistica computazionale (c.p.)

Corsi di laurea:
Linguistica teorica ed applicata
Docenti:
Prodanof Irina
Anno accademico:
2007/2008
Codice corso:
58071
Crediti formativi:
5
Ambito:
L-LIN/01 GLOTTOLOGIA E LINGUISTICA
Decreto Ministeriale:
509/99
Ore di lezione:
30
Descrizione:
Trattamento Automatico del Linguaggio Naturale (TALN): modelli e tecniche per l’annotazione di corpora, e per l’organizzazione ed il reperimento di informazione in documenti scritti e parlati

Programma

Il ciclo di seminari si propone di discutere alcuni temi attuali nel Trattamento Automatico del Linguaggio Naturale (TALN). Negli ultimi anni, la Linguistica e la Linguistica Computazionale vengono spesso chiamate a proporre soluzioni sul piano teorico ed applicativo, in una societa’ in cui la comunicazione e la circolazione su larga scala dell’informazione diventano centrali.

La proposta di corso progredito riguarda tre tematiche, in alternativa.

Proposta 1:

Risorse lessicali ed il loro impiego in applicazioni

Modelli computazionali per la rappresentazione del significato lessicale:

1. Modello relazionale

  • Wordnet, EuroWordNet, ItalWordNet

2. Modello a Frame (ruoli tematici)

  • FrameNet – struttura ed organizzazione

3. Modello misto: PAROLE/SIMPLE CLIPS

  • Struttura ed organizzazione dell’informazione
  • Il modello semantico della risorsa lessicale basato sulla semantica generativa di J. Pustejovsky (i qualia). Rasppresentazione della polisemia, sinonimia e derivazione lessicale.

Tecniche per il reperimento di informazione: dal reperimento, in vaste collezioni, dei documenti pertinenti, verso l’estrazione di informazione dal contenuto di un documento. (Information Retrieval vs. Information Extraction).

Sistemi di Domanda/Risposta non vincolati al dominio (Open Domain Question-Answering)

I Lessici semantici in applicazioni - estrazione di informazione, sommarizzazione, Sistemi di domanda-risposta non ristretti al dominio(OD-QA).

  1. Open Domain Question-Answering – sistemi per l’interrogazione dell’informazione su web, non ristretta al dominio.
  2. Tipologia dei sistemi di domanda-risposta. Approcci precedenti. Complessita’ del problema: tecnologie necessarie per la costruzione di un sistema di OD-QA
  3. I moduli di un sistema di OD-QA: i) modulo dell’elaborazione della domanda; ii) modulo di reperimento dei documenti significativi; iii) modulo di estrazione della risposta.
  4. Risorse lessicali impiegate in OD-QA.

Marius Pasca, Open-Domain Questio Answering from Large Text Collections. CSLI Publications, 2003

Proposta 2:

La soggettivita’ nella comunicazione: affetti, emozioni, opinioni, stati d’animo.

Human Computer Interaction à creare interfacce uomo-macchina piu’ amichevoli.

  1. Agenti virtuali capaci di esprimere emozioni, sistemi capaci di riconoscere stati emotivi dell’utente
  2. Analizzare un testo: estrarre non solo informazione fattuale ma anche informazione soggettiva (opinioni, emozioni, stati d’animo, attitudini, ecc.)
  3. Campi di ricerca: persuasione, humour, narrazione, analisi del testo

Analisi del testo

Risorse lessicali: WordNet-Affect, SENTI-WordNet

Generazione di testo

Corpora e Schemi di annotazione:

§ Appraisal Theory

§ Annotazione di opinioni

§ EARL: un linguaggio per l’annotazione della soggettivita’.

HUMAINE:http://emotion-research.net

Susan Huston & Geoff Thompson (eds) Evaluation in Text, Oxford University Press

Appraisal Theory. J. Martin: http://www.grammatics.com/appraisal/index.html

Proposta 3:

Una robusta capacità d’identificazione e di estrazione degli eventi e del loro ancoraggio temporale nel testo è motore per compiere inferenze basilari, e questo è un componente chiave per poter accedere all’informazione presente nel testo attraverso il contenuto anziché tramite parole-chiave,

essenziale in applicazioni come Estrazione di Informazione, Open-Domain Question Answering, sommarizzazione, ecc.

  1. Un linguaggio per la’annotazione di eventi ed espressioni temporali con relative relazioni temporali: TimeML;
  2. Un modello per analisi e estrazione di eventi e espressioni temporali in testi italiani di ambito generale sfruttando le risorse linguistiche ItalWordNet e PAROLE/SIMPLE/CLIPS
  3. Confronto con la TimeBank, un corpus annotato (per l’inglese) a livello di eventi, espressioni temporali e relazioni temporali (Pustejovsky et al. 2002);
  4. Esercitazioni di annotazione su un corpus italiano, utilizzando lo strumento Callisto.

Mani I., Pustejovsky J., Geisauskas R., The Language of Time. Oxford University Press, 2005

Pustejovsky, J., J. Castaño, R. Ingria, R. Saurí, R. Gaizauskas, A. Setzer and G. Katz. 2003.

TimeML: Robust Specification of Event and Temporal Expressions in Text. IWCS-5, Fifth International Workshop on Computational Semantics.

James Pustejovsky, Patrick Hanks, Roser Saurí, Andrew See, Robert Gaizauskas, Andrea Setzer, Dragomir Radev, Beth Sundheim, David Day, Lisa Ferro and Marcia Lazo. 2003. The TIMEBANK Corpus. /Proceedings of Corpus Linguistics 2003/: 647-656.

Il presente programma e’ soggetto a cambiamenti, integrazioni e personalizzazioni a seconda degli interessi specifici degli studenti. Per chi scegliesse di seguire questo corso e’ consigliato avere seguito prima almeno uno di questi corsi: Linguistica Computazionale (corso base), Informatica di Base (Prof. Vito Pirelli), Laboratorio (Prof. Andrea Sanso’).

Bibliografia

VEDI SOPRA

Elenco appelli e prove

Nessuna prova presente

Dipartimento di Studi Umanistici

Università degli Studi di Pavia
Segreteria amministrativa: Piazza Botta, 6 - 27100 Pavia
Segreteria didattica: Corso Strada Nuova, 65 - 27100 Pavia
Sezioni del Dipartimento
Email: webmaster.lettere (at) unipv.it