Equipe associée "Traitement informatique du sanskrit"


Rapport d'avancement 2007


L'année 2007 a vu le démarrage de la coopération. 


Gérard Huet a visité les sites indiens d'Hyderabad  (Department of Sanskrit Studies, University of Hyderabad) et de Tirupati (NLP Department, Rashtriya Sanskrit Vidyapeetha) pendant deux semaines en mars. Il a pu commencer à comparer la couverture morphologique de son système d'étiquetage avec celui d'Amba Kulkarni sur un document de bonne taille (le Baalakha.n.da, 1er livre du Raamaaya.na). Il  fait la connaissance de l'équipe de Tirupati, notamment du Pr Varakhedi. Il a installé son système "Sanskrit Engine" à Tirupati et à Hyderabad, le site d'Hyderabad étant configuré comme serveur miroir du site d'origine de Rocquencourt []. 


L'été a été consacré au montage du premier workshop de l'équipe associée, inséré dans une manifestation internationale plus ouverte, le 1er Symposium International de Linguistique Informatique du Sanskrit. Un Comité de programme international rassemblant des sanskritistes indiens, des linguistes occidentaux, des philologues du sanskrit, et des informaticiens spécialistes de linguistique computationnelle. Ce Comité de programme est ainsi un embryon d'un consortium international de coopération sur le sujet. Il comprend:


Un site web a été ouvert en français et en anglais. Le programme est disponible ici. D'autre part, un espace de discussion sur bboard, pour faciliter les débats du workshop, a été ouvert ici.


Un appel à communications a été lancé, et au 1er juin 20 communications étaient reçues, dont 10 ont été sélectionnées. Un volume des actes du symposium de 133 pages a été édité par G. Huet et A. Kulkarni. Le symposium a eu lieu au Centre INRIA de Paris-Rocquencourt du 29 au 31 Octobre 2007. Il a rassemblé une quarantaine de participants. L'équipe associée a contribué financièrement, notamment à l'invitation de 7 participants indiens, et à celle du Pr Kiparsky de Stanford University, qui a ouvert le colloque par une conférence invitée sur la structure de la grammaire de Paa.nini. 


Les actions 2007 seront complétées par une mission de G. Huet à Hyderabad en décembre, pour tirer les conclusions du workshop notamment en matière de standardisation de l'étiquetage morpho-phonétique, et pour préparer les actions 2008.


Programme pour 2008


Un document sera circulé dans la communauté pour définir un étiquetage XML standardisé de documents sanskrits, avec une batterie de transducteurs facilitant la mise au standard pour divers formalismes de translitération. Il sera présenté à IJNLP 2008 (Third International Joint Conference on Natural Language Processing, Hyderabad January 7-12 2008). Une campagne d'évaluation d'outils d'étiquetage sera organisée, menant à un concours sur un corpus commun. 


D'autre part, une recherche de financement plus conséquent, par exemple auprès de la Commission Européenne, sera effectuée aux fins de monter le réseau thématique. auquel doit aboutir l'action. Il est probable que le Pr Scharf, de Brown University, proposera de tenir la deuxième édition du Symposium en 2008 à Providence. Sinon, elle aura lieu en Inde en janvier 2009. Une partie du financement de l'équipe associée sera consacrée à une aide à l'organisation du 2ème workshop. Nous prévoyons également de prendre un étudiant en stage d'été en 2008. Le budget définitif sera arrêté après le workshop en novembre.