INRIA - international

EQUIPE ASSOCIEE	Traitement informatique du Sanskrit *Sanskrit Computational Linguistics*
sélection	2007

Projet INRIA : Signes	Organisme étranger partenaire : Université d'Hyderabad
Unité de recherche INRIA : Futurs/Rocq Thème INRIA : Sym C	Pays : Inde (Andhra Pradesh)

	Coordinateur français	Coordinateur étranger
Nom, prénom	Huet, Gérard	Amba Kulkarni
Grade/statut	Directeur de Recherches	Reader, Head of Department
Organisme d'appartenance	INRIA, Rocquencourt	Hyderabad University, Sanskrit Department
Adresse postale	Rocquencourt	Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India
URL	Page personnelle	University of Hyderabad
Téléphone		91-040-23133300 (School office)
Télécopie
Courriel	Gerard.Huet@inria.fr	apksh@uohyd.ernet.in, ambapradeep@gmail.com

La proposition en bref

Titre de la thématique de collaboration : Traitement informatique du Sanskrit - Sanskrit Computational Linguistics

Descriptif : Les deux équipes ont développé des outils informatisés de traitement du sanskrit. Le première étape de la collaboration consistera à définir des standards de représentation des ressources linguistiques mutuelles, et notamment du jeu d'étiquettes morphologiques, ainsi qu'une notation pour les arbres d'analyse (tree banks), afin d'assurer une certaine inter-opérabilité des logiciels développés séparément. Une deuxième étape consistera en l'élaboration de protocoles d'évaluation de ces logiciels d'analyse, sur des jeux de tests communs tirés d'un corpus de textes étiquetés. En parallèle, l'équipe associée s'efforcera de rassembler la (petite) communauté de chercheurs travaillant sur l'informatisation du sanscrit au niveau mondial, en organisant des workshops spécialisés où seront conviés les principaux chercheurs du domaine. A terme, nous visons à mettre en place pour le sanskrit l'équivalent du Trésor de la langue Française, ou de la bibliothèque digitale Perseus pour les textes grecs et latins

Présentation de l'Équipe Associée

1. Présentation du coordinateur étranger

Amba Kulkarni a obtenu un Master of Science (Mathematics) de la Shivaji University de Kolhapur en 1982, et un Master of Technology (Computer Science and Engineering) de l'IIT de Kanpur en 1994. Elle travaillait alors dans le groupe de linguistique computationnelle dirigée par Rajiv Sangal dans les années 85-95. Elle l'a suivi à l'IIIT d'Hyderabad lorsqu'il en a été nommé Directeur. Cette année, elle a obtenu un poste de professeur (Reader) à l'Université d'Hyderabad, ainsi que la direction du Département de Sanskrit qui vient d'y être créé. Elle travaille en collaboration avec les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, notamment avec Dr. Shrinivasa Varakhedi (PhD Rashtriya Sanskrit Sansthan, New Delhi, 2006), un spécialiste de la tradition navya nyaya (sémiotique), qui propose sa participation à l'équipe associée.
Nous avons également l'intérêt et la participation du Pr Pushpak Battacharyya, Professor of Computer Science and Engineering à l'Indian Institute of Technology Bombay, qui est l'un des principaux spécialistes indiens du traitement de la langue naturelle, et notamment de la sémantique lexicale.

2. Historique de la collaboration

2.1. entre les équipes : Amba Kulkarni et Gérard Huet se connaissent depuis de nombreuses années, et ont suivi leurs travaux respectifs. Depuis l'été 2006, une collaboration effective a démarré, avec l'échange de données linguistiques et de logiciels. Ainsi Gérard Huet a livré (sous licence LGPLLR) sa banque de données de formes fléchies du sanskrit sous format XML, qui est en cours d'analyse par l'équipe d'Amba Kulkarni. Inversement, Amba Kulkarni a communiqué à Gérard Huet ses algorithmes de sandhi, module important de son système de lemmatisation Anusaaraka.
2.2. entre l'INRIA et l'organisme partenaire : L'Université d'Hyderabad (Central University of Hyderabad) est l'une des meilleures universités scientifiques indiennes. De nombreux contacts existent entre Gérard Huet et plusieurs professeurs du Computer Science Department. Tout d'abord, avec le Pr Hrushikesha Mohanty, spécialiste d'informatique distribuée et de génie logiciel. Ce dernier a invité Gérard Huet à participer au Business Committee de la conférence ICDCIT 06 qu'il organise à Bhubaneshwar, Orissa, en décembre 2006, en tant que Steering Chair. Ensuite, avec le Pr K. Narayan Murthy, spécialiste de traitement de la langue naturelle, avec lequel il est en contact depuis plusieurs années. Notamment, K. Narayan Murthy s'est rendu en France en 2001, et G. Huet lui a organisé une visite du Loria et de l'ATILF à Nancy. Enfin, de nombreux contacts existent avec l'IIIT d'Hyderabad, qui est situé sur le campus de l'Université d'Hyderabad, et qui est dirigé par Rajiv Sangal, spécialiste de traitement de la langue, et dans le groupe duquel a travaillé longtemps Amba Kulkarni. Rajiv Sangal a créé une conférence annuelle de bon niveau en linguistique informatique - ICON. A l'occasion d'ICON-2003, à Hyderabad, un workshop franco-indien sur le traitement de la langue naturelle avait été organisé, auquel ont participé Gérard Huet de l'INRIA, Claire Gardent et Patrick Saint Dizier du CNRS, et Alain Lecomte de l'Université de Grenoble, et Pushpak Bhattacharyaa de l'IIT de Bombay. En janvier 2007 Rajiv Sangal sera organisateur de l'IJCAI-07, la grande conférence internationale d'intelligence artificielle, qu'il a fait venir en Inde pour la première fois.
Ces nombreux contacts avec l'Université d'Hyderabad sont attestés par les nombreux rapports de mission en Inde qui se trouvent sur l'Intranet de l'International à l'INRIA.

3. Impact :

3.1. sur la collaboration déjà existante avec votre partenaire
3.2. sur la collaboration avec d'autres projets INRIA
3.3. sur la collaboration avec d'autres équipes de l'organisme étranger partenaire.

4. Contexte de la collaboration :

Le sanskrit est la langue ancienne de l'Inde servant de véhicule culturel traditionnel - philosophie, droit, théologie, épopée, mythologie, art, littérature, théâtre, poésie, astronomie, mathématiques, linguistique, médecine - dans tous ces domaines il existe un corpus considérable de connaissances qui a été transmis jusqu'à nous en sanskrit. Une partie de ce corpus a été informatisée, mais à très bas niveau - les phrases sont une suite non segmentée de phonèmes, ou au mieux une liste de mots extraits par analyse manuelle.

Les outils de traitement automatique de la langue (computational linguistics) peuvent être utilisés pour faire une analyse plus profonde de ces textes, permettant notamment de faire des analyses philologiques mécanisées. Elles permettront l'établissement d'éditions critiques modernes des différents textes, de préparer des traductions dans les langues contemporaines fondées sur des méthodes scientifiques, de présenter les œuvres majeures sous la forme de banques structurées d'analyses étiquetées en hypertexte marqué par des annotations morphologiques, syntaxiques et sémantiques. On peut ainsi espérer mettre au point pour le sanskrit l'équivalent du Trésor de la Langue Française, ou du site Perseus pour les textes grecs et latins.

Il y a en fait une situation paradoxale. D'une part, le sanskrit est une langue savante extrêmement codifiée, et munie d'une tradition d'analyse linguistique depuis la plus haute antiquité - Panini en fixa une grammaire formelle dès le 5ème siècle avant J.C. D'autre part, jusqu'à récemment il n'existait aucun outil informatique permettant le minimum d'analyse statistique ou philologique, chercher les différentes occurrences d'un même mot, par exemple. Cette contradiction apparente s'explique par le fait que la tradition sanskrite est essentiellement orale, et le texte écrit n'est que la transcription phonétique d'une énonciation continue dont les règles d'euphonie, et plus généralement les opérations morpho-phonologiques, obéissent à des règles contextuelles complexes. Il y a donc un ticket d'entrée très élevé à payer pour commencer le moindre traitement informatique de cette langue.

De fait, à part quelques efforts dispersés, il n'existe aujourd'hui que trois équipes qui ont développé les outils de base et les ressources linguistiques permettant d'aborder l'analyse automatique d'un texte sanscrit. La première provient du groupe de traitement de la langue démarré il y a une vingtaine d'années à l'IIT de Kanpur par Rajiv Sangal, puis transféré à l'IIIT d'Hyderabad dont le Pr Sangal est devenu directeur à sa création. Dans ce groupe, qui s'est surtout intéressé à l'inter-traduction entre le hindi et l'anglais, une sous-équipe formée par Amba Kulkarni et Vineet Chatanya s'est attaquée à l'informatisation du sanskrit, en collaboration avec les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, dirigé par le Pr K.V. Ramkrishnamacharyulu, et qui possède un corpus considérable de textes. Ils sont arrivés cette année à mettre au point un analyseur morphologique à grande couverture, et à l'évaluer sur un corpus conséquent. Cet effort va se développer au sein d'un département de sanskrit nouvellement créé à l'Université d'Hyderabad, et dont Amba Kulkarni vient de prendre la tête.

A Rocquencourt, et en liaison avec le projet Signes de l'UR Futurs, Gérard Huet a développé des outils de traitement linguistique, et notamment une boîte à outils Zen donnant une bibliothèque de traitement d'automates et de transducteurs d'état fini, appropriée à la représentation des lexiques, et aux traitement morpho-phonétiques. Il a appliqué cette technologie au traitement du sanskrit, langue pour laquelle il a fait l'investissement du développement de ressources lexicales et grammaticales. Il a aujourd'hui une chaîne de traitement permettant la segmentation d'un texte sanskrit, son étiquetage morphologique, et une analyse de dépendances menant à sa structuration semi-automatique sous forme d'un texte annoté sémantiquement. Voir le site de démonstration. Il n'y a pas à ce jour d'outil équivalent où que ce soit. La boîte à outils, générique, a été utilisée notamment par les chercheurs du projet Calligrammes de Nancy, pour réaliser un lexique des formes conjuguées des verbes français, conformément au Bescherelle (voir le site LiToTe). Elle continue d'être développée comme plate-forme d'expérimentation pour les relations rationnelles par Benoît Razet dans le cadre de sa thèse.

La troisième équipe ayant réalisé des travaux conséquents sur l'informatisation du sanskrit résulte de la collaboration du Pr Peter Scharf, du département d'Etudes Classiques de l'Université Brown, spécialiste de la grammaire sanskrite, avec Malcolm Hyman, informaticien associé avec l'Université Harvard puis maintenant avec le Max Planck Institute de Berlin. Peter Scharf a décroché un contrat de trois ans de la NSF qui lui permet d'augmenter cette équipe avec de nouveaux collaborateurs. Il a développé des outils d'analyse semi-automatique, lui permettant notamment de publier une édition critique complètement informatisée du Ramopakhyana (le chapitre du Mahabharata qui résume le Ramayana).

A part ces trois équipes, auxquelles il faudrait sans doute ajouter celle de Girish Nath Jha à la J. Nerhu University de Delhi, il n'y a que quelques efforts individuels. Le Pr Brendan Gillon au département de linguistique de l'Université McGill à Montréal a écrit plusieurs articles sur la syntaxe du sanskrit, et Gérard Huet collabore avec lui à la mise au point d'un tree bank issu du manuel de syntaxe d'Apte. Shivamurthy Swamiji, pontife de l'ordre des lingayats à Sirigere au Karnataka, prépare une version informatisée de la grammaire de Panini. Jan Houben, directeur d'études à l'Ecole Pratique des Hautes Etudes à Paris, spécialiste de Panini, y dirige l'équipe de Sources et Histoire de la Tradition Sanskrite, et cherche à monter un projet d'informatisation d'une grammaire complète du sanskrit selon la tradition paninéenne. En Inde, le principal centre d'études du sanskrit est à Pune, où le Pr V. N. Jha, philosophe de la connaissance mondialement réputé, dirige le Centre of Advanced Study of Sanskrit à l'Université de Pune, Raymond Doctor développe des logiciels de traitement de l'avestique, et le Deccan College développe depuis 40 ans un projet de dictionnaire historique du sanskrit. A Melkote, l'Academy of Sanskrit Research à Melkote (Karnataka), dirigée par le Pr Lakshmitatachar, travaille à des outils informatiques de traitement du sanskrit dans une certaine isolation. Mentionnons enfin, en France, la collaboration du projet AXIS de Rocquencourt avec l'équipe de M. Gerschheimer, directeur d'études à l'Ecole Pratique des Hautes Etudes sur une action CNRS sur la grammaire et les mathématiques dans le monde indien, en liaison avec l'Institut français de Pondichéry. Toujours à Pondichéry, le Pr François Grimal coordonne l'informatisation des exemples tirés de commentaires de Panini.

Si comme nous l'espérons l'équipe associée est l'embryon d'un réseau thématique international sur le sujet, il y aura donc de nombreuses retombées au niveau national, dans un domaine très interdisciplinaire.

Programme INRIA "Equipes Associées"

I. DEFINITION

Présentation de l'Équipe Associée

II. PREVISIONS 2007

Programme de travail

Budget prévisionnel

Références