Direction des Relations Européennes et Internationales (DREI)

Programme INRIA "Equipes Associées"

 

I. DEFINITION

EQUIPE ASSOCIEE

Traitement informatique du Sanskrit
Sanskrit Computational Linguistics
sélection
2007

Projet INRIA : Signes Organisme étranger partenaire : Université d'Hyderabad
Unité de recherche INRIA : Futurs/Rocq
Thème INRIA : Sym C
Pays : Inde (Andhra Pradesh)
 
 
Coordinateur français
Coordinateur étranger
Nom, prénom Huet, Gérard Amba Kulkarni
Grade/statut Directeur de Recherches Reader, Head of Department
Organisme d'appartenance
INRIA, Rocquencourt Hyderabad University, Sanskrit Department
Adresse postale Rocquencourt Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India
URL Page personnelle University of Hyderabad
Téléphone   91-040-23133300 (School office)
Télécopie    
Courriel Gerard.Huet@inria.fr apksh@uohyd.ernet.in, ambapradeep@gmail.com

La proposition en bref

Titre de la thématique de collaboration : Traitement informatique du Sanskrit - Sanskrit Computational Linguistics

Descriptif : Les deux équipes ont développé des outils informatisés de traitement du sanskrit. Le première étape de la collaboration consistera à définir des standards de représentation des ressources linguistiques mutuelles, et notamment du jeu d'étiquettes morphologiques, ainsi qu'une notation pour les arbres d'analyse (tree banks), afin d'assurer une certaine inter-opérabilité des logiciels développés séparément. Une deuxième étape consistera en l'élaboration de protocoles d'évaluation de ces logiciels d'analyse, sur des jeux de tests communs tirés d'un corpus de textes étiquetés. En parallèle, l'équipe associée s'efforcera de rassembler la (petite) communauté de chercheurs travaillant sur l'informatisation du sanscrit au niveau mondial, en organisant des workshops spécialisés où seront conviés les principaux chercheurs du domaine. A terme, nous visons à mettre en place pour le sanskrit l'équivalent du Trésor de la langue Française, ou de la bibliothèque digitale Perseus pour les textes grecs et latins

 

Présentation de l'Équipe Associée

1. Présentation du coordinateur étranger

Amba Kulkarni a obtenu un Master of Science (Mathematics) de la Shivaji University de Kolhapur en 1982, et un Master of Technology (Computer Science and Engineering) de l'IIT de Kanpur en 1994. Elle travaillait alors dans le groupe de linguistique computationnelle dirigée par Rajiv Sangal dans les années 85-95. Elle l'a suivi à l'IIIT d'Hyderabad lorsqu'il en a été nommé Directeur. Cette année, elle a obtenu un poste de professeur (Reader) à l'Université d'Hyderabad, ainsi que la direction du Département de Sanskrit qui vient d'y être créé. Elle travaille en collaboration avec les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, notamment avec Dr. Shrinivasa Varakhedi (PhD Rashtriya Sanskrit Sansthan, New Delhi, 2006), un spécialiste de la tradition navya nyaya (sémiotique), qui propose sa participation à l'équipe associée.
Nous avons également l'intérêt et la participation du Pr Pushpak Battacharyya, Professor of Computer Science and Engineering à l'Indian Institute of Technology Bombay, qui est l'un des principaux spécialistes indiens du traitement de la langue naturelle, et notamment de la sémantique lexicale.

2. Historique de la collaboration

3. Impact :

4. Contexte de la collaboration :

Le sanskrit est la langue ancienne de l'Inde servant de véhicule culturel traditionnel - philosophie, droit, théologie, épopée, mythologie, art, littérature, théâtre, poésie, astronomie, mathématiques, linguistique, médecine - dans tous ces domaines il existe un corpus considérable de connaissances qui a été transmis jusqu'à nous en sanskrit. Une partie de ce corpus a été informatisée, mais à très bas niveau - les phrases sont une suite non segmentée de phonèmes, ou au mieux une liste de mots extraits par analyse manuelle.

Les outils de traitement automatique de la langue (computational linguistics) peuvent être utilisés pour faire une analyse plus profonde de ces textes, permettant notamment de faire des analyses philologiques mécanisées. Elles permettront l'établissement d'éditions critiques modernes des différents textes, de préparer des traductions dans les langues contemporaines fondées sur des méthodes scientifiques, de présenter les œuvres majeures sous la forme de banques structurées d'analyses étiquetées en hypertexte marqué par des annotations morphologiques, syntaxiques et sémantiques. On peut ainsi espérer mettre au point pour le sanskrit l'équivalent du Trésor de la Langue Française, ou du site Perseus pour les textes grecs et latins.

Il y a en fait une situation paradoxale. D'une part, le sanskrit est une langue savante extrêmement codifiée, et munie d'une tradition d'analyse linguistique depuis la plus haute antiquité - Panini en fixa une grammaire formelle dès le 5ème siècle avant J.C. D'autre part, jusqu'à récemment il n'existait aucun outil informatique permettant le minimum d'analyse statistique ou philologique, chercher les différentes occurrences d'un même mot, par exemple. Cette contradiction apparente s'explique par le fait que la tradition sanskrite est essentiellement orale, et le texte écrit n'est que la transcription phonétique d'une énonciation continue dont les règles d'euphonie, et plus généralement les opérations morpho-phonologiques, obéissent à des règles contextuelles complexes. Il y a donc un ticket d'entrée très élevé à payer pour commencer le moindre traitement informatique de cette langue.

De fait, à part quelques efforts dispersés, il n'existe aujourd'hui que trois équipes qui ont développé les outils de base et les ressources linguistiques permettant d'aborder l'analyse automatique d'un texte sanscrit. La première provient du groupe de traitement de la langue démarré il y a une vingtaine d'années à l'IIT de Kanpur par Rajiv Sangal, puis transféré à l'IIIT d'Hyderabad dont le Pr Sangal est devenu directeur à sa création. Dans ce groupe, qui s'est surtout intéressé à l'inter-traduction entre le hindi et l'anglais, une sous-équipe formée par Amba Kulkarni et Vineet Chatanya s'est attaquée à l'informatisation du sanskrit, en collaboration avec les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, dirigé par le Pr K.V. Ramkrishnamacharyulu, et qui possède un corpus considérable de textes. Ils sont arrivés cette année à mettre au point un analyseur morphologique à grande couverture, et à l'évaluer sur un corpus conséquent. Cet effort va se développer au sein d'un département de sanskrit nouvellement créé à l'Université d'Hyderabad, et dont Amba Kulkarni vient de prendre la tête.

A Rocquencourt, et en liaison avec le projet Signes de l'UR Futurs, Gérard Huet a développé des outils de traitement linguistique, et notamment une boîte à outils Zen donnant une bibliothèque de traitement d'automates et de transducteurs d'état fini, appropriée à la représentation des lexiques, et aux traitement morpho-phonétiques. Il a appliqué cette technologie au traitement du sanskrit, langue pour laquelle il a fait l'investissement du développement de ressources lexicales et grammaticales. Il a aujourd'hui une chaîne de traitement permettant la segmentation d'un texte sanskrit, son étiquetage morphologique, et une analyse de dépendances menant à sa structuration semi-automatique sous forme d'un texte annoté sémantiquement. Voir le site de démonstration. Il n'y a pas à ce jour d'outil équivalent où que ce soit. La boîte à outils, générique, a été utilisée notamment par les chercheurs du projet Calligrammes de Nancy, pour réaliser un lexique des formes conjuguées des verbes français, conformément au Bescherelle (voir le site LiToTe). Elle continue d'être développée comme plate-forme d'expérimentation pour les relations rationnelles par Benoît Razet dans le cadre de sa thèse.

La troisième équipe ayant réalisé des travaux conséquents sur l'informatisation du sanskrit résulte de la collaboration du Pr Peter Scharf, du département d'Etudes Classiques de l'Université Brown, spécialiste de la grammaire sanskrite, avec Malcolm Hyman, informaticien associé avec l'Université Harvard puis maintenant avec le Max Planck Institute de Berlin. Peter Scharf a décroché un contrat de trois ans de la NSF qui lui permet d'augmenter cette équipe avec de nouveaux collaborateurs. Il a développé des outils d'analyse semi-automatique, lui permettant notamment de publier une édition critique complètement informatisée du Ramopakhyana (le chapitre du Mahabharata qui résume le Ramayana).

A part ces trois équipes, auxquelles il faudrait sans doute ajouter celle de Girish Nath Jha à la J. Nerhu University de Delhi, il n'y a que quelques efforts individuels. Le Pr Brendan Gillon au département de linguistique de l'Université McGill à Montréal a écrit plusieurs articles sur la syntaxe du sanskrit, et Gérard Huet collabore avec lui à la mise au point d'un tree bank issu du manuel de syntaxe d'Apte. Shivamurthy Swamiji, pontife de l'ordre des lingayats à Sirigere au Karnataka, prépare une version informatisée de la grammaire de Panini. Jan Houben, directeur d'études à l'Ecole Pratique des Hautes Etudes à Paris, spécialiste de Panini, y dirige l'équipe de Sources et Histoire de la Tradition Sanskrite, et cherche à monter un projet d'informatisation d'une grammaire complète du sanskrit selon la tradition paninéenne. En Inde, le principal centre d'études du sanskrit est à Pune, où le Pr V. N. Jha, philosophe de la connaissance mondialement réputé, dirige le Centre of Advanced Study of Sanskrit à l'Université de Pune, Raymond Doctor développe des logiciels de traitement de l'avestique, et le Deccan College développe depuis 40 ans un projet de dictionnaire historique du sanskrit. A Melkote, l'Academy of Sanskrit Research à Melkote (Karnataka), dirigée par le Pr Lakshmitatachar, travaille à des outils informatiques de traitement du sanskrit dans une certaine isolation. Mentionnons enfin, en France, la collaboration du projet AXIS de Rocquencourt avec l'équipe de M. Gerschheimer, directeur d'études à l'Ecole Pratique des Hautes Etudes sur une action CNRS sur la grammaire et les mathématiques dans le monde indien, en liaison avec l'Institut français de Pondichéry. Toujours à Pondichéry, le Pr François Grimal coordonne l'informatisation des exemples tirés de commentaires de Panini.

Si comme nous l'espérons l'équipe associée est l'embryon d'un réseau thématique international sur le sujet, il y aura donc de nombreuses retombées au niveau national, dans un domaine très interdisciplinaire.



II. PREVISIONS 2007

Programme de travail

2007. Une réunion de coordination est à prévoir au printemps, à Hyderabad, avec visite du centre de Tirupati par G. Huet pour six semaines. Cette mission comprendra une visite de l'équipe de Girish Nath Jha à la J. Nerhu University de Delhi, ainsi qu'un séjour à l'IIT de Mumbai (Bombay) dans l'équipe du Pr Bhattacharyaa. Ces visites permettront de fixer le périmètre de la coopération, et de faire une première passe sur les schémas XML d'étiquetage morphologique. Une proposition commune de schéma devrait être adoptée lors d'un premier workshop sur l'informatisation du sanskrit, à Paris ou Nancy (avec visite de l'ATILF) au deuxième semestre 2007. A ce workshop sur invitation les autres équipes travaillant dans le domaine seront conviées à présenter leurs travaux. Un atelier procédera à la définition d'une première proposition de schéma d'étiquetage d'un corpus de sanskrit, afin de donner une famille de normes de représentation de textes plus ou moins finement analysés.

2008. Une campagne d'évaluation d'outils d'étiquetage sera organisée, menant à un concours sur un corpus commun. Les résultats en seront discutés lors d'une journée spécialisée, organisée comme manifestation satellite à la conférence ICON.
Une recherche de financement plus conséquent, par exemple auprès de la Commission Européenne, sera effectuée aux fins de monter le réseau thématique. La participation des équipes de Brown University est espérée, avec support de la NSF. Nous espérons également étendre la coopération au Canada, avec Brendan Gillon à Mc Gill University.

2009. Deuxième workshop sur l'informatisation du sanskrit, celui ci organisé avec appel aux communications, à Tirupati ou à Pune, avec participation espérée de l'ensemble des équipes travaillant dans le domaine. Il est espéré que cette troisième année verra le démarrage effectif d'un réseau collaboratif international consacré à l'établissement d'une bibliothèque numérique de l'héritage sanskrit, s'appuyant sur des outils informatiques inter-opérables de qualité.

 

Budget prévisionnel

1. Co-financement

- Cette coopération ne bénéficie pas déjà d'un soutien financier de la part de l'INRIA, de l'organisme étranger partenaire ou d'un organisme tiers.
- Dans le cas où cette proposition serait retenue, il est plausible d'obtenir des organismes indiens partenaires un soutien financier au travers du programme indien TDIL de traitement informatique de la langue naturelle. - Le réseau thématique qui est envisagé pour prolonger cette action bilatérale en un projet international pourrait bénéficier du soutien de la NSF (à travers Brown University), de l'agence canadienne de financement de la recherche (à travers McGill University) et de la Commission Européenne (équipes allemandes britanniques et françaises).

2. Echanges

Les échanges prévus dans le cadre de cette coopération consisteront d'une part en missions de courte durée pour participer aux deux workshops et à la journée d'évaluation, et d'autre part en un certain nombre de séjours de moyenne durée permettant à un scientifique de travailler quelque temps dans l'équipe hôte, pour effectuer un travail en commun nécessitant une interaction continue. Notamment, il est prévu de former de jeunes étudiants indiens, de l'Université d'Hyderabad ou de l'IIT de Bombay, à la programmation en Objective Caml, à l'utilisation de la boîte à outils Zen, et à la maîtrise et à l'extension des autres outils de la plate-forme de traitement du sanskrit réalisée par Gérard Huet. Benoît Razet, qui poursuit sa thèse sous la direction de Gérard Huet, sera amené également à participer aux échanges, notamment pour son expertise dans le module de transducteurs modulaires issu de ses travaux de thèse.

3. Estimation budgétaire

Un budget de 20K€ semble adéquat pour les deux premières années (2007 et 2008). À partir de 2009 on peut espérer avoir un relais avec d'autres sources de financement, et ainsi réduire la participation de l'INRIA à un consortium étendu à un réseau de partenaires à un montant de 10K€.

 

Références

Akshar Bharati, Vineet Chaitanya and Rajeev Sangal. Natural Language Processing - A Paninean Perspective. 1995, Prentice-Hall (1995).

Akshar Bharati, Amba Kulkarni, V. Sheeba. Building a Wide Coverage Sanskrit Morphological Analyser: A Practical Approach. Language Resources and Evaluation, to appear.

G. Huet. Lexicon-directed Segmentation and Tagging of Sanskrit. XIIth World Sanskrit Conference, Helsinki, Finland, Aug. 2003. Final version in "Themes and Tasks in Old and Middle Indo-Aryan Linguistics". Eds. Bertil Tikkanen & Heinrich Hettrich. Motilal Banarsidass, Delhi, 2006, pp. 307-325. Available electronically as pdf.

G. Huet. Towards Computational Processing of Sanskrit. ICON-2003, Mysore, India, Dec. 2003. Proceedings Eds. Rajeev Sangal, S. M. Bendre and Udaya Narayana Singh, Central Institute of Indian Languages, Mysore, pp. 40--48. Available electronically as pdf.

G. Huet. Design of a Lexical Database for Sanskrit. COLING Workshop on Electronic Dictionaries, Geneva, Aug. 29th, 2004, pp. 8--14. Available electronically as pdf.

G. Huet. A Functional Toolkit for Morphological and Phonological Processing, Application to a Sanskrit Tagger. Journal of Functional Programming 15 (4) pp. 573--614, 2005. Preliminary version available electronically as pdf.

G. Huet and B. Razet. The Reactive Engine for Modular Transducers. In Algebra, Meaning and Computation, Essays Dedicated to Joseph A. Goguen on the Occasion of His 65th Birthday. Kokichi Futatsugi, Jean-Pierre Jouannaud and José Meseguer Eds. Springer LNCS 4060, 2006, pp. 355-374. Available electronically as pdf.

 

 

© INRIA - mise à jour le 15/11/2006