Direction des Relations Européennes et Internationales (DREI)
EQUIPE ASSOCIEE |
Traitement informatique du Sanskrit Sanskrit Computational Linguistics |
sélection |
2007 |
Projet INRIA : Signes | Organisme étranger partenaire : Université d'Hyderabad |
Unité de recherche INRIA : Futurs/Rocq Thème INRIA : Sym C |
Pays : Inde (Andhra Pradesh) |
Coordinateur
français |
Coordinateur
étranger |
|
Nom, prénom | Huet, Gérard | Amba Kulkarni |
Grade/statut | Directeur de Recherches | Reader, Head of Department |
Organisme d'appartenance |
INRIA, Rocquencourt | Hyderabad University, Sanskrit Department |
Adresse postale | Rocquencourt | Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India |
URL | Page personnelle | University of Hyderabad |
Téléphone | 91-040-23133300 (School office) | |
Télécopie | ||
Courriel | Gerard.Huet@inria.fr | apksh@uohyd.ernet.in, ambapradeep@gmail.com |
Titre de la thématique de collaboration : Traitement informatique du Sanskrit - Sanskrit Computational Linguistics |
Descriptif : Les deux équipes ont développé des outils informatisés de traitement du sanskrit. Le première étape de la collaboration consistera à définir des standards de représentation des ressources linguistiques mutuelles, et notamment du jeu d'étiquettes morphologiques, ainsi qu'une notation pour les arbres d'analyse (tree banks), afin d'assurer une certaine inter-opérabilité des logiciels développés séparément. Une deuxième étape consistera en l'élaboration de protocoles d'évaluation de ces logiciels d'analyse, sur des jeux de tests communs tirés d'un corpus de textes étiquetés. En parallèle, l'équipe associée s'efforcera de rassembler la (petite) communauté de chercheurs travaillant sur l'informatisation du sanscrit au niveau mondial, en organisant des workshops spécialisés où seront conviés les principaux chercheurs du domaine. A terme, nous visons à mettre en place pour le sanskrit l'équivalent du Trésor de la langue Française, ou de la bibliothèque digitale Perseus pour les textes grecs et latins |
1. Présentation
du coordinateur étranger
Amba Kulkarni a obtenu un Master of Science (Mathematics) de la Shivaji
University de Kolhapur en 1982, et un
Master of Technology (Computer Science and Engineering) de l'IIT de Kanpur en 1994.
Elle travaillait alors dans le groupe de linguistique computationnelle dirigée par Rajiv Sangal
dans les années 85-95. Elle l'a suivi à l'IIIT d'Hyderabad lorsqu'il en a
été nommé Directeur. Cette année, elle a obtenu un poste de
professeur (Reader) à l'Université d'Hyderabad, ainsi que la direction du
Département de Sanskrit qui vient d'y être créé.
Elle travaille en collaboration avec
les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, notamment
avec Dr. Shrinivasa Varakhedi (PhD Rashtriya Sanskrit Sansthan, New Delhi, 2006), un
spécialiste de la tradition navya nyaya (sémiotique), qui propose sa
participation à l'équipe associée.
Nous avons également l'intérêt et la participation
du Pr Pushpak Battacharyya, Professor
of Computer Science and Engineering à l'Indian Institute of Technology Bombay, qui est
l'un des principaux spécialistes indiens du traitement de la langue naturelle,
et notamment de la sémantique lexicale.
2. Historique de la collaboration
Ces nombreux contacts avec l'Université d'Hyderabad sont attestés par les nombreux rapports de mission en Inde qui se trouvent sur l'Intranet de l'International à l'INRIA.
3. Impact :
4. Contexte de la collaboration :
Le sanskrit est la langue ancienne de l'Inde servant de véhicule culturel traditionnel - philosophie, droit, théologie, épopée, mythologie, art, littérature, théâtre, poésie, astronomie, mathématiques, linguistique, médecine - dans tous ces domaines il existe un corpus considérable de connaissances qui a été transmis jusqu'à nous en sanskrit. Une partie de ce corpus a été informatisée, mais à très bas niveau - les phrases sont une suite non segmentée de phonèmes, ou au mieux une liste de mots extraits par analyse manuelle.
Les outils de traitement automatique de la langue (computational linguistics) peuvent être utilisés pour faire une analyse plus profonde de ces textes, permettant notamment de faire des analyses philologiques mécanisées. Elles permettront l'établissement d'éditions critiques modernes des différents textes, de préparer des traductions dans les langues contemporaines fondées sur des méthodes scientifiques, de présenter les œuvres majeures sous la forme de banques structurées d'analyses étiquetées en hypertexte marqué par des annotations morphologiques, syntaxiques et sémantiques. On peut ainsi espérer mettre au point pour le sanskrit l'équivalent du Trésor de la Langue Française, ou du site Perseus pour les textes grecs et latins.
Il y a en fait une situation paradoxale. D'une part, le sanskrit est une langue savante extrêmement codifiée, et munie d'une tradition d'analyse linguistique depuis la plus haute antiquité - Panini en fixa une grammaire formelle dès le 5ème siècle avant J.C. D'autre part, jusqu'à récemment il n'existait aucun outil informatique permettant le minimum d'analyse statistique ou philologique, chercher les différentes occurrences d'un même mot, par exemple. Cette contradiction apparente s'explique par le fait que la tradition sanskrite est essentiellement orale, et le texte écrit n'est que la transcription phonétique d'une énonciation continue dont les règles d'euphonie, et plus généralement les opérations morpho-phonologiques, obéissent à des règles contextuelles complexes. Il y a donc un ticket d'entrée très élevé à payer pour commencer le moindre traitement informatique de cette langue.
De fait, à part quelques efforts dispersés, il n'existe aujourd'hui que trois équipes qui ont développé les outils de base et les ressources linguistiques permettant d'aborder l'analyse automatique d'un texte sanscrit. La première provient du groupe de traitement de la langue démarré il y a une vingtaine d'années à l'IIT de Kanpur par Rajiv Sangal, puis transféré à l'IIIT d'Hyderabad dont le Pr Sangal est devenu directeur à sa création. Dans ce groupe, qui s'est surtout intéressé à l'inter-traduction entre le hindi et l'anglais, une sous-équipe formée par Amba Kulkarni et Vineet Chatanya s'est attaquée à l'informatisation du sanskrit, en collaboration avec les grammairiens traditionnels du Rashtriya Sanskrit Vidyapeetha de Tirupati, dirigé par le Pr K.V. Ramkrishnamacharyulu, et qui possède un corpus considérable de textes. Ils sont arrivés cette année à mettre au point un analyseur morphologique à grande couverture, et à l'évaluer sur un corpus conséquent. Cet effort va se développer au sein d'un département de sanskrit nouvellement créé à l'Université d'Hyderabad, et dont Amba Kulkarni vient de prendre la tête.
A Rocquencourt, et en liaison avec le projet Signes de l'UR Futurs, Gérard Huet a développé des outils de traitement linguistique, et notamment une boîte à outils Zen donnant une bibliothèque de traitement d'automates et de transducteurs d'état fini, appropriée à la représentation des lexiques, et aux traitement morpho-phonétiques. Il a appliqué cette technologie au traitement du sanskrit, langue pour laquelle il a fait l'investissement du développement de ressources lexicales et grammaticales. Il a aujourd'hui une chaîne de traitement permettant la segmentation d'un texte sanskrit, son étiquetage morphologique, et une analyse de dépendances menant à sa structuration semi-automatique sous forme d'un texte annoté sémantiquement. Voir le site de démonstration. Il n'y a pas à ce jour d'outil équivalent où que ce soit. La boîte à outils, générique, a été utilisée notamment par les chercheurs du projet Calligrammes de Nancy, pour réaliser un lexique des formes conjuguées des verbes français, conformément au Bescherelle (voir le site LiToTe). Elle continue d'être développée comme plate-forme d'expérimentation pour les relations rationnelles par Benoît Razet dans le cadre de sa thèse.
La troisième équipe ayant réalisé des travaux conséquents sur l'informatisation du sanskrit résulte de la collaboration du Pr Peter Scharf, du département d'Etudes Classiques de l'Université Brown, spécialiste de la grammaire sanskrite, avec Malcolm Hyman, informaticien associé avec l'Université Harvard puis maintenant avec le Max Planck Institute de Berlin. Peter Scharf a décroché un contrat de trois ans de la NSF qui lui permet d'augmenter cette équipe avec de nouveaux collaborateurs. Il a développé des outils d'analyse semi-automatique, lui permettant notamment de publier une édition critique complètement informatisée du Ramopakhyana (le chapitre du Mahabharata qui résume le Ramayana).
A part ces trois équipes, auxquelles il faudrait sans doute ajouter celle de Girish Nath Jha à la J. Nerhu University de Delhi, il n'y a que quelques efforts individuels. Le Pr Brendan Gillon au département de linguistique de l'Université McGill à Montréal a écrit plusieurs articles sur la syntaxe du sanskrit, et Gérard Huet collabore avec lui à la mise au point d'un tree bank issu du manuel de syntaxe d'Apte. Shivamurthy Swamiji, pontife de l'ordre des lingayats à Sirigere au Karnataka, prépare une version informatisée de la grammaire de Panini. Jan Houben, directeur d'études à l'Ecole Pratique des Hautes Etudes à Paris, spécialiste de Panini, y dirige l'équipe de Sources et Histoire de la Tradition Sanskrite, et cherche à monter un projet d'informatisation d'une grammaire complète du sanskrit selon la tradition paninéenne. En Inde, le principal centre d'études du sanskrit est à Pune, où le Pr V. N. Jha, philosophe de la connaissance mondialement réputé, dirige le Centre of Advanced Study of Sanskrit à l'Université de Pune, Raymond Doctor développe des logiciels de traitement de l'avestique, et le Deccan College développe depuis 40 ans un projet de dictionnaire historique du sanskrit. A Melkote, l'Academy of Sanskrit Research à Melkote (Karnataka), dirigée par le Pr Lakshmitatachar, travaille à des outils informatiques de traitement du sanskrit dans une certaine isolation. Mentionnons enfin, en France, la collaboration du projet AXIS de Rocquencourt avec l'équipe de M. Gerschheimer, directeur d'études à l'Ecole Pratique des Hautes Etudes sur une action CNRS sur la grammaire et les mathématiques dans le monde indien, en liaison avec l'Institut français de Pondichéry. Toujours à Pondichéry, le Pr François Grimal coordonne l'informatisation des exemples tirés de commentaires de Panini.
Si comme nous l'espérons l'équipe associée est l'embryon d'un réseau thématique international sur le sujet, il y aura donc de nombreuses retombées au niveau national, dans un domaine très interdisciplinaire.
2008. Une campagne d'évaluation d'outils d'étiquetage sera organisée, menant à un concours sur un corpus commun. Les résultats en seront discutés lors d'une journée spécialisée, organisée comme manifestation satellite à la conférence ICON.
Une recherche de financement plus conséquent, par exemple auprès de la Commission Européenne, sera effectuée aux fins de monter le réseau thématique. La participation des équipes de Brown University est espérée, avec support de la NSF. Nous espérons également étendre la coopération au Canada, avec Brendan Gillon à Mc Gill University.
2009. Deuxième workshop sur l'informatisation du sanskrit, celui ci organisé avec appel aux communications, à Tirupati ou à Pune, avec participation espérée de l'ensemble des équipes travaillant dans le domaine. Il est espéré que cette troisième année verra le démarrage effectif d'un réseau collaboratif international consacré à l'établissement d'une bibliothèque numérique de l'héritage sanskrit, s'appuyant sur des outils informatiques inter-opérables de qualité.
1. Co-financement
- Cette coopération ne bénéficie pas déjà d'un soutien financier
de la part de l'INRIA, de l'organisme étranger partenaire ou d'un organisme
tiers. 2. Echanges
Les échanges prévus dans le cadre de cette coopération consisteront d'une part en missions de courte durée pour participer aux deux workshops et à la journée d'évaluation, et d'autre part en un certain nombre de séjours de moyenne durée permettant à un scientifique de travailler quelque temps dans l'équipe hôte, pour effectuer un travail en commun nécessitant une interaction continue. Notamment, il est prévu de former de jeunes étudiants indiens, de l'Université d'Hyderabad ou de l'IIT de Bombay, à la programmation en Objective Caml, à l'utilisation de la boîte à outils Zen, et à la maîtrise et à l'extension des autres outils de la plate-forme de traitement du sanskrit réalisée par Gérard Huet. Benoît Razet, qui poursuit sa thèse sous la direction de Gérard Huet, sera amené également à participer aux échanges, notamment pour son expertise dans le module de transducteurs modulaires issu de ses travaux de thèse.
3. Estimation budgétaire
Un budget de 20K€ semble adéquat pour les deux premières années (2007 et 2008). À partir de 2009 on peut espérer avoir un relais avec d'autres sources de financement, et ainsi réduire la participation de l'INRIA à un consortium étendu à un réseau de partenaires à un montant de 10K€.
Akshar Bharati, Amba Kulkarni, V. Sheeba. Building a Wide Coverage Sanskrit Morphological Analyser: A Practical Approach. Language Resources and Evaluation, to appear.
G. Huet.
Lexicon-directed Segmentation and Tagging of Sanskrit.
XIIth World Sanskrit Conference, Helsinki, Finland, Aug. 2003.
Final version in "Themes and Tasks in Old and Middle Indo-Aryan Linguistics".
Eds. Bertil Tikkanen & Heinrich Hettrich. Motilal Banarsidass, Delhi, 2006, pp. 307-325.
Available electronically as
pdf.
G. Huet.
Towards Computational Processing of Sanskrit.
ICON-2003, Mysore, India, Dec. 2003.
Proceedings Eds. Rajeev Sangal, S. M. Bendre and Udaya Narayana Singh,
Central Institute of Indian Languages, Mysore, pp. 40--48.
Available electronically as
pdf.
G. Huet.
Design of a Lexical Database for Sanskrit.
COLING Workshop on Electronic Dictionaries, Geneva, Aug. 29th, 2004,
pp. 8--14.
Available electronically as
pdf.
G. Huet.
A Functional Toolkit for Morphological and Phonological Processing,
Application to a Sanskrit Tagger.
Journal of Functional Programming 15 (4) pp. 573--614, 2005.
Preliminary version available electronically as
pdf.
G. Huet and B. Razet. The Reactive Engine for Modular Transducers.
In Algebra, Meaning and Computation, Essays Dedicated to Joseph A. Goguen
on the Occasion of His 65th Birthday. Kokichi Futatsugi, Jean-Pierre
Jouannaud and José Meseguer Eds.
Springer LNCS 4060, 2006, pp. 355-374.
Available electronically as
pdf.
- Dans le cas où cette proposition serait retenue, il est plausible
d'obtenir des organismes indiens partenaires un soutien financier au travers du
programme indien TDIL
de traitement informatique de la langue naturelle.
- Le réseau thématique qui est envisagé pour prolonger cette action bilatérale en un projet international pourrait bénéficier du soutien de la NSF (à travers Brown University), de l'agence canadienne de financement de la recherche (à travers McGill University) et de la Commission Européenne (équipes allemandes britanniques et françaises).
Références
Akshar Bharati, Vineet Chaitanya and Rajeev Sangal. Natural Language Processing - A Paninean Perspective. 1995, Prentice-Hall (1995).