Techlimed

Extraire, analyser et donner sens aux données numériques hétérogènes sont aujourd’hui des enjeux majeurs. Le traitement automatique de la langue est l’un des outils les plus adaptés pour répondre aux défis et opportunités du big data.

L’augmentation du volume des données est sans doute un des grands défis de ce siècle. Les ordres de grandeur changent et les outils de capture, de stockage, d’analyse, de recherche... doivent être repensés. Le monde numérique arabe n’est pas en reste : il représente une des plus fortes progressions en termes d’usagers et le volume des contenus suit logique- ment cette pente.

Issue du monde de la recherche, TECHLIMED est une entreprise spécialisée dans le traitement automatique de la langue (TAL). Au carrefour de la linguistique, de l’informatique et de l’intelligence artificielle, TECHLIMED crée et commercialise des solutions technologiques spécialisées dans l’analyse des contenus en langue arabe. Dotée d’une technologie unique, TECHLIMED propose des solutions industrielles spécialisées dans l’extraction, l’indexation et la recherche d’information en langue arabe. Elle s’adresse prioritairement aux grands consommateurs et créateurs de données : administrations centrales, média, opérateurs, grandes entreprises et sociétés spécialisées des NTIC.

Le monde numérique arabe, un enjeu immédiat

Les données numériques en arabe sont en expansion. Blogs, réseaux sociaux, sites marchands, bibliothèques en ligne et autres contenus numériques forment l’essentiel de l’information actuelle. L’enjeu majeur que représente l’accès à ces contenus n’est plus à démontrer : le dynamisme économique, culturel et sociétal dépend beaucoup de la capacité à exploiter, valoriser et partager l’information numérique.

Le traitement de plus en plus qualitatif des flux

Une révolution est d’ores et déjà en marche. L’enjeu du traitement des données tend vers un horizon où l’analyse quantitative ne suffit plus : l’information utile est aujourd’hui une information comprise et contextualisée. Il s’agit aujourd’hui de savoir combien, mais aussi comment, où et pourquoi. La compréhension de la langue, vecteur majeur du sens, est la clé des outils de traitement automatique des flux et d’aide à leur analyse.

Des ressources linguistiques uniques

10 années de recherche ont été nécessaires à l’élaboration de la plus grande base de données lexicales arabes. Cette ressource (description complète de la langue arabe-230 millions de mots) est le socle d’une plateforme de traitement automatique de la langue arabe qui dépasse l’approche seulement statistique des données et ouvre les perspectives de l’analyse sémantique.

Une plateforme NLP* dédiée à la langue arabe

Adossée à nos ressources linguistiques, le moteur technologique de TECHLIMED se compose de plusieurs briques logicielles. Celles-ci forment les divers modules de traitement pour l’extraction, la segmentation, la lemmatisation, l’analyse morphosynthaxique qui aboutissent à l’indexation intelligente des corpus.

Une technologie tranversale, des solutions «métiers»

Qu’il s’agisse de solutions globales destinées à la gestion électronique des administrations et du service public, à la virtualisation des fonds patrimoniaux, ou de briques logicielles pour les systèmes informatiques tiers, notre technologie s’adresse à tous ceux qui souhaitent avoir plein accès à leurs contenus en langue arabe. Puissante et modulaire, nous l’avons adaptée aux différentes logiques «métiers».


L'offre Techlimed


Le management

Ramzi ABBES PDG - Recherche et Développement - Relations extérieures

Ramzi est docteur en informatique (Information pour la société, INSA 2004) et en linguistique.
La même année, il travaille comme chercheur en TAL (traitement automatique de la langue) au sein de l’École Nationale Supérieure des Sciences de l’Information et des Bibliothèques où il a déjà travaillé à sa thèse (Concordancier électronique pour l’arabe, mention très honorable avec félicitations du jury).
Il participe à des projets innovants français et européens, et plusieurs publications voient le jour.
En 2005, il rentre au service R&D de France Télécom en tant qu’ingénieur de recherche. Il travaille à la fois sur la langue arabe, le français, l’anglais et l’espagnol.
Il crée TECHLIMED en juin 2011.

Olivier GRAEFF Directeur Général - Directeur des Opérations

Olivier a une longue expérience du management stratégique dans le domaine de l'IT.
Il commence sa carrière en 1989 dans le service des activités en ligne du Journal "Le Progrès". En 1995, il rejoint Prosodie pour y mener les premières expérimentations de télécommunications mobile en France, notamment la gestion des SMS et des tests d'approvisionnement SIM pour le compte de France Télécom.
En 1999, Olivier fonde Swapcom, éditeur de logiciel et plateforme de ser- vices IT Télécom. Il en sera Président puis Président Directeur Général, et enfin responsable exécutif pour la stratégie, le marketing et la communication jusqu' en 2006, année où la société fusionne avec Sicap, une société du groupe Swisscom. Il y reste Directeur "plateforme et stratégie" et Directeur de l'innovation jusqu'en 2008.
Depuis lors, Olivier a accompagné de nombreuses entreprises en développement en tant que conseil indépendant. C’est dans ce cadre qu’il rencontre Ramzi ABBÈS en 2010 et décide de s’associer avec ce dernier.

Olivier est également membre du comité consultatif de V3D, société d'édition de logiciels de gestion de la qualité de service et de l'expérience client pour le secteur des télécoms.

Laurent MASOERO Directeur marketing

Diplômé de l’Institut Universitaire de Technologie (Lyon 1), Laurent a fait la majeure partie de sa carrière en tant que directeur artistique, designer et conseil en stratégie indépendant.
Il a effectué depuis vingt ans de nombreuses missions pour des entreprises dans le secteur du sport, du luxe (Ettore Bugatti spa, Goldpfeil, Skis Lacroix, Avalanche skiwear) et des technologies (Swapcom, Sicap, CGI- Group, Genetel).
Il a notamment été le conseil spécial de Bertrand Roy, refondateur et Président des Skis Lacroix (1998-2008), et responsable du design général de la marque.

Il est depuis 2009 Président d’Edelwhite Stratégies, société de conseil spécialiste en stratégie et univers de marque.
Laurent est le conseil en communication externe de TECHLIMED depuis sa création.
Il a rejoint l’équipe TECHLIMED en Octobre 2013.

Djamel MOSTEFA Directeur technique

Titulaire d’un DEA en Intelligence Artificielle (UHP, Nancy) et d’une maîtrise de mathématiques (ULP, Strasbourg), Djamel a quinze années d’expérience en TAL. Il a commencé sa carrière en tant qu’ingénieur de recherche en traitement de la parole à ParisTech Télécom Paris (2001-2003), puis a rejoint l’ELDA/ELRA (Agence pour l’évaluation et la distribution de ressources linguistiques) en tant que chef de projet avant de devenir chef du département “Production de ressources linguistiques et évaluation des technologies de la langue” (2003-2013).
Durant cette période, il est impliqué dans de nombreux projets de recherche ou industriels en tant que porteur de projets, partenaire ou coordinateur dans le cadre des programmes européens (FP6, FP7, CIP, Eurêka) et des programmes nationaux (ANR, Pôle de compétitivité). Il a rejoint TECHLIMED en Décembre 2013.


Les équipes

Linguistique et informatique : des domaines en symbiose

La spécificité de TECHLIMED tient dans l’équilibre entre linguistique et informatique. Ces deux pôles sont constitués de spécialistes de haut niveau dans leur domaine : sémantique, morphosyntaxe, lexicologie, wordnet... d’un côté ; programmation, réseaux, webservices, ... de l’autre. Les deux domaines étant fortement imbriqués, linguistes et informaticiens travaillent continuellement en étroite collaboration.

Une gestion des projets attentive aux logiques «métiers»

Les besoins en traitement automatique de la langue sont nombreux et touchent des secteurs aussi divers que les administrations publiques, la veille économique ou stratégique, le monde de l’éducation et celui de la valorisation des fonds patrimoniaux. Cette diversité s’exprime autant dans la nature des besoins que dans la culture des organisations. Elle demande toujours des réponses adaptées. Dans cette perspective, la gestion de projet s’ inscrit résolument dans une logique “métiers“. A chaque type de marché correspond une équipe spécialisée, au fait des processus et des spécificités sectoriels.

Le design produit, le maillon essentiel entre technologie et utilisateurs

De nombreux projets ont pour finalité la consultation de corpus par le grand public ou des utilisateurs non spécialistes. Dans ces cas plus encore que pour des applications dédiées à des utilisateurs avertis, l’interface est un point crucial de la performance. Dans ce domaine, TECHLIMED dispose d’une équipe spécialisée en charge des questions relatives à l’ergonomie et à la gestion du front office.


Le comité stratégique

Composés d'experts indépendants et de représentants de l'actionnariat de la société, le comité est un lieu d'échanges et un soutien important pour les dirigeants de l'entreprise dans la mise en œuvre de leur stratégie. Membres du comité et dirigeants partagent leur expérience, leur expertise et leurs réseaux.

Sébastien Touvron (Rhône-Alpes Création), Guy Rigaud (Eurecap), Daniel Pilot (IT Translation), Christophe Reymond (AD’hoc Invest) et Abderahim Rochdi (ACL Consulting). Ce dernier est le Président du comité.


Les partenaires

TECHLIMED propose des solutions globales pour l’e-Gouvernement, l’e-Patrimoine et pour de nombreux acteurs des NTIC.
Basées sur sa technologie de traitement automatique de la langue, ces solutions doivent également leurs performances aux apports technologiques de partenaires. Depuis sa création, TECHLIMED a développé un ecosystème composé de sociétés dont les solutions ou les technologies sont innovantes et reconnues. Cette «mutualisation» de l’intelligence est un élément important de notre stratégie de développement : rester concentrer sur notre cœur de métier (le traitement automatique de la langue arabe) tout en pratiquant l’ouverture à ce qui se fait de mieux pour proposer les meilleures solutions à ses clients.

ANTIDOT

ANTIDOT est l’éditeur du moteur sémantique le plus avancé et le plus complet du marché (AFS, Antidot Finder Suite). Sa couverture fonctionnelle inégalée simplifie la recherche d’informations, la découverte et la navigation dans les données et documents.
Son couplage à la technologie TECHLIMED a permis la mise au point d’un moteur de recherche en langue arabe sans précédent.

TECHLIMED et ANTIDOT ont signé un partenariat stratégique pour la distribution du logiciel AFS pour le marché arabophone.

ANTIDOT compte de nombreuses références de tout premier plan : Decathlon, TF1, l’Assurance Maladie, l’Autorité française de sûreté nucléaire, Canal+, LexisNexis, l’Equipe, Casino, l’Etat français, Radio France...

www.antidot.net

WOONOZ

Woonoz est une société spécialisée dans l’e-Learning. Elle est aujourd’hui réputée pour sa méthode d’apprentissage du français «Voltaire». Ce pro- gramme a déjà été suivi par plus d’un million d’internautes.

Les techniques d’apprentissage initiées par Woonoz sont aujourd’hui plébisci- tées pour l’apprentissage du français. Ces mêmes techniques sont transpo- sables à d’autres langues. TECHLIMED et Woonoz sont partenaires dans le projet Al Jahiz d’évaluation et de mise à niveau en langue arabe.

www.woonoz.com
www.projet-voltaire.fr


RAYD

Extraire, indexer, effectuer des recherches profondes dans les textes officiels. Les bases d’information des administrations et des services publics en langue arabe sont maintenant ouvertes aux citoyens.

RAYD est une solution dédiée au Journal Officiel. Elle gère l’ensemble de son cycle de traitement (de l’indexation à la consultation). Grâce à la maîtrise complète de la langue arabe et à la puissance de son moteur de recherche, le Journal Officiel devient totalement dynamique : de nombreuses fonctionnalités permettent des recherches simples ou avancées en offrant un niveau de pertinence des résultats inégalé.


Les plus de la solution

Un traitement de l’arabe de haute qualité

Notre technologie linguistique (segmentation, analyse en racines, lemmes et mots, réduction des ambiguités, extraction des entitées nommées, etc) intervient à deux étapes cruciales du processus de traitement : elle améliore d’une part les résultats en sortie d’OCR (corrections des erreurs inhérentes au système grâce à notre base de données descriptive de la langue arabe) ; elle permet ensuite l’analyse profonde des corpus d’origine et un haut niveau de catégorisation.

L’indexation intelligente

La richesse d’information obtenue à l’issue du traitement linguistique est la condition essentielle pour la construction d’index hautement structurés. L’indexation automatique est rendue possible par l’utilisation de règles précises et d’outils d’analyse du texte (wordnet, grammaires, librairies spécifiques au domaine concerné). Elle se fait d’une part sur les métadonnées et d’autre part sur l’ensemble du corpus (plein texte).

La puissance de la recherche

RAYD dispose d’un moteur de recherche d’une large couverture fonctionnelle. Recherche simple, avancée ou experte, autocomplétion, recherche par concepts, tri personnalisable à la requête, rapprochement de documents, distance entre les mots, gestion multilingue/ crosslingue, prise en compte de thésaurus multiples et de dictionnaires de synonymes... De nombreuses fonctionnalités permettent de maîtriser totalement les recherches et d’obtenir une grande finesse de résultats. Grâce à son back office convivial, l’administrateur gère d’un clic les principales fonctionnalités, édite des statistiques, des rapports et contrôle simplement l’ensemble de l’activité.

L’ergonomie des interfaces

Un grand soin a été porté à l’ergonomie des interfaces utilisateurs. Qu’il s’agisse de contenus dédiés à la consultation des services internes ou, plus encore, du grand public, nous avons veillé à ce que la prise en main soit simple et intuitive. La qualité de la présentation, la fluidité de la navigation sont autant d’atouts pour encourager l’adhésion des utilisateurs.

Des perspectives de valorisation des contenus

Par sa puissance et sa précision, RAYD ouvre des horizons nouveaux en termes de valorisation de contenu. Les possibilités de fouilles intelligentes, de navigation transversales ou de recherche linguistique sont autant d’outils utiles aux professionnels qu’au grand public.


Les modes de recherche

L’autocomplétion, un atout commun à tous les modes de recherche

L’autocomplétion, spécifiquement dans le cas de corpus à contenus juridiques, est d’une grande aide pour l’usager. Elle permet, au moment de la requête, de visualiser les différentes occurrences pour un mot donné et, ainsi, d’avoir accès précisément aux contenus recherchés. En tapant le mot «Tribunal» par exemple, la fenêtre de menu proposera ses nombreuses occurrences soit : Tribunal d’instance, Tribunal de grande Instance, Tribunal de commerce, Tribunal de police, Tribunal administratif, Tribunal correctionnel... ce qui permet de limiter les réponses au bon choix de l’usager.

La recherche simple

Le mode de recherche simple dispose des principales fonctionnalités. Multilingue (arabe/français), il permet la recherche, dans les métadonnées, d’un ou plusieurs mots, d’un numéro de parution ou d’effectuer une requête sur une période donnée. Les résultats sont classés en fonction de leur pertinence (selon la date ou le numéro).

La recherche avancée

C’est la solution de recherche destinée aux professionnels (personnels habilités et entreprises spécialisées). Les recherches sont effectuées dans toutes les métadonnées ainsi que dans l’ensemble des documents.
En plus des fonctionnalités présentes dans le mode simple, les recherches peuvent être affinées en utilisant les filtres dynamiques et contextuels proposés en marge des résultats (par domaine, discipline, champ d’application,...).

Deux autres fonctionnalités précieuses complètent ce mode :
- Le rapprochement entre les documents qui affiche sous chaque résultat les documents similaires ou proches,
- La fonction de suggestion qui propose des recherches proches et complémentaires de la recherche effectuée.

Ces deux fonctions de rappel permettent à l’utilisateur d’effectuer des recherches pertinentes au-delà de sa requête initiale.

La recherche en mode expert

Le mode expert permet d’effectuer des recherches dans tous les documents en précisant la racine, le lemme ou le mot exact présents dans le texte. Cela permet des recherches et des résultats couvrant tout un domaine.


Les fonctionnalités

1. L'autocomplétion

L’autocomplétion est un système d’aide à la saisie et au choix des requêtes. Basée sur l’index, elle est un véritable outil d’assistance à la recherche.

2. L'interface multilingue

Le moteur de recherche est disponible en arabe, en français et en anglais. Selon la langue choisie par l’utilisateur, l’interface s’adapte au sens de lecture : de droite à gauche pour l’arabe, de gauche à droite pour les deux autres langues.

3. La recherche sur les métadonnées

Elle s’effectue dans tous les modes de recherche.

4. La recherche plein texte

Elle s’effectue directement dans les documents en précisant le mot, le lemme ou la racine présents dans le texte.

5. La recherche crosslingue

Cette fonctionnalité permet au moteur de répondre aux requêtes dans la langue source et dans les autres langues (A condition que la traduction soit présente).

6. Les filtres dynamiques et contextuels (facettes)

En marge des résultats, les filtres dynamiques aident à affiner la recherche. Ils indiquent par catégories les documents pertinents.

7. Le module d’information / promotion

Depuis le back-office, l’administrateur a la possibilité de gérer des espaces de communication ou de promotion (des actualités, des bannières informatives ou promotionnelles par ex.)

8. La recherche par racine, lemme, mot

Cette fonction permet de faire des recherches plein texte et de remonter les occurences de mot, lemme et racine exacts dans les textes.

Autocomplétion Interface multilingue Recherche métadonnées Recherche plein texte Crosslingue Affinage par facettes Promotion Rech./ racine, lemme, mot
RAYD
Fonctionnalité active dans la version
Fonctionnalité optionnelle


Le schéma fonctionnel


Le BackOffice

Un outil simple et intuitif pour l’administration, le contrôle et l’analyse

Le Back-Office se présente sous la forme d’une interface de gestion en mode web. Celle-ci intègre l’ensemble des logiciels de la solution. La configuration et l’administration sont simples et intuitives. De nombreux modules permettent son évolutivité (Thésaurus, fichiers SKOS), des tableaux de bord facilitent la supervision des logiciels et serveurs et d’en optimiser éventuellement la performance. Des graphiques et des rapports peuvent être édités pour analyser finement la fréquentation et l’usage des utilisateurs.




Open Data

Donner accès à l’ensemble de l’information officielle dans un seul et même site.

Open Data est une solution de mise en œuvre et d’exploitation d’un portail de sites officiels. Elle comprend la récupération de sources hétérogènes non structurées (crawling), leur classification*, le traitement linguistique, l’indexation des données et un moteur de recherche sémantique dotés de multiples fonctionnalités. Selon les besoins (volume des données à traiter/nombre de requêtes envisagé et les types de recherche souhaités), Open Data est disponible en trois versions : Basic, Standard et Premium. Au delà des fonctionnalités de recherche, Open Data dispose de fonctions pour gérer des espaces d’information ou de promotion.
(*version Premium seulement)


Les plus de la solution

Un traitement de l’arabe de haute qualité

Notre technologie linguistique (segmentation, analyse en racines, lemmes et mots, réduction des ambiguités, extraction des entitées nommées, etc) intervient à deux étapes cruciales du processus de traitement : elle améliore d’une part les résultats en sortie d’OCR (corrections des erreurs inhérentes au système grâce à notre base de données descriptive de la langue arabe) ; elle permet ensuite l’analyse profonde des corpus d’origine et un haut niveau de catégorisation.

L’indexation intelligente

La richesse d’information obtenue à l’issue du traitement linguistique est la condition essentielle pour la construction d’index hautement structurés. L’indexation automatique est rendue possible par l’utilisation de règles précises et d’outils d’analyse du texte (wordnet, grammaires, librairies spécifiques au domaine concerné). Elle se fait sur l’ensemble du corpus (plein texte) dans la version basique.

La puissance de la recherche

Open Data dispose d’un moteur de recherche d’une large couverture fonctionnelle. Recherche simple, avancée ou experte, autocomplétion, recherche par concepts, tri personnalisable à la requête, rapprochement de documents, distance entre les mots, gestion multilingue/prise en compte de thésaurus multiples et de dictionnaires de synonymes... De nombreuses fonctionnalités permettent de maîtriser totalement les recherches et d’obtenir une grande finesse de résultats. Grâce à son back office convivial, l’administrateur gère d’un clic les principales fonctionnalités, édite des statistiques, des rapports et contrôle simplement l’ensemble de l’activité.

L’ergonomie des interfaces

Un grand soin a été porté à l’ergonomie des interfaces utilisateurs. Qu’il s’agisse de contenus dédiés à la consultation des services internes ou, plus encore, du grand public, nous avons veillé à ce que la prise en main soit simple et intuitive. La qualité de la présentation, la fluidité de la navigation sont autant d’atouts pour encourager l’adhésion des utilisateurs.

Des perspectives de valorisation des contenus

Par sa puissance et sa précision, Open Data ouvre des horizons nouveaux en termes de valorisation de contenu. Les possibilités de fouilles intelligentes, de navigation transversales ou de recherche linguistique sont autant d’outils utiles aux professionnels qu’au grand public.


Les versions

La version Open Data Standard

Open Data standard dispose de fonctionnalités de recherche avancées. Celles-ci permettent à l’utilisateur d’affiner ses requêtes selon de multiples catégories. L’autocomplétion intelligente guide les recherches et propose les choix les plus judicieux ; le mode de recherche par racine et lemme propose d’effectuer des fouilles élargies du corpus en langue arabe. Enfin, la gestion des synonymes étend la couverture de pertinence des résultats.

La version Open Data Premium

C’est la version complète de la suite Open Data. En plus des fonctionnalités énoncées dans les versions précédentes, Open Data Premium dispose d’un module de classement automatique des documents. Celui-ci est particulièrement utile dans les cas d’expansion massive des corpus.


Les modes de recherche

La recherche simple

La recherche simple consiste à introduire un ou plusieurs mots clés dans le champ de recherche sur la page d’accueil. Le moteur cherche indifféremment dans les métadonnées et dans les pages. Les résultats sont ordonnés selon la fréquence d'apparition du mot dans le texte et dans le corpus. Des filtres dynamiques et contextuels proposés en marge permettent d’affiner les résultats par catégories.

La recherche avancée

La recherche avancée intègre les fonctionnalités du mode simple. Elle permet de préciser la recherche en spécifiant des champs supplémentaires liés aux métadonnées. (chaque métadonnée peut être utilisée comme filtre).

La recherche en mode expert

Le mode expert combine les deux modes précédents, auxquels s’ajoute la possibilité d’effectuer une requête à partir d’une racine, d’un lemme ou d’un mot. Ce mode s’effectue selon ces trois critères combinatoires : Le mot (chaine de caractères telle qu’elle apparaît dans le texte), le lemme ou forme cognitive (verbe à la première personne du masculin singulier à l’inaccompli, nom masculin singulier) et la racine (tri ou quadriconsonantique).


Les fonctionnalités

1. L'autocomplétion intelligente

L’autocomplétion est un système d’aide au choix des requêtes. Basée sur l’index, elle est un véritable outil d’assistance à la recherche. Elle est supérieure à la saisie prédictive (basée sur l’historique des requêtes) car elle s’effectue sur la base complète du corpus (plein texte).

2. L'interface multilingue

Le moteur de recherche est disponible en arabe, en français et en anglais. Selon la langue choisie par l’utilisateur, l’interface s’adapte au sens de lecture : de droite à gauche pour l’arabe, de gauche à droite pour les deux autres langues.

3. La recherche sur les métadonnées

Elle s’effectue dans tous les modes de recherche.

4. La recherche plein texte

Elle s’effectue directement dans les documents (en langue arabe, elle est précise grâce au traitement et à l’analyse linguistique du corpus).

5. Les filtres dynamiques et contextuels (facettes)

En marge des résultats, les filtres dynamiques aident à affiner la recherche.

6. La gestion des synonymes/ homonymes/abréviations/sigles

Grâce à un système d’expansion sémantique de requête, (base de données RDF), un fichier SKOS contient les différents synonymes ou appellations d’une entité.

7. La recherche par racine, lemme, mot

Cette fonction permet de faire des recherches plein texte et de remonter les occurences de mot, lemme et racine exacts dans les textes.

8. Le classifieur

Ce module organise l’ensemble du corpus à l’issue d’un processus d’apprentissage (intelligence artificielle) effectué sur un panel représentatif des différents types de contenus en relation avec une taxonomie métier (type IPTC pour la presse)

9. Le module d’information/ promotion

Depuis le back-office, l’administrateur a la possibilité de gérer des espaces de communication ou de promotion (des actualités, des bannières informatives ou promotionnelles par ex.)

10. La recherche crosslingue

Cette fonctionnalité permet au moteur de répondre aux requêtes dans la langue source et dans les autres langues (A condition que la traduction soit présente).

Autocomplétion Interface multilingue Recherche métadonnées Recherche plein texte Recherche par facettes Synonymes Homonymie Rech./ racine, lemme, mot Classifieur Promotion Crosslingue
OPEN DATA
Standard
OPEN DATA
Premium
Fonctionnalité active dans la version
Fonctionnalité optionnelle


Le schéma fonctionnel


Le BackOffice

Un outil simple et intuitif pour l’administration, le contrôle et l’analyse

Le Back-Office se présente sous la forme d’une interface de gestion en mode web. Celle-ci intègre l’ensemble des logiciels de la solution. La configuration et l’administration sont simples et intuitives. De nombreux modules permettent son évolutivité (Thésaurus, fichiers SKOS), des tableaux de bord facilitent la supervision des logiciels et serveurs et d’en optimiser éventuellement la performance. Des graphiques et des rapports peuvent être édités pour analyser finement la fréquentation et l’usage des utilisateurs.




MAKTABA

Une solution de valorisation des fonds patrimoniaux qui allie puissance bibliographique et recherche plein texte.

Notre technologie linguistique dédiée à la langue arabe trouve dans le domaine de bibliothèque virtuelle un terrain idéal pour exprimer toute sa puissance. De nombreuses fonctionnalités permettent à l’utilisateur d’accéder avec précision au contenu. Les plus experts d’entre eux trouveront des outils de fouille et d’analyse du corpus totalement inédits. Au-delà de l’aspect technique, notre solution inclut une interface de type portail, véritable vitrine du fond et des organisations qui les administrent.


Les plus de la solution

Un traitement de l’arabe de haute qualité

Notre technologie linguistique (segmentation, analyse en racines, lemmes et mots, réduction des ambiguités, extraction des entitées nommées, etc) intervient à deux étapes cruciales du processus de traitement : elle améliore d’une part les résultats en sortie d’OCR (corrections des erreurs inhérentes au système grâce à notre base de données descriptive de la langue arabe) ; elle permet ensuite l’analyse profonde des corpus d’origine et un haut niveau de catégorisation.

L’indexation intelligente

La richesse d’information obtenue à l’issue du traitement linguistique est la condition essentielle pour la construction d’index hautement structurés. L’indexation automatique est rendue pertinente par l’utilisation de règles précises et d’outils d’analyse du texte (grammaires, librairies spécifiques au domaine concerné). Elle se fait d’une part sur les métadonnées et d’autre part sur l’ensemble du corpus (plein texte).

La puissance de la recherche

MAKTABA dispose d’un moteur de recherche d’une couverture fonctionnelle inégalée. Recherche simple, avancée ou experte, autocomplétion, recherche par concepts, tri personnalisable à la requête, rapprochement entre documents, distance entre les mots, gestion multilingue/crosslingue, prise en compte de thésaurus multiples et de dictionnaires de synonymes, d’hétéronymes... De nombreuses fonctionnalités permettent de maîtriser totalement les recherches et d’obtenir une grande finesse de résultats.

Un outil d’aide à l’analyse linguistique

Des fonctionnalités inédites donnent une nouvelle dynamique aux corpus en langue arabe : grâce à la segmentation des mots en racines et lemmes et à leur utilisation comme filtres dynamiques (dans la recherche linguistique et dans le concordancier), des recherches et analyses complexes sont désormais à la disposition des experts.

L’ergonomie des interfaces

Un grand soin a été porté à l’ergonomie des interfaces utilisateurs. Qu’il s’agisse de contenus dédiés à la consultation des services internes ou, plus encore, du grand public, nous avons veillé à ce que la prise en main soit simple et intuitive. La qualité de la présentation, la fluidité de la navigation sont autant d’atouts pour encourager l’adhésion des utilisateurs.

Un back office puissant et convivial

Les principales fonctionnalités du moteur se gèrent d’un clic : indexation de nouveaux documents, ajout de dictionnaires ou liaison à des bases externes (wikipedia par ex), gestion des utilisateurs, édition de statistiques et de rapports d’activité, etc...


Le portail

Mettre en scène et promouvoir

Les enjeux de l’électronisation des fonds patrimoniaux sont multiples. Dématérialisation, conservation et mise à disposition sont bien sûr les objectifs premiers de la démarche. En proposant le principe du portail d’information, notre solution prend également en compte la nécessité de donner une identité aux organisations qui les pilotent et de mettre en lumière les contenus exceptionnels ou qui font l’actualité du fonds documentaire. Nous avons conçu la page d’accueil comme un espace de communication et de mise en scène dynamique des collections. Grâce à des web services, l’administrateur est à même de publier son actualité, de faire la promotion d’une conférence ou de mettre en avant un auteur, une œuvre isolée ou celles d’une période.


Les modes de recherche

La recherche simple

Le mode de recherche simple dispose des principales fonctionnalités. Multilingue (arabe/français/Anglais), il permet la recherche, dans les métadonnées, d’un ou plusieurs mots. Les résultats sont classés en fonction de leur pertinence.

La recherche avancée

En plus des fonctionnalités présentes dans le mode simple, les recherches peuvent être affinées en utilisant les filtres dynamiques et contextuels proposés en marge des résultats (auteur, période, domaine, discipline, sujet,...).

Deux autres fonctionnalités précieuses complètent ce mode :
- Le rapprochement entre les documents qui affiche sous chaque résultat les documents similaires ou proches,
- La fonction de suggestion qui propose des recherches proches et complémentaires de la recherche effectuée.

Ces deux fonctions de rappel permettent à l’utilisateur d’effectuer des recherches pertinentes au-delà de sa requête initiale.

Recherche linguistique plein texte

La recherche linguistique permet d’effectuer la recherche à partir d’un mot, d’un lemme ou d’une racine. Elle peut être affinée par l’utilisation des filtres dynamiques des catégories. Elle s’effectue dans le corps du texte. La recherche plein texte s’effectue selon trois critères combinatoires. Le mot (chaine de caractères comme elle apparaît dans le texte), le lemme ou forme infinitive (verbe à la première personne du masculin singulier à l’inaccompli, nom masculin singulier) et la racine (tri ou quadriconsonantique).

Recherche exploratoire

La navigation exploratoire est un mode de navigation par rebond. Sans requête initiale, l’utilisateur peut s’aventurer dans le corpus via les filtres dynamiques dont les champs sont renseignés par défaut au début de la recherche. Ce mode favorise la découverte, à la manière du feuilletage vagabond d’une encyclopédie.

Concordancier

Le concordancier permet d’effectuer des recherches biblio- graphique en mode plein texte. Il permet d’atteindre les occurences d’un mot dans l’ensemble de la base documen- taire. Les requêtes peuvent être filtrées par période, auteur, domaine et discipline. La recherche de concordance permet l’étude comparative d’un mot dans ses différents contextes d’usage.


Les fonctionnalités

1. L'autocomplétion

L’autocomplétion est un système d’aide à la saisie et au choix des requêtes. Basée sur l’index, elle est un véritable outil d’assistance à la recherche.

2. L'interface multilingue

Le moteur de recherche est disponible en arabe, en français et en anglais. Selon la langue choisie par l’utilisateur, l’interface s’adapte au sens de lecture : de droite à gauche pour l’arabe, de gauche à droite pour les deux autres langues.

3. La recherche sur les métadonnées

Elle s’effectue dans tous les modes de recherche.

4. La recherche plein texte

Elle s’effectue directement dans les documents en précisant le mot, le lemme ou la racine présents dans le texte.

5. La gestion des synonymes / Kounia / abréviations / sigles

Grâce à un système d’expansion sémantique de requête, (base de données RDF), un fichier SKOS contient les différents synonymes ou appellations d’une entité.

6. La recherche par racine, lemme, mot

Cette fonction permet de faire des recherches plein texte et de remonter les occurences de mot, lemme et racines exactes dans les textes.

7. Le concordancier

Doté d’une interface particulière (accessible depuis la fiche document), le concordancier est un outil d’analyse puissant qui permet de trouver les différents usages d’un mot, d’un lemme ou d’une racine dans le corpus. Le concordancier affiche le contexte et les statistiques des occurences.

8. La recherche exploratoire

La navigation exploratoire est un mode de navigation par rebond. Sans requête initiale, l’utilisateur peut s’aventurer dans le corpus via les filtres dynamiques.

9. Les filtres dynamiques et contextuels (facettes)

En marge des résultats, les filtres dynamiques aident à affiner la recherche. Ils indiquent par catégories les documents pertinents.

10. La suggestion de recherches

Cette fonction suggère à l’utilisateur des recherches connexes.

11. L’opérateur de distance entre deux mots

Cette fonction permet de rechercher deux mots en précisant le nombre de mots maximum qui les sépare.

12. Le module d’information/ promotion

Depuis le back-office, l’administrateur a la possibilité de gérer des espaces de communication ou de promotion (des actualités, des bannières informatives ou promotionnelles par ex.)

Autocomplétion Interface multilingue Recherche métadonnées Recherche plein texte Rech./ racine, lemme, mot Recherche exploratoire Affinage par facettes
MAKTABA
Synonymes Kounia Concordancier Suggestion de recherches Crosslingue Distance entre deux mots Promotion
MAKTABA
Fonctionnalité active dans la version
Fonctionnalité optionnelle


Le schéma fonctionnel


Le BackOffice

Un outil simple et intuitif pour l’administration, le contrôle et l’analyse

Le Back-Office se présente sous la forme d’une interface de gestion en mode web. Celle-ci intègre l’ensemble des logiciels de la solution. La configuration et l’administration sont simples et intuitives. De nombreux modules permettent son évolutivité (Thésaurus, fichiers SKOS), des tableaux de bord facilitent la supervision des logiciels et serveurs et d’en optimiser éventuellement la performance. Des graphiques et des rapports peuvent être édités pour analyser finement la fréquentation et l’usage des utilisateurs.




MODULES

Des modules de traitement des flux en langue arabe dédiés aux systèmes tiers

La gestion des données en langue arabe est un écueil pour bon nombre de systèmes dont les technologies sont tout à fait opérationnelles pour les contenus dans d’autres langues. Pour répondre aux divers besoins qui se posent pour les différents types de workflow (Extraction, moteur de recherche simple, veille avancée, analyse de sentiment, moteur de recherche intelligent) et faire de l’arabe une langue aussi simple à exploiter que les langues latines, Techlimed propose des modules de traitement qui s’intègrent sans modification des systèmes d’information existants grâce à l’accès simplifié via webservices et API.

Ce schéma montre des exemples de combinaison des modules Techlimed. Chaque système d’information ayant ses particularités, les besoins de traitement et d’analyse variant selon les finalités attendues, Techlimed étudie chaque configuration afin de fournir les meilleurs résultats.


TechExtract

C’est le module de prétraitement indispensable dans le cas de corpus numériques arabes. A partir de sources textuelles hétérogènes auxquelles s’appliquent les modules de segmentation et de lemmatisation, TechExtract permet d’obtenir une structuration linguistique basée sur le regroupement des mots sous leur lemme (stemming ou tokenisation).

Use case : vous disposez d’un moteur de recherche mutlilingue dont l’indexation est basée sur les mots clés

Problématique
Le niveau de qualité de la recherche pour le corpus arabe est inférieur à celui des autres langues.

Objectif
Améliorer les performances de vos recherches pour l’arabe.

Solution
Grâce à la segmentation et la lemmatisation, TechExtract optimise votre moteur en réduisant le silence et le bruit.
Réduction du silence
Les mots d’une même famille sont regroupés sous une seule entrée même si leur forme graphique est différente. La lemmatisation se fait sur la base d’un dictionnaire exhaustif de la langue arabe.
Réduction du bruit
L’analyse linguistique fine de l’arabe permet de classer deux mots ayant la même forme graphique mais n’ayant pas le même lemme dans leur famille respective.

Conclusion
TechExtract est une solution qui améliore très significativement l’indexation des mots clés en levant les nombreuses ambiguïtés et sources d’erreurs inhérentes à la langue arabe.


TechTag

C’est le module d’interprétation des textes écrits en arabe. TechTag ajoute des étiquettes morphosyntaxiques et/ou sémantiques au texte. Cela permet de modéliser différents niveaux d’interprétation en fonction des critères d’indexation souhaités : mots simples, expressions, entitées nommées, dates, nombres...

Use case : vous souhaitez mettre en place un moteur d’analyse de sentiment ou de veille avancée

Problématique
Vous souhaitez étiquetter des textes en langue arabe.

Objectif
Disposer de corpus catégorisés.

Solution
Grâce à l’étiquettage des entitées simples et composées du texte, TechTag vous permet d’identifier les traits indispensables qui définissent les éléments du texte en mettant en évidence les syntagmes, les groupes nominaux ainsi que les verbes qui les animent grâce aux critères de transitivité.

Conclusion
TechTag est le module qui ouvre les portes de l’indexation intelligente des corpus arabes à votre système d’information.


TechIndex

C’est le module de classification des informations adapté aux besoins des moteurs de recherches. Il fournit un index de haute qualité qui gère les ontologies, les synonymes, homonymes, kounia, etc..., Il est livré dans un format ouvert qui, grâce à de multiples connecteurs, communique immédiatement avec le système d’information en place.

Use case : vous souhaitez agréger et analyser de grands volumes d’informations multilingues

Problématique
Votre moteur ne gère pas les diverses couches issues de l’analyse de l’arabe (Voyellation, lemmes, racines, mots).

Objectif
Intégrer l’indexation de l’arabe dans votre système sans modifier votre technologie.

Solution
TechIndex est un module d’indexation mutlicouches (analyse et voyellation) complet de la langue arabe.

Conclusion
TechIndex, en intégrant toutes les variations morphosyntaxiques de l’arabe sans modification du cœur de votre architecture actuelle, est la solution la plus performante d’indexation intelligente pour vos corpus multilingues.


TechSearch

TechSearch est une bibliothèque complète de web services — accès à l’index, extraction de résultats, classification, gestion de filtres dynamiques et contextuels — qui lui confèrent une couverture fonctionnelle unique sur le marché.

Use case : Vous souhaitez intégrer à votre portail une gestion optimale de vos données et y accéder via une interface ergonomique.

Problématique
Vous souhaitez intégrer à votre portail une gestion optimale de vos données et y accéder via une interface ergonomique.

Objectif
Disposer d’un système mutlilingue performant et modulaire qui puisse gérer l’hétérogéneïté de vos données et effectuer des recherches intelligentes.

Solution
TechSearch est une solution globale de traitement, d’indexation et de recherche d’information multilingue. L’analyse linguistique des données en langue arabe (voyellation, extraction des racines, lemmes et mots) et son système de filtres dynamiques offrent de nombreuses possibilités d’interrogation de l’index (simple, avancée, linguistique, exploratoire). Dotée de fonctions expertes (gestion des synonymes, des homonymes, des hétéronymes (Kounia), prise en charge des thésaurus, fonction de rapprochement, gestion crosslingue) et d’un back office aussi simple qu’intuitif, TechSearch est une solution qui allie puissance et ergonomie.

Conclusion
TechSearch est une solution industrielle de traitement et de recherche d’information. Nos équipes de linguistes, d’informaticiens et de design web l’adaptent à votre cahier des charges tant au niveau fonctionnel qu’au niveau ergonomique (interface utilisateurs).


Technologie

Une plateforme NLP* 3 tiers

La technologie TECHLIMED est concentrée dans sa plateforme. Celle-ci est construite sur les principes du Natural Language Processing (NLP). Elle centralise et gère toute l’information linguistique ainsi que les algorithmes informatiques qui lui sont associés. Conçue sur la base d’un modèle mathématique propriétaire, elle est très performante dans la gestion de la base de connaissances, la compression des données et permet un ordonnancement dynamique des processus de traitement.

*Natural Language Processing/Traitement automatique du langage naturel

Les spécificités linguistiques de l’arabe requièrent des traitements appropriés


  • L’arabe est une langue non voyellée : hors contexte, il est difficile de distinguer le sens et la fonction des mots. Cette caractéristique introduit de fortes ambiguïtés.
  • L’arabe est une langue dite agglutinante. Les articles, les prépositions et les pronoms collent aux adjectifs, noms et verbes, ce qui implique de découper les mots avant de pouvoir en identifier les lemmes.
  • En arabe, les noms et les verbes connaissent de nombreuses variations graphiques, auxquelles il faut ajouter les marques de genre et les marques de nombre. Il existe également les marques duelles (qui modifient la forme verbale), les marques casuelles, liées au mot (nominatif « sujet » accusatif « objet » ou génitif « indirect ») et les marques de détermination. A cette complexité s’ajoute l’ aggluti- nation, caractéristique des langues sémitiques. Les articles, les prépositions et les pronoms sont collés aux adjectifs, noms et verbes.
  • Dans l’alphabet arabe, chaque lettre possède quatre allographes, à l’exception d’un petit nombre de lettres dont le tracé reste inva- riable. Chaque variante s’utilise dans un contexte précis.
  • La langue arabe n’utilise pas la majuscule. Sachant que la majuscule est un moyen très efficace pour reconnaître les noms propres, son absence contraint à trouver d’autres solutions pour identifier les entitées nommées (Noms propres).

Les composants

Codage

La langue arabe compte ainsi environ 230 millions de mots. Cette profusion implique la nécessité de décomposer le mot afin d’en isoler le noyau, ce dernier étant l’unité indexable. Le mot graphique arabe est une entité linguistique complexe. Celle-ci se compose d’un noyau, de marques morphologiques et de marqueurs morphosyntaxiques. La langue arabe étant hautement flexionnelle, il est possible, à partir d’un seul verbe, de former plus d’une centaine de mots ; d’une racine, d’innombrables formes nominales ou verbales différentes. A ces formes se greffent des clitiques qui indiquent les pronoms, les marques de liaisons, etc… La segmentation est donc le passage obligé si l’on souhaite indexer un corpus arabe. Notre module de segmentation fonctionne sur la base d’un algorithme puissant s’appuyant sur un lexique exhaustif des mots noyaux et une grammaire complète des clitiques. Grâce à une double validation (mots noyaux et clitiques), toutes les segmentations qu’il propose sont fiables (elles existent effectivemement dans la langue arabe).

Lemmatisation

En linguistique, le lemme désigne l’unité autonome constituante du lexique (C’est une notion proche de «mot», en plus précise). C’est ce que l’on nomme «entrée» dans un dictionnaire. Les lemmes d’une langue se déclinent et se conjuguent pour donner plusieurs formes graphiques. La lemmatisation consiste à déterminer la forme canonique de chaque lemme. C’est l’opération préliminaire pour la reconnaissance des mots d’une phrase et une indexation adaptée à la recherche intelligente.

Morphosyntaxe

L’analyse morphosyntaxique consiste en l’analyse de chacun des éléments du mot pour obtenir sa description morphologique : [Noyau] + [Genre, Nombre, Cas, Détermination] ou [Aspect, Pronoms]. Elle donne un niveau d’interprétation basique qui est indispensable pour toute opération de classification ou de recherche.

Voyellation

Les textes arabes sont quasi systématiquement non voyellés. Cette absence pose le problème de l’ambiguité des mots, sachant que, dans leur majorité, ces derniers acceptent de nombreuses voyellations potentielles. En premier lieu, le module de voyellation compare les mots non voyellés à la base de données afin d’établir le nombre de voyellations possibles. Il élimine ensuite les voyellations inappropriées en fonction du contexte. C’est la phase initiale de désambiguïsation.

Syntaxe

Ce module fait de la syntaxe de surface (analyse syntaxiques des mots du texte). Il extrait les groupes syntaxiques : groupes nominaux, verbaux et prépositionnels. Associé à un module d’interprétation syntaxique, il permet de subdiviser l’ensemble des groupes nominaux en noms communs, entitées nommées...

Sémantique

Ce module effectue plusieurs opérations dont l’identification de la transitivité des verbes, l’attribution de valeurs sémantiques aux mots-outils, l’ajout d’étiquette aux groupes nominaux afin de les classer par catégories


Des ressources lexicales exhaustives de l’arabe

Constituée de 7,3 millions de formes nominales et verbales selon des modèles spécifiques au traitement automatique de la langue arabe, et jusqu’à 30 millions de formes intégrant les clitiques, DiiNAR couvre l’ensemble de la langue arabe écrite. Cette base de données unique au monde est l’aboutissement de programmes de recherche universitaires menés par des linguistes professionnels en France et en Tunisie. Son élaboration a demandé l’équivalent de dix années homme. Validée manuellement, c’est une ressource linguistique exceptionnelle du fait de sa grande précision. Elle est gérée par des logiciels d’analyse et des générateurs de lexiques compacts et rapides.


Déploiement

Les solutions Techlimed sont disponibles en SaaS ou en licence, sur site ou hébergées. Le mode Saas présente des avantages à de nombreux niveaux : mise en œuvre, évolutivité fonctionnelle ou structurelle, maintenance, sécurité, mises à jour automatiques, économies d’infrastructure sans impact sur le budget d’investissement. ce mode permet au client de se concentrer sur son métier sans s’occuper de la technique.

Les modules Techlimed sont accessibles par Web Services. Les systèmes d’information déjà en place bénéficient ainsi des fonctionnalités nécessaires à leur besoin de traitement sans modification de leur coeur technologique.


Road Map

Depuis sa création en 2011, Techlimed poursuit son développement en intégrant de nouvelles compétences et en signant d’importants partenariats stratégiques avec des entreprises innovantes. Ces apports humains et technologiques ont permis la mise sur le marché de solutions globales et industrielles de traitement de l’information en langue arabe. En termes de R&D, le plan de marche prévoit d’enrichir notre expertise en développant toujours plus l’axe sémantique : le marché du big data en langue arabe est riche en perspectives. Les outils d’aide à la décision, d’analyse de sentiment, les moteurs de recherche intelligents, les applications avancées d’e-Education, etc...qui font appel aux technologies NLP, seront de plus en plus incontournables.


Contact

Pour nous contacter, merci de remplir ce formulaire


Siège social :

Techlimed
40, rue Bonnand - 69003 Lyon - France
Téléphone : +33 (0)4 78 58 32 35

Lab & Business France :

Techlimed
42, rue de l’Université - 69007 Lyon - France
Téléphone : +33 (0)4 78 58 32 35

Techlimed Tunisie :

Résidence El Habib - Les Berges du Lac
1053 - Tunis - Tunisie


Jobs

Techlimed est un laboratoire où se pensent et se construisent des solutions dédiées au traitement intelligent des données en langue arabe. Un monde nouveau se dessine et nous recherchons celles et ceux qui peuvent l’anticiper.


Postes ouverts

CDI : Informaticien/Développeur Web, Techlimed, Lyon

Le poste est basé à Lyon.

Contexte

Dans le cadre du développement de ses projets et activités, Techlimed souhaite recruter un informaticien développeur web en CDI à temps plein dès que possible avec, de préférence une expérience dans l’intégration et le déploiement de moteurs de recherche Open Source (Solr, ElasticSearch).

Mission

Le candidat retenu aura pour mission de développer des interfaces et applications web communiquant avec le cœur de la technologie Techlimed, notamment pour l’implémentation de moteurs de recherche. Il sera en charge de développer, maintenir et étendre des sites web dynamiques. Il sera à même de manipuler des fichiers XML, d’utiliser des scripts PHP ou JavaScript et de gérer l’interconnexion à des bases de données de type MySQL ou autres.
L’affichage des documents en ligne est réalisé par l’utilisation du langage XSLT/XPath.
Les compétences requises sont Apache, PHP, HTML, JAVA, AJAX, JQuery, JavaScript, SQL, XML, RDF, XML Schema, CSS, XSLT, XPath, Drupal, Symphony, WordPress, Responsive Web Design.

Profil souhaité

De formation Universitaire ou Ecole d’ingénieur (Diplômé d'une licence pro, master ou école d'ingénieur en conception /programmation / intégration web) avec une première expérience professionnelle dans le développement web.
Une expérience dans l’intégration et le déploiement des moteurs de recherche d’information Open Source (Solr, ElasticSearch, etc) serait un plus.
Vous êtes autonome et rigoureux(se), dot(é)e d'un bon esprit de synthèse.
Vous aimez le travail en équipe et faites preuve d'un bon sens du relationnel.
Salaire : en fonction des qualifications et expériences. Le poste est basé à Lyon. Les candidats doivent avoir la citoyenneté d’un pays de l’Union européenne ou être en possession d’un titre de séjour.

Toute candidature sera étudiée jusqu’à ce que le poste soit pourvu.


Stage : Développeur Web

Organisation

ce stage est organisé par l’Université/École d'ingénieur en collaboration avec TECHLIMED R&D. L’étudiant sera accompagné par l’équipe de TECHLIMED R&D et ses experts en traitement d'informations. En collaboration étroite avec un développeur senior, vous serez en charge de la maintenance et du co-développement des différentes applications composant la future plate-forme (en particulier un portail web).
Techlimed est un éditeur de logiciel NLP (linguistique et informatique) spécialisé dans le traitement automatique de la langue arabe.
Primée notamment par Oséo / Ministère de la Recherche, pour le caractère innovant de sa technologie, Techlimed est une startup développant des solutions orientées recherche et veille d’information. Notre société a une activité internationale, avec des partenaires et clients en Europe, au Maghreb et au Moyen-Orient.

Contexte

De nombreuses applications de TAL nécessitent de grandes quantités de données annotées manuellement. La production de ces données est coûteuse. D'autre part, la nature et la qualité des annotations à produire dépendent très largement des besoins en terme d'exploitations futures du corpus. Pour faciliter la production de tels corpus, plusieurs outils récents ont été développés parmi lesquels on peut citer : l'application Web 2.0 System EasyRef développé pour annoter des corpus syntaxiques et ACOLAD, plateforme open-source développé pour l'édition collaborative de corpus de dépendances. Ces outils tentent de résoudre de nombreux problèmes liés à la création et l'annotation de corpus, en particulier l'aspect collaboratif.

Mission

Aux cotés du chef de projet et de son équipe, vous serez en charge de la conception et la réalisation d'une plateforme collaborative d'annotation et d'analyse syntaxique. Vous participerez également au développement d'applications et sites web :
- conception technique, - développement.

Profil

Minimum Bac+3.
Vous êtes autonome.
Vous aimez travailler en équipe.
Vous vous adaptez rapidement à de nouveaux langages et technologies.
Vous êtes curieux et portez un intérêt aux dernières tendances du métier.

Compétences requises :

Maîtrise du langage PHP
Connaissance de HTML5, CSS3, jQuery, JavaScript, AJAX.
Connaissance de SQL sur les bases de données MySQL.
Connaissance du CMF Drupal serait un plus