annotation arabic text

Bonjour Prodigy,

Je vous écris pour vous demander de l'aide pour résoudre un problème que je rencontre dans mon travail d'annotation de texte de pharmacopées arabes. J'ai utilisé la recette NER Manual pour annoter mon texte, et bien que j'aie terminé l'annotation, je souhaite apporter quelques modifications que je n'arrive pas à effectuer.

En outre, je rencontre également des difficultés à travailler avec le package ar_core_news_sm. En effet, lorsque j'essaie de l'utiliser, j'obtiens le message d'erreur suivant : "No compatible package found for 'ar_core_news_sm' (spaCy v3.5.2)". J'ai essayé de télécharger d'autres versions, mais cela n'a pas résolu le problème.

Je serais très reconnaissant si vous pouviez m'aider à résoudre ces problèmes afin que je puisse continuer mon travail d'annotation. Merci d'avance pour votre aide.

Cordialement,
Tiziri

Bonjour @Tiziri!

I apologize for my response in English -- mon français n'est pas très bon :slight_smile:

From what I gathered, it seems like there isn't a ar_core_news_sm spaCy pre-trained pipeline. spaCy only has an Arabic tokenizer, and not a full pipeline.

You can still use Prodigy for Arabic -- but you'd need to start with the Arabic blank model blank:ar.

Since your request is more on spaCy, not Prodigy, I also want to point you to the spaCy GitHub discussions forum. That's where the spaCy dev team handles issues (this forum is really for Prodigy-specific questions). Related, you may find this post helpful too: