Le 18 avril, plusieurs sources de capital-risque ont confirmé que DeepSeek a entamé son premier tour de levée de fonds externe, selon (Pail News). La société vise une valorisation dépassant $10 billion et prévoit de lever au moins $300 million afin de renforcer ses réserves de capital dans un contexte de hausse des coûts dans la compétition en IA, d’après des informations relayées par des sources informées.
DeepSeek a précédemment gagné une reconnaissance dans l’industrie en refusant de mettre l’accent sur la commercialisation, en s’appuyant sur le fondateur Liang Wenfeng et sur le soutien de Phantasm Capital. La société disposait de solides capacités techniques dans les secteurs du trading quantitatif et de la finance intelligente et faisait partie des premières entreprises chinoises de grands modèles à exploiter un cluster GPU de 10 000 cartes.
Malgré la notoriété de DeepSeek après son succès viral durant le Nouvel An chinois l’an dernier, l’entreprise a subi d’importantes pertes de talents. Selon les informations de (Pail News), plusieurs chercheurs clés ont quitté l’entreprise depuis l’an dernier, principalement de jeunes scientifiques « nés après 1995 » :
Chercheur en modèle multimodal : Le 12 avril, l’entreprise de conduite autonome YuanRong Autonomous Driving a confirmé publiquement que Ruan Cong, contributeur clé du modèle multimodal de DeepSeek, a rejoint l’entreprise en tant que Chief Scientist et fera sa première apparition publique au Beijing Auto Show.
Auteur du premier LLM : Wang Bingxuan, auteur clé du premier grand modèle de langage de DeepSeek, a récemment annoncé rejoindre Tencent.
Auteur de la série OCR : Wei Haoran, auteur clé de la série DeepSeek-OCR, a quitté l’entreprise vers le Nouvel An chinois de cette année, mais n’a pas divulgué publiquement son nouvel employeur.
Chercheur sur l’algorithme GRPO : Le 16 avril, il a été rapporté que l’ancien chercheur clé de DeepSeek Guo Daya avait rejoint ByteDance, avec un salaire annoncé dans les centaines de millions de yuans. D’après les divulgations connexes, Guo Daya a rejoint l’organisation Seed de ByteDance, responsable de la recherche et du développement de grands modèles, en tant que l’un des responsables de la direction (intelligent agent) au niveau L8. Guo Daya est identifié comme un contributeur majeur à l’algorithme GRPO, qui constitue le cœur de la méthodologie d’entraînement au raisonnement de DeepSeek-R1. Le même jour, le vice-président du groupe ByteDance, Li Liang, a répondu que le rapport était inexact et que l’entreprise n’avait pas récemment embauché d’employés avec des salaires annuels proches de cent millions de yuans. Toutefois, d’après plusieurs sources confirmées par (Pail News), Guo Daya a bien rejoint ByteDance.
Chercheuse en apprentissage profond : Le 12 novembre, l’ancienne chercheuse clé de DeepSeek Luo Fuli a annoncé publiquement rejoindre Xiaomi MiMo, en indiquant dans une publication sur les réseaux sociaux : « L’intelligence finira par passer du langage au monde physique. Je suis chez Xiaomi MiMo, travaillant avec un groupe de chercheurs créatifs, talentueux et vraiment passionnés pour construire ce futur et poursuivre l’AGI que nous envisageons. » D’après des informations publiques, Luo Fuli a obtenu son diplôme du programme d’informatique de la Beijing Normal University et a achevé un master en linguistique computationnelle à l’Université de Pékin. Après son master, elle a rejoint l’académie Alibaba DAMO en tant que chercheuse au laboratoire de l’intelligence machine, développant le modèle de pré-entrainement multilingue VECO et promouvant le travail open-source AliceMind. En 2022, Luo Fuli a rejoint Phantasm Quantitative (DeepSeek’s parent company) pour des travaux d’apprentissage profond, puis a occupé le poste de chercheuse en apprentissage profond chez DeepSeek et a participé au développement de modèles, notamment DeepSeek-V2.
Sur la base des informations ci-dessus, DeepSeek a connu des pertes de talents clés dans plusieurs domaines, notamment les grands modèles de langage fondamentaux (LLM), les agents intelligents Agent, la reconnaissance optique de caractères OCR et les technologies multimodales.
Selon des sources de l’industrie, le niveau de salaire et de rémunération de DeepSeek se situe au milieu de la fourchette du secteur, ce n’est pas le plus élevé. Cependant, les chasseurs de têtes accélèrent actuellement le débauchage depuis l’équipe de DeepSeek, avec des salaires 2 à 3 fois plus élevés et des options d’actions, accélérant ainsi les pertes de personnel.
Le 8 avril, de nouvelles mises à jour de l’interface ont été observées sur DeepSeek : la zone de saisie affiche désormais des options « Quick Mode » et « Expert Mode ». D’après l’affichage de la page web, Quick Mode convient aux conversations quotidiennes avec des réponses immédiates et prend en charge la reconnaissance de texte à partir d’images et de fichiers, tandis que Expert Mode excelle sur les problèmes complexes. Ces mises à jour marquent la première introduction, par DeepSeek, de modes en couches sur sa page officielle.
Ces mises à jour ont relancé les spéculations autour de la sortie de la V4 de DeepSeek. D’après des rapports des médias externes et des informations provenant des réseaux sociaux ainsi que de plusieurs sources, DeepSeek devrait lancer formellement la V4 en avril. Selon les attentes externes, si cette sortie V4 devait reproduire le phénomène du Nouvel An chinois de l’an dernier, elle fera sans aucun doute face à des défis plus importants, et les pertes de personnel auront inévitablement un impact sur la sortie de la V4.