{"id":914,"date":"2023-09-20T16:20:50","date_gmt":"2023-09-20T16:20:50","guid":{"rendered":"https:\/\/sciencesetrecherches.eu\/?p=914"},"modified":"2023-09-20T16:21:09","modified_gmt":"2023-09-20T16:21:09","slug":"914","status":"publish","type":"post","link":"https:\/\/sciencesetrecherches.eu\/?p=914","title":{"rendered":"vLLM : Machine Learning"},"content":{"rendered":"\n<h1 class=\"wp-block-heading\">vLLM : d\u00e9couvrez la biblioth\u00e8que Machine Learning open source et ultra rapide<\/h1>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><em>vLLM est une biblioth\u00e8que open source de pointe con\u00e7ue pour rationaliser le processus d\u2019inf\u00e9rence et de service du Large Language Model (LLM). En mettant l\u2019accent sur la rapidit\u00e9, l\u2019efficacit\u00e9 et la polyvalence, vLLM vise \u00e0 relever les d\u00e9fis associ\u00e9s au d\u00e9ploiement de LLM dans diverses applications.<\/em><\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">vLLM : fournir une solution d\u2019inf\u00e9rence et de service LLM efficaces<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>D\u00e9velopp\u00e9e par les chercheurs de l\u2019UC Berkeley<\/strong> (universit\u00e9 de Californie \u00e0 Berkeley), vLLM est con\u00e7ue pour fournir une <strong>solution d\u2019inf\u00e9rence <\/strong>(la capacit\u00e9 du mod\u00e8le \u00e0 g\u00e9n\u00e9rer des pr\u00e9dictions ou des r\u00e9ponses en fonction du contexte et des entr\u00e9es qui lui ont \u00e9t\u00e9 fournies) <strong>et de service LLM efficaces<\/strong>.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>La plateforme est optimis\u00e9e pour un service \u00e0 haut d\u00e9bit<\/strong>, permettant aux organisations de traiter efficacement un grand nombre de demandes. vLLM garantit des<strong> temps de r\u00e9ponse rapides<\/strong>, ce qui en fait une plateforme adapt\u00e9e aux applications n\u00e9cessitant des interactions en temps r\u00e9el.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cette biblioth\u00e8que de Machine Learning est aussi flexible et facile \u00e0 utiliser. Cette flexibilit\u00e9 et cette facilit\u00e9 de prise en main<strong> simplifient le processus de d\u00e9ploiement<\/strong>. Cela permet \u00e9galement aux utilisateurs d\u2019utiliser leurs architectures LLM pr\u00e9f\u00e9r\u00e9es sans avoir besoin de modifications importantes.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Am\u00e9liorer les performances par rapport aux biblioth\u00e8ques existantes<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>vLLM se fixe comme objectif d\u2019am\u00e9liorer les performances<\/strong>. La solution vise \u00e0 \u2018offrir un d\u00e9bit nettement sup\u00e9rieur \u00e0 celui des biblioth\u00e8ques existantes <strong>en red\u00e9finissant la r\u00e9f\u00e9rence en mati\u00e8re de d\u00e9bit de service LLM<\/strong>. Cela en fait un choix attrayant pour les organisations recherchant des performances optimales.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">PagedAttention se pr\u00e9sente \u00e9galement comme un facteur cl\u00e9 dans l\u2019am\u00e9lioration de ses performances. PagedAttention est une<strong> approche innovante en mati\u00e8re de gestion de l\u2019attention<\/strong>. Elle r\u00e9duit la surcharge de m\u00e9moire et am\u00e9liore l\u2019efficacit\u00e9 globale, en particulier lors de l\u2019utilisation d\u2019algorithmes d\u2019\u00e9chantillonnage complexes.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>La compatibilit\u00e9 de vLLM avec divers mod\u00e8les HuggingFace<\/strong>, y compris des architectures telles que GPT-2, GPT-NeoX, Falcon, fait \u00e9galement partie de ses points forts. Cette int\u00e9gration permet aux utilisateurs d\u2019exploiter facilement la puissance des architectures LLM \u00e9tablies.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>La compatibilit\u00e9 de vLLM avec divers mod\u00e8les HuggingFace<\/strong>, y compris des architectures telles que GPT-2, GPT-NeoX, Falcon, fait \u00e9galement partie de ses points forts. Cette int\u00e9gration permet aux utilisateurs d\u2019exploiter facilement la puissance des architectures LLM \u00e9tablies.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Au-del\u00e0, vLLM pr\u00e9sente un autre avantage. <strong>La biblioth\u00e8que optimise l\u2019utilisation de la m\u00e9moire<\/strong>. La cl\u00e9 d\u2019attention et les tenseurs de valeur, appel\u00e9s cache KV, sont g\u00e9r\u00e9s efficacement par PagedAttention.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cet algorithme permet un stockage en m\u00e9moire non contigu\u00eb de cl\u00e9s et de valeurs continues. Cela r\u00e9duit la fragmentation de la m\u00e9moire et la surr\u00e9servation, faisant de vLLM <strong>une solution \u00e9conome en m\u00e9moire qui contribue \u00e0 un d\u00e9bit am\u00e9lior\u00e9<\/strong>. En tenant compte de toutes ses caract\u00e9ristiques, vLLM joue un r\u00f4le pr\u00e9cieux pour r\u00e9pondre aux diverses demandes des d\u00e9veloppeurs, des chercheurs et des entreprises d\u2019IA.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.lebigdata.fr\/decouvrir-vllm\">https:\/\/www.lebigdata.fr\/decouvrir-vllm<\/a><\/p>\n<\/blockquote>\n","protected":false},"excerpt":{"rendered":"<p>vLLM : d\u00e9couvrez la biblioth\u00e8que Machine Learning open source et ultra rapide vLLM est une biblioth\u00e8que open source de pointe con\u00e7ue pour rationaliser le processus d\u2019inf\u00e9rence et de service du Large Language Model (LLM). En mettant l\u2019accent sur la rapidit\u00e9, l\u2019efficacit\u00e9 et la polyvalence, vLLM vise \u00e0 relever les d\u00e9fis associ\u00e9s au d\u00e9ploiement de LLM [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":915,"comment_status":"closed","ping_status":"closed","sticky":true,"template":"","format":"standard","meta":{"_themeisle_gutenberg_block_has_review":false,"footnotes":""},"categories":[105,103,106,104],"tags":[107,109,108,111,110],"series":[],"class_list":["post-914","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-bigdata","category-llm","category-machine-learning","category-vllm","tag-bigdata","tag-llm","tag-machine-learning","tag-open-source","tag-vllm"],"_links":{"self":[{"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/posts\/914","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=914"}],"version-history":[{"count":2,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/posts\/914\/revisions"}],"predecessor-version":[{"id":917,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/posts\/914\/revisions\/917"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=\/wp\/v2\/media\/915"}],"wp:attachment":[{"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=914"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=914"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=914"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/sciencesetrecherches.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fseries&post=914"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}