Mi az az 1-bites LLM és mire jó? A Microsoft BitNet b1.58 2B4T és a BitNet keretrendszer bemutatása
Автор: Zsolt Pinter
Загружено: 2025-04-22
Просмотров: 1189
Описание:
A BitNet 1-bites súlyokat használ a hagyományosabb lebegőpontos (pl. FP16) vagy alacsonyabb bites (pl. 8-bites) kvantálással szemben, jelentősen csökkentve a memóriaigényt és az energiafogyasztást. A BitNet b1.58 ezt továbbfejleszti ternáris súlyokkal (-1, 0, 1), ami tovább javítja a hatékonyságot és a modellezési képességeket.
Legyél Te is Tagja az Mp3Pintyo csatornának
/ @mp3pintyo
DISCORD
Mp3Pintyo szerver: / discord
Támogatás
Patreon: / mp3pintyo
Linkek
BitNet: Scaling 1-bit Transformers for Large Language Models: https://arxiv.org/pdf/2310.11453
The Era of 1-bit LLMs All Large Language Models are in 1.58 Bits: https://arxiv.org/pdf/2402.17764
The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ: https://github.com/microsoft/unilm/bl...
1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs: https://arxiv.org/pdf/2410.16144
BitNet b1.58 2B4T Technical Report: https://arxiv.org/pdf/2504.12285
Hugging Face BitNet b1.58 2B4T - Scaling Native 1-bit LLM: https://huggingface.co/microsoft/bitn...
GitHub Bitnet.cpp: https://github.com/microsoft/BitNet
BitNet Demo: https://bitnet-demo.azurewebsites.net/
unsloth/DeepSeek-R1-GGUF: https://huggingface.co/unsloth/DeepSe...
Run DeepSeek R1 Dynamic 1.58-bit: https://unsloth.ai/blog/deepseekr1-dy...
Fine-tuning LLMs to 1.58bit: extreme quantization made easy: https://huggingface.co/blog/1_58_llm_...
Telepítés
wsl
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet
(Recommended) Create a new conda environment
conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt
sudo apt update
sudo apt install -y build-essential cmake
sudo apt install -y clang
Modell előkészítése és letöltése:
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T
python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s
Futtatás
python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv -n 256
Mi az az 1 bites LLM?
A hagyományos nagyméretű nyelvi modellek (LLM-ek), mint például a GPT vagy a LLaMA, a paramétereiket (súlyaikat) nagy pontossággal, általában 16 vagy 32 biten tárolják
Ezek a súlyok határozzák meg a neurális hálózatban a neuronok közötti kapcsolatok erősségét, és közvetlenül befolyásolják a modell előrejelzéseit.
Az 1 bites LLM-ek ezzel szemben egy extrém módszert alkalmaznak, az úgynevezett kvantálást
Ez azt jelenti, hogy a modell paramétereit (súlyait) nagyon kevés, mindössze két vagy három különböző értékre korlátozzák.
Ha a súlyok csak két értéket vehetnek fel (például -1 és +1), akkor bináris, vagyis 1 bites modellről beszélünk.
Ha a súlyok három értéket vehetnek fel (általában -1, 0 és +1), akkor ternáris modellről beszélünk, ami körülbelül 1.58 bitet jelent ($\log_2(3) \approx 1.58$). A BitNet b1.58 egy ilyen ternáris modell.
Miért jók az 1 bites LLM-ek?
Az extrém kvantálás számos előnnyel jár
Jelentősen csökkentett memóriaigény: Mivel a súlyok tárolásához sokkal kevesebb bitre van szükség, a modell teljes memória lábnyoma drasztikusan lecsökken
Ez lehetővé teszi, hogy nagyobb modelleket futtassunk olyan eszközökön, amelyek korábban nem lettek volna képesek rá. Például a BitNet b1.58 2B paraméteres modell mindössze 0.4 GB memóriát igényel a nem beágyazott rétegekhez, míg a hasonló méretű hagyományos modellek ennek többszörösét
Alacsonyabb energiafogyasztás: Kevesebb memória és egyszerűbb számítások miatt az 1 bites modellek kevesebb energiát fogyasztanak
A BitNet b1.58 például a mátrixszorzásoknál akár 71.4-szeres energia megtakarítást is elérhet a hagyományos FP16 modellekhez képest
Gyorsabb következtetés (inference): Az alacsonyabb bitmélység és a kevesebb szorzási művelet miatt az 1 bites modellek gyorsabban tudnak szöveget generálni (inference)
A bitnet.cpp keretrendszer például jelentős sebességnövekedést tesz lehetővé CPU-kon. A BitNet b1.58 2B CPU-n történő dekódolási késleltetése például jelentősen alacsonyabb, mint a hasonló méretű FP16 modelleké
Potenciál a hardveroptimalizálásra: Az 1 bites modellek új számítási paradigmát jelentenek, ami lehetőséget teremt a speciálisan erre a célra optimalizált hardverek tervezésére
** BUYING MY ARTS **
► https://www.etsy.com/shop/mp3pintyo
► https://stock.adobe.com/contributor/2...
** STAY ACTIVE FOR A FOLLOW **
►TWITTER: / mp3pintyo
►INSTAGRAM: / mp3pintyo
►PINTEREST: / mp3pintyo
►SOUNDCLOUD: / mp3pintyo
Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.
#ai #mesterségesintelligencia #mi #mp3pintyo
Повторяем попытку...

Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: