4 Chat AI - optymalizacje
Автор: Problem Solution
Загружено: 2026-03-02
Просмотров: 11
Описание:
W tej części rozwijamy RAG o nowoczesne embeddingi oparte o Sentence Transformers.
Korzystamy z modelu intfloat/e5-base-v2 i pokazuję, jak dobrać precyzję obliczeń (Float16 vs Float32) oraz jak strumieniować odpowiedzi generowane przez LLM.
Wyjaśniam:
czym są Sentence Transformers i czym różnią się od prostych embeddingów
jak działa model intfloat/e5-base-v2 i dlaczego dobrze sprawdza się w RAG
różnice między Float16 a Float32 (wydajność, pamięć, jakość)
jak generować i porównywać embeddingi dokumentów i zapytań
jak zbudować RAG oparty o Sentence Transformers w prostym CLI
prompt engineering pod wyszukiwanie semantyczne
jak zaprojektować chata w chacie ChatGPT za pomocą promptów
streaming odpowiedzi LLM – token po tokenie
omówienie kodu oraz uruchomienie kompletnego rozwiązania
Dla osób, które chcą zbudować wydajny, lokalny RAG, zrozumieć trade-offy precyzji obliczeń i zobaczyć, jak działa strumieniowanie odpowiedzi w praktyce.
Zobacz też:
Część 3 – Chat AI - RAG: embedding: lexical search: • 3 Chat AI - RAG: embedding
Część 5 – Chat AI - UI: • 5 Chat AI - UI
00:00 Wprowadzenie
00:26 Sentence Transformers
01:37 Float16 a Float32
02:08 Streaming odpowiedzi
02:49 Prompty
04:57 Omówienie kodu
09:07 Uruchomienie chata AI
10:37 Podsumowanie
Pełne materiały, pliki i uzupełniające treści znajdziesz też na naszej stronie:
https://problem2solution.com.pl/
#RAG #SentenceTransformers #E5 #Embeddings #Float16 #Float32 #Streaming #LLM #LocalAI #OfflineAI #PromptEngineering #Chatbot #Python #CLI #Tutorial #SztucznaInteligencja #ProblemToSolution
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: