Piotr Pęzik, Agnieszka Karlińska - Polskie duże modele językowe PLLuM (PyData Bydgoszcz #33)
Автор: PyData Bydgoszcz
Загружено: 2025-04-07
Просмотров: 568
Описание:
PyData Bydgoszcz spotkanie 33
czwartek 06.03.2025
Młyny Rothera (Spichrz Zbożowy, 2. piętro), Mennica 10, Bydgoszcz
Dr hab. Piotr Pęzik, prof. UŁ
Jest kierownikiem Zakładu Językoznawstwa Korpusowego i Komputerowego w Uniwersytecie Łódzkim, autorem ponad 100 prac naukowych i rozwiązań informatycznych z dziedziny językoznawstwa korpusowego i komputerowego. Był wykonawcą i kierownikiem krajowych i europejskich projektów badawczo-rozwojowych, m. in. NKJP, CESAR, PLEC, BootStrep. Konsultant naukowy sektora prywatnego (np. Pfizer UK, Transition Technologies, Voicelab) w zakresie systemów ekstrakcji informacji z danych językowych. Autor wyszukiwarek frazeo.pl, http://spokes.clarin-pl.eu/, http://monco-pl.clarin-pl.eu/, słowników frazeologicznych HASK EN i HASK PL. Koordynator projektu CLARIN-PL w Uniwersytecie Łódzkim. Główny autor i opiekun Wyszukiwarki PELCRA dla NKJP. Kierował pracą zespołu UŁ w projekcie PLLuM.
Dr Agnieszka Karlińska
Jest adiunktką w Ośrodku Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK PIB, gdzie zajmuje się z jednej strony tworzeniem narzędzi do wykrywania treści szkodliwych, takich jak mowa nienawiści, z drugiej zaś – budową bezpiecznych i wiarygodnych dużych modeli językowych. Skupia się w szczególności na ewaluacji skłonności LLM-ów do generowania treści toksycznych i dyskryminujących oraz na przeciwdziałaniu występowaniu obciążeń na różnych etapach tworzenia modeli. Z ramienia NASK kierowała projektem PLLuM, którego celem było utworzenie polskiego dużego modelu językowego. Aktualnie zajmuje się m.in. kwestiami związanymi z wdrażaniem polskich LLM-ów w administracji publicznej.
"Polskie duże modele językowe PLLuM”
"Wystąpienie będzie poświęcone procesowi tworzenia polskich dużych modeli językowych dostosowanych do potrzeb administracji publicznej. Przedstawimy kluczowe aspekty prac nad modelami z rodziny PLLuM – od pozyskiwania danych uczących, przez pretrening (zarówno w wariancie jednojęzycznym, jak i w formie kontynuacji treningu w celu adaptacji językowej) i dostrajanie na instrukcjach (ang. instruction fine-tuning), po wychowanie (ang. alignment). Omówimy wyzwania metodologiczne pojawiające się na każdym z tych etapów oraz pokażemy, jak modele sprawdzają się w różnorodnych zadaniach. Zaprezentujemy również narzędzie do szybkiej konfiguracji i testowania systemów RAG oraz nasze podejście do walidacji zdolności wyszukiwawczych modeli."
PyData Bydgoszcz
https://www.meetup.com/PyData-Bydgoszcz
[email protected]
/ pydatabydgoszcz
/ pydatabydgoszcz
#BydgoszczIT
/ pydatabydgoszcz
Nagranie sponsorowane przez firmę Sii
https://sii.pl
Realizacja wideo:
Jacek Owczarz
Jack Jack Films
+48 884 391 000
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: