O szkoleniu
Cele szkolenia
- Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
- Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego
Wymagania
- Podstawowa znajomość języka Python
- Obszerne wprowadzenie do świata analizy danych tekstowych
- Zapoznanie z najważniejszymi narzędziami i technikami
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
- Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
- Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
- Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi
Program szkolenia
Wprowadzenie
- Źródła i zastosowania danych tekstowych
- Definicje pojęć
- Języki programowania stosowane do analizy danych tekstowych
Podstawowe narzędzia i biblioteki
- Regex
- Pandas
- Scikit-learn
- NLTK
- SpaCy
Pozyskiwanie danych tekstowych
- Wczytywanie danych
- Czytanie danych z API (np. Twitter)
- Web scraping
Czyszczenie i normalizacja danych
- Tokenizacja
- Usuwanie zbędnych znaków
- Rozwijanie skrótów
- Usuwanie nieistotnych słów
- Poprawianie literówek
- Stemming/lematyzacja
Wizualizacja danych tekstowych
- Wykres długości słów
- Wykres częstości słów
- Word cloud
Reprezentacje danych tekstowych
- Document-term matrix
- word2vec
- fasttext
- doc2vec
Podsumowywanie tekstu
- Kolokacje
- TextRank
Podobieństwo tekstu
- Miary podobieństwa słów
- Miary podobieństwa dokumentów
Uczenie maszynowe w analizie języka naturalnego
- Klasteryzacja dokumentów
- Klasyfikacja dokumentów
Znakowanie tekstu częściami mowy
- Universal tagset
- Penn TreeBank tagset
Analiza wydźwięku
- Podejście słownikowe
- Podejście oparte na metodach uczenia maszynowego
Rozpoznawanie nazw własnych
Semantyczne podobieństwo słów
Parsowanie zdań
- Parsowanie płytkie
- Parsowanie zależnościowe
Czas trwania
3 dni: 24h
Prelegenci
Patryk Pilarski
Data scientist. Dobrze czuje się w pracy z danymi w każdym rozmiarze – od dużych po małe. Na ścieżce kariery poszukuje interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracował w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych. Chętnie zgłębia nowe technologie oraz języki programowania. Stara się również przekazywać pozyskaną wiedzę i umiejętności wcielając się w rolę trenera.
Co robię na co dzień?
Na co dzień pracuję w Mercerze jako Senior Data Scientist gdzie zajmuję się szeroko pojętym data science: R&D, budowanie modeli, ML engineering, data engineering. Gdy tylko czas na to pozwala prowadzę szkolenia w Sages.
Dlaczego lubię szkolić?
Każde szkolenie to ciekawe i złożone wyzwanie wymagające planowania, elastyczności, umiejętności technicznych oraz umiejętności miękkich. Dodatkowo przekazywanie wiedzy daje sporo frajdy, a spotykanie ludzi którzy chcą się rozwijać to sama przyjemność.
Terminy i miejsca
To szkolenie nie ma aktualnych terminów. Wyślij zapytanie o nowe terminy bądź zapisz na powiadomienia o nowych terminach.
Rejestracja
- udział w zajęciach
- materiały szkoleniowe
- certyfikat uczestnictwa
Wydarzenie nieaktualne. Wypełnij formularz, aby zapytać o nowe terminy.
Organizator
Najczęściej zadawane pytania
- Nazwa firmy: Sages Sp. z o.o.
- Ulica i nr: ul. Wąwozowa 11
- Kod pocztowy: 02-796
- Miejscowość: Warszawa
- Numer NIP: 1132737407
Masz pytania? Napisz do nas
