Natural Language Processing (NLP) to interdyscyplinarna dziedzina badań i inżynierii łącząca:
Celem NLP jest umożliwienie komputerom:
Realne zastosowania technologii NLP:
NLP łączy klasyczne struktury danych z przetwarzaniem dużych zbiorów nieustrukturyzowanych danych tekstowych.
Umożliwia wykorzystanie wiedzy z zakresu:
Coraz większa rola NLP w rozwiązaniach opartych na danych (Data Science, AI)
Komputery nie operują na słowach, lecz na liczbach. Potrzebujemy odwzorowania słów (lub dokumentów) w przestrzeni numerycznej.
Najczęstsze techniki:

Każde słowo reprezentowane jako wektor, w którym tylko jedna wartość wynosi 1 (pozostałe 0).
Zalety:
Wady:
Brak informacji semantycznych (słowa "król" i "królowa" są tak samo odległe jak "król" i "rower")
Wzmacnia rzadkie, ale informatywne słowa, redukuje wpływ słów występujących często w korpusie.
Zalety:
Wady:
Słowa jako gęste wektory w przestrzeni ciągłej, uczone na podstawie kontekstu występowania.
Przykłady modeli:
Zalety:

Tokenizacja:
Segmentacja zdań:
Przykład: Tekst: „Nie wiem, co powiedzieć. To dziwne!”
Zdania:

Lematyzacja:
Stemming:
Lematyzacja jest dokładniejsza, lecz bardziej kosztowna obliczeniowo.
Definicja:
Proces przypisywania każdemu tokenowi jego kategorii gramatycznej (rzeczownik, czasownik, przymiotnik itd.).
Znaczenie:
Przykład: „Zamek był piękny.”
→ „Zamek” – rzeczownik (NN)
Named Entity Recognition:
Zastosowania:
Ekstrakcja informacji, wyszukiwanie semantyczne, systemy rekomendacyjne.
Przykład:
„OpenAI została założona w San Francisco w 2015 roku.”
→ [ORG: OpenAI], [LOC: San Francisco], [DATE: 2015]
Parsing składniowy:
Typy analizatorów:
Zastosowania:
Definicja:
Automatyczne wykrywanie ładunku emocjonalnego wypowiedzi (np. pozytywny, negatywny, neutralny).
Metody:
Przykład:
„Film był genialny!” → Sentyment: pozytywny
Opis:
Zalety:
Wady:
Podejście probabilistyczne:
Ograniczenia:
Uczenie maszynowe (ML) w NLP:
Uczenie głębokie (DL):
Czym jest model językowy?
Model statystyczny lub neuronowy przewidujący kolejne słowa w sekwencji
Typy:
Zastosowania:
Architektura Transformer (Vaswani et al., 2017):
Najważniejsze modele:
