Natural Language Processing Group
Gathering and revealing the information
Kdo jsme?
Jsme pracovní skupina věnující se problematice zpracování přirozeného jazyka. Zaměřujeme se na sémantické zpracování elektronických textových dat vytvořených v přirozených jazycích s cílem odhalit znalosti skryté v těchto datech. Používáme zejména metody strojového učení. Vyvíjíme webové i mobilní aplikace, které využívají algoritmy texminingu, pro řešení problémů běžných uživatelů a zákazníků. Naše řešení jsou využívána i komerčními společnostmi.
Výstupy
Užitečné
Při naší práci využíváme různé nástroje pro přípravu a následnou analýzu textových dokumentů. Jde například o lemmatizaci, stemming, odstranění stopslov, identifikace sentimentu, a další. Najdete zde i našeho chatbota, který doporučuje mobilní telefony.
Zpracování přirozeného jazyka
Odhaduje se, že přes 80 % dat je dnes uloženo v podobě textů (novinové články, e-maily, blogy, příspěvky na Facebooku atd.), jež jsou málo nebo vůbec strukturované. Potřeba analýzy textových dat v současné době roste a stává se velmi komerčně zajímavou oblastí. Cílem analytických úloh je odhalení předem neznámých znalostí obsažených v těchto datech netriviálními metodami. Výsledky nacházejí uplatnění v oblastech marketingu, počítačové bezpečnosti, informačních služeb, literárních rešerší, řízení lidských zdrojů, boje proti terorismu apod.
Práce s textovými daty je obecně velmi obtížná. Data jsou většinou nestrukturovaná a mají zcela jiný charakter než data číselná (složitá gramatika, různý význam slov, subjektivita, ironie apod.). Postupy uspokojivě fungující pro jednu doménu nemusejí navíc fungovat pro doménu jinou. Snahou je nasadit metody z oblasti Data Miningu. Tato zralá a dobře rozvinutá disciplína se také zaměřuje se na hledání skrytých znalostí v datech, ale pracuje s vysoce strukturovanými číselnými daty. Je tedy výhodné textová data připravit tak, aby na ně byly metody Data Miningu použitelné. To vyžaduje nasazení postupů z oblastí, jakými jsou zpracování přirozeného jazyka, statistika, strojové učení, lingvistika a dalších.
Pro analýzu textových dat jsou v rámci výzkumu aplikovány zejména metody strojového učení s učitelem (klasifikace), bez učitele (shlukování, výběr atributů, hledání asociací) a částečně řízeného učení (semi-supervised) a jejich kombinace. Cíle výzkumu zahrnují kategorizaci textových dokumentů, vyhledávání dokumentů na základě podobnosti, odhalování sémantiky skupin dokumentů, hledání atributů, které vyjadřují význam, analýzu sentimentu a další. V úvahu se berou specifické vlastnosti a omezení těchto úloh, jako například malý počet vhodných příkladů, obrovské objemy a dimenzionalita dat, řídkost vektorů reprezentujících data, nevyvážených tříd či mnohojazyčnost. Tyto zvláštnosti jsou typické pro soubory dat vytvářených samotnými uživateli na sociálních sítích, mikroblozích nebo diskusních fórech (na rozdíl od vědeckých prací či novinových článků). Budoucí výzkum se zaměří také na analýzu vztahů mezi textovými daty (zprávy, ekonomické souhrny, příspěvky a liky na sociálních sítích) a různými ekonomickými jevy, jako je například vývoj cen akcií.
Při realizaci výzkumu jsou vyvíjeny a nasazovány nástroje pro předzpracování dat, zahrnujících stemming, odstranění stop slov, určení slovních druhů, kontrolu pravopisu a další. Pro transformaci dat do formátu vhodného pro algoritmy strojového učení a nejrůznější softwarové nástroje je průběžně vyvíjena unikátní aplikace s volitelným grafickým uživatelským rozhraním. Výzkum zahrnuje také aplikaci profesionálního komerčního či open-source programového vybavení (C5, Cluto, Weka, IBM SPSS Modeler a další).