RICH-Informatik
Published on

Wortwolke mit Python und Computerlinguistik (NLP)

Authors

Wortwolke mit Python und Computerlinguistik (NLP)

result

Im Informationszeitalter werden wir immer mehr mit Nachrichten überflutet. Um immer auf dem Laufenden zu bleiben, kann man Blogs verfolgen, Bücher lesen und RSS-Reader genau im Auge behalten. Aber selbst wenn man versucht, alles zu tun, ist es einfach unmöglich. Deshalb wird es wichtiger, innovative Wege zu finden, sie zu verarbeiten. In diesem Beitrag werde ich eine Methode Methoden zur Erstellung von Wortwolken mit Python vorstellen. Bei diesem Prozess können wir mithilfe von NLP (Natural Language Processing) Themen aus Texten extrahieren und als eine Wortwolke darstellen.

Wir werden uns Finanznachrichten ansehen und daraus eine Zusammenfassung der wichtigsten Informationen erstellen, die es uns ermöglicht, die Trends in den Finanznachrichten besser zu analysieren. Die Nachrichten werden als eine visuelle Token-Wolke aller Token in unserem Text visualisiert. Man kann sich das auch so vorstellen, dass die Größe eines jeden Wortes proportional zu seiner Häufigkeit im Korpus ist.

Die Wortwolke wird mit dem Python-Paket wordcloud generiert.

Der Quellcode wird hier auf github veröffentlicht.

Für Fragen und Diskussionen bin ich auch auf Twitter (@RidvanChasan)) zu finden.