Słowa i wykresy – fundament pożywnego posta

Ostatnio prawie w ogóle nie czytam książek. Jakiś czas temu zdarzało mi się to jeszcze w autobusie, ale potem zacząłem drukować sobie na drogę różne materiały z pracy. Teraz nimi głównie się zaprzątam w środkach komunikacji, a współpasażerowie, o ile umieją czytać z ruchu warg, widzą, jak bardzo mnie to niekiedy porusza. Literatury jako takiej czytam natomiast mało. Dużo mniej niż przystoi szanującemu się wykształciuchowi.

I pewnie po części dlatego właśnie zainteresowałem się Ngram Viewerem czyli guglowym narzędziem do grzebania w milionach książek, których się nie czytało. A po drugiej, sporo większej, części z pewnością dlatego, że to narzędzie robi wykresy. A ja kocham wykresy.

I w związku z tym dzisiaj będzie dużo wykresów. Kto się brzydzi, niech ucieka.

Link do Ngram Viewera jest tutaj: https://books.google.com/ngrams/, a do TEDtalku, w którym objaśnione jest o co cho – tutaj: http://www.ted.com/talks/what_we_learned_from_5_million_books.

W skrócie: Google wziął i zdigitalizował 5 mln książek z lat 1800-2000. I teraz bierzesz Pan jakieś słowo, wpisujesz i dostajesz wykres częstości jego występowania w książkach na przestrzeni dwóch wieków. Chodzi tylko o książki wydane po angielsku, ale cześć z nich to przekłady z innych języków i nawet można sobie zaznaczyć, że chce się szukać tylko w literaturze rosyjskiej albo niemieckiej. Ale nie polecam. Wykresy robią się wtedy dziwne jakieś, chyba mieli za mało danych. Dziwne robią się też, kiedy rozszerzy się kryteria wyszukiwania poza rok 2000.

No dobra, ale do czego to się może przydać? W sumie nie wiem. Mi się przydało do napisania posta na Kompostownię.

Zabawka przypomina trochę statystyki z wyszukiwarek internetowych, a one zawsze mi się podobały. Na przykład kiedyś przeczytałem, że najczęściej wyszukiwanym przez Polaków mężczyzną był Jan Paweł II, a najczęściej wyszukiwaną kobietą – Doda. Było to już bardzo dawno temu, w czasach kiedy on nie był jeszcze świętym, a ona ciągle dookreślała się przydomkiem “Elektroda” i była, jeśli nie sensacją, to przynajmniej nowością. No i patrząc na takie wyniki można sobie podyskutować o wzorcach kobiecych i męskich albo można spróbować odkryć receptę na popularność w internetach. Z zamieszczonych przykładów wynikałoby, że trzeba mieć wysokie IQ i robić występy przed wielotysięczną publicznością, podczas których zwykle się śpiewa, choć w sumie nie dla śpiewu publiczność przychodzi.

Ale, jako się rzekło, Ngram Viewer nie skupia się na mediach, tylko na książkach. A to różnica zasadnicza. Przeczesując, na przykład, stare gazety, sprawdzamy, o czym w danym momencie się mówiło, jakie tematy były gorące. Zaglądając do książek, dowiadujemy się, co dla ludzi było w danym okresie naprawdę ważne. Tak sobie przynajmniej założyłem. I zacząłem sprawdzać, jak to się te priorytety zmieniały przez wieki.

Wnioskiem pierwszym Was nie zaskoczę: praktycznie nic nie pisano o rzeczach jeszcze niewynalezionych czy nieodkrytych. Mimo że dzisiaj sporo można przeczytać chociażby o teleportacji, podróżach w czasie czy drugiej linii warszawskiego metra, to dawniej najwyraźniej zachowywano większą dyscyplinę. Na przykład o telefonie nikt nie wspominał przed jego wynalezieniem w 1876 r. Potem słowo to pojawiało się coraz częściej i częściej, aż do momentu, kiedy telefon zaczął ustępować miejsca kolejnemu wynalazkowi, który po polsku należałoby chyba nazwać “fonem”.

ngrams_telefon

Postęp i marsz ku lepszemu jutru (bez ironii to piszę) możemy zaobserwować, sprawdzając takie słowa, jak “transplantacja” czy “antybiotyk”.

ngrams_antibio

Ale żeby nie było zbyt optymistycznie, warto dla równowagi zdać sobie sprawę, że astrologia ma się nieustająco świetnie, a homeopatia przeżywa wręcz drugą młodość.

ngrams_homeo

Są też oczywiście rzeczy, które istniały od zawsze, ale jakoś się o nich nie pisało. Taka czynność jak “fuck”, chociażby. Choć praktykowana z pokolenia na pokolenie, do mainstreamu przebiła się dopiero na fali rewolucji seksualnej lat 60.

ngrams_fuck

Co bystrzejsi zauważą na wykresie, że w literaturze sporo fuckami rzucano też przed 1820 r. i spytają zapewne: jakże to? Nie umiałbym odpowiedzieć, gdyby nie dodatkowa opcja w Ngram Viewerze, a mianowicie możliwość zajrzenia do wybranych publikacji z określonego okresu, zawierających szukane słowo. Okazuje się, że za fucki z czasów Napoleona odpowiada dziewiętnastowieczne “s” przypominające w druku dzisiejsze “f”, co skutecznie myliło współczesne skanery tekstu (o czym zresztą jest mowa w podlinkowanym wyżej TEDtalku). Nie chodzi zatem wcale o “fuck” tylko o “suck”. Tym, którym nadal się kojarzy, powiem: a fe, chodzi przecież o ssanie (ffanie) mleka. I dlatego w dziewiętnastowiecznym podręczniku hodowcy owiec możemy znaleźć wzmiankę o tym, że “older lambf will ftill fuck unleff they have good pafturef” (“ftarfze jagnięta nadal ffą, chyba że mają dobre paftwifka”). A w książce poświęconej opiece nad niemowlętami kobieta, która nie przystawia dziecka do piersi określona jest jako taka, która “doef not give a fuck”.

Przyznam, że ta niezamierzona gra słów mnie zainspirowała i chciałbym niniejszym zaproponować hasło wyrażające sprzeciw wobec terroru laktacyjnego:

I DON’T GIVE A SUCK WHAT YOU THINK!

Nie wiem, czy się przyjmie, ale jaką ma ładną podbudowę literacko-historyczną.

Słowom jednak z biegiem lat zmieniają się nie tylko literki, ale i znaczenia. W latach 30. problemem była ogarniająca wszystkich Great Depression czyli Wielki Kryzys. Dzisiaj swoją walkę z depresją każdy toczy indywidualnie. Chwila oddechu między jednym a drugim była tylko na przełomie lat 60. i 70. Ale to nie jest przecież blog o narkotykach, więc przemilczmy tę kwestię.

ngrams_depression

Ubawił mnie też kolejny przykład mojego ulubionego zjawiska językowego, czyli zaklinania rzeczywistości. Niebezpieczeństwo kontra ryzyko. Pierwsze grozi, czyha, czai się. Drugie można natomiast oszacować, zminimalizować, a podobno nawet nim zarządzać. Nie należy się zatem dziwić trendowi. Ale świat się od tego bezpieczniejszy nie zrobi.

ngrams_risk

Są jednak słowa, które od zawsze znaczą to samo. Niektóre znaczą coś bardzo ważnego, chociażby: wiara, nadzieja, miłość, żeby tak z grubej rury przywalić. Spodziewałem się, że będą nieustannie na topie. A tu takie coś.

ngrams_love

Co przyszło w to miejsce? Pieniądze? Przyjemność? Rozrywka? Okazuje się, że niespecjalnie. Już nie będę wklejał kolejnych wykresów, uwierzcie na słowo albo sprawdźcie sami, jak macie ochotę. A ja jakoś tak się zafiksowałem, żeby przyłapać nas, współczesnych, na konsumpcjonizmie, że wpisywałem po kolei różne dobra doczesne, aż trafiłem na najbardziej oczywiste: jedzenie. I proszę, wyszło tak:

ngrams_food

Okazuje się, że o jedzeniu nie pisze się najwięcej w czasach dobrobytu. Jedzenie jest na topie w czasie wojny. A już najbardziej wymowny wydaje mi się poniższy wykres, na którym jedzenie okazuje się być lustrzanym odbiciem śmierci.

ngrams_death

Znowu zwróćcie uwagę na obie wojny światowe. Wygląda na to, że im więcej śmierci wokoło, tym mniej chcemy o niej pisać i czytać, a tym bardziej interesuje nas jedzenie. W sumie logiczne. A nawet symboliczne.

I to byłoby właściwie ładne zakończenie, ale trzeba przecież jeszcze sprawdzić siebie.

ngrams_polska

No cóż, nie jest chyba specjalnym zaskoczeniem, że nasz kraj był najbardziej interesujący dla anglojęzycznego świata jako taki fajny płaski teren, po którym wojska różnych mocarstw mogły się ganiać wte i we wte. Aczkolwiek po cichutku miałem nadzieję na jakiś skok w latach 80.

Dobre wieści są natomiast takie, że kompost najwyraźniej przeżywa renesans.

ngrams_compost

I utrzymania tego trendu sobie i Wam życzę.

Advertisements

7 thoughts on “Słowa i wykresy – fundament pożywnego posta

  1. Nie no, osom. Wielka baza danych, a wykres zawsze cieszy. Podejmę więc konstruktywna polemikę. Chodzi o kwestie związku między przesłankami i wnioskami. Oczywiście są tacy , co powiedzą, że duże liczby bronią się same , ale to zwykle wtedy kiedy okazuje się, że w swoich doktoratach lub habilitacjach wykorzystali , często jedynie, właśnie taką metodę badań. Takie podejście wywołuje we mnie rozbawienie i irytację w zmiennych natężeniach, wiec niestety płachta została rzucona i już muszę….
    Mówić , że częstość wskazuje, że coś jest/było ważne dla ludzi , to nadużycie. Bo jeśli nawet książki były wrzucane bez selekcji (no powiedzmy , że dla ostatnich 50 lat jest to być może teoretycznie możliwe, choć trochę wątpię). To już na tym etapie pojawiają się pytania – książki jakich wydawnictw, czy nakład jest brany pod uwagę ( lub nakład sprzedany). A jeśli nawet uwzględnili (choć ciągle wątpliwe) wszystkie wydawnictwa, to znowu pytanie dlaczego akurat te książki były wydawane. Wszelkie publikacje dofinansowane publicznie odpadają, jako wiarygodne źródło tego, co myślą ludzie, bo przecież nie popyt decyduje, że się pojawiły. Publikacje naukowe – wiemy jak jest. Nie dofinansowane publicznie też były selekcjonowane przez wydawnictwo – na podstawie jakich kryteriów? Przewidywań, co będzie żarło? A może inne motywy? Bo przecie wszystko można wypromować, wystarczy położyć na pierwszym stole w Empiku w grudniu. Literatura zawsze miała teżfunkcje propagandowe – teraz oczywiście mniej niż kiedyś.
    Prowadzę do tego, że to ja często dane słowo pojawiało się w książkach jest dobrą przesłanką, żeby stwierdzić jak…. często to słowo pojawiało się w książkach i uczciwie to nic więcej.
    P.S. JPII – statystyki mogli mu natłuc seminarzyści i studenci wszelkich KUL-ów, seminariów i UKSW , gdzie prze ostatnie lata większości przedmiotów jeśli nie ma w nazwie ‘… a nauczanie Jana Pawła II’ to praca zaliczeniowa i dyplomowa na pewno będzie tak zatytułowana . Taka hipoteza – prawdopodobna i mocno odległa od wyjaśnienia „męski wzorzec”…
    P.S. Być może opis narzędzia wyjaśnia przynajmniej część z tych wątpliwości, jest miejsce na ripostę.

    Like

  2. To s/f, którym się tak zachwycasz, jest dużo starsze niż XIX wiek, jest na przykład w “Nowym karakterze polskim” (1594). Zawsze mnie ciekawiło, że w jednej angielskiej książce z 3-ciej kwarty XVII występowało obok normalnego s, w ewidentnie regularny sposób rozdzielone; jestem przekonany, że była jakaś różnica w wymowie, ale nigdy mi się nie chciało tego zbadać.

    Jestem sceptyczny co do interpretacji tego typu statystyk, bo:
    – patrząc, jakie rzeczy drukuje się dzisiaj, wątpię trochę w Twoje założenie, że do książek trafiają tylko sparwy ważne dla społeczeństwa; na pewno dla autorów i wydawców, a także różnych szarych eminencji, które kontrolują świat wydawniczy;
    – pojawianie się słowa w książce nie mówi, co o tym wtedy uważano, np. może być dużo książek na temat “homeopatia to ściema” albo “jedzenia mamy pod dostatkiem, więc luzik”;
    – skala na osi jest względna, więc wszystkie wnioski są słabe, jeśli nie wiem, jak się przedstawia ogólna liczba książek w tym czasie.

    Czepiam się.

    Like

  3. Ola, Olo,
    oczywiście, że Ngram Viewer nie broni się jako narzędzie do badań naukowych. Książki zostały wybrane według kryterium dostępności czyli “kto da nam zeskanować”. Liczba książek w poszczególnych latach jest bardzo zmienna. Słowa są wyrwane z kontekstu. I tak dalej. Za diabła nie da się z tego wyciągnąć wniosków do doktoratu, ale jest to super zabawka nocnych nerdów, jak ja.

    Kwestia wybiórczości czy cenzury prowadzonej przez autorów, wydawców czy cenzorów może sama w sobie być przedmiotem badań i jest o tym trochę w rzeczonym TEDtalku na przykładzie Chagalla.

    F-kształtne “S” jest oczywiście starsze niż XIX w., ale książki z bazy Google’a – nie.

    Statystyki Dodowo-papieskie, o których piszę pochodzą jakoś sprzed 10 lat. JPII jeszcze chyba wtedy żył, ale jako że miał pomniki za życia, to może w tytułach prac i kursów też już wtedy się pojawiał.

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s