wtorek, 13 maja 2014

J. K. Rowling, delfiny i kosmici

Hans Zimmer - Insertion


Entropia w teorii informacji jest miarą tego, jaka jest niepewność jakiegoś losowego zdarzenia. Interpretujemy ją jako ilość informacji przypadającą na wiadomość. Potoczny przykład może wyglądać następująco. Jeśli powiem komuś, że na biegunie południowym jest zimno, to entropia tej informacji będzie bardzo niska, bo słuchacz pewnie już to wiedział. Jeśli jednak powiem rozmówcy, że mam w kieszeni pudełko a w nim dokładnie 6 zapałek, to dostarczę mu całkiem sporo informacji, zatem mój przekaz ma wysoką entropię.

Na takiej zasadzie można analizować ciągi znaków, sygnały, języki i wiele innych rzeczy. Jeśli mamy generator liczb, to jego entropia będzie maksymalna jeśli wszystkie liczby pojawiają się z jednakową częstotliwością i minimalna jeśli generuje zawsze jedną i tę samą cyfrę.

Język angielski składa się z 26 liter i spacji. Ciąg losowy (gdzie wszystkie znaki pojawiają się z prawdopodobieństwem 1/27) może wyglądać tak:

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ

Ot, losowa klepanina w klawiaturę. Jeśli jednak uwzględnimy, że w tym języku szansa na pojawienie się spacji to 18,6%, A 6,4%, B 1,2%, C 2,2% i tak dalej, możemy wygenerować coś takiego:

OIE BAINTHA HYROO POER OR

Wciąż nie wygląda to zbyt ciekawie. Jeśli jednak przeanalizujemy statystykę występowania par literek, bądź jakie są szanse, że po literze A występują poszczególne znaki, możemy wygenerować następujący ciąg:

ON IE ANTSOUTINYS ARE T INCTORE

Jest to bełkot, ale ktoś kto nie zna angielskiego mógłby dać się nabrać. Co się stanie jeśli przebadamy trójki znaków? Dostaniemy coś takiego:

IN NO IST LAT WHEY CRATICT OF DEMONSTURES OF THE

Toż to wygląda jak pijackie zapytanie w Google! Nawiasem mówiąc, przy powyższej linijce Word przełączył mi język na angielski. A przecież to tylko losowy ciąg podparty pewnymi regułami. Języki operują jednak słowami; można sobie wyobrazić, że analizując teksty lub rozmowy w jakimś obcym języku moglibyśmy przeprowadzić podobne działanie. Wpierw zliczyć częstotliwość słów, później ich par i dostać coś takiego:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER

Pracując na czwórkach. Dostaniemy coś takiego (przypominam – to tylko losowy ciąg podparty statystykami, możemy stworzyć coś takiego kompletnie bez znajomości angielskiego):

THE BEST FILM ON TELEVISION TONIGHT IS THERE
NO-ONE HERE WHO HAD A LITTLE BIT OF FLUFF

Fascynujące. Ale co z tego? Bardzo dużo. Entropia przydaje się w kodowaniu, kompresji danych i kryptografii. Znajduje też zastosowanie w lingwistyce sądowej (tak, istnieje coś takiego) – pomaga identyfikować autorów, wykazywać plagiaty, rekonstruować niepełne wymiany wiadomości i wiele innych. Pozwala również odróżnić losowy bełkot od zaszyfrowanej wiadomości.

„Wołanie kukułki”, książka wydana w 2013 roku, zostało bardzo dobrze przyjęte, choć wiele osób wątpiło, że mogła być to robota debiutanta. Identyfikacja autora zaczęła się od anonimowego tweeta sugerującego, że prawdziwą autorką jest J.K. Rowling. Robert Galbraith miał tego samego agenta co autorka cyklu o Harrym Potterze, ale to jeszcze niczego nie dowodziło. Aby uniknąć wtopy dziennikarze sięgnęli do ekspertów. Poprosili o porównanie książki z czterema innymi powieściami kryminalnymi w tym z „Trafnym wyborem”, który Rowling napisała rok wcześniej.

Analizując częstotliwość słów (z wyłączeniem imion czy innych słów specyficznych dla danej powieści), ich długość, to jak łączone są w pary, długości akapitów, interpunkcję można było stwierdzić z dużym przekonaniem, że „Wołanie…” napisała J.K. Rowling. Pokazuje to, że nie tylko sam język, ale wręcz styl pisania jednej osoby może być wyjątkowy jak odcisk palca.


Mając odpowiednio potężny mechanizm reguł i zbiór statystyk, można by wygenerować nową sztukę Szekspira nie rozumiejąc ani słowa po angielsku. W teorii. W praktyce jednak można nie tylko zidentyfikować autora, ale też odróżnić ciąg losowy od języka. Można też przyjrzeć się entropii kodu DNA, sekwencji aminokwasów w białkach, nut w muzyce, oraz zer i jedynek w językach programowania.

Choć nie znamy mowy delfinów, możemy stwierdzić, że mają one swój język. Mniej złożony od naszego, ale jest to więcej niż pojedyncze słowa oznaczające ostrzeżenie, polecenie czy zaloty. A przynajmniej wygląda na mniej złożony według naszej miary. Jak wiadomo stenogram rozmowy to tylko ułamek przekazu. Jak wielu niuansów rozmów podwodnych ssaków nie dostrzegamy?

A gdzie tu miejsce dla kosmitów? Przecież w tytule obiecałem kosmitów. Cóż, jeśli kiedyś przypadkiem odbierzemy coś co wygląda na sygnał od obcej cywilizacji, będziemy mogli go poddać analizie, która może pokazać, że mamy do czynienia z jakąś informacją. Może nigdy ich nie zrozumiemy, ale będziemy wiedzieć, że mówią. Być może.


Źródła:
http://www.math.harvard.edu/~ctm/sem/home/notes/entropy/entropy.pdf
http://phenomena.nationalgeographic.com/2013/07/19/how-forensic-linguistics-outed-j-k-rowling-not-to-mention-james-madison-barack-obama-and-the-rest-of-us/
http://www.digitaltrends.com/computing/computer-software-reveals-jk-rowling-as-author-of-novel-written-under-pen-name/
http://entertainment.time.com/2013/07/15/j-k-rowlings-secret-a-forensic-linguist-explains-how-he-figured-it-out/
https://homes.cs.washington.edu/~rao/BlockEntropy.html
http://universe-review.ca/F09-earth08.htm
http://www.technologyreview.com/view/518486/information-theory-reveals-size-of-whale-and-dolphin-communication-repertoires/


5 komentarzy:

  1. Od kiedy usłyszałem o tej techice w Warszawie na ThatCampie zastanawiam się, czy dałoby radę pójść też w drugą stronę i wygenerować tekst mający wszelkie cechy stylometryczne tekstu danego autora, ale będący de facto moim tekstem.

    OdpowiedzUsuń
  2. Craven, na wykopie się znalazłeś. :)

    OdpowiedzUsuń
  3. "...sam język, ale wręcz styl pisania jednej osoby może być wyjątkowy jak odcisk palca"...

    Też mi odkrycie. Jestem polonistką i to jest dla mnie oczywiste od klasy maturalnej choć o entropii pierwsze słyszę...

    OdpowiedzUsuń
  4. Z drugiej strony warto zauważyć, że ten anonimowy tweet bardzo im pomógł - analizowali tylko cztery książki. Coś mam wrażenie że powieść się słabo sprzedawało i trzeba było ruszyć czytelnikow.

    OdpowiedzUsuń