iunie 5, 2017iunie 5, 2017 de VATRA

Alex GOLDIȘ – Ce romane mai citesc computerele

„Cartea despre literatură” (nu-mi vine să-i spun nici volum teoretic, nici volum de critică literară sau de hermeneutică, veți vedea de ce) care a stârnit cea mai mare senzație peste Ocean anul trecut este The Bestseller Code, semnată de Jodie Archer și Matthew L. Jockers. Ea își propune nici mai mult nici mai puțin decât să spargă codul bestseller-urilor mondiale, pretinzând că poate să prezică, prin analiză computațională, în proporție de 80% dacă un roman va deveni blockbuster. Textul scris la patru mâini reprezintă rezultatul unei cercetări de cinci ani, în care cei doi autori au supus investigației informatice aproximativ 5000 de volume, pornind de la premisa fundamentală că trebuie să existe un „ce” care distinge romanul citit de milioane de cititori de cel citit de câteva sute. Experiența profesională a celor doi în domeniul lucrului cu cărțile și cu cifrele nu e de neglijat: Jodie Archer a fost editor al Penguin Books pentru a deveni apoi doctorand la Stanford University și consultant la Apple în studii statistice legate de literatură. Matthew L. Jockers, profesor la Universitatea din Nebraska-Lincoln, e deja un nume în domeniul Digital Humanities: pe lângă multe contribuții punctuale, el a scris în 2013 un volum de sinteză (Macroanalysis. Digital Methods and Literary History) în care demonstrează utilitatea noilor metode în studiul literaturii: ele nu înlocuiesc close reading-ul, era concluzia lui Jockers, însă pot oferi acces la zone ale fenomenului literar imposibil de sesizat prin hermeneutica clasică (pentru detalii, v. recenzia mea din Cultura*: http://revistacultura.ro/nou/2014/07/digital-humanities/). De numele lui Jockers se leagă și un mic scandal legat de demonstrarea, cu probe de laborator lingvistic, a auctoriatului multiplu în „Cartea mormonilor”.

Mică paranteză: cu toată retorica avangardistă avansată de The Bestseller Code, n-aș spune totuși că investigarea industriei cărții cu metode computaționale e neapărat nouă. În ultimii ani edituri sau platforme internautice au apelat la aplicații și programe pentru a măsura diferite aspecte ale lecturii. Amazon sau Apple strâng date despre cărțile citite pe aparatele lor, Inkitt sau Jellybooks sunt platforme speciale care monitorizează modul de angajare a cititorilor în lectură (conform unor rapoarte completate de ei la finalul unui capitol, a numărului de capitole parcurse sau al timpului necesar parcurgerii unui pasaj), în timp ce Callisto Media, care se prezintă ca „the future of publishing”, colectează termeni frecvenți din căutările de pe Amazon, concentrându-se asupra acelora care furnizează cât mai puține rezultate. „Lipsa” aceasta de pe piață, supusă algoritmilor computerilor, e pusă apoi la dispoziția unor autori gata să vină în întâmpinarea cererii cititorilor.

The Bestseller Code încearcă în mod vizibil să spulbere câteva preconcepții cu privire la piața de carte: cea mai evidentă e legată de așa-numitul caracter arbitrar al succesului. J&M (Jodie și Matthew: căci așa se referă autorii la ei înșiși în textul dublu semnat) notează că jargonul pieței de carte e plin de termeni preluați din jocurile de noroc. În afară de cazurile în care Oprah Winfrey își vâră nasul în industrie menționând câte un titlu în emisiunile ei (volumul e scris cu mult umor), succesul unei cărți nu e deloc predictibil. De aici și multiplele erori ale editorilor care nu știu, de foarte multe ori, în ce să investească în momentul când un debutant le pune pe masă un manuscris. Înainte să devină unul dintre cei mai vânduți scriitori ai tuturor timpurilor, J. K. Rowling a fost respinsă de 16 editori. Cea mai spectaculoasă preconcepție pe care o atacă volumul e legată, însă, de prevalența importanței strategiilor de marketing asupra textului propriu-zis: publicitatea e importantă, însă ea este departe de a explica mega-succesul unei cărți. În mod ciudat, acest volum care pare interesat de mecanismele de piață și de tehnologia de ultimă oră se reîntoarce, cu un oarecare romantism, spre elogiul calității intrinseci a textului: „(…) the most interesting story about the NYT list is about nothing more ore less than the authorʼs manuscript, black ink on white paper, unadorned”. Dacă bestseller-ul ar însemna doar mecanism de promovare, nu s-ar putea explica cum autori care n-au avut de la început în spate o întreagă industrie devin vedete peste noapte. Cazul paradigmatic e cel al lui Stieg Larsson, autorul romanelor The Girl with the Dragon Tattoo sau The Girl Who Played with Fire și pe care nimic exterior nu-l recomanda pentru acest succes: un autor provenit dintr-o mică țară scandinavă, activist recalificat profesional la job-ul de prozator, cu un imaginar înțesat de dezbateri politice ce trimit la contextul imediat al Suediei face, dintr-odată, înconjurul planetei. Ceea ce înseamnă că, într-adevăr, codul succesului trebuie să fie înscris în text.

Eșantionul, care vizează 5000 de romane aflate în ultimii 30 de ani prezente pe listele „New York Times”, pornește de la prezumția că bestseller-urile se deosebesc de romanele cu mai puțin succes la public prin trăsături obiective detectabile de către computere. Primul pas al investigației vizează, așadar, separarea celor două categorii de romane prin operațiunea de „text mining” utilizată și de marile companii care gestionează filtrarea mailurilor: „Say for example, that we want to differentiate between e-mails that are spam and emails that are legitimate correspondence. Because spammy emails tend to have a lot of things in common: misspelled words, a high incidence of the word Viagra, and so on, we can write programs that measure how likely a given email message is to be a spammy one. The work we are doing in classifying novels is quite similar to the work that your email filter does. Suppose we want to predict whether a new book that we have never seen before is likely to be a bestseller. If we already have a whole lot of books that best-sold (not spam) and another bunch of books that did not sell well (spam), then we can feed all these books to our computer and train it to recognize these two classes by their distinct feature profiles”. Procesul s-ar putea să fie, e drept, ceva mai complicat decât în trierea mailurilor întrucât în cazul literaturii cuvinte precum Viagra nu sunt în măsură să despartă apele atât de clar. Autorii au avut în vedere nu mai puțin de 20000 de caracteristici ale textelor, de la cele stilistice până la cele care țin de subiect, însă rețin „doar” 2800 drept relevante pentru diferența dintre bestseller și non-bestseller. 2800 sunt, așadar, „semnale” în zgomotul informațional al analizei statistice. Să le privim, pe scurt, mai îndeaproape.

În ce privește stilul propriu-zis al romanelor care se vând (nu le-aș spune neapărat „romane de consum”, întrucât multe dintre ele sunt premiante Pulitzer), cercetarea celor doi atinge concluzii interesante, deși nu întru totul neașteptate. Ceea ce specialiștii numesc „stylometrics” a ajuns deja la rezultate atât de avansate în ultima perioadă, încât destui specialiști ai Digital Analysis pretind că fiecare autor e deținătorul unui ADN lingvistic ce poate fi detectat prin utilizarea specifică a unor particule marginale precum prepoziții, pronume sau semne de punctuație. În urma unei investigații jurnalistice din iulie 2013, un specialist în „stilometrică”, profesorul Patrick Juola, a putut să detecteze (printr-o analiză de doar jumătate de oră!) în spatele romanului Cuckooʼs Calling de Robert Galbraith, un presupus debutant, amprenta scriitoricească a autoarei J. K. Rowling. Faptul e cu atât mai surprinzător cu cât tematica noului roman se situa la antipodul imaginarului fantasy din seria Harry Potter. În câteva zile de la descoperirea profesorului, Rowling și-a mărturisit public încercarea de deghizare.

De la prezumția că există un ADN stilistic al autorului la aceea că ar exista un ADN al bestseller-ului nu mai e decât un pas, pe care J&M nu se sfiesc să-l facă. Printre acele detalii stilistice nesemnificative, dar care fac diferența în favoarea bestseller-ului, computerul zice că s-ar număra: uzul redus al semnelor de exlamație în favoarea punctului; prezența elipsei; frecvența redusă a adverbelor și a adjectivelor; brevilocvența frazei. Greu de spus însă că aceste constatări ale „bestsell-ometrului”, cum îi spun cu oarecare tandrețe cei doi, sunt neprevăzute sau greu de explicat: simplificarea stilistică e unul dintre principiile elementare ale prozei care vrea cu tot dinadinsul să se adreseze publicului larg. Nici observațiile legate de personaje nu sunt spectaculoase întrucât, printr-un algoritm care recunoaște proximitatea unor verbe față de actant, besteller-urile privilegiază forme de acțiune precum „a dori”, „a voi”, „a apuca (to grab)”, „a face” sau „a spune”, în timp ce în romanele mai puțin citite personajele mai degrabă „așteaptă”, „par/li se pare” sau „întrerup”.

Oarecum imprevizibile sunt descoperirile legate de natura subiectului (ceea ce englezul numește topic). Celebra afirmație a lui Stephen King „write what you know, plus love, sex, work and relationship” nu e decât pe jumătate adevărată, întrucât sexul nu e pe lista scurtă a subiectelor care asigură succesul de public al romanelor. Cele mai prizate subiecte nu sunt nici sexul, nici violența, nici lumile îndepărtate prin fantasy sau SF (în ciuda unor cazuri izolate), ci „human interactions and relationships”, „home”, „work”, „kids and scools” sau „modern technologies”: „We donʼt like the imagination stretched too far. No to planets other than ours (Andy Weir broke the rule with The Martian, but that book is necely dull of laboratory levels of scientific detail, and technology, and unlike other books set in space, its priority is getting the lead character safely home). The desert is no good, neither is the jungle, and neither is a fancy ranch. Better stick to the average home. Writers, donʼt take your reader further than you personally have ever been, and if you have been further than most of us, then keep it to your memoir”. Nu numai subiectele în sine contează, constată J&M, ci și modul de utilizare în economia romanului. Supuse criteriului densității, cele trei sau patru subiecte centrale nu trebuie să depășească 40% din ponderea lui tematică. Dacă în aceste 40% se regăsesc mai mult de patru topic-uri, sunt mari șanse ca romanul respectiv să n-aibă priză la public.

De notat, însă, că, deși computerul poate detecta anumite conglomerate tematice (prin măsurarea asocierii și a densității unor câmpuri semantice, conform unei metode numite „topic-modeling algorithm”), gestionarea acestor date poate naște discuții. De pildă, nu e clar – și cei doi autori tac semnificativ – pe ce criterii se pot opera distincții între primele trei cele mai importante topic-uri din Fifty Shades of Grey: „apropiere umană”, „conversație intimă” și „comunicare non-verbală”. Din moment ce analiza computațională reține doar un mănunchi de substantive înrudite semantic, decizia de a abstractiza și de a numi aceste conglomerate de sens aparține întotdeauna interpretului. Cu alte cuvinte, deocamdată calculatoarele sunt experte în recunoașterea unor pattern-uri, însă semnificația lor e întotdeauna stabilită de cel care citește aceste cifre. Iar în cazul de mai sus schematismul concluziilor lui J&M e evident: de ce „conversația intimă” e alt topic decât „apropierea umană”, de ce „comunicarea non-verbală” nu e o subdiviziune a „apropierii umane” și cum de aceste subiecte proeminente din roman nu se intersectează și cu sexualitatea, considerată de către computer mai degrabă marginală în economia ficțiunii lui E. L. James? Din păcate, problematica e cu totul ascunsă sub preș de autorii cărții, convinși – sau încercând să convingă! – că topic-urile conform cărora își construiesc graficele sunt la fel de obiective precum prezența unui cuvânt pe o pagină sau numărul de ocurențe ale acestuia în întregul roman.

În schimb, mai relevantă mi se pare analiza a ceea ce s-ar putea numi ritmica emoțională a unui roman: pornind de la prezumția că cele mai multe romane de succes provoacă reacții viscerale din partea cititorilor, J&M își instruiesc computerul să detecteze acele puncte de climax ale intrigii. Evident, computerul nu poate măsura sentimente sau angajarea subiectivă a cititorului, însă poate detecta aglomerări de cuvinte cu valențe afective pozitive sau negative. Pornind de la acestea, The Bestseller Code construiește o serie de grafice care demonstrează că secretul unui roman de succes constă în alternarea susținută a „emoțiilor” conținute în cuvinte: secretul succesului lui Fifty Shades of Grey n-ar consta în sexualitatea nonconformistă, așa cum s-ar crede la prima vedere, ci mai degrabă în aspectul de vertij emoțional: „The more frequent the peaks and valleys are, the more of an emotional roller coaster for the characters and the readers. The gradient of the peaks and valleys shows the intensity of changes in emotion”.

Cel mai mare pariu al cărții nu constă, însă, în a separa criteriile stilistice și criteriile tematice (expuse astfel doar din rațiuni de popularizare), ci în construcția unui algoritm total care să țină cont de suma acestor caracteristici – devenind, astfel, capabil să prezică gradul de reușită a romanelor noi sau a manuscriselor. Un pariu pe care, cu toate îndoielile cititorului cu privire la cutare metodă de analiză/interpretare, cartea și-l asumă. S-ar putea ca unele ingrediente ale bestseller-ului să fie observabile cu ochiul liber și computerele să nu facă altceva decât să confirme tezele profesorilor de literatură, însă portretul-robot al acestuia rămâne imprevizibil. Ceea ce înseamnă că se poate vorbi de un pattern latent al bestseller-ului, scos la suprafață doar cu ajutorul tehnologiei. Cu toate că J & M și-au instruit computerul prevăzându-i algoritmii de selecție, ei înșiși sunt surprinși de romanul preferat al acestuia – pe care nu-l dezvăluie decât în penultimul capitol. De altfel, cartea e excelent scrisă și pare să respecte toate datele unui thriller teoretic de succes. Nu numai titlul, care pastișează în mod transparent Codul lui Da Vinci, ci și compoziția sau retorica volumului de puțin peste 200 de pagini dovedesc o bună adaptare a discursului la conținut: pe lângă ritmul susținut, ce promite din primul capitol numele ACELUI roman care întrunește scorul cel mai mare, narațiunea teoretică conține în filigran toate topic-urile de succes indicate de computer. Pe de o parte, e vorba de „interacțiunea umană” pigmentată cu intermezzo-uri de flirt între cei doi cercetători: avem chiar și scene domestice în care, aflat într-un impas al cercetării, Matt o vizitează pe Jodie la un pahar de whisky. Pe de altă parte, „tehnologia modernă” sau aspectele legate de „munca de zi cu zi” (alte subiecte de top) sunt exploatate prin înscenarea narativă a conflictului dintre om și computer: în acest subtil SF teoretic, cei doi parteneri de investigație se analizează reciproc și își constată neajunsurile și incongruențele: mașinii i se reproșează că nu poate detecta sentimente, însă inconsecvențele ei rămân mărturii ale incapacității cercetătorului de a prevedea și de a raționaliza input-ul informațional. Nu lipsesc nici momentele de empatie față de colegii de echipă non-umani: J&M vorbesc despre „teaching our machines how to read books” sau despre nevoia de a invita computerul într-o seară la un cocktail party…

Nu-mi permit, așadar, să comit un spoiler divulgând numele autorului care a reușit să spargă codul bestseller-ului sau să dezvălui titlul romanului providențial, rezumându-mă doar la a menționa că subiectul lui central privește un personaj (o femeie, mai exact) angajat într-o companie futuristă care încearcă să îmbunătățească performanțele tehnologice prin creșterea constantă a gradului de adaptare la nevoile publicului – exprimate procentual în rapoarte complicate. Necunoscută chiar și pentru J&M, povestea le produce revelația că scenariul romanului e un neverosimil myse en abyme al propriei aventuri de cercetare: sistemul s-a ales pe sine însuși și, la capătul căutărilor, computerul a căpătat voință proprie și le-a tras cu ochiul. Probabil că cea mai importantă lecție a acestui demers teoretic drapat într-o narațiune tehnologică cu iz retro-romantic e legată de nevoia de a accepta, în studiul literaturii, a unui partener nou: computerul. Cunoscut îndeaproape și corect hrănit cu informație, el s-ar putea să prindă viață și să ne ajute să percepem mecanisme literare imposibil de detectat cu ochiul liber.

Teama unora că acest tip de studii ar conduce automat la mecanizarea scrisului e nejustificată: cu toate datele puse la dispoziție de The Bestseller Code, mă îndoiesc că el va putea crea autori de bestseller-uri pe bandă din două motive. În primul rând, pentru că gestionarea unui număr de 2800 de caracteristici diferențiale incluse în rețetar e imposibilă, oricât s-ar strădui un autor să le bifeze pe toate. În al doilea rând, pentru că o astfel de analiză, utilă înțelegerii stării de fapt, nu poate să prevadă pe termen lung dinamica orizontului literar. „Nevoile” de imaginație nu sunt niciodată predictibile sută la sută pentru simplul motiv că nu ne dorim să citim întotdeauna doar cărți cu subiecte sau convenții stilistice pe care le căutăm în mod conștient, ci descoperim – pe parcursul lecturii – plăceri noi induse de textul respectiv. În literatură, acel 20% rămas în afara schemei rămâne mai neliniștitor și mai important în pondere decât în alte domenii. Iar dacă mutăm investigația din zona bestseller-ului (gen cât de cât formalizat) în zona romanului propriu-zis, diagramele prescriptive devin și mai complicate.

* Jodie Archer, Matthew L. Jockers, The Bestseller Code, Penguin Books, UK, 2016, 246 [First published in the United States of America by St. Martinʼs Press 2016].

[Vatra, nr. 5-6/2017]

Lasă un comentariu Anulează răspunsul

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.