Wednesday, May 13, 2009

arbor est causa proxima fructus

Nu är det ungefär en månad sedan jag var på konferens i Innsbruck, vilket var startskottet, peripetin, vändningen, la crise de foie (eller inte), der Wendepunkte etc (varom vi kommer säga mer då dyningarna lagt sig här bakom kulisserna), och då den som sagt utlöste ett händelseförlopp som varit hyggligt tidskrävande (och jag försöker inte vara retsamt mystisk och coy, det är bara det att allt är inte klart än), har jag inte ännu inte lagt ut de intressanta länkar som jag samlade på mig under konferensen.

Det var, som sagt, en längre workshop om datalingvistik och latinet, där dess fader, fader Busa reminicerade om IBM, Aquinas, sin vilda ungdom och det att Gud givit honom denna uppgift, att hitta på ett nytt sätt att bearbeta den latinska texten på, men det var även mycket annat, en del hyggligt tekniskt, men även sådan av allmänintresse, såsom utvärdering och diskussion av diverse online databaser för latin (och i en del fall grekiska), samt projekt som rör just större katalogiseringar och analyser. (Vi fick en kort introduktionskurs i datorlingvistik av en person från Perseus, som à mon avis, alltjämt hänger sig ofta)

Det påpekades hela tiden hur klumpiga dessa ännu var, att du bara kan få träff på exakt lydelse eller kapad dito (alltså arma virumque cano måste du ha knappat upp för att få just det, eller be maskinen söka fragment, arm*, men då får du ju upp en massa annat), och suckades över hur långsamt det gick att lära datorerna att tagga och särskilja ord, fraser och böjningar, att om du söker paralleller till arma virumque hittar inte datorn prydligt och automatiskt t.ex arma cecinit, då den inte kan böja verb. Det pågår projekt att tagga alla ord i texter, men det går trögt, då som sagt, datorerna har släpat efter och det som ändå är mest effektivt, using grad students till att manuellt sitta och berätta för den påbörjade databasen om var ord, kostar pengar samt prövar sagda studenters tålamod.

Som exempel på detta nämndes LASLA (ni hittar massor på hemsidan, dock helt på franska, i korthet kan sägas att det är en stor corpus, där varje morfologisk enhet analyserats av filolog), och så fick man lära sig en del om CLIR (Cross-Language Information Retrieval), mycket förenklat en slags automatisk översättning, och olika metoder för detta med en uppdelning mellan det automatiska och manuella, och hur de klassiska språken kommer in i detta.

De stora databaser som finns, och då menar jag betalvarianter, som t.ex den jag använder flitigast, Brepolis, har alltså åtskilliga bristeer då den är lite småkorkad och inte kan "tänka", men det finns även andra problem som att de ibland använder gamla och inaktuella editioner, eller att de helt enkelt saknar vissa texter, vilket kan ske av många skäl; vettiga editioner kan vara obefintliga, eller att man har en viss tidlinje och klipper resolut någonstans, gärna innan det blir komplicerat. Bl.a presenterades ett projekt att göra en corpus av det komplicerade merovingiska latinet, CoLaMer (hittar det ej på nätet), vilket inte bara ska hjälpa till i analyser av själva språket, vilket har stor vikt inte bara för senlatinare utan även för romanister, men kanske även bringa lite reda i de förfalskade texter som hävdar sig vara från perioden. De hade utgått från Monumenta Germaniae Historica (som ni hittar här), vilket inte var oproblematiskt, då vissa utgåvor som använts där närapå i sig självt nu är historiska texter.

Jag ska inte försöka förklara en del av de begrepp jag fick lära mig såsom parsing och tagging, då det finns det som gör det myckt bättre, men jag tror det är viktigt att lära sig en smula om hur de sökmaskiner och databser man använder fungerar, dels för att kunna använda dem effektivt, men även för att var högst medveten om deras brister och kunna kompensera för dessa. Det var en del papers om detta, bl.a en av vår egna skandinaviske förmåga, DH, en av de få personer som alltjämt gör rökning lockande, med sitt stora projekt PROIEL, som bl.a gör en omfattande parallell corpus av olika äldre indoeuropeiska språks översättningar av Nya Testamentet. Djupt fascinerande.

Den latinska varianten av WordNet, som utgår engelska och italienska i relation till latinet (vilket förstås begränsar det något), och det funkar väl sådär, men nu ska även medeltidslatin föras in samt hänsyn tas till det diakroniska perspektivet, att ord i latinet ändrar betydelse över tid, och även en del tekniska ting implementeras, som jag inte riktigt begrep.

Slutligen, mannen bakom den italienska sökmaskinen Musisque Deoque, en sökbar samling av latinsk poesi (helt på italienska, men var normalbegåvad kan nog lista ut det mesta), som jag inte kände till sdan tidigare (någon som gjorde det?) diskuterade problematiken med just användandet av olika editioner i databaserna, med exempet att man kan ha svårt att följa receptionen av en Vergilius' vers av typen Quadripedante putrem sonitu quatit ungula campum, då det emellanåt skrivs Quadrupedante och datorer är dumma.

1 comment:

Reeva M said...

Greaat blog post