maanantaina, tammikuuta 21, 2008

musiikinluokittelu, pandora, last ja numeeriset menetelmät

Olen niin musiikillisesti sivistymätön, enkä ikinä ole ymmärtänyt musiikista mitään. Web 2.0-musiikinsuosittelupalvellut ovat olleet kyllä niin korjanneet tätä oleellista osaa minussa, koska identiteetinrakennus on vajaa ilman musiikkimieltymyksiä. Pandoran löytyminen oli suuri ilo. Ensimmäistä kertaa kykenin etsimään ja löytämään rajattomasti musiikkia josta pidin. Ellei ystäväpiiri ole jotenkin tosi vahvasti määrittynyt musiikin kautta, ei irl vaan tule löydettyä riittävästi musiikkia.

Pandora on nerokas. Sen taustalla on Music Genome Project, joka määrittää jokaisen kappaleen vektorina noin 400-ulotteisessa avaruudessa. Vektoreiden alkioille määritetään arvoja välillä 0-5. 90% näistä määrittelyistä on vain yhden asiantuntija-arvioijan suorittamia, 10%:ssa on mukana useamman asiantuntijan mielipide.

Tämän informaation perusteella on helppo määrittää eri kappaleiden välille etäisyysvektorit samankaltaisuuden indikaattoreiksi ja soittaa käyttäjän toivomankaltaista musiikkia yhden esimerkkikappaleen perusteella. Erityisen kiinnostavaa ja harmillisesti vain vähän julkisuuteen kerrottua olisi tietää niistä menetelmistä, joilla useiden ehdottamien kappaleiden perusteella päätellään käyttäjän toivoma musiikki. Analysoidaanko kenties musiikin pääkomponentteja, vai tehdäänkö helppo ratkaisu ja määritetään vaan statistiset keskipisteet joiden ympäriltä musiikkia soitetaan? Tämä patenttitekstin johdanto viittaisi painokertoimiin etäisyyysvektoreissa, mikä kuulostaa paljon tylsemmältä kuin PCA- tai neuroverkkoratkaisut. Laskentatehollisesti tuo lienee kuitenkin ihan tehokas menetelmä.

Numeeriset luokittelumenetelmät


Samankaltaisia numeerisia menetelmiä luultavasti tullaan käyttämään paljon automaattisesti segmentoidun markkinoinnin suhteen, vaikka se onkin hankalampaa sillä vektoriavaruus voi monimutkaisemman sisällön kohdalla olla vielä moniulotteisempi. Jollakin tavalla kuitenkin esimerkiksi G päättää, minkälaisia mainoksia millekin sivulle kannattaa asetella, vaikka harvalla onkin tietoa kriteereistä, kriteerien painotusmenetelmistä sekä niiden päivittämismenetelmistä. Mutta kiinnostavaa, ehdottomasti.

Adwordsien yhteensopivuus kontekstinsa kanssa lienee kelpo indikaattori tämän alan osaamisesta, koska niiden kehittyminen on kuitenkin aidosti markkinavetoinen prosessi. Koska myös kansalaistensuojeluun valmistetut sisällönsensurointifiltterit toimivat periaatteessa samalla logiikalla, voidaan Adwordsien kohdalleenosuvuuden perusteella approksimoida myös sensuurifilttereiden toimivuutta ja näin tehdä havainto, että ehkä sensurointifilttereiden laajamittainen käyttöönotto ei sittenkään ole kovin hyvä idea. Surullista, jos tämän seikan esilletuominen murskaa innokkaasti Internetin epäilyttävien viestien tunnistamista kannattaneen pääministerin haaveet romanttisista parisuhteista jatkosssa, mutta valitettavasti sitä estävät perustuslain ja YK:n ihmisoikeussopimusten lisäksi toistaiseksi myös kehittymättömät hahmontunnistusmenetelmät, joilla sisältö voitaisiin riittävällä varmuudella luokitella.

LastFM


Pandoran sulkeuduttua lisenssisyistä (en nyt tässä ala, mutta tässä on taustalla suuria vääryyksiä ja tunnen raivoa) olin vähän lyöty ja ilman musiikkia. Vähitellen alan toipua, kun subscribasin LastFM:ään, mutta se ei vaan ole läheskään yhtä cool kuin Pandora. Ei oikeaa musiikinluokittelullisa asiantuntemusta, eikä nerokkaita numeerisia menetelmiä. Paljon web2.0-tauhkaa, vuorovaikutusmahdollisuuksia muiden käyttäjien kanssa ja kaikkea koukuttavaa ja ylimääräistä. Työkaluja sisällöntuottamiseen ja vuorovaikuttamiseen on paljon, muihin web2.0-saitteihin upattavia widgetejä ja appleteja on tarjolla runsaasti, mutta tagaamiseen ja musiikin luokitteluun tarjotut välineet ovat surkeat.

Omia tagisoittolistojaan on älyttömän raskasta optimoida. Artistien sivuilta ei voi saada yleissilmäystä siitä, että millä kaikilla tageilla on merkinnyt mitäkin kyseisen artistin kappaleita ja mitkä mahdollisesti vielä omilta soittolistoilta puuttuvat. Myös mahdollisuudet tagien sanamuodon muokkaamiseen puuttuvat. Vahingossa tagille rokc tagin rock sijasta tagatut kappaleet korjatakseen on käytävä jokaisen tagatun kappaleen sivulla yksitellen huiskimassa raskaahkosta alasvetolistahärpäkkeestä väärät tagit pois. Tagausmenetelmien helpottaminen vaikuttaisi aivan varmasti hajontaa ja kohinaa vähentävästi eri tagiradioissa niin, että chillout-radiossa soisi vähemmän Rammsteinia ja classic rock-radiossa vähemmän Britneyta (esimerkit keksittyjä).

On myös raivostuttavaa, että Lastin (lisenssiehtojen määräämät?) soittorajoitukset eivät ole julkisia. Olisi maksavia asiakkaita kohtaan reilua, että kerrottaisiin, kuinka paljon sisältöä kanavalla on oltava, jotta se soi puoli tuntia, ja kuinka paljon sisältöä on oltava, jotta se soisi tunnin. Lisäksi empiirisen kokemukseni mukaan soittoajan pituuteen vaikuttaa myös artistien varianssi - yhden artistin kanava ei soi ollenkaan. Nämä ovat seikkoja, joita ei ainakaan turhan aktiivisesti tyrkytetä käyttäjän nähtäväksi.

Kuvassa LastFM-soitin, tällä hetkellä saksankielisenä. Kaunis ikkunateema on nimeltään SoyMilk ;-).


Loppujen lopuksi Lastin paras käyttötapa lienee kuitenkin se, että maksaa ~2 euroa kuussa, välttyy mainoksilta ja muokkailee omaa soittolistaansa, jonka käytössä ainoa rajoitus on, että kappaleita on oltava yli 15, mutta ne voivat olla vaikka kaikki samalta artistilta. Omalle soittolistalle on kevyt ja helppo lisätä kappaleita, tarvitsematta mennä raskaiden javascript-valikoiden kautta. Ellei ole kovin suuri hifistelijä, niin Lastin valikoima lienee melko tyydyttävä.

2 kommenttia:

zache kirjoitti...

Pandora oli ainakin alunperin vähemmän nerokas kuin se mitä mainostivat, sillä tyypeillä oli taipumusta purkata juttuja tyyliin "prkle, ei tää arpominen taaskaan toimi ja sitten järjestelmä pistettiinkin arpomaan biisejä pelkästään käsin valokoidusta hyvien biisien kirjastosta", joka oli ehkä kymmenesosa koko Pandoran musiikkikirjastosta.

Mutta ihan sama, loppukäyttäjälle systeemi tuntuu taikuudelta :)

Tea kirjoitti...

Ai oho, en koskaan huomannut mitään purkkaa. Mutta kuten sanoin, niin olenkin tosi sivistymätön noin musiikillisesti eikä mulla siksi ole edellytyksiä tajuta juttuja :P.