4.15国家安全教育日宣传片——《船厂谍影》
Kieltenv?linen tiedonhaku (engl. Cross-language information retrieval, CLIR) tarkoittaa sellaista tiedonhakua, jossa tiedonhakijan suorittama hakukysely on eri kielell? kuin tiedonhaun kohteena oleva dokumenttikokoelma. Kieltenv?linen tiedon tarve perustuu siihen, ett? tiedonhakijan on usein vaikeaa tuottaa hakukyselyj? vieraalla kielell?, vaikka hakutulosten tekstin ymm?rt?minen olisikin melko ongelmatonta.[1]
Tarkoitus
[muokkaa | muokkaa wikiteksti?]
Kieltenv?linen tiedonhaku mahdollistaa hakukyselyn tekemisen omalla ?idinkielell?, mutta tulosten ei tarvitse rajoittua hakijan ?idinkieleen. N?in kieltenv?linen tiedonhaku alentaa yleist? kynnyst? hy?dynt?? mm. Internetiss? olevaa tietoa. Mik?li hakijalla ei ole kielitaitoa lukea hakutuloksissa olevaa kielt?, voi h?n hy?dynt?? konek??nt?mist?.[2]
Kieltenv?lisest? tiedonhausta on hy?ty? my?s esimerkiksi tilanteessa, jossa on tarvetta l?yt?? mahdollisimman laajasti tietoa tietyst? asiasta, riippumatta siit? mill? kielell? tieto on julkaistu.
Muun muassa Google tarjoaa kieltenv?list? tiedonhakua toiminnolla, jonka nimi on "K??nnetyt vieraskieliset sivut". K?ytt?liittym?ss? kertoo k?ytt?j?lle, mik? haku on toisilla kielill? ja samalla hakutulokset n?ytet??n omalle kielelle k??nnettyin?.
Kieltenv?lisess? tiedonhaussa k?ytettyj? menetelmi?
[muokkaa | muokkaa wikiteksti?]Nykyiset tiedonhakuj?rjestelm?t perustuvat yleens? kyselyn ja sen kohteena olevan dokumenttikokoelman merkkijonojen t?sm?ytt?miseen. Kieltenv?lisess? tiedonhaussa perinteisen yksikielisen tiedonhaun t?sm?ytysmenetelm?t tulee yhdist?? luonnollisten kielten k?sittelymenetelmiin. Kieltenv?lisen tiedonhaun keskeisi? menetelmi? t?sm?ytt?misen ohella ovat k??nn?smenetelm?t ja k?sitteiden monitulkintaisuuden v?hent?mistekniikat (disambiguaatio).
T?sm?ytysstrategiat
[muokkaa | muokkaa wikiteksti?]Kuten tiedonhaku yleens?kin, my?s kieltenv?linen tiedonhaku haku perustuu kyselyn ja dokumenttien sis?lt?mien termien merkkijonojen t?sm?ytt?miseen. Jotta t?sm?ytt?minen olisi mahdollista, on erikielisen kyselyn ja dokumentin kohdattava tiedonhakuj?rjestelm?ss?. Kieltenv?lisess? tiedonhaussa mahdollisia t?sm?ytysstrategioita on j?tt?? termit kokonaan k??nt?m?tt?, k??nt?? kysely dokumenttikokoelman kielelle, k??nt?? dokumentit kyselyn kielelle tai k?ytt?? v?likielt?, jolloin sek? kysely ett? dokumentit esitet??n kolmannella, usein keinotekoisella kielell?.
- Samankaltaisuust?sm?ytys
K?ytett?ess? samankaltaisuust?sm?ytyst? oletetaan, ett? l?hde- ja kohdekieliset termit muistuttavat toisiaan ja ne lis?t??n kyselyyn ilman k??nn?st?. Menetelm? on tehokas erityisesti hakutermien ollessa henkil?n- tai paikannimi?. My?s monet tekniset termit ja sivistyssanat ovat usein eri kieliss? samankaltaisia, esimerkiksi suomen kielen "kemoterapia"-sanalla on ilmeinen merkkijonotason yhteys englannin "chemotherapy" -sanaan. Menetelm?? voi soveltaa my?s l?hisukukielten v?lisess? tiedonhaussa. Samankaltaisuust?sm?ytyst? voidaan tehostaa hy?dynt?m?ll? sumeita merkkijonomenetelmi?, kuten n-grammeja tai s-grammeja. Erityisen hankalaa termien t?sm?ytt?minen on toisistaan et?isten kielten yhteydess? (esim. englanti ja japani). T?ll?in voi osin soveltaa foneettista translitterointia.[3]
- Kyselyn k??nt?minen
Koska toistaiseksi konek??nn?smenetelm?t eiv?t pysty k??nt?m??n luonnollista kielt? kelvollisiksi dokumenteiksi, on yksinkertaisempaa k??nt?? tiedonhakijan kysely.[4] Kyselyn k??nt?minen onkin yleisin menetelm? kieltenv?lisess? tiedonhaussa taloudellisuutensa vuoksi: hakuj?rjestelm?n ei tarvitse muuttaa indeksoituja k??nteistiedostojaan, ja kyselyn k??nt?minen on dokumenttien k??nt?mist? laskennallisesti kustannustehokkaampaa. Erityisen ongelmallista on kyselyn automaattisen k??nn?ksen tuottaminen, koska kyselyt muodostuvat yleens? yksitt?isist? hakutermeist? eiv?tk? tarjoa riitt?v?sti kontekstia termien monitulkintaisuuden v?hent?miselle.[3]
- Dokumenttien k??nt?minen
Haun kohteena olevan dokumenttikokoelman k??nt?mist? on kieltenv?lisess? tiedonhaussa tutkittu kyselyn k??nt?mist? v?hemm?n. Menetelm?n tarjoamat edut ja haitat ovat p?invastaiset kuin kyselyn k??nt?misess?: k??nt?minen on ty?l??mp?? ja vaatii enemm?n resursseja, mutta toisaalta dokumentit tarjoavat laajemman tekstikontekstin automaattista k??nt?mist? varten.[3]
- V?likielimenetelm?t
V?likielimenetelmi? k?ytett?ess? sek? kyselyn ett? dokumenttien k?sitteet esitet??n yleens? keinotekoisen v?litt?j?kielen avulla. V?likielimenetelmi? ovat mm. kontroloitujen sanastojen k?ytt?minen ja LSI (latent semantic indexing).[3]
K??nn?smenetelm?t
[muokkaa | muokkaa wikiteksti?]Dokumentteja tai kysely? k??nnett?ess? on k?ytett?viss? erilaisia k??nn?smenetelmi?. Kieltenv?lisess? tiedonhaussa on hy?dynnetty konek??nn?st? sek? sanakirjapohjaisia ja rinnakkaisiin korpuksiin perustuvia k??nn?smenetelmi?. Kaikissa k??nn?smenetelmiss? on omat hy?tyns? ja haittansa. Nykyisten tilastollisiin menetelmiin perustuvien konek??nn?sohjelmien avulla p??st??n jo l?hes yksikielisen tiedonhaun tarkkuuteen. Edullisuutensa vuoksi konek??nn?ksest? varmaan tuleekin yleisin k??nn?smenetelm? kieltenv?lisess? tiedonhaussa.
- Konek??nn?smenetelm?t
Konek??nn?st? voidaan hy?dynt?? kieltenv?lisess? tiedonhaussa, mik?li k?ytett?viss? on hyv? konek??nn?sohjelma. Ongelmana on, ett? yleens? CLIR-kontekstissa pyrit??n k??nt?m??n kysely, joka ei tarjoa riitt?v?? syntaktista tekstikontekstia konek??nn?ksen tuottamiseksi.[5] Konek??nn?s my?s pyrkii valitsemaan kullekin termille yhden k??nn?ksen, mik? hankaloittaa kyselyn laajentamista esim. synonyymien avulla.[3] Vaikka konek??nn?ksell? ei v?ltt?m?tt? saadakaan aikaan sujuvasti luettavaa teksti?, on huomioitava, ett? hakuj?rjestelmien lingvistiset vaatimukset ovat alhaisemmat kuin teksti? lukevan henkil?n odotukset tekstin ymm?rrett?vyydelt?.
- Sanakirjapohjaiset menetelm?t
Kun k?yt?ss? ei ole yleisesti toimivaksi tunnustettua konek??nn?sohjelmaa, kaksikielinen koneluettava k??nn?ssanakirja on yleens? l?ht?kohtana. Koska hakuj?rjestelm?t perustuvat kyselyn ja dokumenttien termien indeksointiin, on helpointa k??nt?? kysely dokumenttikokoelman kielelle korvaamalla kukin termi sanakirjassa esiintyv?ll? rinnakkaistermill?.[3] Sanakirjak??nn?s on suhteellisen edullinen ja tehokas menetelm?, mutta ei vailla ongelmia. Keskeisimpi? ongelmia ovat sanakirjojen puutteellinen kattavuus (kielen muutos, erisnimien ja erityisalojen termien puuttuminen), sanakirjak??nn?ksen l?ht?kohtainen monitulkintaisuus (sanakirjat tarjoavat termeille useita k??nn?svaihtoehtoja) sek? fraasien ja yhdyssanojen virheellinen k??nt?minen.
- Rinnakkaiskokoelmat
Rinnakkaiskokoelmaa k?ytett?ess? k??nn?ssanakirja korvataan kaksikielisell? kokoelmalla, joka on rinnastettu lause-, kappale- tai dokumenttitasolla erikielisiksi vastinpareiksi. L?ht?kielisen sanan k??nn?kset saadaan etsim?ll? niiden esiintym?t rinnakkaiskokoelmasta ja ker??m?ll? vastinlauseista tai -kappaleista usein esiintyv?t kohdekieliset sanat. K??nn?s on tilastollinen ja tuottaa oikeiden tarkkojen k??nn?sten lis?ksi synonyymeja ja sanan kontekstiin l?heisesti liittyvi? muita sanoja.[6] Nyky??n www-aineistot tarjoavat runsaasti saatavilla olevaa materiaalia koneluettavassa muodossa rinnakkaiskorpusten ker??mist? varten.[3] Rinnakkaiskokoelmien k?yt?ss? on ongelmallista, ett? edelleen l?ytyy monia kielipareja, joista ei ole saatavissa riitt?v?n laajoja rinnakkaisia korpuksia k??nn?stodenn?k?isyyksien laskemiseksi. Ongelma on my?s se, ett? monet rinnakkaiskokoelmat perustuvat melko suppean aihepiirin dokumentteihin.
Disambiguaatiomenetelm?t
[muokkaa | muokkaa wikiteksti?]Hakuavainten monitulkintaisuuden tiedonhaulle muodostama ongelma kertautuu kieltenv?lisess? tiedonhaussa, kun termien k??nn?svaihtoehtojen m??r?n kasvaessa kyselyyn tulee mukaan ep?relevantteja termej?.[5] Yksinkertaisin ratkaisu sanakirjak??nn?ksess? olisi valita vain ensimm?inen tarjottu k??nn?svaihtoehto. Vaihtoehtoisesti voisi valita dokumenttikokoelmassa tilastollisesti useimmin esiintyv?n k??nn?ksen. N?in yksinkertaiset menetelm?t monitulkintaisuuden v?hent?miseksi eiv?t kuitenkaan ole riitt?vi?, ja kieltenv?lisess? tiedonhaussa on tutkittu useita hienostuneempia menetelmi?.[3]
- Sanaluokkien merkitseminen
Sanaluokkien merkitsemisess? (part-of-speech tags, POS) valitaan k??nn?ksiksi ainoastaan sellaiset termit, jotka kuuluvat samaan sanaluokkaan l?hdekielisen hakuavaimen kanssa. T?m? menetelm? vaatii, ett? sek? l?hde- ett? kohdekielt? varten on saatavilla sanaluokkien merkitsemiseen tarvittava ohjelmisto.[3]
- Rinnakkaiskorpusten k?ytt?minen
Rinnakkaiskorpuksia k?ytett?ess? tehd??n kysely l?hdekieliseen dokumenttikokoelmaan. Kysely k??nnet??n kohdekielelle, ja termien k??nn?svarianteilla suoritetaan kyselyt. Kyselyjen tuloksia verrataan l?hdekielisen kyselyn tuloksiin, ja hakuavaimeksi valitaan k??nn?s, joka tuottaa l?himmin l?hdekieliseen kokoelmaan tehdyn kyselyn tuloksia vastaavia osumia.[3]
- Yhteisesiintym?tilastot
Yhteisesiintym?tilastojen avulla teht?v?n disambiguaation l?ht?oletus on, ett? kyselyn termien oikeiden k??nn?sten tulisi esiinty? yhdess? samoissa kohdekielisiss? dokumenteissa, kun taas v??rien k??nn?sten ei tulisi esiinty? samoissa dokumenteissa merkitt?v?n usein. Esimerkiksi jos englanninkielisess? kyselyss? esiintyv?t sanat ”Mercury” ja ”planet”, on ilmeist?, ettei hakutermi ”Mercury” liity kemiaan tai mytologiaan. Niinp? voidaan olettaa, ett? sanan ”Mercury” oikea k??nn?s esiintyy usein sanan ”planet” oikean k??nn?ksen kanssa kohdekielisess? dokumenttikokoelmassa. Tilastollista tietoa k??nn?svaihtoehtojen yhteisesiintymist? k?ytet??n parhaan k??nn?syhdistelm?n l?yt?miseksi. Pitkiss? kyselyiss? menetelm? on laskennallisesti kallis termien k??nn?svaihtoehtojen mahdollisten yhdistelmien m??r?n kasvaessa.[3]
- Kyselynlaajennus
Kyselynlaajennuksessa hy?dynnet??n relevanssipalautetta. Kysely? laajennetaan yleens? lis??m?ll? termej? tuloksissa korkeimmalle sijoittuneista dokumenteista. Kyselynlaajennus voidaan tehd? ennen k??nn?st? tai sen j?lkeen. Ennen k??nn?st? tehtyn? kyselynlaajennus lis?? hakuun relevantteja k?sitteit? parantaen haun tarkkuutta. K??nn?ksen j?lkeen tehtyn? se v?hent?? ep?relevanttien hakutermien vaikutusta parantaen saantia.[3]
- Rakenteiset kyselyt
Rakenteiset kyselyt eiv?t oikeastaan ole disambiguointimenetelmi?, mutta tuottavat saman tuloksen. Oletuksena on, ett? termien k??nn?svariantit ovat synonyymej?. T?st? l?ht?kohdasta voi olla hy?dyllist? turvautua Boolen logiikkaan: k??nn?kset voidaan liitt?? toisiinsa Boolen OR-operaattorilla ilman ett? l?ht?kielisen hakuk?sitteen merkitys kyselyss? kasvaa liikaa.[3]
Tutkimus
[muokkaa | muokkaa wikiteksti?]Ensimm?inen ty?paja aiheesta pidettiin Zürichiss? SIGIR-96 -konferenssiss?. Ty?pajan tuotokset julkaistiin kirjassa Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X. Ty?pajoja on pidetty vuodesta 2000 vuosittain Cross Language Evaluation Forum (CLEF) -tapaamisissa.[7]
CLIR-track on ollut TRECiss? (Text Retrieval Conference) mukana vuodesta 1997.[8]
Tampereen yliopiston informaatiotieteen laitoksella toimii FIRE (Finnish Information Retrieval Experts) -tutkimusryhm?, jonka alaan kuuluu my?s kieltenv?linen haku.[9]
Esimerkit
[muokkaa | muokkaa wikiteksti?]Google on tarjonnut kieltenv?list? hakua vuodesta 2007 sek? normaaliin hakuun integroituna ett? erillisen k?ytt?liittym?n kautta.[10]
L?hteet
[muokkaa | muokkaa wikiteksti?]- ↑ J?rvelin Anni; Kumpulainen Sanna; Pirkola Ari & Sormunen Eero: Sumeat k??nn?smenetelm?t l?heisten sukulaiskielten v?lisess? tiedonhaussa (pdf) 2006. Viitattu 21.10.2010.
- ↑ Kalervo J?rvelin: Omakielinen tiedonhaku helpommaksi 2009. 8.10.2009. Viitattu 21.11.2010.[vanhentunut linkki]
- ↑ a b c d e f g h i j k l m Kishida, Kazuaki: Technical issues of cross-language infromation retrieval: a review. Information Processing and Management, 2005, 41. vsk, s. 433-455.
- ↑ Kalervo J?rvelin ja Jaana Kek?l?inen: Tiedonhaun menetelm?t opintoaineisto Internetix. 2002. Arkistoitu 5.8.2010. Viitattu 21.10.2010.
- ↑ a b Pirkola, Ari: Studies on Linguistic Problems and Methods in Text Retrieval: The effects of anaphor and ellipsis resolution in proximity searching and translation and query structuring methods in cross-language retrieval, s. 58-59. Tampere: University of Tampere, 1999. ISBN 951-44-4582-1
- ↑ J?rvelin Kalervo; Sormunen Eero: Tiedon tallennus ja haku. Informaatiotutkimuksen valintakokeen materiaali, 2009, s. 37-76. Tampere: Informaatiotutkimuksen laitos, Tampereen yliopisto.
- ↑ clef-campaign.org CLEF. Viitattu 21.11.2010. (englanniksi)
- ↑ Informaatiotutkimukset sivut UTA/INFIM. Viitattu 21.11.2010.
- ↑ FIRE-tutkimusryhm? UTA/INFIM. Viitattu 21.11.2010.
- ↑ Franz Och: The Official Google Blog 23.5.2007. googleblog.blogspot.com: Google, Inc.. Viitattu 21.11.2010. (englanniksi)
Aiheesta muualla
[muokkaa | muokkaa wikiteksti?]- Cross-Language Evaluation Forum (CLEF)
- Linkki- ja viitekokoelma kieltenv?lisest? tiedonhausta
- Googlen kielity?kalut