dinsdag, februari 01, 2005

Google Scholar onderzocht

Bosman, J. & Sieverts, E. (2005). Wetenschappelijk Googelen eenvoudiger en beter dan ooit? Informatie Professional 9[1], 18-26

Jeroen Bosman en Eric Sieverts maken een eerste balans op van Google Scholar.

Wie gebruik wil maken van Google Scholar kan niet buiten dit artikel om. Een wetenschappelijke analyse van wat Google Scholar doet en niet doet.

GS indexeert wetenschappelijke publicaties (tijdschriftartikels, book reviews, opiniestukken, ... ) en de beschrijving van die publicaties (metadata + citaties) bij geselecteerde hosts en websites van universiteiten. Het is niet duidelijk wat die geselecteerde hosts en websites dan wel zijn. Google zelf laat daarover immers bitter weinig los. Uit hun onderzoek konden Bosman en Sieverts wel de grootste leveranciers identificeren. De vijf grootste 'leveranciers' zijn Pubmed, Ingenta, Harvard Astrophysical Data System, American Psychological Society en het Institute of Electrical and Electronics Engineers (IEEE) (zie het artikel voor een uitgebreide lijst). GS haalt ook heel wat metadata van boeken uit de OCLCWorldCat. Door te vergelijken met bestaande databases waarvan men de totale omvang wel kent, komen Bosman en Sieverts uit op een voorzichtige schatting van tussen de 50 en 70 miljoen records. Belangrijk om weten is ook dat GS bij lange teksten na x-aantal woorden stopt met indexeren en springt naar de literatuurlijst om de citaties te indexeren.

De zoekfunctionaliteit is min of meer dezelfde als bij Google, al kan daar nog verandering in komen. GS is immers nog in beta-fase. Zoals bij de gewone Google plaatst GS de resultaten in volgorde van relevantie (ranking). Als basis wordt hier het aantal citaties genomen, met nog een aantal andere parameters die extra gewicht aan een publicatie kunnen toekennen. Bij de zoekresultaten zal je vaak kunnen doorklikken naar de pdf-versie van het artikel. Maar aangezien GS ook betalende inhoud indexeert, zal je soms geconfronteerd worden met de vraag naar een gebruikersnaam/wachtwoord om toegang te krijgen tot het artikel. Er wordt ondertussen gewerkt aan een elegante oplossing om de klant naar de juiste leverancier te loodsen, afhankelijk van zijn/haar toegangsrechten (OpenURL). Krijg je als resultaat een [citation] dan heb je enkel de beschrijving van het document en biedt GS een Websearch aan om het document ergens op het www te gaan opsporen.

Bosman en Sieverts zijn in hun conclusie overwegend positief over GS, gezien zijn huidige beta-fase. Een aantal aandachtspunten voor verdere ontwikkeling zijn snellere indexering (nu soms 2 tot 3 maanden achterop), de mogelijkheid om dubbeltellingen en duplicaten te filteren en de mogelijkheid om OpenURL-toepassingen te kunnen integreren.