k-märkt

Ny Teknik vs Google Book Search Revisited

Postat: 2006-01-05 kl. 00.10

Jag ber om ursäkt. Jag gjorde dålig research inför min sågning av Jan Melins artikel om Google Book Search i november. Jag missade nämligen en stor grej:

Steve Rubel thinks he's "hacked" Google Book Search, as he covers in his Read Most of O'Reilly's Hacks Books for Free Using Google post. In reality, I think he's just finding that Google Book Search operates exactly the way it is supposed to operate, to show you a percentage of a book that a publisher itself has allowed you to view online.

Search Engine Watch Google Book Search "Hack" Just Normal Operation (2005-12-28)

Problemet är skillnaden mellan Google Print Library (hädanefter benämnt Google Library) och Google Book Search (en del av problemet för förvirringen är att Google Book Search-projektet går under namnet Google Print).

Google Library är den kontroversiella delen av Googles bokprojekt. Det är i det projektet Google tar böcker från bibliotek och skannar dem utan att fråga först. De gör det här för att förbättra sitt sökindex genom att få mer data för att förbättra sitt sätt att maskinellt förstå relevans samt för att skanna böcker för Google Print. Det är det här projektet som Google stämts för och även den del som de stoppade för att ge förläggare tid att opt-out i höstas.

Men. Och här är det stora men:et. Ingenting från Google Library går ut till Google Print utan förlagens godkännande. Allting blir sökbart och dyker upp i Google Book Search i snuttvy™.

Enter förvirrad Ny Teknik-journalist:

Ny Teknik letade upp en engelsk reseguide om Sverige på 563 sidor från 2003. Vid "normal" sökning stämmer Googles löften till bokförlagen. Men det var ganska lätt att kringgå begränsningarna. Efter 20 minuter med upprepade sökningar samt några ut- och inloggningar på bibliotekstjänstens webbplats hade exempelvis Ny Teknik lyckats kopiera hela det 44 sidor långa kapitlet om Stockholm, inklusive några kartor. Textsidorna i form av bildfiler gick utmärkt att läsa på skärmen.

Problemet här är Google Book Search Partner-programmet, som Jan Melin också skriver om i artikeln:

Men biblioteket rymmer också, med tillstånd från respektive bokförlag, mycket ny upphovsskyddad litteratur. Google lockar förlagen med att det är en utmärkt marknadsföring att finnas med i biblioteket.

Ibid

Danny Sullivan på Search Engine Watch skriver:

Then there's the entire separate Google Books Partner program. Publishers in that program, like O'Reilly, voluntarily submit their books. When they do this, they can also indicate how much of their books they want to have displayed, from 20 to 100 percent. If they don't want any of it viewable, then only snippets and no actual pages are shown.

Search Engine Watch Google Book Search "Hack" Just Normal Operation (2005-12-28)

Ny Teknik har tittat på The Rough Guide to Sweden där Rough Guides är en partner som har bestämt hur mycket av boken som ska vara synligt.

Så förutom hacket där Ny Teknik lyckats göra skärmdumpar och avkoda dem med ett OCR-program (orka som JN och JNjr skulle sagt) så har de sett färre sidor än förlaget tillåtet dem att se, då det minsta antalet sidor i den 563 sidor långa boken som Rough Guides tillåtit användarna av Google Book Search att se är 112 sidor.

(Och skärmdumpen från Google Hacks de använt för att exemplifiera artikeln i Ny Teknik kommer från O'Reilly som tillåter upp till 70 % av sina böcker att visas för en användare.)

Permalänk

Kategori: Google

Bakåtspårning (Trackback)

Bakåtspårnings-URL för det här inlägget:
http://k.digitalfarmers.com/mt/mt-tb.cgi/899

Kommentarer

Kommentera


(visas aldrig på sajten men måste anges)


Kom ihåg mig?

(du får använda html-kod)