Category Archives: Intelligent information management

Dub-dub-dub (WWW) 2012, Lyon

Eens per jaar komt de W3C bijeen in een open conferentie. Het circus rouleert tussen de America’s, Azie en Europa, dit jaar dus in Lyon. De conferentie beschrijft zichzelf als volgt:” The WWW Conference series aims to provide the world a premier forum for discussion and debate about the evolution of the Web, the standardization of its associated technologies, and the impact of those technologies on society and culture. The conferences bring together researchers, developers, users and commercial ventures – indeed all who are passionate about the Web and what it has to offer.”

Ruim 2000 mensen waren aanwezig, relatief veel uit de US en India, en uit Nederland 24 mensen (met name van de technische universiteiten). Behalve discussies en afstemming over standaarden (de voornaamste taak van de W3C) waren er ook keynotes, tutorials, demo’s, wetenschappelijke presentaties (885 full paper submissions, 12% acceptance rate) en EU project presentaties (van o.a. FP7-ICT calls). Er was een enorme lijst van onderwerpen die aan bod kwamen. De algemene themas waren: web search, web mining, information extraction en language processing, behavioural analysis en personalisation, social networks, data en content management, semantic web, security, privacy, trust en abuse, internet monetisation en incentives, web engineering, performance, scalability en availability, user interfaces, interaction en human factors, smart devices en the live web. De belangrijkste thema’s voor developers waren: HTML5, CSS3 en SVG (scalable vector graphics). De proceedings staan hier.

Het doel van mijn bezoek aan deze conferentie was me op de hoogte stellen van de huidige state of the art van mogelijkheden op het gebied van praktische kennistechnologie en informatieverwerking. Omdat de papers tijdens de conferentie al online stonden heb ik me gefocussed op demo’s, tutorials en keynote presentaties.

De eerste twee dagen waren tutorials. Dag 1 ging over IBM Watson. Watson is een computer die is ontworpen om het tegen een mens op te nemen in een vraag-antwoord spelsituatie (de Amerikaanse quiz “Jeopardy!”). In deze quiz wordt de algemene kennis van de deelnemers getest door het stellen van cryptogram-achtige vragen. Verder zit er een spel-strategisch element in. Begin vorig jaar won Watson de Jeopardy quiz van de twee beste spelers.

De makers van Watson wilden een aantal technische doorbraken realiseren. De problematiek speelt zich af in een open domein (dus geen gesloten knowledge base), er wordt gebruik gemaakt van complexe taalvoorbeelden, de precisie van de antwoorden is hoog (dus niet “het antwoord staat in dit document”, maar het exacte antwoord dat werd gevraagd moet worden gegeven). Verder is vanwege het spelelement van fout antwoord is geld verliezen vereist dat er een hoge mate van zekerheid van het antwoord is, en dat er snel wordt geantwoord. IBM Watson is een grote doorbraak op het terrein van kunstmatige intelligentie. In de tutorial op www2012 werd de werking van het system in detail uitgelegd. Het belangrijkste wat hierover te zeggen valt is dat het system niet werkt volgens het principe van het vertalen van de vraag naar een aantal antwoorden en deze vervolgens opzoeken in een knowledgebase. Dit is namelijk niet werkbaar in een open domein waarin de vraag en het onderwerp van tevoren niet bekend zijn. Het principe van Watson is gebaseerd op een ranking van een aantal kandidaat antwoorden en het vinden van bewijs voor dit antwoord in andere bronnen. Dit bewijs kan worden gevonden in een aantal bewijscategorien, b.v. geografisch, chronologisch en lexicografisch. Voorbeeld: “deze man was president van de VS ten tijde van gebeurtenis x”, dan moeten de tijdstippen “was president van de VS” en het tijdstip van de betreffende gebeurtenis overlappen. Alle bewijscategorien worden gewogen en volgens een machine learning algoritme wordt hierna het meest waarschijnlijke antwoord gegeven. Verder is interessant dat Watson werkt op basis van open software. Uiteraard zitten er allerlei gepatenteerde algoritmen in, maar de basis van Watson bestaat uit veel hardware en parallel software processing via een groot aantal losse componenten die met een open source framework (Apache UIMA) worden aangestuurd.

Op de vierde dag heeft Chris Welty van het Watson ontwikkelteam in een keynote dit principe nogmaals verduidelijkt. Hij benadrukte dat hij door het maken van Watson van bepaalde gedachtengangen was afgestapt: o.a. “knowledge is not the destination”. Hiermee bedoelde hij dat een gestuctureerde semantische knowledge base bij Watson maar voor 10% heeft bijgedragen aan het geven van goede antwoorden.

De tutorial van dag 2 ging over Linked Data. In deze tutorial werd via hands-on (SPARQL queries) uitgelegd hoe linked data werkt en wat je ermee kunt bereiken. Hoewel deze technologie lange tijd vooral de status “laboratorium” had, zijn de tools nu zover ontwikkeld dat er goed mee valt te werken.  Europese ICT projecten zoals LOD2 en LATC hebben hiervoor een set vrij beschikbare tools ontwikkeld. Hoe zou een bibliotheek met Linked Data er uit kunnen zien?  Linked Data maakt het mogelijk om content (in de vorm van data) van anderen te integreren in je eigen system. Het lijkt op harvesten, het voornaamste verschil is dat je op recordnivo gegevens kunt integreren. De bronnen waarvan je data ophaalt kunnen biblio bronnen zijn (linked biblio databanken zijn er m.n. veel over publicaties en gentechnologie), maar bijvoorbeeld ook data van musea, geografische bronnen, media bronnen, Europeana en natuurlijk DBpedia (database achter Wikipedia). Het principe van “data bij de bron” wordt via Linked Data beter nageleefd. Je zou dus kunnen denken aan een digitale bibliotheek die ook informatie uit andere data bronnen presenteert.

De conferentie begon op de derde dag, met een keynote van Tim Berners-Lee (TBL). TBL is de grondlegger van de meest belangrijke principes van het WWW. Het www is ontstaan in 1989. Iedereen in de zaal vraagt zich dan af “wat gaat hij zeggen”. Zijn keynote was eigenlijk een beetje een rommelige overdenking waar mensen die hem blijkbaar vaker hebben gehoord wel wat chocola van konden maken. Het ging vooral over “openness”, bescherming van intellectueel eigendom en privacy en de wetten die overheden er proberen door te drukken (ACTA, HADOPI, CISPA etc). We moeten nieuwe manieren vinden om om te gaan met netbeveiliging en accountability. Het bleek nog helemaal niet eenvoudig om uit te leggen wat “open” is. Volgens TBL is technologie “open” als het met andere technologie kan communiceren en uitwisselen. Hiervoor heb je standaarden nodig, “ga dus vooral in een W3C werkgroep zitten”. Is Facebook een bedreiging hiervoor? “Niet meer dan Netscape 15 jaar geleden..” Verder had hij nog een pleidooi voor “simplicity” en “decentralization” Het internet werkt bij de gratie van openheid en tolerantie. Zodra iets wordt afgeschermd dan verdwijnt de innovatie.

In de middag heb ik een aantal mooie demo’s gezien. Het GoogleArt project was al bekend maar had toch een mooie presentatie. Met name de virtuele museum tour (die we kennen van Google streetview) en het kunnen maken van je eigen collectie. Hierbij sloot de presentatie van Kjing aan. Dit is software waarmee je content naar een mobiel device kan pushen. Het is geschikt voor personificatie en wordt gebruikt bij museumtours. De BBC en de RAI presenteerden hoe je automatisch een audio archief semantisch kan annoteren (BBC) en hoe je nieuwsitems semantisch kunt annoteren (RAI).

Dag 4 begon met de keynote van Chris Welty (zie hierboven). Na Chris gaf Neelie Kroes een speech over openness. Voor haar is het vooral een economisch begrip, internet als open vrije markt. De paneldiscussie over web as human right begon een beetje tam maar liep al snel uit op een flinke pijnlijke discussie over internet vrijheid (ihb arabische lente, Syrie) en het verkopen van Deep Packet Inspection technologie om demonstranten mee te kunnen traceren door Europa aan Syrie.

In de middag heb ik weer enkele demo’s gezien, waaronder een international dataset catalog

Dag 5 startte met een keynote van Bernhard Stiegler, director of IRI (Innovation and Research Institute) at the Georges Pompidou Center in Parijs. Die heb ik overgeslagen. De keynote van Stiegler bleek achteraf wel een interessante filosofische verhandeling te zijn over wat het internet nu eigenlijk is. Gelukkig staat hij online.

’s Middags heb ik wat developer sessies bijgewoond. Interessant was de visie van het Europese project IKS over content management. Volgens hen kan het allemaal een stuk flexibeler en intelligenter en om dit te faciliteren zijn een aantal open source tools ontwikkeld (create.js een online CMS editing tool gebaseerd op HTML5; en vie.js – een “JavaScript library for implementing decoupled Content Management Systems and semantic interaction in web applications”).

In een sessie over CSS werd een preview getoond van wat mogelijk is met CSS3.

Terugkijkend ben ik vooral aan het herkauwen op de kwestie van het succes van het internet. Het werkt alleen als het open is en als we elkaars vrijheid respecteren. Gisteren verkondigde Neelie Kroes dat de ACTA wetgeving toch geen kans van slagen heeft. Dat is goed nieuws, maar er is nog een slag te maken voor wat betreft het afstemmen van wereldse wetgeving en handhaving op de online realiteit.