Microsoft Live Labs haben etwas Interessantes wenn auch in meinen Augen wenig Sinnvolles an den Start gebracht: Photosynth.

Im Prinzip soll die Software die eigenen Bilder auf der Festplatte mit beliebigen Bildern aus dem Internet abgleichen. Wenn nun eine Übereinstimmung bei einem abgebildeten Objekt gefunden wurde, wird anscheinend die räumliche Komponente dazu errechnet um die Perspektive festzustellen, aus der es aufgenommen wurde. Nun kann man um virtuelle 3D-Gebäude umherfliegen und die Bilder sind dann genau an der Stelle, wo sie perspektivisch korrekt sein müssten. Das sieht in Bewegung absolut cool aus aber wo der Nutzen für die Menschheit dahinter steckt, ist mir ein Rätsel. Google Earth ist da schon um einiges sinnvoller und dieses Video vom Multi-Touch Interaction Environment viel cooler.

Beteilige dich an der Unterhaltung

14 Kommentare

  1. Ich habe das heute auch gelesen und fand es sehr interessant. Stell‘ Dir einfach vor, Du warst an einem interessanten Ort und hattest aber keine Zeit, alle Sehenswürdigkeiten zu sehen. Haben andere Menschen von diesen Sehenswürdigkeiten Bilder beigetragen, so kannst Du die Bilder angucken.

    Wie es so schön heißt: „Use your pictures as your personal entrypoint to the world…“

    Ich frage mich nur, wie gut es funktioniert, wenn Bilder bei verschiedenen Wetterbedingungen und Tageszeiten aufgenommen worden sind. Oder wenn bauliche Veränderungen an bereits gespeicherten Orten vorgenommen werden. Das kann zu Inkonsistenzen führen.

  2. Also gerade du als Spieler solltest da eigentlich mehr in der Technik (wenn imho möglichst eben nicht von Microsoft) sehen können.

    Man braucht ein Modell von einem Auto? Man gehe raus auf die Straße, mache in paar Fotos. Voila! Noch etwas anpassen, Physikalisches reinbringen das wars! Realistische Gebäude? Nichts einfacher als das! Einen Bobby? Kein Problem. Ok, die Bewegungskomponente muss da manuell reingepfelgt werden.

    Ich denke diese Technik wird die Entwicklung von 3D Videospielen wesentlich einfacher machen, wenn auch vielleicht nicht so sehr vergünstigen. (Die finden immer einen neuen Weg um Geld raus zu blasen.) Vielleicht ist dann für die Techniker ein Trip nach London drin, damit sie „Urlaubsfotos“ schießen.

  3. Das die Technik wirklich 3D Modelle von kompelxen Gegenständen berechnen kann, bezweifle ich sehr stark. Das wäre an anderer Stelle schoneinmal aufgekommen und nicht in einem Funprogramm von MS.

  4. Schön, dass Du meine Anmerkungen gleich vorwegnimmst :)

    Das obige Video funktioniert gerade nicht, aber ich habe aber was auf youtube.com gefunden. Ich weiss nicht, ob’s das gleiche ist.

    Das sieht ja auf den ersten Blick wirklich witzig aus, bei näherem Hinsehen finde ich es allerdings etwas „fishy“. Ich habe nicht den Eindruck, dass das wirklich wahllos zusammengesuchte Fotos sind, sondern die scheinen alle am gleichen Tag, unter den gleichen Bedingungen und mit der gleichen Kamera gemacht worden zu sein (man beachte Passanten oder Plakate in verschiedenen Aufnahmen). Wenn die Bilder wirklich vollkommen ohne weitere Informationen zusammengesetzt wurden, ist das schon nicht schlecht – aber weit von dem entfernt, was der Entwickler beschreibt.

    Wenn man sich klar macht, wie komplex das Zusammenfügen und Alignieren von Texten ist (AFAIK wird übrigens immer noch eine sinnvolle deutsche Übersetzung für „Alignment“ gesucht), dann kann man erahnen, wie schwierig das mit Bildern sein muss. Ich will nicht ausschliessen, dass Microsoft es hinbekommen hat (ausnahmsweise mal kein Seitenhieb auf MS, deren Forschungsabteilung hat ein paar echt kluge Köpfe), aber wirklich glauben tue ich es erst, wenn man mehr als ein Video zu sehen bekommt.

  5. Also das Video funktioniert einwandfrei. Ist ja bei Google gehostet. =)

    Ja, also ich teile deine Meinung absolut, dass es absolut unrealistisch ist, dass die Software mit x-beliebigen Fotos funktioniert, die auch noch aus dem Internet in den unterschiedlichsten Qualitätsstufen.

  6. Also das automatisches Zusammenfügen und „Alignieren“ von Bilder zumindest in vielen Fällen funktioniert sollte jedem klar sein, der bereits mal Panorama-Bilder erstellt hat.

    Dass das bei Text schwieriger ist wundert mich nicht, da man da mit wesentlich weniger Daten arbeiten kann (s/w Striche vs. vollfarbige Bilder).

  7. Ne Alain. Die sagen ja, dass die nicht nur korrekt aneinander gepackt werden SONDERN, dass ein 3D Modell erzeugt wird, in dem man rumfliegen kann so dass die Ansichten dann auch noch räunlich korrekt passen. Das andere ist mir klar.

  8. @Alain: Diese stitcher nehmen aber meines Wissens nicht x-beliebige Bilder und suchen sich die heraus, die passen könnten, sondern man muss als Fotograf schon recht kooperativ sein. Wenn ich das Tutorial zu Hugin richtig gelesen habe, muss man gemeinsame Punkte in den Bildern markieren, das macht die Software nicht automatisch. Das MS-Video erweckt den Eindruck, dass einfach Bilder aus dem Netz genommen werden, ohne irgendwelche Zusatzinformation, wann, wo, wie und womit sie gemacht wurden. Das hätte schon eine ganz andere Qualität.

    An sich würde ich Text-Alignment für deutlich leichter halten als Bild-Alignment (von den Algorithmen, vom Speicher- und Zeitbedarf). Mein Verweis auf die Genetik sollte klar machen: In einem typischen Sequenzierungs-Projekt hat man Hunderttausende bis Millionen von Text-Schnippseln, von denen man weiß, dass sie alle zu einem Genom gehören. Man kann die gesuchte Gesamtsequenz mit heutigen Verfahren ganz gut rekonstruieren, wenn sie nicht zu groß ist. Nimm Bilder statt Text, und lasse die Randbedingung fallen, dass die Schnippsel in irgendeiner Beziehung zueinander stehen müssen. Ich denke, das Problem, das Du dann hast, läßt sich nicht so leicht lösen, wie MS es uns hier weismachen will.

    @Marc: Dein Glaube an Google ist wohl unerschütterlich, was? Ja inzwischen habe auch ich mir das Google-Video ansehen können (ist tatsächlich leicht unterschiedlich zu dem bei youtube).

  9. @Jörn: Also ich gehe davon aus, dass Text-Schnipsel zusammenfügen und ähnliche Bilder finden einfach komplett andere Probleme sind.

    Bei ersterem kann man Brute-Force mal einfach alle möglichkeiten austesten und schauen ob etwas sinniges bei rauskommt. Die Laufzeit hält man niedrig indem man „schräge“ Zusammensetzungen direkt ausschließt. Das analoge Premiere Signal wurde ja auch „geknackt“ indem einfach alle Zeilen des Bildes neu sortiert wurden.

    Bei Bildern sucht man sich bestimmte „Features“ (Farbübergänge, einzelne Spots, etc) und vergleicht diese dann mit den anderen Bildern. Gesichtserkennung (also ob ein Gesicht in einem Bild vorhanden ist, nicht ob ein Gesicht das selbe ist) funktioniert schon seit einiger Zeit in Echtzeit bei 30s in guter Auflösung. Ob ich jetzt nach den „Features“ meines Bildes, oder den Features eines Gesichtes suche ist sicherlich nicht DER extreme Unterschied.

    Und zu Hugin: Entweder macht man das dort manuell oder man nutzt autopano, welches einem automagisch diese Punkte sucht (was aber nicht wirklich immer optimal läuft oder auch mal gar nicht).

    Ich sage nicht, dass das alles nicht etwas schönes neues ist, denn in der Art kombiniert habe ich soetwas definitiv noch nicht gesehen. Ich glaube aber nicht dass Winzigweich das momentan halbwegs performant hinbekommt. Aber wenn die Vaporware in ein paar Jahren wirklich auf den Markt kommt sind die Rechner wahrscheinlich inzwischen stark genug, denn sie haben alle 4-5 Cell Prozessoren intus.

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website zeigt Benutzerbilder über gravatar.com an.

Wie bekomme ich einen verifizierten Account? - Login