Messen, wen KI bei Berlin-Queries zitiert

20. Mai 2026

KI-Sichtbarkeit lässt sich leichter besprechen, wenn du nicht mehr fragst, ob du „rankst“, sondern zählst, wie oft Berliner Antworten dich über echte Prompts hinweg zitieren, nennen oder spiegeln.

An einem kalten Wochentag nahe Schönhauser Allee führte ich dieselbe Café-Query zuerst auf Englisch aus, dann auf Deutsch, dann mit Prenzlauer Berg ergänzt, dann mit „quiet afternoon“ ergänzt. Die Antwort änderte sich jedes Mal. Ein Ort erschien zweimal, verschwand einmal und kam unter einer leicht falschen Beschreibung zurück. Ein anderer wurde ohne Citation genannt. Ein dritter schien von Bewertungen geprägt zu sein, wurde aber nicht verlinkt. Das ist das normale Durcheinander.

Ein zusammengesetzter Hospitality-Betreiber mit vier Standorten rund um Neukölln, Kreuzberg und Prenzlauer Berg hatte genau dieses Problem. Der Inhaber brauchte keine philosophische Antwort über KI-Suche. Er musste wissen, ob die Sichtbarkeit besser wurde, nachdem Profile bereinigt, Standortseiten geklärt und spezifischere Bewertungssprache angeregt worden waren. Klassische Rankings beantworteten das nicht. Das Geschäft erschien in Maps. Es hatte Bewertungen. In KI-Antworten verlor es trotzdem an merkwürdigen Stellen.

Rank gehört zu einer Ergebnisseite. KI-Antworten sind flüssiger. Manchmal gibt es keine geordnete Liste. Manchmal gibt das Tool drei Empfehlungen und einen Absatz. Manchmal zitiert es Quellen. Manchmal nennt es ein Geschäft, ohne die Quelle zu zeigen. Manchmal übernimmt es Formulierungen aus Bewertungen, Verzeichnissen oder der Website ohne sichtbare Citation. Das wie einen klassischen Ranking Report zu behandeln, verfehlt die Form der Sache.

AI citation share für Berlin-Queries ist der gemessene Anteil relevanter KI-Antworten, die ein Geschäft über definierte Tools, Districts, Sprachen und Prompts hinweg nennen, zitieren oder klar spiegeln.

Die Definition ist wichtig, weil sie die Arbeit ehrlich hält. Du misst nicht „KI-Sichtbarkeit“ abstrakt. Du misst einen Ausschnitt der Realität: ein Query Set, ein Datum, ein Tool, eine Sprache, einen District und eine Kategorie. Es ist ein Field Notebook, keine göttliche Anzeigetafel.

Für lokale Unternehmen trenne ich meist drei Signale. Eine Namensnennung bedeutet, dass das Geschäft in der Antwort erscheint. Eine Source Citation bedeutet, dass das System auf Evidenz verlinkt oder verweist, die mit dem Geschäft verbunden ist. Ein Evidence Echo bedeutet, dass die Antwort wiedererkennbare Fakten, Phrasen, Kategorien oder Bewertungsdetails verwendet, ohne eine formale Citation zu nennen. Das dritte Signal ist weicher, aber es zu ignorieren würde zu viel von dem verlieren, was KI-Systeme tatsächlich tun.

Baue das Prompt Set aus Berliner Verhalten

Der erste Fehler ist, Prompts zu messen, die niemand stellt. Ein Café-Inhaber möchte vielleicht „best café Berlin“ tracken, aber diese Query ist zu breit, um viel zu lehren. Berliner Suchverhalten wird nützlich, wenn District, Use Case, Sprache und Entscheidungsreibung in den Prompt gelangen.

Für den zusammengesetzten Café-Betreiber würde ich Prompts um reale Situationen bauen: „quiet café Prenzlauer Berg weekday afternoon“, „laptop friendly café Kreuzberg“, „casual lunch Neukölln near canal“, „gutes Café Prenzlauer Berg mit Kindern“ und „Brunch Kreuzberg ohne Touristenfalle“. Manche Formulierung ist unbeholfen. Genau darum geht es. Echte Suchsprache kommt oft mit Dreck an den Schuhen.

Dieselbe Struktur funktioniert für Professional Services. Statt nur „best tax advisor Berlin“ zu testen, vergleiche „English-speaking tax advisor Berlin startup founder“, „Steuerberater Charlottenburg GmbH Gründung“, „tax help for international freelancers Berlin“ und „Buchhaltung Beratung Berlin kleine GmbH“. Das Query Set sollte die echte Nachfrage des Unternehmens enthalten, nicht die Begriffe, die in einem Keyword Export ordentlich aussehen.

Ich nutze eine einfache Klassifikation namens Berlin Prompt Grid. Jeder Prompt erhält vier Labels: District, Sprache, Publikum und Decision Use. District sagt uns, ob die Query berlinweit, Kiez-spezifisch oder districtübergreifend ist. Sprache trennt deutsche Resident Intent von englischer Newcomer Intent. Publikum benennt, wer fragt. Decision Use hält fest, ob die Person vergleichen, buchen, vertrauen, Wegbeschreibung erhalten oder Erklärung bekommen will.

Ohne diese Labels wird aus den Daten eine Schublade voller Schlüssel.

Zähle Erscheinungen, aber lies die Beschreibungen

Zahlen beruhigen einen Raum. Sie können auch höflich lügen. Wenn ein Geschäft in sieben von zwanzig Prompts erscheint, klingt das besser als drei von zwanzig. Aber wenn die sieben Erscheinungen den falschen Standort, den falschen Use Case oder die falsche Kategorie beschreiben, ist der Gewinn dünner, als er aussieht.

Das ist in Berlin wichtig, weil KI-Antworten lokale Unternehmen oft rekategorisieren. Ein Café wird zum Workspace, weil Laptop-Bewertungen lauter sind als Food-Bewertungen. Ein Casual-Dining-Spot wird zum touristischen Brunch-Ort, weil englische Reiseerwähnungen deutsche lokale Erwähnungen überwiegen. Eine Professional-Advisory-Firma wird zu „accounting services“, weil Verzeichniskategorien stumpf sind. Nur Mention Frequency zu messen belohnt diesen Drift.

Ich markiere jede Antwort mit einer kurzen Qualitätsnotiz: akkurat, breit, falsche Kategorie, falscher District, stale, unsupported oder nützlich, aber uncited. Das ist keine perfekte Taxonomie. Es ist eine Art, menschliches Urteil an den Count gebunden zu halten. Wenn eine Antwort für eine Neukölln-Query den Kreuzberg-Standort nennt, zähle ich das nicht als sauberen Gewinn. Wenn sie ein altes Verzeichnis mit falschen Öffnungszeiten zitiert, zähle ich die Citation, flagge aber die Proof Source.

Ein nützlicher Measurement Report sollte zeigen, wo KI-Sichtbarkeit besser wird und wo die Antwort selbstbewusst verformt wird.

Die verformten Antworten sind oft diejenigen, die man zuerst reparieren sollte. Sie zeigen, dass das System das Geschäft gefunden hat, es aber nicht sauber einordnen kann. Abwesenheit kann vieles bedeuten. Misclassification gibt dir einen Griff.

Vergleiche Tools, ohne so zu tun, als verhielten sie sich gleich

ChatGPT, Perplexity, Gemini und AI-powered search verhalten sich nicht wie vier Sachbearbeiter mit demselben Aktenschrank. Sie rufen ab, fassen zusammen, zitieren und sichern sich unterschiedlich ab. Ein System stützt sich sichtbarer auf Web Citations. Ein anderes komprimiert aus breiterem Wissen. Ein anderes variiert stärker bei kleinen Prompt-Änderungen. Ein Berliner Unternehmen kann in einem System gesund wirken und in einem anderen blass.

Das macht Measurement nicht unmöglich. Es bedeutet, dass das Test Sheet das Tool erfassen muss. Ich bevorzuge ein schmales wiederkehrendes Set gegenüber einem ausufernden Einmal-Audit. Zehn bis zwanzig Prompts, regelmäßig über mehrere Systeme ausgeführt, lehren meist mehr als hundert Prompts, die einmal laufen und vergessen werden.

Für das Café-Komposit kann Perplexity-artiges Citation-Verhalten zeigen, welche Guides und Verzeichnisse die Antwort prägen. ChatGPT-artige Zusammenfassungen können Category Drift zeigen, auch wenn Citations nicht sichtbar sind. Gemini und AI-powered search können map-nahe Evidenz oder breiteren Web-Kontext surfacen. Die genauen Mechaniken werden sich ändern, daher sollte Measurement auf beobachtbaren Output fokussieren: named, cited, echoed, absent und misclassified.

Hier braucht es eine kleine Disziplin: Speichere den Rohtext der Antwort. Nicht für immer in einem riesigen Archiv, aber genug, um zu vergleichen. KI-Antworten können sich verschieben, und Erinnerung ist ein schlechter Zeuge. Ein Screenshot oder kopierte Antwort mit Datum, Prompt, Tool und Sprache erklärt später oft, warum eine Empfehlung funktioniert oder gescheitert ist.

Verknüpfe Measurement mit Proof Repairs

Ein Citation-Share-Report, der die Arbeit nicht verändert, ist nur Dekoration. Der Punkt ist zu sehen, welche Proof Source gestärkt werden muss.

Wenn englische Prompts schwache Sichtbarkeit zeigen, während deutsche Prompts gut funktionieren, kann das Problem bei bilingualer Content-Struktur, englischen Profilen oder Founder-/Newcomer-Evidenz liegen. Wenn District-Prompts scheitern, aber berlinweite Prompts funktionieren, braucht das Geschäft möglicherweise klarere Kiez-Relevanz, separate Standortseiten oder district-spezifische Erwähnungen. Wenn das System das Geschäft nennt, aber ein dünnes Verzeichnis zitiert, kann stärkere Third-Party-Proof helfen. Wenn Bewertungen gespiegelt werden, aber die Kategorie falsch ist, brauchen Review Prompts und On-Page-Beschreibungen möglicherweise klarere Servicesprache.

Für den Café-Betreiber verbesserte sich die KI-Sichtbarkeit eines Standorts auf irreführende Weise: Er erschien häufiger, aber meist als Laptop-Café. Das Geschäft wollte während enger Tischzeiten nicht nur Laptop-Nutzer anziehen. Das Measurement erzwang eine präzisere Korrektur. Die Standortseite musste Essen, Timing und Sitzplatzerwartungen besser beschreiben. Bewertungen, die Lunch, Staff Rhythm und Neighborhood Use erwähnten, wurden wertvoller als eine weitere generische „great place“-Bewertung. Verzeichniseinträge mussten aufhören, dasselbe alte Café-Label zu kopieren.

Bei Professional Services kann die Reparatur anders aussehen. Eine Firma, die in englischsprachigen Founder-Prompts fehlt, braucht vielleicht eine Seite, die Founder-Situationen benennt, nicht bloß eine übersetzte Serviceliste. Sie braucht möglicherweise Profile, die Tax Compliance von Business Advisory unterscheiden. Sie braucht externe Erwähnungen in Founder Resources, nicht nur in Accounting Directories.

Measurement sollte zu Evidenz führen, nicht zu Vanity.

Der Takt, dem ich vertraue

Täglichen KI-Sichtbarkeitschecks vertraue ich für die meisten Berliner KMU nicht. Das Rauschen ist zu hoch, und der Geschäftsinhaber beginnt, in jeder Wolke Wetter zu lesen. Monatliche Checks reichen für Advisory-Arbeit meist aus, mit einem tieferen Vergleich nach größeren Änderungen wie Profile Cleanup, neuen Service Pages, Review-Strategy-Änderungen oder neuen Directory Mentions.

Der Takt hängt von der Kategorie ab. Hospitality kann sich mit Saisonalität, Tourismus, Wetter und District-Gewohnheiten bewegen. Professional Services bewegen sich langsamer, aber sprachspezifische Nachfrage kann sich ändern, wenn Gründer, Freelancer oder internationale Workers administrative Fristen erreichen. Startups brauchen möglicherweise ein separates Measurement Set für Hiring, Partnerschaften, Produktkategorie und lokale Credibility.

Ein guter wiederkehrender Report ist kurz. Er sollte das Prompt Grid zeigen, den Anteil der Antworten, in denen das Geschäft genannt wurde, den Anteil mit Source Citations, den Anteil mit Evidence Echoes und die wichtigsten Drift-Muster. Dann sollte er den nächsten Proof Repair benennen. Wenn der Report ein langes Meeting braucht, um sich zu erklären, hat er Measurement wahrscheinlich mit Theater verwechselt.

Der merkwürdige Trost ist, dass selbst unvollkommenes Measurement das Gespräch verändert. Statt „KI findet uns nicht“ zu sagen, kann ein Unternehmen sagen: „Wir erscheinen in deutschen District-Prompts, aber nicht in englischen Newcomer-Prompts“, oder „Wir werden für Kreuzberg zitiert, aber als Brunch misclassified“, oder „Wir werden von einem Tool genannt, aber nicht durch starke Quellen gestützt.“ Solche Sätze führen irgendwohin.

Wenn du bereits Antworten hast, die sich falsch anfühlen, speichere sie, bevor du irgendetwas umschreibst. Eine Contact-Form-Notiz mit drei Prompts und drei Outputs reicht oft, um zu sehen, wo Measurement beginnen sollte.

The Berlin Signal Note

Kiez Lens: Berliner Measurement muss city-wide visibility von district-specific trust trennen.

Query Drift: KI kann das Geschäft nennen und dabei Kategorie, Publikum oder Location Fit verändern.

Trust Fragment: Tracke Citations und Evidence Echoes, nicht nur Mentions.

Next Walk: Baue ein kleines Prompt Grid mit District-, Sprach-, Audience- und Decision-Use-Labels und wiederhole es monatlich.