← Deck

Lurki Paparazzi v3

Celebrity Discovery Pipeline · Zdrojen8n CrawlPracovníLurki DiscoveryProfiSEO  ·  CZ & SK market
8
Pipeline Phases
n8n
Sourcing Engine
Lurki
Processing Engine
3
NocoDB Tables
SEO
End Goal
2.9
Avg Profiles/Celebrity
„Zdroje“
Portály k crawlování
Konfigurace — ty ručně
10 sloupců
„Pracovní“
Staging — nalezené celebrity
n8n píše, Lurki čte
8 sloupců
„Profi“
Production — ověřené + enriched
Lurki píše
14 sloupců
Zdroje
n8n Crawl
Dedup
Pracovní
Discovery
AI Scoring
Profi
SEO
 n8n Paparazzi — Sourcing Engine
n8n autonomně čte tabulku „Zdroje“, crawluje bulvární weby, Forbes listy, reality show portály. Extrahuje jména celebrit pomocí AI, ověří že je ještě nemáme, a zapíše nové do „Pracovní“.
Zdroje Crawler AI Parse Dedup
 Lurki — Processing Engine
Lurki čte „Pracovní“, posílá každé jméno do Discovery API (Firecrawl + Google). Obohatí o sociální profily, AI scoring, kategorizaci. Uloží do „Profi“ + Lurki DB + scraping queue.
Discovery AI Scoring Persist
0
Zdroje — NocoDB konfigurace portálů
Tabulka portálů k monitoringu — ty nastavuješ ručně
Portály k crawlování
Každý portál = 1 řádek v NocoDB. URL, frekvence (daily/weekly/monthly), metoda (rss/sitemap/html-scrape), CSS selektor pro extrakci.
NocoDB 10 sloupců
Bulvár (denně)
extra.cz (celebrity sekce), super.cz (tv-show), blesk.cz (celebrity). Nejvíc nových tváří z reality shows.
extra.cz super.cz blesk.cz
Žebříčky (týdně/měsíčně)
Forbes CZ/SK, refresher.cz, favorit.sk, Sportovec roku, Český Slavík. Stabilní celebrity.
Forbes Refresher favorit.sk
Reality Shows
Love Island CZ, Survivor, MasterChef, SuperStar. Nové celebrity vznikají přes noc — Paparazzi je chytí hned.
Love Island Survivor SuperStar
n8n čte "Zdroje" (status=active + frequency match) → ví, co dnes crawlovat
1
Crawl — n8n Paparazzi prochází weby
Autonomní sběr jmen celebrit z bulváru, žebříčků a reality shows
Firecrawl Scrape
Pro každý portál z "Zdroje" → Firecrawl scrapne stránku. Použije CSS selektor nebo full page. Výstup: headlines / články.
Firecrawl HTML → MD
AI Parse jmen
AI (OpenRouter) extrahuje jména celebrit z headlineů. Prompt: "Vyber všechna jména celebrit/influencerů z tohoto textu." Výstup: [{name, context}].
AI Parse gemini-flash
Manuální vstup
Tým přidává celebrity ručně přes NocoDB form nebo CSV import přímo do "Pracovní" tabulky.
Manual CSV Form
Output: Array<{ name, source_url, source_portal }> — surová jména z webu
2
Dedup — už ho máme?
n8n ověří proti Lurki DB + NocoDB "Profi" + "Pracovní"
Check Lurki DB
Supabase query: SELECT * FROM creators WHERE display_name ILIKE '%{name}%'. Pokud existuje → skip (už ho máme).
Supabase creators
Check NocoDB
NocoDB query: filtr (name,eq,{name}) v "Profi" i "Pracovní". Pokud existuje → skip (už zpracováno nebo čeká).
Profi Pracovní
Fuzzy match + batch dedup
Fuzzy match (Leóš Mareš = Leos Mares). Odstranění duplikátů v rámci batche. Nové celebrity → dál do pipeline.
Fuzzy Normalize
Output: Nové celebrity které ještě v systému nemáme
3
NocoDB "Pracovní" — Staging tabulka
n8n zapíše nové celebrity, Lurki je odtud čte ke zpracování
n8n → zápis
Nový řádek: name, source (extra.cz, forbes...), country (CZ/SK), category (AI guess). Status = pending.
n8n INSERT
Lurki ← čtení
Lurki (cron/EF) čte všechny řádky kde status = pending. Zpracuje max 20/batch. Po zpracování: processingdone.
Lurki SELECT
Schema (8 sloupců)
name, domain (opt.), country (CZ/SK), category, source, source_url, status, found_at.
NocoDB Staging
4
Discovery — Lurki hledá sociální profily
Firecrawl scrape + Google search + HTTP verify
Firecrawl Scrape
Pokud celebrita má doménu → scrapne web, extrahuje social links. Hledá: IG, FB, YT, TikTok, X, LinkedIn v HTML.
Firecrawl Website → Links
Google Search
"Jméno" site:instagram.com OR site:youtube.com. Parsuje URL patterny z výsledků. Fallback pro celebrity bez webu.
Google serper.dev
Validate + Verify
Validate: Blacklist, fuzzy name match, platform patterns.
Verify: HTTP GET → 200? Skip: IG, FB, LinkedIn (datacenter blocked).
verify.ts ~8s timeout
Output: Array<{ platform, username, url, confidence, source }> — avg 2.9 profiles/celebrity
5
AI Scoring — obohacení & klasifikace
OpenRouter AI hodnotí relevanci, kategorizuje, odhaduje followers
Confidence Scoring
Každý profil → AI: patří této celebritě? Confidence 0-100. ≥70 = auto-confirm, 50-69 = review, <50 = reject.
OpenRouter gemini-flash
Auto-klasifikace
AI: category (sport, music, reality-show...), niche (UFC, Love Island, lezení...), estimated followers range.
AI Auto-tag
Auto-Confirm
Pokud všechny profily confidence ≥ 70 → automaticky confirm do Lurki DB. Jinak čeká na manuální review.
≥70 auto 50-69 review
6
NocoDB "Profi" + Lurki DB
Uložení hotových celebrit + zařazení do scrapingu
NocoDB "Profi"
Produkční tabulka hotových celebrit. 14 sloupců. Všechna data: jméno, slug, profily, platformy, confidence, kategorie, followers, status.
NocoDB Production
Lurki DB (Supabase)
creators + social_profiles + scrape_queue. Deduplikace: skip pokud (platform, username) už existuje. Slug: leos-mares pro SEO URL.
Supabase 3 tabulky
Scraping Queue
Profily s confidence ≥ 50 → scrape_queue. Apify aktory stáhnou posts, stories, reels, videa. Priority: YT + IG first.
Apify Queue
7
SEO Pages — veřejný web
lurki.cz / lurki.sk / lurki.io — profilové stránky & žebříčky
Profilové stránky
lurki.cz/profily/leos-mares — cross-platform overview, follower stats, growth trend, nejlepší obsah. Schema.org markup.
lurki.cz lurki.sk
Žebříčky
lurki.cz/zebricek/youtube-cz — auto-update denně. Top sport, music, entertainment, reality-show. 15-40K queries/měs SEO potential.
SEO Rankings
Analytics + Blog
Per-platform analytics, video library, engagement. Auto-gen týdenní reporty a datové články. Teaser free, full = premium.
Freemium Auto-gen

NocoDB "Zdroje" — Schema

  • name (text) — Název portálu (extra.cz)
  • url (url) — Cílová URL ke crawlování
  • category (select) — bulvár, sport, forbes, reality-show, music
  • frequency (select) — daily, weekly, monthly
  • method (select) — rss, sitemap, html-scrape
  • css_selector (text, opt.) — a.article-title
  • last_crawl (datetime) — Poslední crawl
  • status (select) — active, paused, error
  • found_total (number) — Kolik celebrit našel
  • notes (long text) — Poznámky
  • NocoDB "Pracovní" — Schema

  • name (text) — Jméno celebrity
  • domain (text, opt.) — Web (leosmares.cz)
  • country (select) — CZ / SK
  • category (select) — AI guess z headline
  • source (text) — extra.cz / forbes / manual
  • source_url (url) — Odkaz na článek
  • status (select) — pending → processing → done → error
  • found_at (datetime) — Kdy n8n našel
  • NocoDB "Profi" — Schema

  • name (text) — Jméno celebrity
  • slug (text) — URL slug (leos-mares)
  • country (select) — CZ / SK
  • category (select) — AI confirmed
  • profiles_found (number) — Počet profilů
  • platforms (text) — IG, YT, TT, FB
  • avg_confidence (number) — AI skóre 0-100
  • est_followers (number) — Odhad celkem
  • source (text) — Odkud přišel
  • status (select) — discovered → review → confirmed → live
  • profiles_json (long text) — Raw JSON
  • discovered_at (datetime)
  • confirmed_at (datetime)
  • notes (long text)
  • n8n Paparazzi — Sourcing Workflow

  • Cron trigger — Denně 3:00 CET
  • Read "Zdroje" — NocoDB (status=active, frequency match)
  • Firecrawl — Scrape každý portál
  • AI Parse — Extrahuj jména celebrit z headlineů
  • Dedup — Check Lurki DB + NocoDB Profi + Pracovní
  • Write "Pracovní" — Nové → NocoDB (status=pending)
  • Update "Zdroje" — last_crawl + found_total
  • Telegram — "Paparazzi našel 5 nových celebrit"
  • Lurki — Processing Workflow

  • Cron trigger — Denně 4:00 CET (po Paparazzi)
  • Read "Pracovní" — NocoDB (status=pending, max 20)
  • Discovery API — POST /discover (Firecrawl+Google)
  • AI Scoring — Confidence 0-100, category, niche
  • Write "Profi" — NocoDB Profi (enriched data)
  • Auto-Confirm — confidence ≥70 → Lurki DB + queue
  • Update "Pracovní" — status = done
  • Telegram — "Zpracováno 15 celebrit, 42 profilů"
  • Testovací výsledky — 10 CZ celebrit (2026-02-15)

    Celebrity Domain Profiles Platforms Best Conf. Status
    Leoš Marešleosmares.cz2IG, FB50discovered
    Petr Čech4IG, FB, LI, TT50discovered
    FIZIstyle3IG, TT, FB95discovered
    Ondřej Mikula2IG, LI85discovered
    Jaromír Jágrjaromirjagr.cz3IG, TT, FB95discovered
    Honest Guide4YT, FB, IG, TT50discovered
    Jiří Procházka3IG, LI, TT50discovered
    Ewa Farna3IG, TT, FB99discovered
    Adam Ondraadamondra.com2IG, FB95discovered
    Kovy3IG, TT, FB95discovered
    Celkem 29 profilů z 10 celebrit (avg 2.9/celebrity). Discovery time: ~5-15s per celebrity. Platforms: IG 10, FB 8, TT 7, LI 2, YT 2.

    NocoDB "Zdroje" — Startovní portály

    Portál URL Kategorie Frekvence Metoda Oček. celebrit/run
    extra.czextra.cz/celebritybulvárDenněhtml-scrape5-15
    super.czsuper.cz/tv-showbulvárDenněhtml-scrape5-15
    blesk.czblesk.cz/celebritybulvárDenněhtml-scrape5-10
    refresher.czrefresher.czlifestyleTýdněrss3-8
    Forbes CZforbes.cz/30-pod-30forbesMěsíčněhtml-scrape10-30
    Forbes SKforbes.skforbesMěsíčněhtml-scrape10-20
    favorit.skfavorit.skbulvárTýdněhtml-scrape3-8
    Love Island CZnova.cz/love-islandreality-showDenně*html-scrape2-5
    ČT Sportctsport.czsportTýdněrss3-8
    * Reality show portály: denně jen během sezóny (status=active/paused)