Portály k crawlování
Každý portál = 1 řádek v NocoDB.
URL, frekvence (daily/weekly/monthly),
metoda (rss/sitemap/html-scrape),
CSS selektor pro extrakci.
NocoDB
10 sloupců
Bulvár (denně)
extra.cz (celebrity sekce),
super.cz (tv-show),
blesk.cz (celebrity).
Nejvíc nových tváří z reality shows.
extra.cz
super.cz
blesk.cz
Žebříčky (týdně/měsíčně)
Forbes CZ/SK, refresher.cz,
favorit.sk, Sportovec roku,
Český Slavík. Stabilní celebrity.
Forbes
Refresher
favorit.sk
Reality Shows
Love Island CZ, Survivor,
MasterChef, SuperStar.
Nové celebrity vznikají přes noc —
Paparazzi je chytí hned.
Love Island
Survivor
SuperStar
n8n čte "Zdroje" (status=active + frequency match) → ví, co dnes crawlovat
Firecrawl Scrape
Pro každý portál z "Zdroje" → Firecrawl scrapne stránku.
Použije CSS selektor nebo full page.
Výstup: headlines / články.
Firecrawl
HTML → MD
AI Parse jmen
AI (OpenRouter) extrahuje jména celebrit z headlineů.
Prompt: "Vyber všechna jména celebrit/influencerů z tohoto textu."
Výstup: [{name, context}].
AI Parse
gemini-flash
Manuální vstup
Tým přidává celebrity ručně přes NocoDB form
nebo CSV import přímo do "Pracovní" tabulky.
Manual
CSV
Form
Output: Array<{ name, source_url, source_portal }> — surová jména z webu
Check Lurki DB
Supabase query: SELECT * FROM creators WHERE display_name ILIKE '%{name}%'.
Pokud existuje → skip (už ho máme).
Supabase
creators
Check NocoDB
NocoDB query: filtr (name,eq,{name}) v "Profi" i "Pracovní".
Pokud existuje → skip (už zpracováno nebo čeká).
Profi
Pracovní
Fuzzy match + batch dedup
Fuzzy match (Leóš Mareš = Leos Mares).
Odstranění duplikátů v rámci batche.
Nové celebrity → dál do pipeline.
Fuzzy
Normalize
Output: Nové celebrity které ještě v systému nemáme
n8n → zápis
Nový řádek: name, source (extra.cz, forbes...),
country (CZ/SK), category (AI guess).
Status = pending.
n8n
INSERT
Lurki ← čtení
Lurki (cron/EF) čte všechny řádky kde status = pending.
Zpracuje max 20/batch.
Po zpracování: processing → done.
Lurki
SELECT
Schema (8 sloupců)
name, domain (opt.), country (CZ/SK),
category, source,
source_url, status, found_at.
NocoDB
Staging
Firecrawl Scrape
Pokud celebrita má doménu → scrapne web, extrahuje social links.
Hledá: IG, FB, YT, TikTok, X, LinkedIn v HTML.
Firecrawl
Website → Links
Google Search
"Jméno" site:instagram.com OR site:youtube.com.
Parsuje URL patterny z výsledků.
Fallback pro celebrity bez webu.
Google
serper.dev
Validate + Verify
Validate: Blacklist, fuzzy name match, platform patterns.
Verify: HTTP GET → 200? Skip: IG, FB, LinkedIn (datacenter blocked).
verify.ts
~8s timeout
Output: Array<{ platform, username, url, confidence, source }> — avg 2.9 profiles/celebrity
Confidence Scoring
Každý profil → AI: patří této celebritě?
Confidence 0-100.
≥70 = auto-confirm, 50-69 = review, <50 = reject.
OpenRouter
gemini-flash
Auto-klasifikace
AI: category (sport, music, reality-show...),
niche (UFC, Love Island, lezení...),
estimated followers range.
AI
Auto-tag
Auto-Confirm
Pokud všechny profily confidence ≥ 70 →
automaticky confirm do Lurki DB. Jinak čeká na manuální review.
≥70 auto
50-69 review
NocoDB "Profi"
Produkční tabulka hotových celebrit. 14 sloupců.
Všechna data: jméno, slug, profily, platformy, confidence,
kategorie, followers, status.
NocoDB
Production
Lurki DB (Supabase)
creators + social_profiles + scrape_queue.
Deduplikace: skip pokud (platform, username) už existuje.
Slug: leos-mares pro SEO URL.
Supabase
3 tabulky
Scraping Queue
Profily s confidence ≥ 50 → scrape_queue.
Apify aktory stáhnou posts, stories, reels, videa.
Priority: YT + IG first.
Apify
Queue
Profilové stránky
lurki.cz/profily/leos-mares — cross-platform overview,
follower stats, growth trend, nejlepší obsah.
Schema.org markup.
lurki.cz
lurki.sk
Žebříčky
lurki.cz/zebricek/youtube-cz — auto-update denně.
Top sport, music, entertainment, reality-show.
15-40K queries/měs SEO potential.
SEO
Rankings
Analytics + Blog
Per-platform analytics, video library, engagement.
Auto-gen týdenní reporty a datové články.
Teaser free, full = premium.
Freemium
Auto-gen
NocoDB "Zdroje" — Schema
name (text) — Název portálu (extra.cz)
url (url) — Cílová URL ke crawlování
category (select) — bulvár, sport, forbes, reality-show, music
frequency (select) — daily, weekly, monthly
method (select) — rss, sitemap, html-scrape
css_selector (text, opt.) — a.article-title
last_crawl (datetime) — Poslední crawl
status (select) — active, paused, error
found_total (number) — Kolik celebrit našel
notes (long text) — Poznámky
NocoDB "Pracovní" — Schema
name (text) — Jméno celebrity
domain (text, opt.) — Web (leosmares.cz)
country (select) — CZ / SK
category (select) — AI guess z headline
source (text) — extra.cz / forbes / manual
source_url (url) — Odkaz na článek
status (select) — pending → processing → done → error
found_at (datetime) — Kdy n8n našel
NocoDB "Profi" — Schema
name (text) — Jméno celebrity
slug (text) — URL slug (leos-mares)
country (select) — CZ / SK
category (select) — AI confirmed
profiles_found (number) — Počet profilů
platforms (text) — IG, YT, TT, FB
avg_confidence (number) — AI skóre 0-100
est_followers (number) — Odhad celkem
source (text) — Odkud přišel
status (select) — discovered → review → confirmed → live
profiles_json (long text) — Raw JSON
discovered_at (datetime)
confirmed_at (datetime)
notes (long text)
n8n Paparazzi — Sourcing Workflow
Cron trigger — Denně 3:00 CET
Read "Zdroje" — NocoDB (status=active, frequency match)
Firecrawl — Scrape každý portál
AI Parse — Extrahuj jména celebrit z headlineů
Dedup — Check Lurki DB + NocoDB Profi + Pracovní
Write "Pracovní" — Nové → NocoDB (status=pending)
Update "Zdroje" — last_crawl + found_total
Telegram — "Paparazzi našel 5 nových celebrit"
Lurki — Processing Workflow
Cron trigger — Denně 4:00 CET (po Paparazzi)
Read "Pracovní" — NocoDB (status=pending, max 20)
Discovery API — POST /discover (Firecrawl+Google)
AI Scoring — Confidence 0-100, category, niche
Write "Profi" — NocoDB Profi (enriched data)
Auto-Confirm — confidence ≥70 → Lurki DB + queue
Update "Pracovní" — status = done
Telegram — "Zpracováno 15 celebrit, 42 profilů"
Testovací výsledky — 10 CZ celebrit (2026-02-15)
| Celebrity |
Domain |
Profiles |
Platforms |
Best Conf. |
Status |
| Leoš Mareš | leosmares.cz | 2 | IG, FB | 50 | discovered |
| Petr Čech | — | 4 | IG, FB, LI, TT | 50 | discovered |
| FIZIstyle | — | 3 | IG, TT, FB | 95 | discovered |
| Ondřej Mikula | — | 2 | IG, LI | 85 | discovered |
| Jaromír Jágr | jaromirjagr.cz | 3 | IG, TT, FB | 95 | discovered |
| Honest Guide | — | 4 | YT, FB, IG, TT | 50 | discovered |
| Jiří Procházka | — | 3 | IG, LI, TT | 50 | discovered |
| Ewa Farna | — | 3 | IG, TT, FB | 99 | discovered |
| Adam Ondra | adamondra.com | 2 | IG, FB | 95 | discovered |
| Kovy | — | 3 | IG, TT, FB | 95 | discovered |
Celkem 29 profilů z 10 celebrit (avg 2.9/celebrity).
Discovery time: ~5-15s per celebrity. Platforms: IG 10, FB 8, TT 7, LI 2, YT 2.