Якщо у вас магазин з каталогом українською, російською, польською, німецькою — стандартні search-рішення (включно з популярними US SaaS — Klevu, Searchanise) часто проявляють нижчу якість на не-англійських мовах. Причина проста: ці моделі тренувались переважно на англомовних e-commerce даних. Розбираємось чому це так і як multilingual-e5-large вирішує проблему з коробки.

Проблема: чому US-trained моделі провалюються на CIS/EU

Більшість smart-search SaaS-платформ створювались для US-ринку: Shopify-магазинів з англомовними каталогами, fashion / electronics / beauty домени. Коли ці продукти потім "expand to international markets" — вони додають basic-translations, але core-модель залишається тренованою на англійській.

📊
На нашому бенчмарку (UA-магазин 30k SKU посуду): Klevu давав ~88% top-3 на українському, ~92% на англійському. Searchanise — 78% UA, 89% EN. AI Search — 92.7% UA, 91% EN. Multilingual-first моделі дають стабільну якість на всіх мовах.

Стандартний LIKE-пошук OpenCart і його межі

OpenCart-стандартний пошук використовує SQL LIKE '%query%'. Це означає буквальне співпадіння рядків. На UA/RU/PL це провалюється на 5 рівнях:

1. Морфологія

Слов'янські мови flective — одне слово має 6-12 форм:

Приклад морфології українською

Чашка → Чашки, Чашці, Чашку, Чашкою, Чашок, Чашкам...

Запит "чашки" не знаходить товар "Чашка кавова керамічна" через стандартний LIKE.

2. Латиниця/кирилиця

Покупець може ввести "stiklokeramika" або "склокераміка" — стандартний пошук не зрозуміє що це одне і те ж.

3. Синоніми

"Холодильник" / "фрідж", "тарілка" / "блюдо", "кросівки" / "кеди" — це різні слова для одних і тих самих товарів. LIKE не знає синонімів.

4. Транслітерація

"Айфон" / "iPhone", "Панасонік" / "Panasonic" — UA-користувачі частково транслітерують бренди.

5. Cross-language

Покупець з російським UI може ввести "сковорода" — а товар проіндексований лише українською "пательня".

Models compared: e5 vs US-моделі

МодельТренувальні даніUA/RU/PL якість
OpenAI text-embedding-ada-002~93% Englishпосередньо
Klevu (proprietary)US e-commerceпосередньо
Searchanise (proprietary)US/UK e-commerceобмежено
BGE-M3 (Baidu)multilingualдобре
multilingual-e5-large100+ мов паралельновідмінно

Чому multilingual-e5 кращий для UA/RU

multilingual-e5-large-instruct — open-source модель від Microsoft Research. Натренована на 100+ мовах паралельно (не як "англійська + переклади"). Це значить:

  • Морфологія — модель розуміє "чашки" і "чашка" як близькі поняття без додаткового словника
  • Cross-language — "сковорода" (RU) і "пательня" (UA) опиняються близько у вектор-просторі
  • Синоніми — "холодильник" і "фрідж" модель розуміє з контексту тренувальних даних
  • Транслітерація — "iPhone" і "Айфон" мають косинус ~0.9
🧠
Технічна деталь: розмір моделі 1024-вимірний embedding. Для CIS-каталогу 30k SKU потрібно ~12 МБ зберігання + GPU-сервер для inference (наш — у тариф включено).

Cross-language matching на практиці

На українському магазині з трилокальним каталогом (UA/RU/EN) реальні приклади:

Запит покупцяМова інтерфейсуЗнайдений товарМова товару
steklokeramikaENСклокерамічна тарілкаUA
сковородаRUПательня з антипригарним покриттямUA
kettleENЧайник електричний 1.7лUA
чайнікUAЧайник Bosch (description in EN)EN
iPhneUAiPhone 15 Pro MaxUA
фріжUAХолодильник SamsungUA

Усі ці запити повертають релевантні товари у AI Search v1.0.5. На стандартному LIKE OpenCart всі вони — 0 результатів.

Реальні приклади з UA-магазинів

Магазин посуду (~30k SKU, isklad.com.ua)

  • Запит "чашка з блюдцем" — знаходить товари з name "Чашка кавова з блюдцем 250мл" + варіанти з only "блюдце" як супутні
  • Запит "тарілка для пасти" — знаходить "Глибока тарілка для першого 23см" (морфологія + контекст)
  • Запит "білий керамічний горщик" — знаходить "Кашпо керамічне біле для квітів" (синонім)

Магазин одягу (5k SKU)

  • Запит "сорочка з довгим рукавом" — знаходить блузи + casual shirts
  • Запит "trousers black" (EN) — знаходить "Штани чорні класичні" (UA-каталог)
  • Запит "плаття літне" (опечатка) — знаходить "Сукня літня" (морфологія + опечатка)

Статистика: на скільки покращується пошук

+30%
більше успішних пошуків
-26 п.п.
bounce з search-сторінок
+15%
conversion (mobile)
-90%
"я не знайшов" у чаті

Дані з 5 OpenCart-магазинів які перейшли з LIKE-пошуку на AI Search протягом 2025-2026. Деталі — у статті "Кейс isklad.com.ua".

Як включити multilingual режим

У AI Search multilingual — за замовчуванням. Не потрібно нічого окремо налаштовувати:

  1. Встановити модуль (5 хвилин — інструкція тут)
  2. Reindex — модуль автоматично проіндексує товари у всіх активних мовах магазину
  3. Готово — пошук працює multilingually з коробки
🌍
Важливо: у Klevu/Searchanise/Doofinder multilingual часто потребує окремого тарифу (Pro+ або add-on). У AI Search — включено в кожен тариф. Free-план з 200 SKU теж отримує всі мови.

FAQ

Скільки мов підтримує AI Search?

100+ через multilingual-e5-large. Найкраще працює: UA, RU, PL, DE, ES, IT, FR, EN, CS, NL, RO, HU, BG. Для китайської/корейської/японської ефективність трохи нижча, але працює.

А якщо мій каталог тільки англійською?

Multilingual-модель не гірша за US-моделі на англійській — наш бенчмарк дає 91-93% top-3 на EN-каталогах vs ~94% Klevu. На англомовній електроніці Klevu може бути на 1-2 п.п. кращим.

Чи треба окремо проіндексувати кожну мову?

Ні. AI Search автоматично проіндексує всі активні мови магазину при reindex. Якщо у вас 3 мови (UA/RU/EN) і 30k SKU — це 90k embeddings, виконується за 30-90 хв.

А якщо у частини товарів немає перекладу?

Працює fallback. Якщо товар має тільки UA-описі, він індексується тільки в UA. Запит на RU все одно знайде його через cross-language matching multilingual-моделі.

Чи можна вимкнути cross-language matching (щоб українські запити повертали тільки українські результати)?

Так. У AI Search → Settings → Strict Language Mode: Enabled. Тоді запит у мовою X повертає тільки результати в тій же мові.

Чи multilingual впливає на швидкість пошуку?

Ні. Розмір вектор-простору не залежить від кількості мов — кожен embedding 1024-вимірний. Швидкість залишається ~200ms на 30k SKU незалежно від кількості локалей.