📑 У цій статті
Якщо у вас магазин з каталогом українською, російською, польською, німецькою — стандартні search-рішення (включно з популярними US SaaS — Klevu, Searchanise) часто проявляють нижчу якість на не-англійських мовах. Причина проста: ці моделі тренувались переважно на англомовних e-commerce даних. Розбираємось чому це так і як multilingual-e5-large вирішує проблему з коробки.
Проблема: чому US-trained моделі провалюються на CIS/EU
Більшість smart-search SaaS-платформ створювались для US-ринку: Shopify-магазинів з англомовними каталогами, fashion / electronics / beauty домени. Коли ці продукти потім "expand to international markets" — вони додають basic-translations, але core-модель залишається тренованою на англійській.
Стандартний LIKE-пошук OpenCart і його межі
OpenCart-стандартний пошук використовує SQL LIKE '%query%'. Це означає буквальне співпадіння рядків. На UA/RU/PL це провалюється на 5 рівнях:
1. Морфологія
Слов'янські мови flective — одне слово має 6-12 форм:
Приклад морфології українською
Чашка → Чашки, Чашці, Чашку, Чашкою, Чашок, Чашкам...
Запит "чашки" не знаходить товар "Чашка кавова керамічна" через стандартний LIKE.
2. Латиниця/кирилиця
Покупець може ввести "stiklokeramika" або "склокераміка" — стандартний пошук не зрозуміє що це одне і те ж.
3. Синоніми
"Холодильник" / "фрідж", "тарілка" / "блюдо", "кросівки" / "кеди" — це різні слова для одних і тих самих товарів. LIKE не знає синонімів.
4. Транслітерація
"Айфон" / "iPhone", "Панасонік" / "Panasonic" — UA-користувачі частково транслітерують бренди.
5. Cross-language
Покупець з російським UI може ввести "сковорода" — а товар проіндексований лише українською "пательня".
Models compared: e5 vs US-моделі
| Модель | Тренувальні дані | UA/RU/PL якість |
|---|---|---|
| OpenAI text-embedding-ada-002 | ~93% English | посередньо |
| Klevu (proprietary) | US e-commerce | посередньо |
| Searchanise (proprietary) | US/UK e-commerce | обмежено |
| BGE-M3 (Baidu) | multilingual | добре |
| multilingual-e5-large | 100+ мов паралельно | відмінно |
Чому multilingual-e5 кращий для UA/RU
multilingual-e5-large-instruct — open-source модель від Microsoft Research. Натренована на 100+ мовах паралельно (не як "англійська + переклади"). Це значить:
- Морфологія — модель розуміє "чашки" і "чашка" як близькі поняття без додаткового словника
- Cross-language — "сковорода" (RU) і "пательня" (UA) опиняються близько у вектор-просторі
- Синоніми — "холодильник" і "фрідж" модель розуміє з контексту тренувальних даних
- Транслітерація — "iPhone" і "Айфон" мають косинус ~0.9
Cross-language matching на практиці
На українському магазині з трилокальним каталогом (UA/RU/EN) реальні приклади:
| Запит покупця | Мова інтерфейсу | Знайдений товар | Мова товару |
|---|---|---|---|
| steklokeramika | EN | Склокерамічна тарілка | UA |
| сковорода | RU | Пательня з антипригарним покриттям | UA |
| kettle | EN | Чайник електричний 1.7л | UA |
| чайнік | UA | Чайник Bosch (description in EN) | EN |
| iPhne | UA | iPhone 15 Pro Max | UA |
| фріж | UA | Холодильник Samsung | UA |
Усі ці запити повертають релевантні товари у AI Search v1.0.5. На стандартному LIKE OpenCart всі вони — 0 результатів.
Реальні приклади з UA-магазинів
Магазин посуду (~30k SKU, isklad.com.ua)
- Запит "чашка з блюдцем" — знаходить товари з name "Чашка кавова з блюдцем 250мл" + варіанти з only "блюдце" як супутні
- Запит "тарілка для пасти" — знаходить "Глибока тарілка для першого 23см" (морфологія + контекст)
- Запит "білий керамічний горщик" — знаходить "Кашпо керамічне біле для квітів" (синонім)
Магазин одягу (5k SKU)
- Запит "сорочка з довгим рукавом" — знаходить блузи + casual shirts
- Запит "trousers black" (EN) — знаходить "Штани чорні класичні" (UA-каталог)
- Запит "плаття літне" (опечатка) — знаходить "Сукня літня" (морфологія + опечатка)
Статистика: на скільки покращується пошук
Дані з 5 OpenCart-магазинів які перейшли з LIKE-пошуку на AI Search протягом 2025-2026. Деталі — у статті "Кейс isklad.com.ua".
Як включити multilingual режим
У AI Search multilingual — за замовчуванням. Не потрібно нічого окремо налаштовувати:
- Встановити модуль (5 хвилин — інструкція тут)
- Reindex — модуль автоматично проіндексує товари у всіх активних мовах магазину
- Готово — пошук працює multilingually з коробки
FAQ
Скільки мов підтримує AI Search?
100+ через multilingual-e5-large. Найкраще працює: UA, RU, PL, DE, ES, IT, FR, EN, CS, NL, RO, HU, BG. Для китайської/корейської/японської ефективність трохи нижча, але працює.
А якщо мій каталог тільки англійською?
Multilingual-модель не гірша за US-моделі на англійській — наш бенчмарк дає 91-93% top-3 на EN-каталогах vs ~94% Klevu. На англомовній електроніці Klevu може бути на 1-2 п.п. кращим.
Чи треба окремо проіндексувати кожну мову?
Ні. AI Search автоматично проіндексує всі активні мови магазину при reindex. Якщо у вас 3 мови (UA/RU/EN) і 30k SKU — це 90k embeddings, виконується за 30-90 хв.
А якщо у частини товарів немає перекладу?
Працює fallback. Якщо товар має тільки UA-описі, він індексується тільки в UA. Запит на RU все одно знайде його через cross-language matching multilingual-моделі.
Чи можна вимкнути cross-language matching (щоб українські запити повертали тільки українські результати)?
Так. У AI Search → Settings → Strict Language Mode: Enabled. Тоді запит у мовою X повертає тільки результати в тій же мові.
Чи multilingual впливає на швидкість пошуку?
Ні. Розмір вектор-простору не залежить від кількості мов — кожен embedding 1024-вимірний. Швидкість залишається ~200ms на 30k SKU незалежно від кількості локалей.