query/style_intent.py

"""
Style intent detection for query understanding.
"""
from __future__ import annotations
from dataclasses import dataclass, field
from typing import Any, Callable, Dict, Iterable, List, Optional, Sequence, Set, Tuple
from .tokenization import TokenizedText, normalize_query_text, tokenize_text
@dataclass(frozen=True)
class StyleIntentTermDefinition:
    canonical_value: str
    en_terms: Tuple[str, ...]
    zh_terms: Tuple[str, ...]
    attribute_terms: Tuple[str, ...]
@dataclass(frozen=True)
class StyleIntentDefinition:
    intent_type: str
    terms: Tuple[StyleIntentTermDefinition, ...]
    dimension_aliases: Tuple[str, ...]
    en_synonym_to_term: Dict[str, StyleIntentTermDefinition]
    zh_synonym_to_term: Dict[str, StyleIntentTermDefinition]
    max_term_ngram: int = 3
    @classmethod
    def from_rows(
        cls,
        intent_type: str,
        rows: Sequence[Dict[str, List[str]]],
        dimension_aliases: Sequence[str],
    ) -> "StyleIntentDefinition":
        terms: List[StyleIntentTermDefinition] = []
        en_synonym_to_term: Dict[str, StyleIntentTermDefinition] = {}
        zh_synonym_to_term: Dict[str, StyleIntentTermDefinition] = {}
        max_ngram = 1
        for row in rows:
            normalized_en = tuple(
                dict.fromkeys(
                    term
                    for term in (normalize_query_text(raw) for raw in row.get("en_terms", []))
                    if term
                )
            )
            normalized_zh = tuple(
                dict.fromkeys(
                    term
                    for term in (normalize_query_text(raw) for raw in row.get("zh_terms", []))
                    if term
                )
            )
            normalized_attribute = tuple(
                dict.fromkeys(
                    term
                    for term in (normalize_query_text(raw) for raw in row.get("attribute_terms", []))
                    if term
                )
            )
            if not normalized_en and not normalized_zh and not normalized_attribute:
                continue
            canonical = (
                normalized_attribute[0]
                if normalized_attribute
                else normalized_en[0]
                if normalized_en
                else normalized_zh[0]
            )
            term_definition = StyleIntentTermDefinition(
                canonical_value=canonical,
                en_terms=normalized_en,
                zh_terms=normalized_zh,
                attribute_terms=normalized_attribute,
            )
            terms.append(term_definition)
            for term in normalized_en:
                en_synonym_to_term[term] = term_definition
                max_ngram = max(max_ngram, len(term.split()))
            for term in normalized_zh:
                zh_synonym_to_term[term] = term_definition
                max_ngram = max(max_ngram, len(term.split()))
        aliases = tuple(
            dict.fromkeys(
                term
                for term in (
                    normalize_query_text(alias)
                    for alias in dimension_aliases
                )
                if term
            )
        )
        return cls(
            intent_type=intent_type,
            terms=tuple(terms),
            dimension_aliases=aliases,
            en_synonym_to_term=en_synonym_to_term,
            zh_synonym_to_term=zh_synonym_to_term,
            max_term_ngram=max_ngram,
        )
    def match_candidates(self, candidates: Iterable[str], *, language: str) -> Set[StyleIntentTermDefinition]:
        mapping = self.zh_synonym_to_term if language == "zh" else self.en_synonym_to_term
        matched: Set[StyleIntentTermDefinition] = set()
        for candidate in candidates:
            term_definition = mapping.get(normalize_query_text(candidate))
            if term_definition:
                matched.add(term_definition)
        return matched
    def match_text(
        self,
        text: str,
        *,
        language: str,
        tokenizer: Optional[Callable[[str], Any]] = None,
    ) -> Set[StyleIntentTermDefinition]:
        bundle = tokenize_text(text, tokenizer=tokenizer, max_ngram=self.max_term_ngram)
        return self.match_candidates(bundle.candidates, language=language)
@dataclass(frozen=True)
class DetectedStyleIntent:
    intent_type: str
    canonical_value: str
    matched_term: str
    matched_query_text: str
    attribute_terms: Tuple[str, ...]
    dimension_aliases: Tuple[str, ...]
    def to_dict(self) -> Dict[str, Any]:
        return {
            "intent_type": self.intent_type,
            "canonical_value": self.canonical_value,
            "matched_term": self.matched_term,
            "matched_query_text": self.matched_query_text,
            "attribute_terms": list(self.attribute_terms),
            "dimension_aliases": list(self.dimension_aliases),
        }
@dataclass(frozen=True)
class StyleIntentProfile:
    query_variants: Tuple[TokenizedText, ...] = field(default_factory=tuple)
    intents: Tuple[DetectedStyleIntent, ...] = field(default_factory=tuple)
    @property
    def is_active(self) -> bool:
        return bool(self.intents)
    def get_intents(self, intent_type: Optional[str] = None) -> List[DetectedStyleIntent]:
        if intent_type is None:
            return list(self.intents)
        normalized = normalize_query_text(intent_type)
        return [intent for intent in self.intents if intent.intent_type == normalized]
    def get_canonical_values(self, intent_type: str) -> Set[str]:
        return {intent.canonical_value for intent in self.get_intents(intent_type)}
    def to_dict(self) -> Dict[str, Any]:
        return {
            "active": self.is_active,
            "intents": [intent.to_dict() for intent in self.intents],
            "query_variants": [
                {
                    "text": variant.text,
                    "normalized_text": variant.normalized_text,
                    "fine_tokens": list(variant.fine_tokens),
                    "coarse_tokens": list(variant.coarse_tokens),
                    "candidates": list(variant.candidates),
                }
                for variant in self.query_variants
            ],
        }
class StyleIntentRegistry:
    """Holds style intent vocabularies and matching helpers."""
    def __init__(
        self,
        definitions: Dict[str, StyleIntentDefinition],
        *,
        enabled: bool = True,
    ) -> None:
        self.definitions = definitions
        self.enabled = bool(enabled)
    @classmethod
    def from_query_config(cls, query_config: Any) -> "StyleIntentRegistry":
        style_terms = getattr(query_config, "style_intent_terms", {}) or {}
        dimension_aliases = getattr(query_config, "style_intent_dimension_aliases", {}) or {}
        definitions: Dict[str, StyleIntentDefinition] = {}
        for intent_type, rows in style_terms.items():
            definition = StyleIntentDefinition.from_rows(
                intent_type=normalize_query_text(intent_type),
                rows=rows or [],
                dimension_aliases=dimension_aliases.get(intent_type, []),
            )
            if definition.terms:
                definitions[definition.intent_type] = definition
        return cls(
            definitions,
            enabled=bool(getattr(query_config, "style_intent_enabled", True)),
        )
    def get_definition(self, intent_type: str) -> Optional[StyleIntentDefinition]:
        return self.definitions.get(normalize_query_text(intent_type))
    def get_dimension_aliases(self, intent_type: str) -> Tuple[str, ...]:
        definition = self.get_definition(intent_type)
        return definition.dimension_aliases if definition else tuple()
class StyleIntentDetector:
    """Detects style intents from parsed query variants."""
    def __init__(
        self,
        registry: StyleIntentRegistry,
        *,
        tokenizer: Optional[Callable[[str], Any]] = None,
    ) -> None:
        self.registry = registry
        self.tokenizer = tokenizer
    def _build_query_variants(self, parsed_query: Any) -> Tuple[TokenizedText, ...]:
        seen = set()
        variants: List[TokenizedText] = []
        texts = [
            self._get_language_query_text(parsed_query, "zh"),
            self._get_language_query_text(parsed_query, "en"),
        ]
        for raw_text in texts:
            text = str(raw_text or "").strip()
            if not text:
                continue
            normalized = normalize_query_text(text)
            if not normalized or normalized in seen:
                continue
            seen.add(normalized)
            variants.append(
                tokenize_text(
                    text,
                    tokenizer=self.tokenizer,
                    max_ngram=max(
                        (definition.max_term_ngram for definition in self.registry.definitions.values()),
                        default=3,
                    ),
                )
            )
        return tuple(variants)
    @staticmethod
    def _get_language_query_text(parsed_query: Any, language: str) -> str:
        translations = getattr(parsed_query, "translations", {}) or {}
        if isinstance(translations, dict):
            translated = translations.get(language)
            if translated:
                return str(translated)
        return str(getattr(parsed_query, "original_query", "") or "")
    def _tokenize_language_query(self, parsed_query: Any, language: str) -> Optional[TokenizedText]:
        text = self._get_language_query_text(parsed_query, language).strip()
        if not text:
            return None
        return tokenize_text(
            text,
            tokenizer=self.tokenizer,
            max_ngram=max(
                (definition.max_term_ngram for definition in self.registry.definitions.values()),
                default=3,
            ),
        )
    def detect(self, parsed_query: Any) -> StyleIntentProfile:
        if not self.registry.enabled or not self.registry.definitions:
            return StyleIntentProfile()
        query_variants = self._build_query_variants(parsed_query)
        zh_variant = self._tokenize_language_query(parsed_query, "zh")
        en_variant = self._tokenize_language_query(parsed_query, "en")
        detected: List[DetectedStyleIntent] = []
        seen_pairs = set()
        for intent_type, definition in self.registry.definitions.items():
            for language, variant, mapping in (
                ("zh", zh_variant, definition.zh_synonym_to_term),
                ("en", en_variant, definition.en_synonym_to_term),
            ):
                if variant is None or not mapping:
                    continue
                matched_terms = definition.match_candidates(variant.candidates, language=language)
                if not matched_terms:
                    continue
                for candidate in variant.candidates:
                    normalized_candidate = normalize_query_text(candidate)
                    term_definition = mapping.get(normalized_candidate)
                    if term_definition is None or term_definition not in matched_terms:
                        continue
                    pair = (intent_type, term_definition.canonical_value)
                    if pair in seen_pairs:
                        continue
                    seen_pairs.add(pair)
                    detected.append(
                        DetectedStyleIntent(
                            intent_type=intent_type,
                            canonical_value=term_definition.canonical_value,
                            matched_term=normalized_candidate,
                            matched_query_text=variant.text,
                            attribute_terms=term_definition.attribute_terms,
                            dimension_aliases=definition.dimension_aliases,
                        )
                    )
                    break
        return StyleIntentProfile(
            query_variants=query_variants,
            intents=tuple(detected),
        )