最终是三个文件 在 filtered_final_quries 目录下: 质量最好的是: fashion_quries__high_quality.txt.v2.uniq 这两个作为补充: queries.txt.formated fashion_quries__high_quality.from_tags fashion_quries__high_quality.txt.v2.uniq.trans tags的质量都比较差。比如这些维度,只有品类 可能经常被用户作为搜索词,其余的 可能是永恒挑选的考虑点,但是并不会主动去搜索这些 一、风格 复古(Vintage) 优雅(Elegant) 简约(Minimalist) 正式(Formal) 二、场合维度 日常场合 居家(Home) 购物(Shopping) 散步(Walking) 工作场合 商务正式(Business Formal) 商务休闲(Business Casual) 三、品类维度 上衣 T恤(T-shirt) 衬衫(Shirt) 毛衣(Sweater) 夹克(Jacket) 四、颜色维度 基础色 黑色(Black) 白色(White) 灰色(Gray) 五、材质维度 天然材质 棉(Cotton) 麻(Linen) 丝(Silk) 六、季节维度 春季 轻薄外套(Light Jacket) 长袖衬衫(Long-sleeve Shirt) 薄毛衣(Light Sweater) 夏季 七、体型维度 通用体型 常规(Regular) 特殊体型 瘦小(Petite) 高大(Tall) cat *rmatted.txt | grep ", " | sed 's/, /\n/g' | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -k1rn | awk '$1 > 2 {print}' > lowercase_counts.txt awk '{$1=""; print $0}' lowercase_counts.txt | sed 's/^ *//' | grep -v '^$' > lowercase_words.txt