data/queries_make/README.md

最终是三个文件 在 filtered_final_quries 目录下：
质量最好的是：  fashion_quries__high_quality.txt.v2.uniq.trans
这两个作为补充：
fashion_quries__high_quality.from_tags
queries.txt.formated
tags的质量都比较差。比如这些维度，只有品类 可能经常被用户作为搜索词，其余的 可能是永恒挑选的考虑点，但是并不会主动去搜索这些
一、风格
复古（Vintage）
优雅（Elegant）
简约（Minimalist）
正式（Formal）
二、场合维度
日常场合
居家（Home）
购物（Shopping）
散步（Walking）
工作场合
商务正式（Business Formal）
商务休闲（Business Casual）
三、品类维度
上衣
T恤（T-shirt）
衬衫（Shirt）
毛衣（Sweater）
夹克（Jacket）
四、颜色维度
基础色
黑色（Black）
白色（White）
灰色（Gray）
五、材质维度
天然材质
棉（Cotton）
麻（Linen）
丝（Silk）
六、季节维度
春季
轻薄外套（Light Jacket）
长袖衬衫（Long-sleeve Shirt）
薄毛衣（Light Sweater）
夏季
七、体型维度
通用体型
常规（Regular）
特殊体型
瘦小（Petite）
高大（Tall）
cat *rmatted.txt | grep ", " | sed 's/, /\n/g' | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -k1rn | awk '$1 > 2 {print}' > lowercase_counts.txt
awk '{$1=""; print $0}' lowercase_counts.txt | sed 's/^ *//' | grep -v '^$' > lowercase_words.txt