最终是三个文件 在 filtered_final_quries 目录下:
质量最好的是: fashion_quries_high_quality.txt.v2.uniq.trans 这两个作为补充: fashionquries__high_quality.from_tags queries.txt.formated
tags的质量都比较差。比如这些维度,只有品类 可能经常被用户作为搜索词,其余的 可能是永恒挑选的考虑点,但是并不会主动去搜索这些
一、风格 复古(Vintage) 优雅(Elegant) 简约(Minimalist) 正式(Formal)
二、场合维度 日常场合 居家(Home) 购物(Shopping) 散步(Walking) 工作场合 商务正式(Business Formal) 商务休闲(Business Casual)
三、品类维度 上衣 T恤(T-shirt) 衬衫(Shirt) 毛衣(Sweater) 夹克(Jacket)
四、颜色维度 基础色 黑色(Black) 白色(White) 灰色(Gray)
五、材质维度 天然材质 棉(Cotton) 麻(Linen) 丝(Silk)
六、季节维度 春季 轻薄外套(Light Jacket) 长袖衬衫(Long-sleeve Shirt) 薄毛衣(Light Sweater) 夏季
七、体型维度 通用体型 常规(Regular) 特殊体型 瘦小(Petite) 高大(Tall)
cat *rmatted.txt | grep ", " | sed 's/, /\n/g' | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -k1rn | awk '$1 > 2 {print}' > lowercase_counts.txt
awk '{$1=""; print $0}' lowercase_counts.txt | sed 's/^ *//' | grep -v '$' > lowercase_words.txt