Blame view

data/queries_make/README.md 1.39 KB
f5e7cf00   tangwang   add data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
  
  
  最终是三个文件 在 filtered_final_quries 目录下:
  
  质量最好的是:  fashion_quries__high_quality.txt.v2.uniq.trans
  这两个作为补充:
  fashion_quries__high_quality.from_tags
  queries.txt.formated
  
  
  
  
  tags的质量都比较差。比如这些维度,只有品类 可能经常被用户作为搜索词,其余的 可能是永恒挑选的考虑点,但是并不会主动去搜索这些
  
  一、风格
  复古(Vintage)
  优雅(Elegant)
  简约(Minimalist)
  正式(Formal)
  
  
  二、场合维度
  日常场合
  居家(Home)
  购物(Shopping)
  散步(Walking)
  工作场合
  商务正式(Business Formal)
  商务休闲(Business Casual)
  
  三、品类维度
  上衣
  T恤(T-shirt)
  衬衫(Shirt)
  毛衣(Sweater)
  夹克(Jacket)
  
  四、颜色维度
  基础色
  黑色(Black)
  白色(White)
  灰色(Gray)
  
  五、材质维度
  天然材质
  棉(Cotton)
  麻(Linen)
  丝(Silk)
  
  
  六、季节维度
  春季
  轻薄外套(Light Jacket)
  长袖衬衫(Long-sleeve Shirt)
  薄毛衣(Light Sweater)
  夏季
  
  七、体型维度
  通用体型
  常规(Regular)
  特殊体型
  瘦小(Petite)
  高大(Tall)
  
  
  cat *rmatted.txt | grep ", " | sed 's/, /\n/g' | tr '[:upper:]' '[:lower:]' | sort | uniq -c | sort -k1rn | awk '$1 > 2 {print}' > lowercase_counts.txt
  
  awk '{$1=""; print $0}' lowercase_counts.txt | sed 's/^ *//' | grep -v '^$' > lowercase_words.txt