用来输出一些字符串字词匹配信息的feature
离线推荐使用1.3.56-SNAPSHOT这个版本。 ps: 写fg的时候注意维度,title的维度要大于或等于query的问题(简单来说就是如果title是user特征,那query也只能是user特征,user特征的batch size为1,商品特征的batch size为商品数)
方式 | 描述 | 备注 |
---|---|---|
common_word | 计算query与title间重复term,并输出为fg_common1_common2 | 重复数不超过query term数 |
diff_word | 计算query与title间不重复term,并输出为fg_diff1_diff2 | 不重复数不超过query term数 |
query_common_ratio | 计算query与title间重复term数占query中term比例,乘以10取下整 | 取值为[0,10] |
title_common_ratio | 计算query与title间重复term数占title中term比例,乘以100取下整 | 取值为[0,100] |
is_contain | 计算query是否全部包含在title中,保持顺序 | 0表示未包含,1表示包含 |
is_equal | 计算query是否与title完全相同 | 0表示不完全相同,1表示完全相同 |
common_word_divided | 计算query与title间重复term,并输出为fg_common1, fg_common2 | 重复数不超过query term数 |
diff_word_divided | 计算query与title间不重复term,并输出为fg_diff1, fg_diff2 | 重复数不超过query term数 |
{
"feature_type" : "overlap_feature",
"feature_name" : "is_contain",
"query" : "user:attr1",
"title" : "item:attr2",
"method" : "is_contain",
"separator" : " "
}
字段名 | 含义 |
---|---|
feature_type | 必选项,描述改feature的类型 |
feature_name | 必选项,feature_name会被当做最终输出的feature的前缀 |
query | 必选项,query依赖的表, attr1是一个多值string, 多值string的分隔符使用chr(29) |
title | 必选项,title依赖的表, attr2是一个多值string |
method | 可填common_word, diff_word, query_common_ratio, title_common_ratio, is_contain, 对应上图五种方式 |
separator | 输出结果中的分割字符,不填写我们默认为_ ,但也可以用户自己定制,具体看例子 |
query为high,high2,fiberglass,abc title为high,quality,fiberglass,tube,for,golf,bag
method | separator | feature |
---|---|---|
common_word | name_high_fiberglass | |
diff_word | " " | name high2 abc |
query_common_ratio | name_5 | |
title_common_ratio | name_28 | |
is_contain | name_0 | |
is_equal | name_0 | |
common_word_divided | name_high, name_fiberglass | |
diff_word_divided | name_high2, name_abc |