Home 世界杯网 带你实现电商商品同款识别算法

带你实现电商商品同款识别算法

原创:王稳钺 资料来源:Mozak

一、如何从淘宝找同款

电商本身就是用户体量非常多的业务场景,也是产生利润最多的一个业务场景。我们如何从淘宝找到同款商品呢?

一种情况是,在 PC 端,在商品的列表的页面,可以把鼠标放在商品图片上面,然后就会显示找同款。点击找同款,就会找到相似商品。从图中可以看到第一个和第三个商品和原商品很相似,但是第二个商品和原始商品一点都不相似,而且标题都不相似。所以说就算淘宝在做找同款这一技术,这个场景下面也做得并不是 100% 完美。所以说找同款技术在电商领域是还是有非常大的应用场景和发展空间的。对于消费者而言,可以利用找相似来找到相同款式下,价格最低的商品。

如果是想从自己的图片,去找同款商品,这又是一个不一样的技术。这种情况和上述直接找同款差别非常大的。这种情况一般叫做“拍照过”,也就是说用户自己去拍摄一个商品,然后再去找到同款。其实和上一种情况是不同的业务场景。所以说在做具体的建模的时候,这两类任务其实是需要区分对待的。而这第二类任务其实是非常难的,因为用户拍摄的具体情况是千变万化的,角度问题、光线暗、有褶皱都是非常常见的。

二、如何找到相似款式

通过淘宝的两个案例,可以看到淘宝是怎么做到找同款的,那么它的大致的实现的原理是什么呢?在我们进行检索商品的时候,有两类检索方法,第一类是文本的检索,第二类是基于内容的检索。基于文本的检索就是通过具体的TXT ,或者 keyword 来检索,比如红米 p20 、华为 p40 。这是用一个文本去描述我们的商品。那么对于服饰而言,可以利用它是一个抹肩裙,它的主要颜色,材质,中码的还是小码等来描述,这些keyword 一般会出现在商品的标题里,商家经常通过堆叠关键词来匹配用户的检索结果。基于文本的检索其实是非常常规的,这种情况一般的搜索引擎都可以做到,比如百度、必印等,其实他们都是基于文本构建搜索引擎的。

第二类就是基于内容的检索。基于内容检索是指在具体的建模的过程中,并不是基于文本信息,而是基于图片的内容进行检索。因为有些时候是很难去描述一个图片的。假如一个不是时装行业内的人或者说对