Open Insight: 转：图像识别技术

[领域申报]电子商务与图像识别技术

一个人必须通过经验学习判断线条、构图、形式和颜色的品质优劣。假如我有视觉从事这么使人着迷的研究，该是多么幸福啊！
—— 海伦凯勒《假如我有三天光明》
一、引言
在电子商务网站上浏览时，你是否有以下困惑：
1、当你是否觉得，海报中林志玲手中的LV包包配在你身上更合适……
2、当你在某家店铺发现某件衣服整体很合你意，但偏偏是你最不喜欢的粉红色……
3、当你看到了一种植物，但是不知道叫什么名字及其相关信息……
4、当你有一张某酒店的照片但是不知道这一酒店的信息……
5、当你看到某张照片上美丽的风光时，你很向往，但是却偏偏没有相关的介绍……
6、当摄像头拍下了某“坏蛋”的面孔但是却没有人认识这个人……
7、当你看到照片上的美女却压根找不到一点相关的信息……

图片检索较之传统的文本检索最大的不同，一是信息量更为庞大，一张普通的图片的信息量可能等于数万字，如果对每一像素点逐一进行索引，无论是存储量还是计算量都是相当惊人的；二是多媒体本身特征导致的多维度的变化，主要是包括：尺度变化、整体旋转、颜色变化、局部裁剪、投影仿射、压缩变换、数字水印等等

因为上述问题的存在，图像检索原没有文本搜索发展的那么成熟。大部分用户对图像检索的理解往往处于两个极端
1、过分低估图像识别技术的作用（不可知论）
2、认为图像识别能轻易达到人眼视觉系统的程度（没有意识到技术的发展是在曲折中前进、螺旋式上升的）

二、世界是丰富多彩的

记得托马斯弗德里曼在其代表作《世界是平的》曾说过：“装载了操作系统的个人电脑，以及柏林墙的倒塌启动了世界变平的过程“。事实上，多媒体技术图像识别技术也在将灰度的文字世界慢慢地色彩化。

http://www.like.com/
这是一家以图片识别技术为核心的电子商务网站，提供四种搜索方式：细节、形状、颜色以及模式。目前，该网站已被google以1亿美金的天价收购。从Like.com首页的文章里看不出Google为什么要买他们，不过Like.com创始人Shah在文中表示他和他们团队会继续为Google研发视觉搜索和电子商务的交叉匹配。实际上Like.com只是一个视觉搜索引擎，他们利用这个技术又发展了很多垂直购物网站，比如个性化的购物引擎Covet.com，有着街头风格的社会化网络Weardrobe和视觉风格工具Couturious。Like.com最近还山寨了一个类似Quora的社会化问答服务What To Wear。当然，google最看重的，应该还是其背后的视觉检索技术吧……

http://www.google.com/mobile/goggles/
提供对手机照片的识别与搜索，包括文字、建筑、书籍、联系方式、艺术品、名酒、标志等。Goggles与google map、google earth三剑合璧，又会带给我们怎样的遐想呢？应了《盗梦空间》的那句话，既然做梦，就做的大一点……

http://www.tineye.com/鼎鼎大名的反向图片搜索引擎。用户上传本地图片，系统返回互联网存在的类似图片。目前拥有的十亿量级的图片，使之当之无愧成为反向图片搜索引擎的王者。我经常用它来根据原图搜索不同尺寸&背景色&亮度、高清、无logo水印的图片。目前，tineye已通过版权保护实现了盈利，用户可以通过和tineye签订协议，利用其检索得到侵权图片及侵权方，分成其所获的利润来。

http://www.gazopa.com/
作为日立公司进军搜索界的旗帜网站，gazopa就像是一把瑞士军刀，集google similar image、tineye、like等功能于一体，更难能可贵的检索的结果也相当令人满意；除了常规的图像检索功能以外，gazopa还支持视频搜索和涂鸦搜索（结果还是比较让人满意的，虽然麦克风也被搜了出来，但看上去还是蛮象问号的）等，真是不怕做不到，只怕想不到啊……

三、MPEG-7

随着存储的廉价化MPEG-4之后的标准不再致力于高质量的压缩，而更关注与如何有效地在海量的多媒体中进行检索MPEG-7的目标是根据信息的抽象层次，提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。以视觉内容为例
较低抽象层将包括形状、尺寸、纹理、颜色、运动（轨道）和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。
高层将给出语义信息如“ 这是一个场景：一个鸭子正躲藏在树后并有一个汽车正在幕后通过”
抽象层与提取特征的方式有关：许多低层特征能以完全自动的方式提取，而高层特征需要更多人的交互作用。对于图像识别给出了五类用于图像识别的视觉描述接口：

所有MPEG-7描述接口都可以将一幅上百万像素的图像用一个多维向量来表示；事实上，可以将它作为这幅图片的Hash值。它不同于传统意义上字节流的Hash值，前者不受存储编码格式的影响，并且越是相似的图片，其距离（欧氏距离或海明码）也是接近。

事实上，sourceforge上已经有一些基于mpeg-7提取图片视觉签名的项目，比如http://www.semanticmetadata.net/（这个网站的命名很有意思，元数据分词？），该网站推出了名为Caliph & Emir的工具，甚至也推出了基于Caliph & Emir与Lucene的小型检索引擎DEMO（LIRE）。

四、SIFT与视觉分词

SIFT (Scale-invariant feature transform ) 算法由D.G.Lowe 1999年提出，2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式，对其进行改进。它之所以能部分胜过或取代传统的CBIR技术（特别是在互联网技术中的应用），主要是以下几个特点：
1、SIFT特征点是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。
2、独特性 ( Distinctiveness ) 好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配。D.G.Lowe甚至宣称，只要有三对以上的特征点匹配，就可以认为两幅图片具有一定的相似性。
3、多量性，即使少数的几个物体也可以产生大量的（数以千计）SIFT特征向量。
4、高速性，经优化的SIFT匹配算法甚至可以达到（准）实时的要求。
5、可扩展性，可以很方便的与其他形式的特征向量以不同权重进行联合计算。

正是由于以上特点，SIFT特别适合用于解决
1、经过角度、尺度、亮度、仿射、加噪等变换过的图片之间的匹配
2、不同图片背景下物体的匹配

五、技术价值点
1、图片处理：能提供客户更好的图片展示效果
2、图形识别：帮助客服识别违禁图片
3、图像分类：能够自动将各种图像进行分类
4、图样搜索：能够帮助客户找到图片

六、产品的应用点
1、图片排重
2、违禁图片审核
3、相似图片检索
4、上传图片方式检索
5、基于图片内容的聚类
6、图片版权保护
7、图像搜索
8、三维图像展示

七、领域规划
1、技术研究&储备
理论研究&原型
图像处理方向
图像特征提取、识别和分类方向
三维成像处理方向
图像引擎&视觉库

2、技术应用&推广
图像技术在产品中的应用
非产品类的产出物，例如专利、分享、培训等等

八、实施计划
1、成员募集与项目启动
2、构建视觉库
a) MPEG-7五种图像特征的提取
b) 图像视觉签名的实现
c) 多维向量聚类及相似检索技术
d) SIFT图像特征的提取
e) 搭建图像引擎
3.产品应用
a) 知识产权机器审核
b) 图片版权保护
c) 重复图片检索

转自：周春亿，薛晖

http://www.aliway.com/read.php?fid=50&tid=54218

Open Insight

2010年9月26日日曜日

转：图像识别技术

0 件のコメント:

コメントを投稿