old_ufo

old_ufo


Бортовой журнал НЛО


[sticky post]Полезные ресурсы. Советую. Прибито.
old_ufo
old_ufo
Cсылки на полезное и информативноеCollapse )

Гвинт
old_ufo
old_ufo
ole_ks подарила чудесный гиковский подарок.


Надо будет, кстати, о Ведьмаке пост написать. Сразу как про НАН и науку напишем статью %)

2015
old_ufo
old_ufo
Если 2011 был годом ленивого хомячка, то 2015 годом сумасшедшей белки, а я - человеком-дедлайном.

Пересчислять всё нет смысла, хвастаться буду в другой раз. Важнее, что стало ясно, чем я хочу заниматься. Наука. Можно и нужно замахиваться на конкуренцию с мировыми светилами (ну, пока скорее учениками мировых светил) и это более, чем реально. И если в 2014 году я учился, придумывал идеи, и...ничего не делал дальше, то в этом начал их реализовывать. И да, Джобс прав - важнее то, что ты решил не делать, чем то, что решил делать. Пора переходить к стратегии ежа из Коллинза, хотя для начала лисица тоже была неплоха.

И хотя с дедлайновостью и неумением рассчитать силы нужно что-то делать, но библейская притча про таланты правдива на все 100%. Возвращается только то, что потрачено - силы, энергия, эмоции и мысли. Экономия - путь в никуда.

И еще. Кажется, что "нахождением и углублением себя" этот год был не только для меня. Несколько друзей осупружились и по их глазам видно, что наконец-то они дома. Кое-кто другой, напротив, рассупружился - и именно поэтому нашел себя. Кто-то плюнул на всех советчиков (включая меня, каюсь), добился желаемой работы и тоже счастлива.

Персональное достижение - теперь, хотя и не всегда, я могу лечь спать, даже если в интернете кто-то неправ.

Ну и главный итог года должна родиться в конце февраля :)

С праздником всех!

ImageNet 2015 Results
old_ufo
old_ufo
Сегодня выложили результаты ImageNet2015. Выиграла азиатская лаборатория Microsoft - MSRA с еще неопубликованным методом для тренировки сверх-глубоких сетей - 150 слоев. Выглядит как более простая и логичная версия Highway networks.

Google в детекции не участвовал, а в локализации/классификации их команда ReCeption = Inception 2.0 немного уступила MSRA.

Как обычно, additional training data entries, уступили лидерам, которые не использовали никакой дополнительной информации.

Очень круто выступили китайцы-КГБшники (или кто это), команда Trimps-Soushen из "The Third Research Institute of the Ministry of Public Security, P.R. China".

Отдельно порадовал участник cuhk_loc из fdfdfdfd. Кроме этого, команда Henry Machine с traditional feature engineering (no deep learning), занявшая предпоследнее место в распознавании сцен.

Мой результат от имени Szokcka Research Group, отправленный скорее для галочки, внезапно, не самый последний, ни в локализации, ни в классификации.

Если говорить об exUSSR, отсюда по-прежнему практически никто не участвует. Кроме, в этот раз, меня и ребят из Санкт-Петербурга - Deep Punx. А вот участников вообще - хоть отбавляй, причем подавляющее большинство - из Азии.

И да, ImageNet в превращается полностью командный вид спорта.

Мейнстрим или не мейнстрим?
old_ufo
old_ufo

Впервые я (почти?) не опоздал с проверкой мейнстримовой идеи и отправкой её на конференцию.
Как следует инициализировать нейросетки - All you need is a good init
Сам код прост до примитивности: https://github.com/ducha-aiki/LSUVinit/blob/master/tools/extra/lsuv_init.py

Почему "почти"? Потому что на ту же конференцию отправили статью с очень похожей идеей ребята из Беркли и Карнеги-Меллон - Data-dependent Initializations of Convolutional Neural Networks. У них инициализация чуть другая, зато вариантов предложено больше.

Снова встает старая проблема. Если ты делаешь что-то в мейнстримовом направлении, очень трудно не опоздать, плюс статьи быстро стареют. Если ты делаешь не мейнстрим, то мало кто статьи читает (даже если там новый state-of-art на порядки лучше).

upd.: Похожий вопрос на quora


ICCV-2015, exUSSR
old_ufo
old_ufo

Обновление в списке computer vision публикаций из пост-СССР.

А именно, наши старые знакомые из Яндекса :) Всё, больше никого.
ICCV 2015




Статья

Авторы

Организация
Aggregating local deep features for image retrieval Artem Babenko, Victor Lempitsky

Skoltech, Yandex, МФТИ


Попытка участия в ImageNet 2015: мысли и выводы
old_ufo
old_ufo

После соревнования по распознаванию планктона и покупки видеокарты, я замахнулся на ImageNet 2015.
Одним из прошлых выводов было "команда - это круто", ну я и попробовал такую собрать.

Вначале все было хорошо, но вскоре один за другим начали появляться дедлайны, проекты и прочее, так что я в итоге остался один. Итого вывод первый:

1) Важно не (с)только количество ресурсов, а их определенность и предсказуемость.
Если знать с самого начала, на что можно рассчитывать, а на что нет, то можно успеть больше и лучше - тупо концентрируясь и отсекая лишнее.

Дедлайны появились и у меня тоже, в результате на имаджнет наложились аж три других дедлайна - две статьи и отправка нашего рабочего приложения в эппл-стор. Отсюда вывод второй:

2) Проблема не (с)только в нехватке времени, а в нехватки времени эффективного. Точнее - умственной энергии.

Посему на локализацию я забил (вернее, попробовал поздно, вышла хрень) и отправил результаты практически только потому, что было бы неудобно перед NVIDIA и IBM, которые предоставили сервер для вычислений. Гонять его месяц и ничего не отправить, как-то совсем тупо.

Мини-вывод: K80 - полная фигня. Нет, 4 ядра по 12 Гб оперативы это, конечно, круто. Но эти 4 ядра вместе тренируют сетку МЕДЛЕННЕЕ, чем Titan X. Из-за неучета этого, кстати, я не успел получить предсказания для полноразмерных картинок и результат минимум на один абсолютный процент хуже, чем должен был быть.

3) ImageNet 2015 - как чемпионат мира, готовиться к нему и проверять идеи нужно весь год. Группой.

А в отведенные два месяца - просто натренировать свой алгоритм на представленных данных.
Почему? Потому что ждать проверки одной гипотезы 2 недели - увольте. Тогда нужно иметь парк серверов, чтобы 2 недели ждать проверки сотни гипотез. Правда, чтобы придумать сотню гипотез, нужны выспавшиеся мозги, см. пункт 2.
Чтобы вы оценили уровень оснащенности, которым оперирует Майкрософт для проверки алгоритмов на Иманджнет уровне, цитата из сегодняшней их статьи:

The resulting architecture was implemented in DMLC as well, and we trained the network for 1000 epochs using (mini-) batches composed of 100.000 images (which was feasible due to distribution of the computational load to a cluster of 52 CPUs and 12 hosts, where each host is equipped with a NVIDIA Tesla K40 GPU).

Пятьдесят два проца и двенадцать блоков по 4 видеокарты.

Тем не менее, не жалею, что попробовал - получил ценный опыт по сбору людей, тайм-менеджменту, и, если все будет хорошо, будет статья по нейросеткам.


Отчет с Lviv IT Arena 2015
old_ufo
old_ufo
Сразу после CVPR Сережа Шелпук позвал на Lviv IT Arena рассказать про компьютерное зрение. До того я на "общеайтишных" конференциях ни разу не был. AI Ukraine - не в счет, она специализированная.
Скажу сразу, арена мне понравилась, но я еще раз убедился, что на общеайтишные конфы стоит ездить, только если там будет куча междисциплинарных докладов. Эджайл, азур и прочий спарк - в сад.

Итак, впечатления, организация, интересные моментыCollapse )

Сами-знаете-что из зе сами-знаете-чего
old_ufo
old_ufo
Я все-таки поборю себя и не буду начинать пост про Лондон самым очевидным способом :)
Потому начну с Енотика!

Лондон!Collapse )

BMVC-2015: interesting papers
old_ufo
old_ufo
Пост будет на английском, чтобы мог пригодиться максимальному количеству людей
Here is my list of papers I found useful/worth reading (definitely biased by my preferences).


Deep Fishing: Gradient Features from Deep Nets Idea - take "backwards features" aka gradients w.r.t uniform class distribution instead of activations for CNN when use pretrained CNN as feature exptractor (i.e. ImageNet -> PASCAL)
Manitest: Are classifiers really invariant?
How to get single number, characterizing invariance of classifier to affine transformation of image. Nice theory, even if authors haven`t convince me that it is better, than classical bunch of graphs "accuracy w.r.t rotation, scale, etc.".


Sparse 3D convolutional neural networks
Nice idea to rotate image and than use triangular neighboring instead of square. Actually, other papers of Ben Graham also worth reading. And he is image-classification star at kaggle: two 1st places and one 3rd out of 3 entered competitions.

Automated Identification of Individual Great White Sharks from Unrestricted Fin Imagery
Oral. An example of rigorous multistage preprocessing - essence of the "classical" computer vision. Could be useful for "Right whale" competition at kaggle as source of inspiration.


Very Efficient Training of Convolutional Neural Networks using Fast Fourier Transform and Overlap-and-Add
Yet another (but nice!) improvement of CNN by FFT training. Guys are from U.S. Air Force Research Laboratory (!) :)


Beyond MSER: Maximally Stable Regions using Tree of Shapes
MSER detector improvement by using more general approach. I am waiting for sources for testing it myself. Also very-very nice tree-like poster.


Fitting models to data: Accuracy, Speed, Robustness
Tutorial about optimization - very-very-very nice, or oda to 2nd order methods :)


R-CNN minus R
Oral. Independent variant of "Faster R-CNN" - end-to-end training, no object proposals for detection, very fast.


Convolutional Neural Networks for Direct Text Deblurring
Oral, very impressive. Also I think,  nice approach - select areas, where you can GENERATE labels instead of manual labeling itself.


Diagnosing state-of-the-art object proposal methods
Nice comparison, but lacking some stuff like complementarity of proposals. However, there is a chance they will add this - I had a discussion with authors about this.


Robust Multiple Model Fitting with Preference Analysis and Low-rank Approximation
How to use RANSAC-like approach (except obvious greedy one) for mutiple models.


Learning the Structure of Deep Architectures Using L1 Regularization
Instead of dropout, they try to learn needed level of sparsity and neccesary number of filters. But for some reason they haven`t tried obvious next step: after learning needed number of filter, train a CNN with exactly this number of filters.


A BoW-equivalent Recurrent Neural Network for Action Recognition
Gyus are new to computer vision, come from speech processing. Nice idea though.


Face Painting: querying art with photos
Cross-domain retrieval, nice results. Paper from Andrea Vedaldi students cannot be bad ;)

?

Log in