Tired of ads? Upgrade to paid account and never see ads again!
old_ufo

old_ufo


Бортовой журнал НЛО


[sticky post]Полезные ресурсы. Советую. Прибито.
old_ufo
old_ufo
Cсылки на полезное и информативноеCollapse )

CVPR Workshop paper accepted
old_ufo
old_ufo
Конечно, не основная конференция, но тоже неплохо. Ура!

Ленивый два раза делает
old_ufo
old_ufo

Несколько часов не мог найти баг в своем коде.
Потом плюнул, потратил время на убирание хардкодинга, отрефакторил, причесал.
Баг исчез сам. Нет бы сразу нормально написать :)


Распознавание планктона: выводы и мысли
old_ufo
old_ufo

Недавно закончился National Data Science Bowl - соревнование по machine learning - нужно представить классификатор для распознавания видов планктона, призовой фонд - $175 000.

Выиграла его команда магистров и аспирантов из Бельгии (где внезапно оказалась выпускница ФПМ КПИ) (решение), второе место за командой чувака из Microsoft Research Asia (решение, дополнение), третье заняла пара британских ученых (решение, дополнение).
Я занял девятое место, всего участвовало 1049 команд.

Каггловские соревнования - интересный опыт, советую всем, кто интересуется/занимается machine learning. В качестве доп.бонуса выяснилось, что некоторые мои ЧГКшные знакомые (если вам название "Тро-ло-ло" о чем-то говорит) тоже работают в этой области, а также познакомился с Ирой - тем самым выпускником ФПМ.

Уроки, почепнутые из соревнования:


  1. Надо высыпаться. Куда?

  2. Каггл - это легко и приятно. Четкая задача, четкий критерий. Не нужно собирать датасет или думать, а что мы собственно хотим. Намного проще, чем в реальной жизни :)

  3. Команда - это круто.

  4. Вначале разобраться с датасетом. Просмотреть вручную картинки, или что там еще. Проверить на всякую фигню и т.п. Подумать, какую предобработку можно применить.

  5. Записывать всё. Буквально всё, в крайнем случае сохранять логи. То, что работает и то, что не работает.

  6. Проверять всё, как бы не казалось, что это известно или проверено. Даже если это опубликовано на топовой конференции.

  7. Время, потраченное на инструментарий, окупается многократно.

  8. Если что-то работает не очень хорошо, не спешить выбрасывать - оно может приготиться при для финального усреднения

  9. Начинать с легких моделей, которые обучаются быстро. Вещи, которые замедляют вдвое ради одного лишнего процента лучше отложить на потом...если оно настанет.

  10. Выигрывают те, у кого есть research по теме, или те, кто его делает. Т.е. идеи. И GPUшки. Времена халявы давно прошли :)

  11. Viva la data augmentation

  12. Оптимизация гиперпараметров рулит.

  13. Более чем полезно следить за последними публикациями на arXiv.

  14. Задачи делятся на те, где данные однородны и там рулят подходы на базе CNN. И те, которые не однородны и там рулят родственники RF.


Под катом - слайды для deep.learning.kyiv.
СлайдыCollapse )

Hardware for Deep Learning
old_ufo
old_ufo
Нашел сегодня, повешу, чтобы не потерялось.

https://timdettmers.wordpress.com/2014/08/14/which-gpu-for-deep-learning/

[TL;DR]
TL;DR advice

  • Best (affordable) GPU: GTX 980

  • Most cost effective GPUs: GTX 580 3GB and GTX 980

  • I work with data sets > 250GB: GTX Titan eBay

  • I have no money: GTX 580 3GB eBay

  • I do Kaggle: GTX 980 or GTX 580 1.5GB/3GB

  • I am a researcher: 1-4x GTX 980

  • I am a researcher with data sets > 250GB: 1-4x GTX Titan

  • I never used deep learning before: GTX 580 3GB

  • I want to build a GPU cluster: This is really complicated, I will write some advice about this soon, but you can get some ideas here

  • I started deep learning and I am serious about it: Start with one GTX 580 3GB and buy more GTX 580s as you feel the need for them; save money for Volta GPUs in 2016 Q2/Q3



https://timdettmers.wordpress.com/2015/03/09/deep-learning-hardware-guide/

[TL;DR]
Conclusion / TL;DR

  • GPU: GTX 580 (no money); GTX 980 (best performance); GTX Titan (if you need memory)

  • CPU: Two threads per GPU; full 40 PCIe lanes and correct PCIe spec (same as your motherboard); > 2GHz; cache does not matter;

  • RAM: Use asynchronous mini-batch allocation; clock rate and timings do not matter; buy at least as much CPU RAM as you have GPU RAM;

  • Hard drive/SSD: Use asynchronous batch-file reads and compress your data if you have image or sound data; a hard drive will be fine unless you work with 32 bit floating point data sets with large input dimensions

  • PSU: Add up watts of GPUs + CPU + (100-300) for required power; get high efficiency rating if you use large conv nets; make sure it has enough PCIe connectors (6+8pins) and watts for your (future) GPUs

  • Cooling: Set coolflags bit in your config if you run a single GPU; otherwise flashing BIOs for increased fan speeds is easiest and cheapest; use water cooling for multiple GPUs and/or when you need to keep down the noise (you work with other people in the same room)

  • Motherboard: Get PCIe 3.0 and as many slots as you need for your (future) GPUs (one GPU takes two slots; max 4 GPUs per system)

  • Monitors: If you want to upgrade your system to be more productive, it might make more sense to buy an additional monitor rather than upgrading your GPU


Образовательный фейспалм или напалма
old_ufo
old_ufo
За последние полгода из всех сообществ ВК регулярно хожу только в одно - "Deep Learning". Ведет его питерский аспирант, в основном, кидает статьи с аннотациями. В общем, клевая штука.
Иногда кто-то задает вопрос\просит совета, но редко.
Захожу сегодня утром и туууут... какой-то чувак пишет:


Всем привет!
Кто хочет выполнить работу на тему Deep learning? Нужно что-то вроде курсовой обьемом примерно 45 страниц на английском языке. Цену и тему обсудим. Пожалуйста, пишите в личные сообщения.

Блин, дали бы мне такую курсовую в универе, это ж какая радость была бы. Да что там была бы, я на втором курсе сокурснице помог сделать реферат по фракталам тупо потому, что это интересно было и даже программу для их визуализации написал. С зумом и заданием формул пользователем.

А тут не курсовой - мечта. А чувак вместо того, чтобы радоваться, снова покупает за деньги. И потом эти люди придут ко мне на собеседование и будут рассказывать про знания в ML.

Куда и как идет компьютерное зрение
old_ufo
old_ufo

Пока GPU-шка считает очередной эксперимент, а идей в голове не так, чтобы сильно много, напишу-ка пост.
За последние пару лет довольно много вещей изменились, причем в организационном и гуманитарном смысле даже больше, чем в собственно техническом.

Во-первых, раньше подписка на статьи с IEEE была практически необходима для нормальной работы (иначе - разве что подбирать крохи с citeseer), а на Springer и Elsevier - очень желательна. Теперь же IEEE только желательна, а со Springer и Elsevier можно изредка купить то, что надо (последний раз было надо месяца два назад). 99% современных статей можно найти в виде препринта или на сайте авторов, или на arXiv.
Что радует еще больше - если раньше препринты статей, отправленных на CVPR/ECCV/NIPS/... появлялись примерно во время конференции, то сейчас немалая их часть - почти сразу после дедлайна подачи. Что ускоряет скорость обмен информацией и идеями где-то на 6-9 месяцев.

Во-вторых, гегемония азиатских фамилий переходит и в высшую лигу. Причем если раньше это был, скажем, Andrew Ng или красавица Fei-Fei Li, т.е. профессора американских университетов азиатского присхождения, то теперь и университеты сингапурские или там MS Research Asia.

На этом фоне забавно вспоминать одну дискуссию с эсперансистом.

Потому что всё более-менее ценное оперативно переводится на другие языки, и нет необходимости зубрить английский, чтобы с этим ознакомиться. Конечно, возникает определённая задержка между появлением информации и её переводом, и знающий английский специалист имеет преимущество.

Только за ноябрь в нашей рабочей базе научных статей добавилось 43 штуки. Не все из них, конечно, используются, но пара - так точно.  Давайте, расскажите мне, как ребята из Беркли или Стэнфорда будут учить эсперанто или кто-то будет переводить сборник статей ECCV-2014 на русский.

Кстати, о русском. Из пост-союза на ECCV-2014 аж одна статья - от Яндекса. Яндекс - он, вообще, привык публиковаться на нормальных конференциях и это единственное исключение. Интересно, кстати, что делает "Сколтех" - правда что-то разрабатывает, или дает деньги на исследования Яндексовцам.


В-третьих, этот год и, видимо, следующий, CV-ученые будут продолжать играть в "возьми технологию из классического CV, прикрути к deep learning CNN, получи новый state-of-art и опубликуй". Например, Fisher vectors и VLAD, которые вроде как получили отставку в 2012, внезапно воскресли и намекают.
Если кто-то хочет присоединиться к забаве, помните, что рвать низковисящие яблоки проще всего тем, кто давно в саду. Так что халявы, скорее всего, не будет - лучше придумывать что-то свое.

И да, помнится, tassadar_ha год назад писал, что мой любимый Оксфорд не дотягивает (строго говоря, кафедра чуть другая, но не суть). Ну-ну.
Это просто ребята тогда не пробовали играться с технологией. На фундаментальные прорывы, конечно, я сделаю ставку скорее на Хинтона или Бенджио, но старая школа computer vision вполне обучаема новым трюкам, а уж старые она не забудет. Но это так, к слову.

Завершу пост тем, что меня все происходящее в этой области очень радует. Технологии, статьи и инструменты доступны практически всем, даже программировать уметь не обязательно. Обязательно иметь идеи и знания, почти полная меритократия.
Добро пожаловать в отправляющийся поезд. Он точно едет в будущее и оно, вроде бы, светлое.


Угадай страну по фотографии
old_ufo
old_ufo

На machinelearning.ru висит объявление о computer vision конкурсе с призовым фондом в $3700 (первому месту 2/3, второму - 1/3). Внешне звучит неплохо. Но за эти деньги авторы хотят(далее выдержка из правил):

11. Интеллектуальные права
a) исключительные права на ПО подлежат передаче Победителем Конкурса Организатору
Конкурса на условиях отчуждения (в полном объеме)
;

9.2. Участники Конкурса обязуются:
...
f) участвовать по требованию Организатора Конкурса в фотосессиях, видеосъемках,
интервьюировании и иных мероприятиях, посвященных Конкурсу и участию в нем
Участников Конкурса;


9.3. Ответственность Участников Конкурса:
c) Участник Конкурса обязуется возместить любые убытки, возникшие у Организатора
Конкурса и/или иных лиц вследствие нарушений соответствующим Участником
Конкурса настоящих Правил, прав третьих лиц и/или действующего законодательства
Российской Федерации.
При этом:

10.3. Организатор Конкурса не несет ответственность за:
e) любые расходы, убытки, возникшие у Участника Конкурса вследствие участия в
Конкурсе и/или получения Награды, полученных от Организатора Конкурса/его
представителей по заданию/поручению Организатора Конкурса в соответствии с
настоящими Правилами.


Для сравнения, правила идущего сейчас конкурса на kaggle.com на $5000 :
Открыть свои исходники. Дать опен-сорсную или неэксклюзивную лицензию проводитору, дабы он мог проверить работоспособность. Организаторы не несут ответственности за убытки участников, но и про ответственность участников кроме интеллектуального воровства тоже ничего нет). Под спойлером выдержки на английском.

[Каггловские условия]

CODE SHARING

Participants are prohibited from privately sharing source or executable code developed in connection with or based upon the Data, and any such sharing is a breach of these Competition Rules and may result in disqualification.

Participants are permitted to publicly share source or executable code developed in connection with or based upon the Data, or otherwise relevant to the Competition, provided that such sharing does not violate the intellectual property rights of any third party. By so sharing, the sharing Participant is thereby deemed to have licensed the shared code under the MIT License (an open source software license commonly described at opensource.org).

OPEN-SOURCE CODE
A Submission will be ineligible to win a prize if it was developed using code containing or depending on software licensed under an open source license:

* other than an Open Source Initiative-approved license (see ); or
* an open source license that prohibits commercial use.

PUBLIC COMPETITIONS: NON-EXCLUSIVE LICENSE
RESEARCH COMPETITIONS: OPEN SOURCE LICENSE
RECRUITING COMPETITION SUBMISSION LICENSE GRANT


Вопрос к людям, которые пьют кофе с молоком
old_ufo
old_ufo
С чего образовалась мода спрашивать "вам с молоком?", если я прошу американо?. Если я хочу с молоком, я, по идее, попрошу капучино. Или как?
P.S. Вариант "с молоком дороже и поэтому их обучили предлагать, как и булочку к" годный и логичный, но вдруг есть еще причины?

10 книг, которые произвели на меня наибольшее впечатление
что почитать
old_ufo

Выдалась свободная минутка - пишу пост по заказу grafinya_orlova - 10 книг, которые произвели на меня наибольшее впечатление.
Сделаю уточнение - пусть это будет не 10 книг, а 10 письменных сущностей. Ранжирование полу-случайное. Не совсем уверен насчет важности, но номера один-два повлияли несколько больше, чем 9-10.

1. "Два капитана" В. Каверина. Если говорить о впечатлениях морально\человеческого\отношенческого плана, то это явный лидер. Прочел я её в старшей школе, примерно в то же время, когда мы проходили "Красное и черное" Стендаля. Контраст просто поразительный. Человек, у которого нет полноценной семьи, материальные проблемы, неравная любовь, а потом еще и чисто военно-выживальческие трудности, несмотря на это всё остается оптимистом, полным сил и помогает окружающим. Ищет правду, противостоит влиятельному и высокопоставленному человеку и не сдается. И это без "не верю, пропаганда, так не бывает". На этом фоне свои проблемы, проблемы стендалевского чувака кажутся настолько мелкими, а сам чувак - настолько бессмысленным и замусоренным какой-то фигней, что кошмар.

2. Серия книг "Энциклопедия для детей" от Аванты+. Немалая часть того, что я знаю о мире, была почерпнута именно оттуда. Первой была "Биология". Биологом я не стал, конечно, но любовь к науке зародилась где-то там. Потом были Химия, Физика, Математика, а потом вообще все остальное. Отдельно можно отметить Астрономию, во время и после чтения которой, я проводил часть ночей с биноклем на огороде. Это было круто.

3. Фантастика Клиффорда Саймака. Не голые технологии, не "роман про людей, только есть бластеры", а что-то очень гармоничное и доброе. Саймак остается одним из самых близких по духу писателей.

4. "Непобедимый" Станислава Лема. Солярис меня не зацепил, а вот после истории об эволюции роботов и о том, как можно попробовать понять что-то совершенно другой природы, я несколько дней ходил под впечатлением. Очень сильная вещь, имхо, лучшая у Лема.

5. Журнал Game.EXE 1997-2006. Казалось бы, что может дать журнал о компьютерных играх? На самом деле, многое. Понятие о профессионализме, планку печатного слова и стиля...и много того, что мне трудно сформулировать сейчас. А уж когда они писали не об играх... То, что и как я делаю, частично несет отпечаток этих ребят, за что им огромное спасибо.

6. Серия "Построенные навечно" -> "От хорошего к великому" и др. Коллинза. Дело не только и не столько во впечатлениях, сколько в том, что книги помогли мне привести в соответствие мою внутреннюю картину "хорошо-плохо" с тем, что я видел вокруг. Вокруг - особенно в Киеве - было слишком много противоречащего тому, во что верил я. В этот же пункт отнесу и "Черного лебедя" и "Антихрупкость" Талеба.

7. Форум "Контен.ру". Одновременно с поступлением в университет я начал активно интересоваться и заниматься боевыми искусствами. На форуме было множество интереснейших думающих и опытных людей (сейчас, возможно, есть не менее интересные, но многие давно оттуда ушли). Я по-новому взглянул на процессы обучения, целеполагания, здоровье, различные практики и на то, как воспринимать точку зрения, перпендикулярную всему твоему прошлому опыту.

8. Книги Джеральда Даррелла и Джеймса Хэрриотта - зверолова и сельского ветеринара соответственно. Автобиографические, про животных и про людей. Увлекательные, интересные и добрые. Образец нон-сайенс-(нон)-фикшн, т.е. художественной литературы.

9. Роберт Хайнлайн. Не со всеми его идеями я согласен, но как фантаст и писатель он очень крут.

10. Не знаю, что сюда поставить. Совсем повлиявших больше не вспоминается, а отличных книг еще завались. Пусть будет "Слово живое и мертвое" Норы Галь.

P.S. Проставлял ссылки на свои рецензии и подумал, что надо бы написать о чем-то из списка подробнее. Коли в пана будуть час та натхнення.


You are viewing old_ufo