Subscribe feed

“Яндэкс” растлумачыў “цэнзуру” у малюначках

29 сакавіка 2011

Адміністрацыя пошукавай сістэмы "Яндэкс" апублікавала афіцыйную заяву адносна "цэнзуры", нібы якая мела месца ў пошуку па малюначках.

У апошнія дні ў блогах абмяркоўваецца нібы мелая месца цэнзура ў пошуку па малюначках Яндэкса. На самай справе ў нас здарыўся тэхнічны рызыка-мажор, хвароба росту.

Нажаль, тэхнічны збой у сэрвісах Яндэкса інтэрпрэтуецца як акт цэнзуры не ў першы раз – прыхільнікамі самых розных партый і пунктаў гледжання. Мы разумеем, што падазроны нараджаюцца лёгка, а рассейваюцца доўга, таму лічым патрэбным падрабязна распавесці, што менавіта здарылася.

Мы запусцілі пошук па малюначках улетку 2002 гады, і тады ў нашай базе было прыкладна 12 мільёнаў малюнкаў. Да снежня 2010 гады іх колькасць павялічылася да 1,8 мільярдаў. Пры гэтым мы пераважна індэксавалі малюначкі, размешчаныя на рускамоўных рэсурсах, а ў замежным інтэрнэце адбіралі самыя папулярныя малюначкі з самых цікавых сайтаў. Але для якаснага адказу нашаму карыстачу трэба добра знаходзіць і індэксаваць малюначкі са ўсяго сусветнага інтэрнэту.

Таму ў снежні мінулага гады каманда Яндэкс.Малюначкаў прыступіла да маштабнай індэксацыі малюначкаў у сусветным інтэрнэце. Яна паставіла перад сабой мэта павялічыць колькасць замежных малюначкаў у 5 раз, пры гэтым не забываючы аб падвышэнні якасці сэрвісу. Гэта вялікая і цікавая задача, якая патрабуе архітэктурных змен у пошуку па малюначках.

Раней у пошуку па малюначках новая пошукавая база выкладвалася раз у тыдзень. Каб выкласці новую пошукавую базу, нядосыць проста запампаваць малюначкі са ўсяго інтэрнэту. Для іх яшчэ трэба пабудаваць паменшаныя копіі, знайсці і звязаць паміж сабой дублікаты, выдаліць спам і т.д. Досыць сказаць, што памер нашага картиночного азначніка цяпер - 3 тэрабайта, а паменшаных дзід малюначкаў, якія таксама захоўваюцца ў нас на серверах, - 25 тэрабайт.

Нажаль, пры такім рэзкім пашырэнні азначніка здарылася хвароба росту. Стварэнне паменшаных дзід, злепванне дублікатаў і іншыя працэсы фармавання базы сталі займаць істотна больш часу.

Мы спадзяваліся, што вось-вось зладзімся і выкладзем новую базу малюначкаў, але недаацанілі маштаб адбывалага. Мы занадта рэзка націснулі на педаль газу, але забыліся прышпіліць рамяні. У выніку назапасіўся вялікай разрыўшы паміж датай, калі наш робат запампаваў малюначак, і датай яе з'яўлення ў пошуку.

Сёння гэты парыў складае недаравальныя 6 тыдняў. Самы свежы малюначак у базе датуецца 13 лютага, а сама база была выкладзеная ў пошук 10 сакавіка. Адпаведна, цяпер нашы карыстачы не могуць знайсці малюнкі, якія з'явіліся ў інтэрнэце пазней 13 лютага. Напрыклад, малюнкі наступстваў землятрусу ў Японіі, якое адбылося 11 сакавіка, конкурс плакатаў у блогу Аляксея Навального або фота з грамадзянскай вайны ў Лівіі.

У аўторак адбудзецца найбуйнае абнаўленне замежнай часткі базы ў гісторыі нашага картиночного сэрвісу. Яе агульны аб'ём складзе 3,9 млрд малюнкаў, што больш за ў 2 разу больш снежаньскіх паказчыкаў. У гэтай базе будуць малюнкі, якія з'явіліся ў інтэрнэце да 27 лютага, напрыклад, конкурс плакатаў і пачатак войны ў Лівіі, а падзеі ў Японіі – не, таму што яны здарыліся ў сакавіку.

Такім чынам, адставанне скароціцца з 6 тыдняў да 4, што ўсё роўна непрымальна. Але ўжо праз тыдзень, калі адбудзецца наступнае павелічэнне базы, мы скароцім гэты парыў да 2 тыдняў.

А хутка на Яндэксе з'явіцца пошук па малюнках са ўсяго інтэрнэту з цалкам актуальнай базай.


рэкамендуем прачытаць таксама

Каментаванне не дазволенае.

Rambler's Top100