Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → архивы

Медиаиндустрия теряет архивы — каждый пятый жёсткий диск с музыкой 90-х вышел из строя от старости

Компания по управлению корпоративной информацией Iron Mountain специализируется на управлении записями, уничтожении информации, резервном копировании и восстановлении данных. По данным компании, около пятой части жёстких дисков с музыкальными архивами, которые Iron Mountain получает от медиаиндустрии для обслуживания, полностью вышли из строя. Многие уникальные записи могут быть утеряны навсегда, если не было сделано резервной копии на другом носителе.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Миграция на жёсткие диски с ленточных накопителей началась в 2000-х годах с ростом популярности форматов многоканального звука и появлением музыкальных игр, таких как Guitar Hero. Эти технологии потребовали от музыкальных лейблов ремастеринга множества старых треков, в процессе которого обнаружилось, что аналоговые записи на лентах, которые использовались для хранения оригинальных записей, начали портиться, а некоторые вообще не воспроизводились.

Даже если записи на лентах оказывались в полной сохранности, возникала проблема отсутствия совместимого оборудования для их воспроизведения. В результате музыкальная индустрия сосредоточилась на переносе своих архивов с аналоговых магнитных лент на цифровые носители, такие как жёсткие диски.

Однако, как и ленты, жёсткие диски также портятся — большинство коммерческих накопителей рассчитаны на срок службы всего от трёх до пяти лет. Даже при хранении в самых оптимальных условиях архивные накопители в конечном итоге выйдут из строя. К сожалению, чаще всего студия обращается к архивам только для поиска оригинальных мастер-записей для коммерческого использования. Часто оказывается, что информация на архивном жёстком диске не подлежит восстановлению.

«Так грустно видеть, как в студию поступает жёсткий диск в совершенно новом корпусе с упаковкой и бирками, — говорит глобальный директор по стратегическим инициативам и росту Iron Mountain Media & Archive Services Роберт Кошела (Robert Koszela). — Рядом с ним — внешний защищённый корпус с жёстким диском. Внешне всё в порядке. И оба они — кирпичи».

Исследователи постоянно работают над новыми технологиями хранения архивных данных. Сообщается даже о стартапе, разрабатывающем носители со сроком службы 5000 лет. Однако до появления этих носителей по доступным ценам единственное, что можно сделать, чтобы обеспечить целостность цифровых архивов, — полностью перезаписывать их на новые накопители каждые три-пять лет.

Интернет-архив Wayback Machine подвергся мощной и продолжительной кибератаке

Калифорнийская некоммерческая организация «Архив Интернета», более известная как Wayback Machine, сообщила о масштабной DDoS-атаке (отказ в обслуживании), которой она подвергается уже несколько дней подряд. В Wayback Machine заявляют, что находятся в контакте с нападавшими.

 Источник изображения: Pete Linforth/Pixabay

Источник изображения: Pete Linforth/Pixabay

«Архив Интернета» — это глобальный проект по созданию онлайн-библиотеки, содержащей архивированные копии веб-страниц, книг, аудио, видео, изображений и другого онлайн-контента. Его флагманский поисковый продукт Wayback Machine (машина времени) позволяет получить доступ к предыдущим версиям веб-страниц, даже если они были удалены или изменены. С помощью поисковых роботов архивируется в общедоступную библиотеку большая часть «открытого» интернета.

По данным организации, в её архиве содержится 835 млрд веб-страниц, 44 млн книг и текстов, 15 млн аудиозаписей, 10,6 млн видеороликов, 4,8 млн изображений и 1 млн компьютерных программ.

Атака началась в выходные и продолжается уже несколько дней. Из-за огромного количества запросов, серверам архива был нанесён существенный ущерб, из-за чего большинство онлайн-сервисов организации оказались недоступны для пользователей.

При этом представители Wayback Machine заявили, что данные самого архива не пострадали, однако доступ к ним затруднён или по большей части невозможен. Кроме того, сообщается о неких переговорах с хакерами, но детали этих переговоров и мотивы атаки пока не разглашаются.

 Штаб-квартира Интернет-архива в Сан-Франциско, Калифорния. Источник изображения: Wikipedia

Штаб-квартира Интернет-архива в Сан-Франциско, Калифорния. Источник изображения: Wikipedia

Ранее Интернет-архив неоднократно подвергался критике со стороны крупных медиакомпаний и индустрии развлечений за нарушение авторских прав при архивировании защищённого контента. Однако маловероятно, что текущая атака была инициирована одной из этих компаний, хотя исключать ничего нельзя.

По словам экспертов, распределённые DDoS-атаки могут нанести большой ущерб работе проектов, основной смысл которых заключается в долгосрочном хранении данных. Устойчивость Интернет-архива к подобным атакам, а также его способность восстановить работу сервисов, имеют принципиальное значение для реализации его миссии по созданию полной цифровой библиотеки знаний и культуры человека.

На Луну отправят цифровой архив для хранения в течение миллиардов лет данных о Земле и людях

Сообщается, что фонд Arch Mission Foundation готовит к отправке на Луну уникальный носитель для хранения в течение миллиардов лет данных о Земле и земной цивилизации. Подобные архивы планируется разбросать по другим небесным телам Солнечной системы, чтобы в далёком будущем люди смогли прикоснуться к истории планеты и людей, если по каким-то причинам на самой Земле эти данные будут утеряны.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Следует сказать, что это не первая попытка фонда сохранить память о людях и Земле. Ранняя версия архива в виде 5-слойного диска была отправлена в космос в бардачке автомобиля Tesla Roadster, который компания Илона Маска запустила в качестве доказательства способности доставлять полезную нагрузку на орбиту Марса. Второй архив в виде 25-слойного носителя был отправлен на Луну в израильском спускаемом аппарате Beresheet, но тот разбился при посадке.

Очередной накопитель фонда также должен был быть доставлен на лунную поверхность, что планировалось совершить на спускаемом аппарате Peregrine Mission One компании Astrobotic. Однако компания затянула с изготовлением аппарата, а потом произошёл взрыв на ракете-носителе Vulcan Centaur компании United Launch Alliance (UAL), которая готовит его запуск. Тем самым начало миссии задержалось больше чем на год, но возможно, состоится в ноябре этого года.

Носитель Arch Mission Foundation представляет собой 120-мм 4-граммовый диск в специальном картридже. Четыре верхних слоя содержат инструкцию в текстовом и графическом виде, как самому собрать DVD-проигрыватель. Это примерно 60 тыс. страниц, доступных для чтения с оптическим увеличением от 100 до 200 крат. Эта информация поможет читателю извлечь и интерпретировать данные, записанные на остальных 21 слоях уже как на DVD-диске.

Содержание первых слоёв также включает в себя учебник, состоящий из тысяч страниц, на которых раскрываются значения более миллиона слов и понятий на многих языках. Кроме того, в него входят коллекции знаний по многим предметным областям, например, набор жизненно важных статей из «Википедии».

 25-слойный носитель Arch Mission Foundation

25-слойный носитель Arch Mission Foundation

Каждый слой DVD-диска содержит свыше 100 Гбайт сжатых цифровых данных или более 200 Гбайт в распакованном виде. В набор для архива включены англоязычная «Википедия», книжная библиотека Project Gutenberg, интернет-архив, информация о почти 7000 языках мира с полным набором данных PanLex и многое другое.

Особняком стоят данные об известном фокуснике-иллюзионисте Дэвиде Копперфильде (David Copperfield). Он является одним из спонсоров проекта и позаботился, чтобы о нём было как можно больше данных в архиве, включая описание всех его знаменитых фокусов.

У «Яндекса» украли и опубликовали 45 Гбайт исходных кодов — в компании взлом отрицают

В Сети появились архивы с исходными кодами проектов «Яндекса». В компании признали их подлинность — материалы действительно были похищены из внутреннего репозитория, — но отвергли предположения, что это произошло в результате взлома.

 Источник изображения: yandex.ru/company

Источник изображения: yandex.ru/company

Общий объём опубликованных злоумышленниками архивов (.tar.bz2) составил более 44,7 Гбайт — хакеры утверждают, что им удалось получить доступ к исходным кодам проектов «Яндекса» за исключением правил антиспама. Произошло это, по версии похитителей данных, в июле 2022 года. В архивах представлены материалы на языках Python, C++, Go и TypeScript, а также методы работы с данными Protocol Buffers, YAML и JSON, говорится в публикации на «Хабре». К странным особенностям информации в архивах относятся большое количество вспомогательного кода на Python 2.7 и единая дата всех файлов и папок — «2022-02-24», что расходится с заявлениями хакеров.

Представители «Яндекса» признали подлинность опубликованных материалов, но заявили, что взлома не было: «Служба безопасности "Яндекса" обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. Однако, их содержимое отличается от текущей версии репозитория, которая используется в сервисах "Яндекса"».

В компании также подчеркнули, что репозитории не предназначены для хранения персональных данных пользователей, так что угрозы им нет, но всё же проводят по факту инцидента расследование: «Мы проводим внутреннее расследование о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы». Знакомый с ситуацией источник сообщил, что исходные коды проектов «Яндекса» попали в Сеть по вине одного из сотрудников.

Стоит отметить, что утекшие исходные коды в большей степени интересны для изучения, но напрямую использовать и запустить на их основе «собственный «Яндекс» вряд ли получится. Здесь задействовано множество специфичных решений, в том числе заточенных под инфраструктуру самого «Яндекса». А для ИИ-проектов нет самого главного — натренированных нейросетей и набора данных для обучения тоже нет.

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.


window-new
Soft
Hard
Тренды 🔥
Apple объяснила, почему не хочет создавать собственный поисковик на замену Google 23 мин.
«Не думаю, что Nintendo это стерпит, но я очень рад»: разработчик Star Fox 64 одобрил фанатский порт культовой игры на ПК 11 ч.
Корейцы натравят ИИ на пиратские кинотеатры по всему миру 12 ч.
В Epic Games Store стартовала новая раздача Control — для тех, кто дважды не успел забрать в 2021 году 15 ч.
За 2024 год в Steam вышло на 30 % больше игр, чем за прошлый — это новый рекорд 16 ч.
«Яндекс» закрыл почти все международные стартапы в сфере ИИ 16 ч.
Создатели Escape from Tarkov приступили к тестированию временного решения проблем с подключением у игроков из России — некоторым уже помогло 17 ч.
Веб-поиск ChatGPT оказался беззащитен перед манипуляциями и обманом 18 ч.
Инвесторы готовы потратить $60 млрд на развитие ИИ в Юго-Восточной Азии, но местным стартапам достанутся крохи от общего пирога 19 ч.
Selectel объявил о спецпредложении на бесплатный перенос IT-инфраструктуры в облачные сервисы 19 ч.
Во флагманских смартфонах Huawei Mate 70 нашли память SK hynix, которой там быть не должно 37 мин.
Чтобы решить проблемы с выпуском HBM, компания Samsung занялась перестройкой цепочек поставок материалов и оборудования 3 ч.
Новая статья: Обзор и тест материнской платы Colorful iGame Z790D5 Ultra V20 9 ч.
Новая статья: NGFW по-русски: знакомство с межсетевым экраном UserGate C150 11 ч.
Криптоиндустрия замерла в ожидании от Трампа выполнения предвыборных обещаний 11 ч.
Открыт метастабильный материал для будущих систем хранения данных — он меняет магнитные свойства под действием света 12 ч.
Новый год россияне встретят под «чёрной» Луной — эзотерика ни при чём 16 ч.
ASRock выпустит 14 моделей Socket AM5-материнских плат на чипсете AMD B850 16 ч.
Опубликованы снимки печатной платы Nvidia GeForce RTX 5090 с большим чипом GB202 18 ч.
От дна океана до космоса: проект НАТО HEIST занялся созданием резервного космического интернета 18 ч.