Международная конференция в Йоханнесбурге

В конце прошлого года в Йоханнесбурге состоялась международная конференция по расследовательской журналистике 10th Global Investigative Journalism Conference, проводимая Всемирным консорциумом журналистов-расследователей, в которой принял участие я, сооснователь «Диссернета» Андрей Заякин.

Полагаю, что всем активистам, волонтерам, экспертам, репортерам и
аналитикам сообщества «Диссернет» будут полезны следующие инструменты, с
которыми я познакомился в ходе лекций и мастер-классов на данной
конференции:

1. Чрезвычайно полезная для «Диссернета» вещь: бесплатный онлайн/оффлайн
инструмент для извлечения таблиц из pdf — "Табула".

1.1. У нас в "раскрасках" таблицы довольно часто повреждаются, и идут в
строчку, из-за этого они не всегда отождествляются одна с другой.
При этом таблицы являются одним из важнейших элементов выявления
подлога в диссертациях по экономике. Это является одной из основных
проблем Экспертных советов по экономике, о чем мы писали во Втором Докладе «Диссернета». До сих пор их сравнение приходилось проводить построчно, что
затрудняло анализ. Теперь есть возможность сравнивать таблицы в
отсканированных документах целиком с сохранением их структуры.

1.2. Приказы Минобрнауки о присвоении степеней, о составе
диссоветов, Экспертных советов также содержат таблицы, которые
хотелось бы извлекать именно как таблицы, а не текст в строчку. Это
позволит нам с помощью http://tabula.technology/ провести
автоматизированную обработку десятков тысяч записей о присуждении
ученых степеней.

2. На конференции я познакомился с удобными интерфейсами для
построения графов, демонстрирующих аффилированность. Так, существует
бесплатный инструмент для рисования мафиозных сетей
https://vis.occrp.org/, который в практике «Диссернета» следует активно
использовать для изображения сетей диссероделов. Для тех же целей
служит https://gephi.org/.

3. Очистка данных от дубликатов, спецсимволов и прочего цифрового
мусора удобно достигается ресурсом http://openrefine.org/, о котором я
узнал на конференции. Этот инструмент важен для исправления больших
баз данных, которые заполнялись руками и в которых накопились ошибки,
в частности, Генерального каталога диссернета, базы персоналий, базы
журнальных публикаций.

4. Для автоматического изучения библиотечных каталогов удобен
инструмент для анализа и выкачивания (не очень больших, если
использовать free trial) массивов и одновременной очистки от мусора и
сшивания воедино табличных данных из реестров итп.
https://www.import.io/

5. Много скрытых полезных вещей имеется в документах google, которые
следует более широко использовать в повседневной практике «Диссернета»:

5.1 Инструмент, с помощью которого можно вытаскивать таблицы из .html
автоматически например таким вот скриптом: =IMPORTHTML("https://wiki.dissernet.org/wsave/AhmedhanovMR2012.html","table",4)

5.2. Еще есть очень продвинутые гуглотаблицы google fusion
https://support.google.com/fusiontables/answer/2571232

Автор благодарит устроителей конференции за полезное и плодотворное мероприятие.