Международная конференция в Йоханнесбурге

Издание:
Вольное сетевое сообщество «Диссернет»
Дата
16 февраля 2018
Автор:
Андрей Заякин

В конце прошлого года в Йоханнесбурге состоялась международная конференция по расследовательской журналистике 10th Global Investigative Journalism Conference, проводимая Всемирным консорциумом журналистов-расследователей, в которой принял участие я, сооснователь «Диссернета» Андрей Заякин.

Полагаю, что всем активистам, волонтерам, экспертам, репортерам и
аналитикам сообщества «Диссернет» будут полезны следующие инструменты, с
которыми я познакомился в ходе лекций и мастер-классов на данной
конференции:

1. Чрезвычайно полезная для «Диссернета» вещь: бесплатный онлайн/оффлайн
инструмент для извлечения таблиц из pdf — "Табула".
1.1. У нас в "раскрасках" таблицы довольно часто повреждаются, и идут в
строчку, из-за этого они не всегда отождествляются одна с другой.
При этом таблицы являются одним из важнейших элементов выявления
подлога в диссертациях по экономике. Это является одной из основных
проблем Экспертных советов по экономике, о чем мы писали во Втором Докладе «Диссернета». До сих пор их сравнение приходилось проводить построчно, что
затрудняло анализ. Теперь есть возможность сравнивать таблицы в
отсканированных документах целиком с сохранением их структуры.

1.2. Приказы Минобрнауки о присвоении степеней, о составе
диссоветов, Экспертных советов также содержат таблицы, которые
хотелось бы извлекать именно как таблицы, а не текст в строчку. Это
позволит нам с помощью http://tabula.technology/ провести
автоматизированную обработку десятков тысяч записей о присуждении
ученых степеней.
2. На конференции я познакомился с удобными интерфейсами для
построения графов, демонстрирующих аффилированность. Так, существует
бесплатный инструмент для рисования мафиозных сетей
https://vis.occrp.org/, который в практике «Диссернета» следует активно
использовать для изображения сетей диссероделов. Для тех же целей
служит https://gephi.org/.

3. Очистка данных от дубликатов, спецсимволов и прочего цифрового
мусора удобно достигается ресурсом http://openrefine.org/, о котором я
узнал на конференции. Этот инструмент важен для исправления больших
баз данных, которые заполнялись руками и в которых накопились ошибки,
в частности, Генерального каталога диссернета, базы персоналий, базы
журнальных публикаций.

4. Для автоматического изучения библиотечных каталогов удобен
инструмент для анализа и выкачивания (не очень больших, если
использовать free trial) массивов и одновременной очистки от мусора и
сшивания воедино табличных данных из реестров итп.
https://www.import.io/

5. Много скрытых полезных вещей имеется в документах google, которые
следует более широко использовать в повседневной практике «Диссернета»:
5.1 Инструмент, с помощью которого можно вытаскивать таблицы из .html
автоматически например таким вот скриптом: =IMPORTHTML("https://wiki.dissernet.org/wsave/AhmedhanovMR2012.html","table",4)

5.2. Еще есть очень продвинутые гуглотаблицы google fusion
https://support.google.com/fusiontables/answer/2571232
Автор благодарит устроителей конференции за полезное и плодотворное мероприятие.

Последние публикации

Как реформа высшего образования повлияла на активность аспирантов
Инна Серова
Несмотря на приказы министерства, регалии «разжалованных» ученых продолжают «светиться» на официальных сайтах
Михаил Гельфанд
О манипуляции с данными в медицинских диссертациях