Проект: парсинг UniProt: различия между версиями

(не показано 7 промежуточных версий 2 участников)

Строка 1:

UniProt — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.

[https://www.uniprot.org/ UniProt] — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.

Она сохранена в одном маленьком текстовом файле и я решил, что пример парсинга этого файла на Python может быть полезен.

Структурно, файл состоит из описания, заголовка таблицы, контента и лицензии. Мы отделяем от файла всё лишнее, потому, что так его можно читать построчно.

~~Требуется комментарий специалиста.~~ Я не очень хорошо понимаю, почему ~~здесь~~ говорят только о первой хромосоме.

{{

Запрос экспертизы

| text=Я не очень хорошо понимаю, почему в заголовке базы [https://www.uniprot.org/ UniProt] говорят только о первой хромосоме.

| qualification=Биолог

}}

== Пример экспорта в JSON ==

<nowiki>− Не помню откуда я вышел на файлы, но для каждой хромосомы существует свой отдельный файл вида https://www.uniprot.org/docs/humchr<nn>.txt, где <nn> ::= [0-9]{2} | [xy]</nowiki> [[Участник:Denis.s|Denis.s]] ([[Обсуждение участника:Denis.s|обсуждение]])

== Selenium ==

=== Пример экспорта в JSON ===

Строка 45:

Строка 53:

</syntaxhighlight>

== Пример экспорта в CSV ==

=== Пример экспорта в CSV ===

Tab-delimited.

Строка 94:

Строка 102:

main()

</syntaxhighlight>

== [[Racket]] ==

=== Сохранение отпарсенного в [[Tabtree]] ===

== Заметка о лицензии ==

Строка 101:

Строка 112:

=== Creative commons ===

Вот сам текст лицензии из файла UniProt. "Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms. Distributed under the Creative Commons Attribution (CC BY 4.0) License"

[https://creativecommons.org/licenses/by/4.0/ Текст и описание] лицензии на сайте Creative Commons.

[[Категория:Скрипты]]

@@ Строка 1: / Строка 1: @@
-UniProt — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.
+[https://www.uniprot.org/ UniProt] — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.
 Она сохранена в одном маленьком текстовом файле и я решил, что пример парсинга этого файла на Python может быть полезен.
 Структурно, файл состоит из описания, заголовка таблицы, контента и лицензии. Мы отделяем от файла всё лишнее, потому, что так его можно читать построчно.
-Требуется комментарий специалиста. Я не очень хорошо понимаю, почему здесь говорят только о первой хромосоме.
+{{
+  Запрос экспертизы
+  | text=Я не очень хорошо понимаю, почему в заголовке базы [https://www.uniprot.org/ UniProt] говорят только о первой хромосоме.
+  | qualification=Биолог
+}}
-== Пример экспорта в JSON ==
+ <nowiki>− Не помню откуда я вышел на файлы, но для каждой хромосомы существует свой отдельный файл вида https://www.uniprot.org/docs/humchr<nn>.txt, где <nn> ::= [0-9]{2} | [xy]</nowiki> [[Участник:Denis.s|Denis.s]] ([[Обсуждение участника:Denis.s|обсуждение]])
+== Selenium ==
+=== Пример экспорта в JSON ===
 <syntaxhighlight lang="python" line>
@@ Строка 45: / Строка 53: @@
 </syntaxhighlight>
-== Пример экспорта в CSV ==
+=== Пример экспорта в CSV ===
 Tab-delimited.
@@ Строка 94: / Строка 102: @@
      main()
 </syntaxhighlight>
+== [[Racket]] ==
+=== Сохранение отпарсенного в [[Tabtree]] ===
 == Заметка о лицензии ==
@@ Строка 101: / Строка 112: @@
 === Creative commons ===
 Вот сам текст лицензии из файла UniProt. "Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms. Distributed under the Creative Commons Attribution (CC BY 4.0) License"
+[https://creativecommons.org/licenses/by/4.0/ Текст и описание] лицензии на сайте Creative Commons.
+[[Категория:Скрипты]]